你是不是也遇到過這種抓狂時刻:同一段需求丟給ChatGPT、Claude、Gemini,答案風格像「換了個人」;Midjourney更離譜,明明提示詞沒變,出圖卻像在開盲盒。與其靠感覺罵街,我更推薦用會話分析的思路給AI做個「體檢」,把問題量化出來。
指標一 解決率 別只看它寫得長不長
會話分析裡常用KPI是「解決率」,說白了就是這次輸出能不能直接用。我的做法很土但有效:給每次結果打標記「可直接交付/需要追問/完全跑題」。一週後你就能看出:誰更穩定、誰更愛自嗨。
指標二 返工次數 專治答非所問
返工不是你菜,是模型經常漏掉約束。把你追加的那句「按表格輸出」「別編數據」「用中文」都記下來,統計每個工具平均要補幾句才到位。


