こんな発狂しそうな瞬間、あなたもありませんか:同じ要件をChatGPT、Claude、Geminiに投げても、回答の雰囲気が「別人に入れ替わった」みたい;Midjourneyはさらにひどくて、プロンプトが変わっていないのに、出てくる画像がまるでガチャ。感覚で罵るより、会話分析の考え方でAIに「健康診断」をして、問題を数値化するのをおすすめします。
指標1 解決率 ただ長く書けているかだけを見るな
会話分析でよく使うKPIは「解決率」。要するに、今回の出力がそのまま使えるかどうかです。私のやり方は泥臭いけど効果的:毎回の結果に「そのまま納品可/追質問が必要/完全に脱線」とラベルを付けます。1週間もすれば、誰がより安定しているか、誰が自己満で盛りがちかが見えてきます。
指標2 手戻り回数 的外れ回答の特効薬
手戻りはあなたのせいじゃなく、モデルが制約をよく落とすからです。あなたが追加した「表形式で出力して」「データを捏造しないで」「中国語で」みたいな一言を全部記録して、各ツールが平均で何文追加すれば要求どおりになるかを集計します。


