ChatGPT Claude Gemini Midjourney 출력이 불안정하다? 대화 분석 3가지 지표로 문제를 빠르게 찾아내기

너도 이런 미칠 것 같은 순간을 겪어본 적 있지: 같은 요구사항을 ChatGPT, Claude, Gemini에 던졌는데 답변 스타일이 마치 “사람이 바뀐 것처럼” 달라지고; Midjourney는 더 심해서, 프롬프트가 안 바뀌었는데도 결과 이미지가 마치 랜덤 뽑기 같아. 감으로 욕하기보다, 나는 대화 분석 관점으로 AI에 “건강검진”을 해줘서 문제를 수치화하는 걸 더 추천해.

지표 1 해결률 길게 썼는지만 보지 마

대화 분석에서 자주 쓰는 KPI가 “해결률”인데, 쉽게 말해 이번 출력이 바로 쓸 수 있냐는 거야. 내 방법은 투박하지만 효과적이야: 매번 결과에 “바로 납품 가능/추가 질문 필요/완전 엇나감” 표시를 해둬. 일주일만 지나면 누가 더 안정적인지, 누가 더 혼자 신나서 떠드는지 보이게 돼.

지표 2 재작업 횟수 엉뚱한 답 치료

재작업이 많은 건 네가 못해서가 아니라, 모델이 제약조건을 자주 빠뜨리기 때문이야. 네가 추가로 붙인 “표로 출력해줘”“데이터 지어내지 마”“중국어로” 같은 문장을 전부 기록해두고, 각 도구가 평균적으로 몇 문장을 더 보태야 제대로 되는지 집계해.

ChatGPT: 구조화는 대체로 손에 익지만, 가끔 자신 있게 헛소리를 해서 네가 감시해야 함
Claude: 긴 글은 더 안정적이지만, 세부 제약을 명확히 안 쓰면 “부드럽게 엇나감”
Gemini: 정보 통합은 빠르지만, 형식 요구는 처음부터 못 박는 게 좋음

지표 3 응답 경험 시간 비용도 비용

대화 분석은 응답 시간 같은 성능 지표도 봐. 너는 두 가지를 기록하면 돼: 대기 시간 + 다 읽고 나서 수정하는 데 필요한 분. Midjourney에도 이 논리를 적용할 수 있어: 재생성 횟수, 변형 횟수를 “재작업”으로 보면 돼. 횟수가 많을수록 프롬프트나 모델 이해가 더 불안정하다는 뜻이야.