너도 이런 미칠 것 같은 순간을 겪어본 적 있지: 같은 요구사항을 ChatGPT, Claude, Gemini에 던졌는데 답변 스타일이 마치 “사람이 바뀐 것처럼” 달라지고; Midjourney는 더 심해서, 프롬프트가 안 바뀌었는데도 결과 이미지가 마치 랜덤 뽑기 같아. 감으로 욕하기보다, 나는 대화 분석 관점으로 AI에 “건강검진”을 해줘서 문제를 수치화하는 걸 더 추천해.
지표 1 해결률 길게 썼는지만 보지 마
대화 분석에서 자주 쓰는 KPI가 “해결률”인데, 쉽게 말해 이번 출력이 바로 쓸 수 있냐는 거야. 내 방법은 투박하지만 효과적이야: 매번 결과에 “바로 납품 가능/추가 질문 필요/완전 엇나감” 표시를 해둬. 일주일만 지나면 누가 더 안정적인지, 누가 더 혼자 신나서 떠드는지 보이게 돼.
지표 2 재작업 횟수 엉뚱한 답 치료
재작업이 많은 건 네가 못해서가 아니라, 모델이 제약조건을 자주 빠뜨리기 때문이야. 네가 추가로 붙인 “표로 출력해줘”“데이터 지어내지 마”“중국어로” 같은 문장을 전부 기록해두고, 각 도구가 평균적으로 몇 문장을 더 보태야 제대로 되는지 집계해.


