고객센터 채팅 기록이 많아지면 사람 손으로 하나하나 뒤지는 건 정말 붕괴각이다: 고위험 표현을 놓치고, 통계 기준이 들쑥날쑥해지고, 감정에 휘말려 판단이 흔들리기 쉽다. 나는 “대화 분석” 관점으로 QA를 하는 편이 더 좋다: 의도, 감정, 핵심 엔티티를 추출한 뒤 해결률과 응답 속도 같은 지표를 보면 효율이 훨씬 올라간다.
같은 대화를 ChatGPT Claude Gemini에 각각 넣고 어떻게 질문할까
대화 한 구간을 붙여 넣고 모델이 구조화된 결과를 바로 출력하게 하면, 이후엔 표에 넣어 통계만 내면 된다.
- 범용 프롬프트:사용자 의도, 감정(1-5), 제품/가격/환불 등 관련 엔티티, 민원(컴플레인) 상향(에스컬레이션) 여부를 추출하고, 한 문장 개선 제안을 주며, JSON으로 출력해 주세요
- ChatGPT:QA 채점표, 금지/위반 단어 리스트처럼 “규칙”을 딱딱하게 써주면 출력이 더 안정적
- Claude:긴 대화 요약과 “왜 이 말이 사용자를 화나게 했는지”에 대한 섬세한 분석에 더 강함. 읽고 나면 조금 교육받은 느낌이 들 정도
- Gemini:다국어 및 채널 어트리뷰션(유입/채널 기여) 같은 걸 겸사겸사 하기 좋음. 예를 들어 중영 혼용 대화를 같은 태그 체계로 통일
QA를 추적 가능한 KPI로 만들기
일반적인 대화 분석 방식에 맞춰 “해결했는지 여부”만 보지 말고, 자주 발생하는 문제 Top, 부정 감정 트리거 지점, 최초 응답 시간, 해결률도 함께 봐야 한다. 모델 출력 필드를 고정해두면 통계 기준을 두고 매일 싸울 일도 없다.


