Cuando hay demasiados registros de chat de atención al cliente, revisarlos a mano es desesperante: se te escapan frases de alto riesgo, los criterios estadísticos no son consistentes y además es fácil dejarse arrastrar por las emociones. Yo prefiero usar el enfoque de “análisis de conversaciones” para hacer control de calidad: extraer intención, emoción y entidades clave, y luego mirar métricas como la tasa de resolución y la velocidad de respuesta; así la eficiencia mejora mucho.
Para la misma conversación, ¿cómo preguntarle por separado a ChatGPT, Claude y Gemini?
Puedes pegar un fragmento de diálogo y pedirle directamente al modelo que entregue resultados estructurados; después, al pasarlo a una tabla, ya puedes hacer estadísticas.
- Prompt genérico:Por favor, extrae la intención del usuario, la emoción (1-5), las entidades involucradas como producto/precio/reembolso, si se escaló a una queja, da una recomendación de mejora en una sola frase y devuelve la salida en JSON
- ChatGPT:es ideal para escribir “reglas” de forma muy estricta, como una hoja de puntuación de auditoría de calidad o una lista de palabras prohibidas; la salida es más estable
- Claude:es mejor resumiendo diálogos largos y haciendo un análisis fino de “por qué esta frase enfada al usuario”; después de leerlo te sientes un poco aleccionado
- Gemini:va bien para hacer de paso atribución multilingüe y por canal, por ejemplo unificar diálogos con mezcla de chino e inglés bajo el mismo sistema de etiquetas
Convertir la auditoría de calidad en KPI trazables
Siguiendo prácticas comunes de análisis de conversaciones, no mires solo “si se resolvió o no”; también hay que vigilar: Top de problemas más frecuentes, puntos de disparo de emociones negativas, tiempo de primera respuesta y tasa de resolución. Cuando los campos de salida del modelo quedan fijos, tus criterios estadísticos ya no serán motivo de discusión todos los días.


