¿Te ha pasado también este momento desesperante?: le das el mismo requerimiento a ChatGPT, Claude y Gemini, y el estilo de la respuesta parece “como si fuera otra persona”; Midjourney es aún más absurdo: claramente el prompt no cambió, pero las imágenes salen como si estuvieras abriendo una caja sorpresa. En vez de insultar guiándote por sensaciones, recomiendo más hacerle un “chequeo” a la IA con la lógica del análisis de conversaciones y cuantificar el problema.
Métrica 1: tasa de resolución. No mires solo si escribe mucho o poco
En el análisis de conversaciones, un KPI común es la “tasa de resolución”; dicho simple, es si esta salida se puede usar directamente o no. Mi método es muy rudimentario pero efectivo: marcar cada resultado como “entregable directamente / requiere repreguntar / totalmente fuera de tema”. Una semana después podrás ver: quién es más estable y quién es más de autosatisfacerse.
Métrica 2: número de retrabajos. Especial para curar el “responder otra cosa”
El retrabajo no es porque tú seas malo; es que el modelo a menudo se salta restricciones. Anota también esa frase que agregas después, como “salida en tabla”, “no inventes datos”, “usa chino”, y calcula cuántas frases extra necesita en promedio cada herramienta para que quede bien.


