เคยรู้สึกหงุดหงิดเมื่อส่งคำขอเดียวกันไปที่ ChatGPT, Claude, Gemini แล้วได้คำตอบที่แตกต่างกันเหมือนเปลี่ยนคนหรือไม่? Midjourney ยิ่งแย่ไปกว่านั้น แม้คำสั่งจะเหมือนเดิม แต่ภาพที่ได้กลับเหมือนสุ่มเสี่ยงโชค แทนที่จะด่าทอตามความรู้สึก ฉันแนะนำให้ใช้แนวคิดการวิเคราะห์บทสนทนามาตรวจสอบ AI และวัดปัญหาออกมาเป็นตัวเลข
ตัวชี้วัดที่ 1: อัตราการแก้ปัญหา อย่ามองแค่ว่ามันเขียนยาวแค่ไหน
การวิเคราะห์บทสนทนามักใช้ KPI คือ "อัตราการแก้ปัญหา" ซึ่งพูดง่ายๆ คือผลลัพธ์นี้สามารถใช้ได้ทันทีหรือไม่ วิธีของฉันอาจดูธรรมดาแต่มีประสิทธิภาพ: ทำเครื่องหมายผลลัพธ์แต่ละครั้งเป็น "ส่งมอบได้ทันที/ต้องการคำถามเพิ่มเติม/นอกเรื่องโดยสิ้นเชิง" หลังจากหนึ่งสัปดาห์ คุณจะเห็นว่าใครเสถียรกว่า ใครชอบทำตามอารมณ์ตัวเอง
ตัวชี้วัดที่ 2: จำนวนครั้งที่ต้องแก้ไข วาระจับผิดการตอบไม่ตรงคำถาม
การแก้ไขงานไม่ใช่ความผิดของคุณ แต่เป็นเพราะโมเดลมักละเมิดข้อจำกัด จดบันทึกประโยคที่คุณเพิ่มเติมเช่น "แสดงผลในรูปแบบตาราง" "อย่าแต่งข้อมูล" "ใช้ภาษาไทย" แล้วนับสถิติว่าแต่ละเครื่องมือโดยเฉลี่ยต้องการเพิ่มกี่ประโยคจึงจะได้ตามต้องการ


