OpenAI รับ ChatGPT o3 และ o4-mini เจอปัญหา "หลอน" กว่าโมเดลที่ผ่านมา
OpenAI รับ โมเดลใหม่ ChatGPT อย่าง o3 และ o4-mini มีอัตราการ "หลอน" สูงขึ้นอย่างมีนัยสำคัญ สวนทางเทรนด์พัฒนา AI ที่ควรแม่นยำขึ้นเรื่อยๆ
ข้อมูลจาก TechCrunch เผยว่า แม้จะได้รับการยกย่องว่าเป็นสุดยอดโมเดลปัญญาประดิษฐ์ (AI) ที่ล้ำสมัยในหลายมิติ แต่ AI ตระกูล 'o' รุ่นล่าสุดจาก OpenAI อย่าง o3 และ o4-mini
กำลังเผชิญกับปัญหา "อาการหลอน" หรือการสร้างข้อมูลที่ไม่ถูกต้องขึ้นมาเอง ซึ่งน่าประหลาดใจที่ OpenAI พบว่ามันมีอาการ "หลอน" มากกว่าโมเดลรุ่นเก่าๆ ของ OpenAI เสียอีก
ปัญหาการหลอนถือเป็นหนึ่งในความท้าทายที่ใหญ่ที่สุดและแก้ไขได้ยากที่สุดในการพัฒนา AI ส่งผลกระทบต่องานของระบบ AI ที่มีประสิทธิภาพสูงสุดในปัจจุบันมาโดยตลอด
ที่ผ่านมา เรามักเห็นแนวโน้มว่าโมเดล AI รุ่นใหม่ๆ จะมีอัตราการหลอนลดลงเล็กน้อยเมื่อเทียบกับรุ่นก่อนหน้า แต่สำหรับ o3 และ o4-mini
ซึ่งถูกพัฒนาขึ้นมาโดยเน้นความสามารถด้านการ "ให้เหตุผล" กลับดูเหมือนว่าจะเกิดอาการหลอนมากกว่าโมเดล AI รุ่นก่อนๆเสียอย่างนั้น
จากการทดสอบภายในของ OpenAI เอง พบว่า o3 และ o4-mini มีแนวโน้มที่จะสร้างข้อมูลเท็จขึ้นมาเองบ่อยกว่าโมเดลให้เหตุผลรุ่นก่อนๆ อย่าง o1, o1-mini, และ o3-mini
แถมยังมีอาการหลอนมากกว่าโมเดล AI แบบดั้งเดิมที่ไม่เน้นการให้เหตุผลโดยเฉพาะอย่าง GPT-4o ด้วยซ้ำ
สิ่งที่น่ากังวลยิ่งกว่าคือ ผู้พัฒนาอย่าง OpenAI เองก็ยังไม่สามารถระบุสาเหตุที่แท้จริงของปัญหานี้ได้
ในรายงานทางเทคนิคที่เผยแพร่เกี่ยวกับ o3 และ o4-mini ทางบริษัทยอมรับว่า "จำเป็นต้องมีการวิจัยเพิ่มเติม" เพื่อทำความเข้าใจว่าเหตุใดปัญหาการหลอนจึงกลับแย่ลง
ในขณะที่พวกเขากำลังขยายขนาดและพัฒนาโมเดลให้เหตุผลให้ก้าวหน้าขึ้น
ตัวเลขย้ำชัดอาการหลอนของ o3 และ o4-mini
การทดสอบภายในของ OpenAI ยิ่งตอกย้ำให้เห็นปัญหาการสร้างข้อมูลที่ไม่ถูกต้อง (hallucination) หรืออาการหลอนของโมเดลตระกูล 'o' โดยเฉพาะในด้านความรู้เกี่ยวกับบุคคล
- ในการทดสอบ PersonQA ซึ่งเป็นเกณฑ์มาตรฐานภายในที่ใช้วัดความแม่นยำของความรู้เกี่ยวกับบุคคล พบว่าโมเดล o3 เกิดอาการหลอนถึง 33% ตัวเลขนี้สูงกว่าโมเดลให้เหตุผลรุ่นก่อนหน้าอย่าง o1 (16%) และ o3-mini (14.8%) เกือบเท่าตัว
- ที่น่ากังวลกว่าคือโมเดล o4-mini มีอาการแย่ที่สุด โดยหลอนถึง 48% ในการทดสอบเดียวกัน
ไม่เพียงแค่การทดสอบภายใน ห้องปฏิบัติการวิจัย AI อิสระ Transluce ยังพบหลักฐานเพิ่มเติมว่า o3 มีแนวโน้มที่จะ สร้างเรื่องราวสมมติเกี่ยวกับกระบวนการทำงานของตัวเอง เพื่อตอบคำถาม
- ตัวอย่างที่เห็นได้ชัดคือ o3 เคยอ้างว่าได้ "รันโค้ดบนเครื่อง MacBook Pro ปี 2021 ภายนอก ChatGPT" และคัดลอกผลลัพธ์มาใส่ในคำตอบ ทั้งที่ในความเป็นจริง โมเดลไม่มีความสามารถในการทำเช่นนั้นได้
นีล โชว์ดูรี นักวิจัยของ Transluce (อดีตพนักงานของ OpenAI) แสดงความเห็นว่า ปัญหาดังกล่าวอาจเกิดจากรูปแบบการเรียนรู้แบบเสริมแรง (reinforcement learning) ที่นำมาใช้กับโมเดลตระกูล o
ซึ่งอาจไป ขยายประเด็นปัญหา ที่ปกติแล้วจะถูกลดทอนลงด้วยกระบวนการปรับปรุงโมเดลหลังการฝึกแบบมาตรฐาน
ขณะที่ซาราห์ ชเวตต์มันน์ ผู้ร่วมก่อตั้ง Transluce เสริมว่า อัตราการหลอนที่สูงของ o3 อาจทำให้ประโยชน์และความน่าเชื่อถือในการใช้งานลดลง
ผลกระทบต่อการใช้งานจริงและความหวังในอนาคตของโมเดล AI
รายงานจาก TechCrunch เสริมว่า ศาสตราจารย์พิเศษ เคียน คาทานโฟรูช จากมหาวิทยาลัยสแตนฟอร์ด และ CEO ของ Workera บริษัทสตาร์ทอัพด้านการพัฒนาทักษะ ได้แบ่งปันประสบการณ์ว่า
ทีมงานของเขากำลังทดสอบนำโมเดล AI "o3" มาใช้ในกระบวนการเขียนโค้ด และพบว่ามันมีศักยภาพที่น่าประทับใจ สูงกว่าโมเดลคู่แข่งหลายตัว
อย่างไรก็ตาม ปัญหาหลักที่พบคือ "การหลอน" ซึ่งมักแสดงอาการด้วยการสร้างลิงก์เว็บไซต์ที่ไม่ถูกต้องและใช้งานไม่ได้จริงขึ้นมา
การหลอนนี้ แม้ในบางกรณีอาจนำไปสู่แนวคิดที่น่าสนใจในเชิงสร้างสรรค์ แต่กลับกลายเป็นอุปสรรคสำคัญในการนำโมเดล AI เหล่านี้ไปใช้งานจริง
โดยเฉพาะในงานที่ต้องการความแม่นยำสูงสุด เช่น ในวงการธุรกิจหรือกฎหมาย ซึ่งการที่ AI สร้างข้อมูลผิดพลาดจำนวนมากลงในเอกสารสำคัญอย่างสัญญาของลูกค้าเป็นสิ่งที่ไม่สามารถยอมรับ
แนวทางหนึ่งที่มีความหวังในการเพิ่มความแม่นยำของโมเดลคือ การผนวกความสามารถในการเข้าถึงข้อมูลบนอินเทอร์เน็ตแบบเรียลไทม์เข้ากับตัวโมเดล
เหมือนที่พบในโมเดล GPT-4o ของ OpenAI ที่มีฟังก์ชัน Web Search ซึ่งสามารถทำคะแนนความแม่นยำได้ถึง 90% ในการทดสอบ SimpleQA (เกณฑ์มาตรฐานด้านความแม่นยำของ OpenAI)
ความสามารถในการค้นหาข้อมูลล่าสุดนี้อาจช่วยลดอัตราการหลอนในโมเดลให้เหตุผลลงได้ โดยมีข้อแม้ว่าผู้ใช้จะต้องยินยอมเปิดเผยข้อมูลพร้อมต์บางส่วนให้กับบริการค้นหาภายนอกเพื่อทำการค้นหา
หากการขยายขนาดโมเดล ยังคงส่งผลให้ปัญหาการหลอนรุนแรงขึ้นเรื่อยๆ ก็จะยิ่งเป็นการเพิ่มความเร่งด่วนในการพัฒนาและค้นหาโซลูชันที่มีประสิทธิภาพมาแก้ไขปัญหานี้
ด้าน OpenAI เอง ได้ให้คำยืนยันผ่านโฆษกว่า
"การแก้ไขปัญหาการหลอนในโมเดล AI ทั้งหมด เป็นงานวิจัยที่บริษัทกำลังดำเนินอยู่ และเรากำลังทำงานอย่างต่อเนื่องเพื่อปรับปรุงความแม่นยำและความน่าเชื่อถือ"
ซึ่งแสดงให้เห็นถึงความพยายามในการแก้ไขข้อจำกัดสำคัญนี้เพื่อผลักดันการนำ AI ไปใช้ประโยชน์ในวงกว้างอย่างแท้จริง