OpenAI รับ ChatGPT o3 และ o4-mini เจอปัญหา "หลอน" กว่าโมเดลที่ผ่านมา

19 เมษายน 2568

OpenAI รับ โมเดลใหม่ ChatGPT อย่าง o3 และ o4-mini มีอัตราการ "หลอน" สูงขึ้นอย่างมีนัยสำคัญ สวนทางเทรนด์พัฒนา AI ที่ควรแม่นยำขึ้นเรื่อยๆ

ข้อมูลจาก TechCrunch เผยว่า แม้จะได้รับการยกย่องว่าเป็นสุดยอดโมเดลปัญญาประดิษฐ์ (AI) ที่ล้ำสมัยในหลายมิติ แต่ AI ตระกูล 'o' รุ่นล่าสุดจาก OpenAI อย่าง o3 และ o4-mini

 

กำลังเผชิญกับปัญหา "อาการหลอน" หรือการสร้างข้อมูลที่ไม่ถูกต้องขึ้นมาเอง ซึ่งน่าประหลาดใจที่ OpenAI พบว่ามันมีอาการ "หลอน" มากกว่าโมเดลรุ่นเก่าๆ ของ OpenAI เสียอีก

 

ปัญหาการหลอนถือเป็นหนึ่งในความท้าทายที่ใหญ่ที่สุดและแก้ไขได้ยากที่สุดในการพัฒนา AI ส่งผลกระทบต่องานของระบบ AI ที่มีประสิทธิภาพสูงสุดในปัจจุบันมาโดยตลอด 

 

ที่ผ่านมา เรามักเห็นแนวโน้มว่าโมเดล AI รุ่นใหม่ๆ จะมีอัตราการหลอนลดลงเล็กน้อยเมื่อเทียบกับรุ่นก่อนหน้า แต่สำหรับ o3 และ o4-mini

 

ซึ่งถูกพัฒนาขึ้นมาโดยเน้นความสามารถด้านการ "ให้เหตุผล" กลับดูเหมือนว่าจะเกิดอาการหลอนมากกว่าโมเดล AI รุ่นก่อนๆเสียอย่างนั้น

 

จากการทดสอบภายในของ OpenAI เอง พบว่า o3 และ o4-mini มีแนวโน้มที่จะสร้างข้อมูลเท็จขึ้นมาเองบ่อยกว่าโมเดลให้เหตุผลรุ่นก่อนๆ อย่าง o1, o1-mini, และ o3-mini

 

แถมยังมีอาการหลอนมากกว่าโมเดล AI แบบดั้งเดิมที่ไม่เน้นการให้เหตุผลโดยเฉพาะอย่าง GPT-4o ด้วยซ้ำ

 

สิ่งที่น่ากังวลยิ่งกว่าคือ ผู้พัฒนาอย่าง OpenAI เองก็ยังไม่สามารถระบุสาเหตุที่แท้จริงของปัญหานี้ได้

 

ในรายงานทางเทคนิคที่เผยแพร่เกี่ยวกับ o3 และ o4-mini ทางบริษัทยอมรับว่า "จำเป็นต้องมีการวิจัยเพิ่มเติม" เพื่อทำความเข้าใจว่าเหตุใดปัญหาการหลอนจึงกลับแย่ลง

 

ในขณะที่พวกเขากำลังขยายขนาดและพัฒนาโมเดลให้เหตุผลให้ก้าวหน้าขึ้น

OpenAI รับ ChatGPT o3 และ o4-mini เจอปัญหา \"หลอน\" กว่าโมเดลที่ผ่านมา

ตัวเลขย้ำชัดอาการหลอนของ o3 และ  o4-mini

 

การทดสอบภายในของ OpenAI ยิ่งตอกย้ำให้เห็นปัญหาการสร้างข้อมูลที่ไม่ถูกต้อง (hallucination) หรืออาการหลอนของโมเดลตระกูล 'o' โดยเฉพาะในด้านความรู้เกี่ยวกับบุคคล

  • ในการทดสอบ PersonQA ซึ่งเป็นเกณฑ์มาตรฐานภายในที่ใช้วัดความแม่นยำของความรู้เกี่ยวกับบุคคล พบว่าโมเดล o3 เกิดอาการหลอนถึง 33% ตัวเลขนี้สูงกว่าโมเดลให้เหตุผลรุ่นก่อนหน้าอย่าง o1 (16%) และ o3-mini (14.8%) เกือบเท่าตัว
  • ที่น่ากังวลกว่าคือโมเดล o4-mini มีอาการแย่ที่สุด โดยหลอนถึง 48% ในการทดสอบเดียวกัน

 

ไม่เพียงแค่การทดสอบภายใน ห้องปฏิบัติการวิจัย AI อิสระ Transluce ยังพบหลักฐานเพิ่มเติมว่า o3 มีแนวโน้มที่จะ สร้างเรื่องราวสมมติเกี่ยวกับกระบวนการทำงานของตัวเอง เพื่อตอบคำถาม

 

  • ตัวอย่างที่เห็นได้ชัดคือ o3 เคยอ้างว่าได้ "รันโค้ดบนเครื่อง MacBook Pro ปี 2021 ภายนอก ChatGPT" และคัดลอกผลลัพธ์มาใส่ในคำตอบ ทั้งที่ในความเป็นจริง โมเดลไม่มีความสามารถในการทำเช่นนั้นได้

 

นีล โชว์ดูรี นักวิจัยของ Transluce (อดีตพนักงานของ OpenAI) แสดงความเห็นว่า ปัญหาดังกล่าวอาจเกิดจากรูปแบบการเรียนรู้แบบเสริมแรง (reinforcement learning) ที่นำมาใช้กับโมเดลตระกูล o

 

ซึ่งอาจไป ขยายประเด็นปัญหา ที่ปกติแล้วจะถูกลดทอนลงด้วยกระบวนการปรับปรุงโมเดลหลังการฝึกแบบมาตรฐาน

 

ขณะที่ซาราห์ ชเวตต์มันน์ ผู้ร่วมก่อตั้ง Transluce เสริมว่า อัตราการหลอนที่สูงของ o3 อาจทำให้ประโยชน์และความน่าเชื่อถือในการใช้งานลดลง

OpenAI รับ ChatGPT o3 และ o4-mini เจอปัญหา \"หลอน\" กว่าโมเดลที่ผ่านมา

ผลกระทบต่อการใช้งานจริงและความหวังในอนาคตของโมเดล AI

 

รายงานจาก TechCrunch เสริมว่า ศาสตราจารย์พิเศษ เคียน คาทานโฟรูช จากมหาวิทยาลัยสแตนฟอร์ด และ CEO ของ Workera บริษัทสตาร์ทอัพด้านการพัฒนาทักษะ ได้แบ่งปันประสบการณ์ว่า

 

ทีมงานของเขากำลังทดสอบนำโมเดล AI "o3" มาใช้ในกระบวนการเขียนโค้ด และพบว่ามันมีศักยภาพที่น่าประทับใจ สูงกว่าโมเดลคู่แข่งหลายตัว

 

อย่างไรก็ตาม ปัญหาหลักที่พบคือ "การหลอน" ซึ่งมักแสดงอาการด้วยการสร้างลิงก์เว็บไซต์ที่ไม่ถูกต้องและใช้งานไม่ได้จริงขึ้นมา

 

การหลอนนี้ แม้ในบางกรณีอาจนำไปสู่แนวคิดที่น่าสนใจในเชิงสร้างสรรค์ แต่กลับกลายเป็นอุปสรรคสำคัญในการนำโมเดล AI เหล่านี้ไปใช้งานจริง

 

โดยเฉพาะในงานที่ต้องการความแม่นยำสูงสุด เช่น ในวงการธุรกิจหรือกฎหมาย ซึ่งการที่ AI สร้างข้อมูลผิดพลาดจำนวนมากลงในเอกสารสำคัญอย่างสัญญาของลูกค้าเป็นสิ่งที่ไม่สามารถยอมรับ

 

แนวทางหนึ่งที่มีความหวังในการเพิ่มความแม่นยำของโมเดลคือ การผนวกความสามารถในการเข้าถึงข้อมูลบนอินเทอร์เน็ตแบบเรียลไทม์เข้ากับตัวโมเดล

 

เหมือนที่พบในโมเดล GPT-4o ของ OpenAI ที่มีฟังก์ชัน Web Search ซึ่งสามารถทำคะแนนความแม่นยำได้ถึง 90% ในการทดสอบ SimpleQA (เกณฑ์มาตรฐานด้านความแม่นยำของ OpenAI)

 

ความสามารถในการค้นหาข้อมูลล่าสุดนี้อาจช่วยลดอัตราการหลอนในโมเดลให้เหตุผลลงได้ โดยมีข้อแม้ว่าผู้ใช้จะต้องยินยอมเปิดเผยข้อมูลพร้อมต์บางส่วนให้กับบริการค้นหาภายนอกเพื่อทำการค้นหา

 

หากการขยายขนาดโมเดล ยังคงส่งผลให้ปัญหาการหลอนรุนแรงขึ้นเรื่อยๆ ก็จะยิ่งเป็นการเพิ่มความเร่งด่วนในการพัฒนาและค้นหาโซลูชันที่มีประสิทธิภาพมาแก้ไขปัญหานี้

 

ด้าน OpenAI เอง ได้ให้คำยืนยันผ่านโฆษกว่า

 

"การแก้ไขปัญหาการหลอนในโมเดล AI ทั้งหมด เป็นงานวิจัยที่บริษัทกำลังดำเนินอยู่ และเรากำลังทำงานอย่างต่อเนื่องเพื่อปรับปรุงความแม่นยำและความน่าเชื่อถือ"

 

ซึ่งแสดงให้เห็นถึงความพยายามในการแก้ไขข้อจำกัดสำคัญนี้เพื่อผลักดันการนำ AI ไปใช้ประโยชน์ในวงกว้างอย่างแท้จริง

Thailand Web Stat