posttoday

ข้อมูลสังเคราะห์ ทางแก้ปัญหาข้อมูลพัฒนา AI หมดโลก?

22 มกราคม 2568

ผู้เชี่ยวชาญหลายท่านเห็นตรงกันว่า ข้อมูลที่ป้อนให้ AI กำลังจะหมดโลก วันนี้เราจึงมาพูดถึงตัวเลือกใหม่อย่างข้อมูลสังเคราะห์ว่านี่จะเป็นตัวเลือกใหม่ในการพัฒนา AI หรือไม่

ในช่วงปีที่ผ่านมา AI หรือ ปัญญาประดิษฐ์ เติบโตอย่างก้าวกระโดด เห็นได้ชัดจากความก้าวหน้าทางเทคโนโลยีจากการได้รับพัฒนาอย่างต่อเนื่อง ทั้งหมดเกิดขึ้นได้จากการป้อนข้อมูลปริมาณมหาศาลเพื่อให้โมเดลเรียนรู้ และเพื่อสร้าง AI ที่มีประสิทธิภาพสูงขึ้นเราจึงต้องอาศัยข้อมูลปริมาณมากขึ้นเรื่อยๆ

 

แต่จะเป็นอย่างไรเมื่อข้อมูลบนโลกออนไลน์ที่ใช้ป้อนให้ AI เรียนรู้กำลังจะหมดลง

 

อีลอน มักส์ หนึ่งในผู้แสดงความเห็นเรื่องข้อมูลหมดโลก

 

ข้อมูลหมดโลก ปัญหาจากการเติบโตของ AI

 

ความเห็นนี้ได้รับการพูดถึงในกลุ่มผู้เชี่ยวชาญและนักพัฒนา AI หลายราย ทั้ง Elon musk เจ้าของบริษัท xAI หรือ Ilya Sutskever ผู้ร่วมก่อตั้งและอดีตหัวหน้าทีมวิทยาศาสตร์ของ OpenAI ต่างให้ความเห็นในทิศทางเดียวกันว่า ข้อมูลและความรู้สะสมของมนุษย์ส่วนใหญ่ใช้ในการฝึก AI ไปเกือบหมดแล้ว

 

ตามปกติขีดความสามารถของโมเดล AI แต่ละรุ่นจะขึ้นอยู่กับปริมาณและคุณภาพข้อมูลที่ป้อนสู่ระบบ ยิ่งข้อมูลที่ป้อนมีปริมาณและความแม่นยำสูงเท่าไหร่ AI จะยิ่งเก่งตามเท่านั้น แต่ด้วยการพัฒนาโมเดล AI ขนาดใหญ่มีอัตราการเติบโตอย่างรวดเร็ว มากเกินกว่าการสร้างข้อมูลใหม่ของมนุษย์เรา ปริมาณข้อมูลที่สร้างจึงเริ่มไม่เพียงพอ

 

ซ้ำร้ายปัญหาเหล่านี้ยิ่งทวีความรุนแรงจากความขัดแย้งในด้านลิขสิทธิ์และสิทธิส่วนบุคคล เราได้เห็นความพยายามฟ้องร้องบริษัทผู้พัฒนา AI หลายเจ้า ที่นำข้อมูลสาธารณะตามเว็บไซต์และแพลตฟอร์มหลายแห่งไปใช้โดยไม่ได้รับอนุญาต รวมถึงไปถึงการเริ่มปิดกั้นการเข้าถึงและดึงข้อมูลเหล่านั้นไปใช้งาน

 

ปัจจุบันคาดว่าเว็บไซต์ชั้นนำหลายพันแห่งทั่วโลก ระงับการเข้าถึงข้อมูลของนักพัฒนาหรือนำข้อมูลเหล่านั้นมาหารายได้อย่างกว้างขวาง นอกจากเป็นการเพิ่มต้นทุนการพัฒนายังอาจส่งผลให้ข้อมูลคุณภาพสูงสำหรับพัฒนา AI น้อยลงไปอีก ซึ่งไม่เป็นผลดีต่อนักพัฒนาหรือความก้าวหน้าของ AI โดยรวม

 

ทางกลุ่มวิจัย Epoch AI ที่ศึกษาพัฒนาการ AI คาดการณ์ว่า ข้อมูลในโลกออนไลน์อาจหมดลงในปี 2026 – 2032

 

ข้อมูลสังเคราะห์ ทางแก้ปัญหาข้อมูลพัฒนา AI หมดโลก?

 

ข้อมูลสังเคราะห์ แนวทางแก้ปัญหาข้อมูลไม่เพียงพอ

 

ทางฝั่งนักพัฒนาก็ไม่ได้นิ่งนอนใจเมื่อข้อมูลจริงจากมนุษย์ไม่เพียงพอ พวกเขาจึงมองหาตัวเลือกใหม่อย่าง ข้อมูลสังเคราะห์ ชุดข้อมูลที่ถูกสร้างขึ้นจาก AI หรือ อัลกอริทึม ตัวอื่น จำลองเลียนแบบข้อมูลให้ใกล้เคียงกับข้อมูลที่ต้องการ เพื่อนำไปใช้งานเฉพาะด้านหรือยกเป็นแบบจำลองสำหรับเหตุการณ์ต่างๆ

 

การใช้ข้อมูลสังเคราะห์ไม่ใช่เรื่องใหม่ในแวดวงเทคโนโลยีแต่ถูกใช้ในหลายรูปแบบ เช่น ทดสอบระบความปลอดภัย ทดระบบจัดการข้อมูล ทดสอบระบบทางการเงิน ไปจนการจำลองสถานการณ์สุดโต่งเพื่อคาดการณ์ผลลัพธ์ที่เกิดขี้นได้ยากในชีวิตจริง ช่วยให้ได้รับข้อมูลใหม่ในการทดสอบและวิจัยที่ครอบคลุมยิ่งขึ้น

         

จุดเด่นของข้อมูลสังเคราะห์คือ การเข้าถึงและใช้งานง่าย อาศัยข้อมูลดิบตั้งต้นปริมาณน้อย จากนั้นก็สร้างชุดข้อมูลขึ้นมาเพื่อใช้งานในแต่ละกรณีได้อย่างไร้ขีดจำกัด โดยไม่ต้องกังวลเรื่องความปลอดภัยและความเป็นส่วนตัวของข้อมูล สร้างข้อมูลเฉพาะด้านหรือหมวดหมู่ที่ต้องการได้ตามใจด้วยต้นทุนต่ำ นี่จึงเป็นแนวทางแก้ปัญหาที่สะดวก รวดเร็ว และคุ้มค่า

 

ด้วยเหตุนี้จึงไม่ใช่เรื่องแปลกที่โมเดล AI จะหันมาใช้ข้อมูลสังเคราะห์มากขึ้นเรื่อยๆ เช่น Palmyra X 004 ที่ใช้ข้อมูลสังเคราะห์ในการพัฒนา 100% ช่วยประหยัดต้นทุนจากเดิมถึง 6.5 เท่า รวมถึงบริษัทยักษ์ใหญ่อย่าง OpenAI, Micrsoft, Meta หรือ Amazone ที่เริ่มปรับมาใช้ข้อมูลสังเคราะห์เพื่อพัฒนาโมเดลมากขึ้น

 

Gartner บริษัทวิจัยเทคโนโลยีสหรัฐฯคาดการณ์ว่า ปัจจุบันข้อมูลที่ใช้ในการเทรน AI กว่า 60% เป็นข้อมูลสังเคราะห์ และในปี 2030 ข้อมูลสังเคราะห์อาจกลายเป็นข้อมูลกะแสหลักที่ถูกนำมาใช้พัฒนา AI จนอาจสร้างมูลค่าให้แก่ตลาดข้อมูลสังเคราะห์สูงถึง 2.34 พันล้านดอลลาร์เลยทีเดียว

 

ภาพจำลองเมื่อ AI สร้างภาพใช้ข้อมูลสังเคราะห์มากเกินไป

 

ข้อจำกัดข้อมูลสังเคราะห์ การล่มสลายของ AI

 

ข้อมูลข้างต้นแสดงจุดเด่นของข้อมูลสังเคราะห์ที่ช่วยแก้ปัญหาในหลายด้าน แต่การใช้งานข้อมูลสังเคราะห์ปริมาณมากก็มีข้อเสีย โดยเฉพาะการใช้เป็นแนวทางหลักหรือใช้งานในระยะยาว อาจส่งผลต่อประสิทธิภาพการทำงานของ AI ในกรณีร้ายแรงอาจทำให้โมเดลดังกล่าวไม่สามารถใช้งานได้อีก

 

สิ่งนี้ได้รับการยืนยันจากงานวิจัยของ Rice University and Stanford เมื่อโมเดล AI พึ่งพาข้อมูลสังเคราะห์มากเกินไป ทำให้คุณภาพและความหลากหลายข้อมูลลดลงอย่างต่อเนื่อง ปัญหาจะยิ่งทวีความรุนแรงเมื่อปริมาณชุดข้อมูลสังเคราะห์มีมากขึ้นเรื่อยๆ สุดท้ายข้อมูลสังเคราะห์อาจห่างไกลความเป็นจริงจนไม่สามารถเชื่อถือได้

 

สาเหตุของเรื่องนี้มาจากข้อมูลที่สังเคราะห์ขึ้นมาจาก AI เอง แม้จะสามารถสร้างรูปแบบและหมวดหมู่ข้อมูลออกมามหาศาล แต่จะมีพื้นฐานโดยอิงจากข้อมูลชุดแรกที่มีการป้อนเข้าไปเป็นหลัก ในระยะยาวอาจทำให้ชุดข้อมูลที่สร้างขึ้นขาดความหลากหลาย ซับซ้อน และสมจริง

 

อีกหนึ่งปัญหาที่ตามมาคือ อาการหลอน AI ทุกตัวสามารถเกิดการหลอนหรือให้ข้อมูลผิดพลาดได้ทั่วไป ข้อมูลสังเคราะห์ที่เกิดจาก AI เองก็เช่นกัน เมื่อปริมาณข้อมูลหลอนและผิดพลาดเหล่านี้มีมากและถูกป้อนแก่โมเดลในฐานะฐานข้อมูลอย่างต่อเนื่อง อาจทำให้ AI มีความฉลาดและประสิทธิภาพการทำงานที่ลดลง

 

อาการเหล่านี้มีอีกชื่อเรียกคือ AI cannibalism มาจากคำว่า cannibalism พฤติกรรมกินพวกเดียวกันเองเป็นอาหาร พบได้ในสปีชีส์ที่อาศัยอยู่ในสภาพแวดล้อมขาดแคลนอาหารมาก ในกรณีนี้ข้อมูลที่ขาดแคลนจนต้องใช้ข้อมูลสังเคราะห์จาก AI เอง แต่ข้อมูลดังกล่าวกำลังทำลายระบบประมวลผล สุดท้ายข้อมูลหลอนเหล่านี้จะถูกนำไปทำซ้ำ จนทำให้ AI มีความสร้างสรรค์และถูกต้องน้อยลง มีความลำเอียงและผิดพลาดมากขึ้น จนไม่สามารถใช้งานได้อีก

 

นี่จึงเป็นช่องโหว่สำคัญจากข้อมูลสังเคราะห์ที่เรายังต้องมองหาทางแก้ไขกันต่อไป

 

 

 

ตามที่กล่าวไปข้างต้นเห็นได้ว่าข้อมูลสังเคราะห์มีความสำคัญต่อการพัฒนา AI แต่อาจจำเป็นต้องมีการควบคุมกำกับทิศทางการใช้งานอย่างเคร่งครัด เช่น การอาศัยมนุษย์มาดูแลกระบวนการสังเคราะห์ข้อมูลเพื่อควบคุมคุณภาพ ไปจนการพัฒนา AI สำหรับตรวจสอบความถูกต้องของข้อมูลต่อไป

 

อย่างไรก็ตามที่แน่ใจคือ ข้อมูลสังเคราะห์จะเป็นอีกหนึ่งกุญแจสำคัญต่อการพัฒนาปัญญาประดิษฐ์นับจากนี้

 

 

 

ที่มา

 

https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/

 

https://techcrunch.com/2024/12/24/the-promise-and-perils-of-synthetic-data/

 

https://techxplore.com/news/2025-01-tech-companies-synthetic-ai-hidden.html