ทดสอบ Phathumma LLM: AI ไทยฝีมือ สวทช. ขีดความสามารถแค่ไหน
Phathumma LLM โมเดล AI ฝีมือคนไทย ก้าวสู่เวทีโอเพนซอร์สพร้อมทดสอบใช้งานจริง! สำรวจที่แม้ยังมีข้อจำกัด แต่เป็นก้าวสำคัญสู่การพัฒนา AI ไทยให้ทัดเทียมระดับโลก
หลายท่านอาจเคยรู้จัก Phathumma LLM ที่เป็นโมเดล AI ฝีมือคนไทยกันมาบ้าง จากการพัฒนาด้วยฝีมือของ สวทช. พร้อมเปิดให้เข้าถึงในฐานะโอเพนซอร์ส และสามารถทดสอบการใช้งานเวอร์ชัน 1.0 ได้ทันที แสดงให้เห็นว่าประเทศไทยก็มีขีดความสามารถในการพัฒนา Generative AI เช่นกัน
วันนี้เราจึงมาทดสอบการใช้งานว่า Phathumma LLM มีขีดความสามารถเพียงไร
Vision LLM
แรกสุดคือคุณสมบัติในการทำความเข้าใจ ตีความ และอธิบายรูปภาพออกมาเป็นตัวอักษร ถือเป็นหนึ่งในคุณสมบัติสำคัญต่อการทำความเข้าใจเนื้อหาภาพ เป็นพื้นฐานในการต่อยอดไปยัง AI สร้างรูปภาพ หรือตรวจสอบสภาพแวดล้อมช่วยเหลือสนับสนุนชีวิตประจำวันต่อไป
อย่างไรก็ตาม Vision LLM ของ Phathumma LLM ยังมีข้อจำกัดในการใช้งานค่อนข้างมาก ปัจจุบันรองรับการอัปโหลดรูปภาพและอธิบายรายละเอียด แต่หลายครั้งที่รายละเอียดที่อธิบายเกิดความคลาดเคลื่อนหรือเข้าใจผิด จนไม่ตรงกับข้อเท็จจริงที่ปรากฏอยู่บนภาพ
จากภาพตัวอย่างจะเห็นได้ว่า ที่ทำการอัปโหลดสู่ระบบเห็นได้ชัดว่าเป็นภาพแม่ลูกจิงโจ้ที่กำลังยืนอยู่บนทุ่งหญ้า แต่ AI กลับตอบว่านี่เป็นภาพของกวางแม่ลูกที่มีฉากหลังเป็นภูเขา เห็นได้ชัดว่าโมเดล AI นี้ยังมีความเข้าใจคลาดเคลื่อนอยู่มาก ซึ่งเป็นส่วนที่ต้องได้รับการแก้ไขอย่างเร่งด่วนเพื่อพัฒนาขีดความสามารถ
Audio LLM
อันดับถัดมาคือ โมเดล AI สำหรับทำความเข้าใจและถอดความเสียงออกมาเป็นตัวอักษร เป็นประโยชน์อย่างยิ่งต่อการตอบสนอง ทำความเข้าใจ และพูดคุยกับโมเดล AI สำหรับใช้งานเพื่อการสื่อสารในการอำนวยความสะดวก ไปจนรองรับการใช้งานของผู้พิการทางสายตา จึงเป็นอีกหนึ่งระบบที่มีความสำคัญ
ในส่วนของการใช้งานร่วมกับเสียงที่บันทึกผ่านอุปกรณ์ Audio LLM ยังไม่สามารถถอดออกมาได้น่าประทับใจนัก เนื้อหาคำพูดมีโอกาสตีความหรือใช้คำคลาดเคลื่อนให้เห็นอยู่ทั่วไป อีกทั้งยังไม่รองรับไฟล์ขนาดใหญ่กว่า 20 MB รวมถึงไฟล์สกุล .M4A ที่บันทึกจากสมาร์ทโฟน ในกรณีที่ต้องการใช้งานกับเสียงบันทึกจึงอาจต้องตัดและแปลงไฟล์ที่ยุ่งยาก
แต่สำหรับการทดลองถอดเทปไฟล์เสียงจากเว็บไซต์ Youtube ค่อนข้างให้ผลลัพธ์น่าสนใจ อาจมีการสะกดผิด ขาดการเว้นวรรคไปบ้าง แต่ก็ให้รายละเอียดครบถ้วนต่อให้มีเนื้อหายาวนับชั่วโมง แม้จะมีข้อจำกัดว่า Audio LLM นี้ยังไม่สามารถจำแนกผู้พูดแต่ละคนออกจากกันได้ดีนัก แต่ก็ยังสามารถถอดเนื้อหาออกมาได้ราว 70 – 80%
Text LLM
ส่วนที่สำคัญที่สุดของ AI Chatbot ในปัจจุบันหนีไม่พ้นการทำความเข้าใจภาษาพิมพ์ ฟังก์ชันใช้และสั่งงานหลักที่เราใช้งาน โดยปัจจุบัน Text LLM นี้ รองรับการใช้งานร่วมกับไฟล์ PDF ลิงค์บนเว็บไซต์ ไปจนการตอบโต้พูดคุยแบบ Chatbot ทั่วไป ใกล้เคียงกับฟีเจอร์ที่มีใน AI จากต่างประเทศ
การสรุปเนื้อหาจากไฟล์ PDF หรือเว็บไซต์ของ Text LLM นี้ เห็นได้ชัดว่ามีขีดจำกัดในการใช้งาน ในกรณีที่เนื้อหายาวเกินไปอาจสร้างความสับสนให้แก่เนื้อหาจนเกิดความคลาดเคลื่อนของข้อมูล แม้เนื้อหาที่ป้อนเข้าสู่ระบบจะเป็นข้อมูลตัวอักษรล้วนก็ตาม
อีกส่วนที่เป็นข้อจำกัดของ Text LLM หรืออาจเป็นของ Phathumma LLM ในฐานะให้คำปรึกษาคือ ข้อมูลที่นำมาเทรนทั้งหมดเป็นข้อมูลก่อนปี 2021 ทำให้อาจขาดการอัปเดตให้เป็นเรียลไทม์ จึงไม่สามารถใช้งานหรือสนับสนุนได้อย่างมีประสิทธิภาพนักในปี 2025 นี้
จริงอยู่เมื่อเปรียบเทียบกับ AI Chatbot ที่เราใช้งานกันประจำ Phathumma LLM อาจด้อยกว่าในหลายด้าน แต่ก็มีจุดเด่นในด้านการถอดเทปจากไฟล์หรือเว็บไซต์ที่ Chatbot ยอดนิยมไม่มี นอกจากนี้นี่ยังเป็นเพียงโครงการเริ่มต้น ในอนาคตอาจเป็นรากฐานสำหรับโมเดล AI ของประเทศไทยต่อไป