ก้าวใหม่ OpenAI เปิดตัวโมเดลที่ถอดเทปและสร้างเสียงได้ทันที
OpenAI เปิดตัวโมเดล AI ล้ำยุค แปลงเสียงสมจริง ถอดเสียงแม่นยำกว่าเดิม รองรับภาษาไทย พร้อม API ใช้งานได้แล้ววันนี้
OpenAI ประกาศเปิดตัวโมเดล AI ใหม่ ที่จะช่วยขยายขีดความสามารถของ AI ให้เข้าใกล้กับการเป็น Agentic AI มากยิ่งขึ้นด้วย gpt-4o-mini-tts โมเดล AI สำหรับแปลงข้อความเป็นเสียง กับ gpt-4o-transcribe และ gpt-4o-mini-transcribe โมเดล AI ถอดเสียงออกมาเป็นข้อความรุ่นล่าสุด
gpt-4o-mini-tts เป็นโมเดล AI สำหรับแปลงข้อความให้กลายเป็นเสียงพูด ด้วยจุดเด่นในด้านการให้เสียงที่สมจริง ละเอียดอ่อน และเป็นธรรมชาติ สามารถควบคุมการตั้งค่าออกมาได้ดีกว่าโมเดลให้เสียงรุ่นที่ผ่านมา จนสามารถลงรายละเอียดของเสียงได้ถึงระดับประสบการณ์และบริบททางภาษา
โมเดลรองรับการปรับแต่งสำเนียง ระดับเสียง โทนเสียง วิธีการพูด แนวภาษาที่ใช้ ไปจนระดับอารมณ์ที่ถ่ายทอด จึงสามารถตอบสนองได้อย่างเป็นธรรมชาติแบบเรียลไทม์ และสามารถนำไปใช้งานได้ในหลายรูปแบบ ตั้งแต่การเล่านิทาน นำเสนอสินค้า ไปจนตอบคำถามบริการลูกค้า
อีกส่วนที่ได้รับการเปิดตัวพร้อมกันคือ gpt-4o-transcribe และ gpt-4o-mini-transcribe โมเดล AI สำหรับถอดเสียงออกมาเป็นข้อความ มีคุณสมบัติคล้ายกับ Whisper ที่เปิดให้ใช้งาน แตกต่างกันตรงที่โมเดลใหม่ได้รับการฝึกฝนจากชุดข้อมูลเสียงคุณภาพสูงที่หลากหลาย พร้อมอาศัยวิธีป้อนข้อมูลแบบ reinforcement learning ในการเพิ่มประสิทธิภาพ
ผลลัพธ์ที่ได้คือโมเดลใหม่ทั้งสองตัว สามารถจับเสียงพูดได้อย่างแม่นยำ แม้จะมีความต่างทางสำเนียงและเสียงแทรกจากสภาพแวดล้อม และยังมีแนวโน้มจะเกิดอาการหลอนน้อยกว่า Whisper โดย gpt-4o-transcribe สามารถถอดเสียงออกมาโดยมีข้อผิดพลาดน้อยมาก ยกเว้นกลุ่มภาษาทมิฬที่ยังคงมีข้อผิดพลาดเฉลี่ยอยู่ที่ 30%
สำหรับท่านที่สนใจโมเดลข้างต้นเปิดให้บริการผ่าน API ของ OpenAI แล้ว โดยมีราคาค่าบริการเริ่มต้นในการถอดเสียงเป็นข้อความอยู่ที่ 0.003 ดอลลาร์/นาที ในขณะที่ค่าบริการแปลงข้อความเป็นเสียงจะอยู่ราว 0.015 ดอลลาร์/นาที พร้อมรองรับการใช้งานภาษาไทย