VALL-E เอไอที่สามารถเลียนเสียงเราได้ใน 3 วินาที
การมาถึงของ ChatGPT ทำให้ผู้คนเริ่มตื่นตัวกับเทคโนโลยีเอไอกันมากขึ้น หลายคนเริ่มมองว่าปัญญาประดิษฐ์ไม่เพียงอำนวยความสะดวกแต่อาจเข้ามาแย่งอาชีพในอนาคต นั่นกลับยังไม่น่ากลัวเท่าการพัฒนา VALL-E เอไอที่เลียนเสียงมนุษย์จากตัวอย่างเพียง 3 วินาที
AI หรือ ปัญญาประดิษฐ์ ถือเป็นเทคโนโลยีที่ได้รับความสนใจมากขึ้นหลังการแพร่หลายของ ChatGPT ผลักดันความสนใจของผู้คนต่อเอไออย่างก้าวกระโดด หลายท่านอาจมองว่ายุคสมัยใหม่แห่งการใช้งานเอไอใกล้มาถึง ขณะที่บางส่วนอาจรู้สึกถูกคุกคามวิชาชีพ เมื่อปัญญาประดิษฐ์สามารถเข้ามาทดแทนงานที่ทำอยู่ในปัจจุบัน
แต่ล่าสุดเราอาจมีเรื่องให้ต้องกังวลเพิ่มขึ้นอีก เมื่อเอไอสามารถเลียนเสียงพูดหลังฟังต้นฉบับเพียง 3 วินาที
VALL-E ปัญญาประดิษฐ์เลียนเสียงตัวใหม่
สำหรับท่านที่อยู่ในแวดวงเทคโนโลยีคงรู้ดีว่าเทคโนโลยีเลียนเสียงจากคอมพิวเตอร์ไม่ใช่ของใหม่ ทั้ง Siri และ Google สามารถนำข้อความมาอ่านออกเสียงได้เช่นกัน แต่โดยมากเสียงที่ได้จากโปรแกรมเหล่านี้มักมาในรูปแบบโมโนโทน จึงไม่ได้รับความสนใจในการใช้งานนัก
แต่ล่าสุดบริษัทไอทียักษ์ใหญ่ Microsoft ได้เปิดตัวปัญญาประดิษฐ์ VALL-E ที่มีศักยภาพในการจำลองเสียงมนุษย์ได้สมจริงจากการอาศัยเสียงต้นแบบเพียง 3 วินาที โดยสามารถแสดงอารมณ์ น้ำเสียง และสภาพแวดล้อมให้ตรงตามต้นฉบับอย่างเป็นธรรมชาติ
พื้นฐานในการพัฒนาปัญญาประดิษฐ์ตัวนี้เกิดจาก EnCodec อัลกอริทึมบีบอัดเสียงของ Meta เพื่อพัฒนาคุณภาพเสียงการพูดคุยสนทนาผ่านโทรศัพท์มือถือหรือโปรแกรมต่างๆ ช่วยให้สามารถพูดคุยกันได้ชัดเจนแม้สัญญาณที่ได้รับจะมีคุณภาพต่ำเพิ่มประสิทธิภาพการสนทนาผ่านเสียง จึงมีการใช้ประโยชน์จากเทคโนโลยีนี้ช่วยจับคู่เสียงให้ดียิ่งขึ้น
จากนั้นทาง Microsoft จึงนำการเทรน VALL-E ให้สามารถสังเคราะห์เสียงพูดขึ้นมา ผ่านบทสนทนาภาษาอังกฤษที่มีความยาวถึง 60,000 ชั่วโมง จากเสียงของผู้พูดมากกว่า 7,000 ราย ใช้ประโยชน์จากฐานข้อมูลหนังสือเสียง ช่วยให้เอไอทำความเข้าใจภาษาและการออกเสียงรูปแบบต่างๆ จนสามารถจำลองออกมาอย่างแม่นยำ
เมื่อทำการใช้งาน VALL-E จะนำเสียงตัวอย่างที่ได้รับมาวิเคราะห์ และจับคู่เข้ากับเสียงที่มีอยู่ในฐานข้อมูล จากนั้นจึงนำน้ำเสียงตัวอย่างมาพูดข้อความที่ต้องการได้ โดยมีความสมจริงทั้งในด้านอารมณ์และน้ำเสียงให้ใกล้เคียงคำพูดของมนุษย์ อีกทั้งยังสามารถเลียนแบบสัญญาณแทรกซ้อนจากเสียงตัวอย่าง เช่น การคุยผ่านทางโทรศัพท์ ได้อีกด้วย
ความอันตรายที่อาจจะเกิดขึ้นจาก VALL-E
แตกต่างจาก ChatGPT ทาง Microsoft ไม่อนุญาตให้มีการเปิดใช้งาน VALL-E แก่บุคคลทั่วไป จากความกังวลในหลายด้านซึ่งอาจนำไปสู่ข้อพิพาทขนาดใหญ่ ใกล้เคียงกับการแพร่หลายของเทคโนโลยี Deepfake แต่คราวนี้อาจทวีความร้ายแรงยิ่งกว่า
เป็นไปได้สูงว่าหากเปิดให้มีการใช้งานทั่วไป VALL-E อาจถูกนำไปใช้งานในเชิงอาญากรรม ด้วยตัวอย่างเสียงเพียง 3 วินาทีอาจทำให้เกิดการต้มตุ๋ม หลอกลวง หรือฉ้อโกงรูปแบบต่างๆ ได้ง่าย เป็นประโยชน์แก่มิจฉาชีพในการหลอกลวงคนใกล้ชิดกับเป้าหมายที่เลียนเสียง นำไปสู่การเกิดอาชญากรรมเป็นวงกว้าง
อีกหนึ่งสิ่งที่อาจเกิดขึ้นคือการใช้งานในเชิงกลั่นแกล้ง เป็นไปได้ว่าเมื่อมีการใช้งาน VALL-E แพร่หลาย อาจมีการจำลองเสียงใครสักคนขึ้นมา จากนั้นจึงนำไปแจ้งเหตุร้ายปลอมแก่เจ้าหน้าที่ นอกจากทำให้เกิดความเข้าใจผิดจนความช่วยเหลือไปไม่ถึงแก่ผู้ที่ต้องการเร่งด่วน ยังอาจนำไปสู่การกลั่นแกล้งเจ้าของเสียงจนเกิดคดีความได้อีกด้วย
นอกจากนี้ตัวเอไอ VALL-E อาจถูกนำไปใช้ในการเผยแพร่ข้อมูลผิดๆ ผ่านน้ำเสียงของคนดังหรือผู้มีอิทธิพลทางสังคมรูปแบบต่างๆ นำไปสู่การกระจายข้อมูลที่ไม่ถูกต้องแบบเดียวกับที่เกิดขึ้นกับเทคโนโลยี Deepfake นั่นอาจนำไปสู่ความเสียหายเป็นวงกว้างต่อสาธารณะอย่างคาดไม่ถึง
เรื่องจะยิ่งทวีความซับซ้อนหากปัญญาประดิษฐ์นี้ถูกนำไปใช้งานในชั้นศาล เราทราบดีว่าเสียงบันทึกถือเป็นหนึ่งในข้อมูลที่ถูกใช้งานและได้การยอมรับทางกฎหมาย แต่หากมีการใช้งาน VALL-E เพื่อปลอมแปลงเสียงและนำไปใช้ในชั้นศาล เป็นไปได้สูงว่าอาจเกิดความสับสนจนนำไปสู่การตัดสินคดีความผิดพลาดได้ในอนาคต
นี่จึงเป็นสาเหตุให้ปัจจุบันแม้ Microsoft จะประกาศความสำเร็จ แต่กลับไม่เปิดให้มีการใช้งาน VALL-E แก่บุคคลทั่วไป จนกว่าจะมีมาตรการรับมือทั้งในด้านเทคโนโลยีและกฎหมาย แต่แม้ทั้งสองด้านนี้จะพร้อมสรรพแต่เราก็ยังต้องเฝ้าระวังการใช้งาน เป็นไปได้สูงว่าความรู้ความเข้าใจของคนในสังคมอาจไม่พร้อมรองรับเทคโนโลยีนี้
ฟังดูมีเพียงเรื่องร้ายแต่ใช่ว่า VALL-E จะมีเพียงข้อเสีย การจำลองเสียงนี้อาจสามารถใช้ในการรักษาแก่ผู้มีอาการทางจิต โดยเฉพาะอาการที่เกิดขึ้นหลังการสูญเสียคนใกล้ชิด หากสามารถนำเทคโนโลยีนี้เข้ามาเป็นส่วนหนึ่งในการบำบัด อาจช่วยให้การรักษาอาการทางจิตราบรื่นขึ้นก็เป็นได้
คงต้องรอดูกันต่อไปว่าในอนาคตหากเทคโนโลยีนี้แพร่หลายจะมีการใช้งานและวิธีป้องกันรูปแบบใดบ้าง
ที่มา
https://interestingengineering.com/innovation/microsoft-vall-e-text-to-speech