posttoday

VALL-E เอไอที่สามารถเลียนเสียงเราได้ใน 3 วินาที

18 มกราคม 2566

การมาถึงของ ChatGPT ทำให้ผู้คนเริ่มตื่นตัวกับเทคโนโลยีเอไอกันมากขึ้น หลายคนเริ่มมองว่าปัญญาประดิษฐ์ไม่เพียงอำนวยความสะดวกแต่อาจเข้ามาแย่งอาชีพในอนาคต นั่นกลับยังไม่น่ากลัวเท่าการพัฒนา VALL-E เอไอที่เลียนเสียงมนุษย์จากตัวอย่างเพียง 3 วินาที

AI หรือ ปัญญาประดิษฐ์ ถือเป็นเทคโนโลยีที่ได้รับความสนใจมากขึ้นหลังการแพร่หลายของ ChatGPT ผลักดันความสนใจของผู้คนต่อเอไออย่างก้าวกระโดด หลายท่านอาจมองว่ายุคสมัยใหม่แห่งการใช้งานเอไอใกล้มาถึง ขณะที่บางส่วนอาจรู้สึกถูกคุกคามวิชาชีพ เมื่อปัญญาประดิษฐ์สามารถเข้ามาทดแทนงานที่ทำอยู่ในปัจจุบัน

 

          แต่ล่าสุดเราอาจมีเรื่องให้ต้องกังวลเพิ่มขึ้นอีก เมื่อเอไอสามารถเลียนเสียงพูดหลังฟังต้นฉบับเพียง 3 วินาที

VALL-E เอไอที่สามารถเลียนเสียงเราได้ใน 3 วินาที

VALL-E ปัญญาประดิษฐ์เลียนเสียงตัวใหม่

 

          สำหรับท่านที่อยู่ในแวดวงเทคโนโลยีคงรู้ดีว่าเทคโนโลยีเลียนเสียงจากคอมพิวเตอร์ไม่ใช่ของใหม่ ทั้ง Siri และ Google สามารถนำข้อความมาอ่านออกเสียงได้เช่นกัน แต่โดยมากเสียงที่ได้จากโปรแกรมเหล่านี้มักมาในรูปแบบโมโนโทน จึงไม่ได้รับความสนใจในการใช้งานนัก

 

          แต่ล่าสุดบริษัทไอทียักษ์ใหญ่ Microsoft ได้เปิดตัวปัญญาประดิษฐ์ VALL-E ที่มีศักยภาพในการจำลองเสียงมนุษย์ได้สมจริงจากการอาศัยเสียงต้นแบบเพียง 3 วินาที โดยสามารถแสดงอารมณ์ น้ำเสียง และสภาพแวดล้อมให้ตรงตามต้นฉบับอย่างเป็นธรรมชาติ

 

          พื้นฐานในการพัฒนาปัญญาประดิษฐ์ตัวนี้เกิดจาก EnCodec อัลกอริทึมบีบอัดเสียงของ Meta เพื่อพัฒนาคุณภาพเสียงการพูดคุยสนทนาผ่านโทรศัพท์มือถือหรือโปรแกรมต่างๆ ช่วยให้สามารถพูดคุยกันได้ชัดเจนแม้สัญญาณที่ได้รับจะมีคุณภาพต่ำเพิ่มประสิทธิภาพการสนทนาผ่านเสียง จึงมีการใช้ประโยชน์จากเทคโนโลยีนี้ช่วยจับคู่เสียงให้ดียิ่งขึ้น

 

          จากนั้นทาง Microsoft จึงนำการเทรน VALL-E ให้สามารถสังเคราะห์เสียงพูดขึ้นมา ผ่านบทสนทนาภาษาอังกฤษที่มีความยาวถึง 60,000 ชั่วโมง จากเสียงของผู้พูดมากกว่า 7,000 ราย ใช้ประโยชน์จากฐานข้อมูลหนังสือเสียง ช่วยให้เอไอทำความเข้าใจภาษาและการออกเสียงรูปแบบต่างๆ จนสามารถจำลองออกมาอย่างแม่นยำ

 

          เมื่อทำการใช้งาน VALL-E จะนำเสียงตัวอย่างที่ได้รับมาวิเคราะห์ และจับคู่เข้ากับเสียงที่มีอยู่ในฐานข้อมูล จากนั้นจึงนำน้ำเสียงตัวอย่างมาพูดข้อความที่ต้องการได้ โดยมีความสมจริงทั้งในด้านอารมณ์และน้ำเสียงให้ใกล้เคียงคำพูดของมนุษย์ อีกทั้งยังสามารถเลียนแบบสัญญาณแทรกซ้อนจากเสียงตัวอย่าง เช่น การคุยผ่านทางโทรศัพท์ ได้อีกด้วย

VALL-E เอไอที่สามารถเลียนเสียงเราได้ใน 3 วินาที

ความอันตรายที่อาจจะเกิดขึ้นจาก VALL-E

 

          แตกต่างจาก ChatGPT ทาง Microsoft ไม่อนุญาตให้มีการเปิดใช้งาน VALL-E แก่บุคคลทั่วไป จากความกังวลในหลายด้านซึ่งอาจนำไปสู่ข้อพิพาทขนาดใหญ่ ใกล้เคียงกับการแพร่หลายของเทคโนโลยี Deepfake แต่คราวนี้อาจทวีความร้ายแรงยิ่งกว่า

 

          เป็นไปได้สูงว่าหากเปิดให้มีการใช้งานทั่วไป VALL-E อาจถูกนำไปใช้งานในเชิงอาญากรรม ด้วยตัวอย่างเสียงเพียง 3 วินาทีอาจทำให้เกิดการต้มตุ๋ม หลอกลวง หรือฉ้อโกงรูปแบบต่างๆ ได้ง่าย เป็นประโยชน์แก่มิจฉาชีพในการหลอกลวงคนใกล้ชิดกับเป้าหมายที่เลียนเสียง นำไปสู่การเกิดอาชญากรรมเป็นวงกว้าง

 

          อีกหนึ่งสิ่งที่อาจเกิดขึ้นคือการใช้งานในเชิงกลั่นแกล้ง เป็นไปได้ว่าเมื่อมีการใช้งาน VALL-E แพร่หลาย อาจมีการจำลองเสียงใครสักคนขึ้นมา จากนั้นจึงนำไปแจ้งเหตุร้ายปลอมแก่เจ้าหน้าที่ นอกจากทำให้เกิดความเข้าใจผิดจนความช่วยเหลือไปไม่ถึงแก่ผู้ที่ต้องการเร่งด่วน ยังอาจนำไปสู่การกลั่นแกล้งเจ้าของเสียงจนเกิดคดีความได้อีกด้วย

 

          นอกจากนี้ตัวเอไอ VALL-E อาจถูกนำไปใช้ในการเผยแพร่ข้อมูลผิดๆ ผ่านน้ำเสียงของคนดังหรือผู้มีอิทธิพลทางสังคมรูปแบบต่างๆ นำไปสู่การกระจายข้อมูลที่ไม่ถูกต้องแบบเดียวกับที่เกิดขึ้นกับเทคโนโลยี Deepfake นั่นอาจนำไปสู่ความเสียหายเป็นวงกว้างต่อสาธารณะอย่างคาดไม่ถึง

 

          เรื่องจะยิ่งทวีความซับซ้อนหากปัญญาประดิษฐ์นี้ถูกนำไปใช้งานในชั้นศาล เราทราบดีว่าเสียงบันทึกถือเป็นหนึ่งในข้อมูลที่ถูกใช้งานและได้การยอมรับทางกฎหมาย แต่หากมีการใช้งาน VALL-E เพื่อปลอมแปลงเสียงและนำไปใช้ในชั้นศาล เป็นไปได้สูงว่าอาจเกิดความสับสนจนนำไปสู่การตัดสินคดีความผิดพลาดได้ในอนาคต

 

          นี่จึงเป็นสาเหตุให้ปัจจุบันแม้ Microsoft จะประกาศความสำเร็จ แต่กลับไม่เปิดให้มีการใช้งาน VALL-E แก่บุคคลทั่วไป จนกว่าจะมีมาตรการรับมือทั้งในด้านเทคโนโลยีและกฎหมาย แต่แม้ทั้งสองด้านนี้จะพร้อมสรรพแต่เราก็ยังต้องเฝ้าระวังการใช้งาน เป็นไปได้สูงว่าความรู้ความเข้าใจของคนในสังคมอาจไม่พร้อมรองรับเทคโนโลยีนี้

 

 

          ฟังดูมีเพียงเรื่องร้ายแต่ใช่ว่า VALL-E จะมีเพียงข้อเสีย การจำลองเสียงนี้อาจสามารถใช้ในการรักษาแก่ผู้มีอาการทางจิต โดยเฉพาะอาการที่เกิดขึ้นหลังการสูญเสียคนใกล้ชิด หากสามารถนำเทคโนโลยีนี้เข้ามาเป็นส่วนหนึ่งในการบำบัด อาจช่วยให้การรักษาอาการทางจิตราบรื่นขึ้นก็เป็นได้

 

          คงต้องรอดูกันต่อไปว่าในอนาคตหากเทคโนโลยีนี้แพร่หลายจะมีการใช้งานและวิธีป้องกันรูปแบบใดบ้าง

 

 

          ที่มา

 

          https://interestingengineering.com/innovation/microsoft-vall-e-text-to-speech

 

          https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/?