Microsoft เปิดตัว VALL-E เครื่องมือ AI ที่เลียนแบบเสียงพูดให้เหมือนใครก็ได้ เพียงอัดต้นฉบับให้ฟังแค่ 3 วินาที

ในโลกที่ทุกอย่างหันมาขับเคลื่อนด้วย AI มีทั้ง ChatGPT มีทั้ง Midjourney ออกมาให้ใช้ จนถึงตอนนี้ก็คงใกล้จะเหมือนหนังไซไฟในวัยเด็กของเราเข้าไปทุกทีแล้ว ล่าสุด Microsoft ยังตอกย้ำเทรนด์นี้เพิ่มอีกขั้นด้วยการเปิดตัว VALL-E ซึ่งเป็นปัญญาประดิษฐ์ AI ที่สามารถเลียนเสียงให้เหมือนมนุษย์คนไหนก็ได้ ผ่านการเทรนด์โดยใช้ไฟล์เสียงพูดความยาวสั้นสุด ๆ แค่ 3 วินาทีเท่านั้น

ความน่าสนใจคือมันสามารถเลียนได้เป๊ะทั้งน้ำเสียงและอารมณ์ของผู้พูดต้นฉบับ แถมยังสามารถปรับเปลี่ยนแต่งโหมดเพิ่มเติมได้ตามใจ คือหากเหมือนไม่พอก็ยังจูนให้เหมือนเพิ่มขึ้นได้อีก เรียกว่าล้ำหน้ากว่าเครื่องมือ AI อื่นหลายตัวที่ออกมาก่อนหน้านี้มาก

Microsoft เปิดเผยข้อมูลว่าได้ใช้ข้อมูลเสียงตัวอย่างภาษาอังกฤษรวมกว่า 60,000 ชั่วโมง เพื่อฝึกฝนเจ้า VALL-E จนมันสามารถจับทางเสียงและอารมณ์ได้ทุกอย่าง และสุดท้ายก็ลดการเทรนด์ให้เหลือแค่ 3 วินาทีได้อย่างที่กล่าวไป อย่างไรก็ตาม แม้เสียงโดยส่วนใหญ่จะมีความเป็นธรรมชาติมากขึ้นแล้ว แต่หากฟังโดยละเอียดจริง ๆ ก็ยังจับความเป็นโรบอตได้อยู่ ซึ่งส่วนนี้ก็คงต้องได้รับการพัฒนาเพิ่มต่อไป

ปัจจุบัน Microsoft ยังไม่เปิดให้คนทั่วไปเข้าถึงการใช้งาน VALL-E ได้แบบสาธารณะ แต่ได้ส่งให้มหาวิทยาลัย Cornell ได้เริ่มทดลองใช้ก่อนแล้ว ซึ่งทางมหาวิทยาลัยก็ได้เผยแพร่งานตัวอย่างการใช้งานจริงออกมาให้ดู พบว่ามีความเหมือนแบบน่าทึ่งจริง ๆ สามารถเข้าไปลองฟังกันได้จากลิงก์ GitHub นี้ครับ

อย่างไรก็ดี แม้ VALL-E จะเป็นเทคโนโลยีใหม่ที่น่าทึ่ง แต่เชื่อว่าการมีอยู่ของมันจะต้องสร้างความน่ากังวลทางด้านจริยธรรมไม่มากก็น้อย เพราะต้องอย่าลืมว่าหากเครื่องมือนี้ไปตกอยู่ในเงื้อมมือของผู้ไม่หวังดี เช่น แก๊งคอลเซ็นเตอร์หลอกลวง หรือผู้ได้รับผลประโยชน์ทางการเมือง นั่นก็อาจจะส่งผลให้ภาพลักษณ์ของมันอยู่ในแง่ลบมากกว่าแง่บวกได้ ดังนั้นก็คงต้องรอดูกันต่อไปว่าโลกจะมีวิธีควบคุมการใช้งานสิ่งนี้อย่างไร เพื่อให้ผลลัพธ์ออกมาเป็นประโยชน์ต่อมนุษยชาติมากที่สุดครับ

ที่มา : AITopics, Windows Central