Microsoft เปิดตัว AI สังเคราะห์เสียงพูด เหมือนจริง ทั้งน้ำเสียง และอารมณ์ แม้ใช้เสียงพูดต้นแบบ เพียง 3 วินาที - TechBite

Microsoft เปิดตัว AI สังเคราะห์เสียงพูด เหมือนจริง ทั้งน้ำเสียง และอารมณ์ แม้ใช้เสียงพูดต้นแบบ เพียง 3 วินาที - TechBite

11 ม.ค. 2023
ที่ผ่านมา การใช้เทคโนโลยีสร้างเสียงสังเคราะห์ เพื่อเลียนแบบเสียงพูดของมนุษย์ มีข้อจำกัดสำคัญ คือ ความเป็นธรรมชาติของเสียงสังเคราะห์ที่สร้างขึ้น ทั้งในด้านน้ำเสียง และอารมณ์ ที่ยังคงมีความแตกต่างจากเสียงพูดของมนุษย์จริง
แต่ล่าสุด เทคโนโลยีการสร้างเสียงสังเคราะห์ กำลังก้าวหน้าไปอีกขั้น เพราะ Microsoft เพิ่งจะประกาศเปิดตัว VALL-E เทคโนโลยีปัญญาประดิษฐ์ (AI) ที่สามารถสร้างเสียงสังเคราะห์ เลียนแบบเสียงพูดของมนุษย์ได้อย่างใกล้เคียง
เทคโนโลยี AI ที่ใช้สร้างเสียงสังเคราะห์ของ Microsoft ได้รับพัฒนาขึ้นมาจากเทคโนโลยีการบับอัด และเข้ารหัสเสียง ที่ Meta บริษัทแม่ของ Facebook เคยพัฒนาขึ้นเมื่อช่วงปลายปีที่แล้ว เพื่อใช้ในการเพิ่มคุณภาพเสียงสนทนาทางโทรศัพท์ ในพื้นที่ที่มีคุณภาพสัญญาณไม่ดี
แต่ Microsoft ได้นำเทคโนโลยีของ Meta มาต่อยอด ให้กลายเป็นเทคโนโลยี AI ที่สามารถสังเคราะห์เสียง เลียนแบบเสียงพูดของมนุษย์ ได้อย่างเป็นธรรมชาติ โดยใช้เสียงต้นแบบที่มีความยาวเพียง 3 วินาที เท่านั้น
ในการฝึก AI Microsoft ได้ใช้เสียงพูดต้นแบบ ที่เป็นภาษาอังกฤษ ความยาวกว่า 60,000 ชั่วโมง จากบุคคลที่แตกต่างกันถึง 7,000 คน
โดยผลลัพธ์ที่ได้นั้น พบว่า เสียงสังเคราะห์ที่ได้จาก AI VALL-E นั้น มีความเป็นธรรมชาติ ทั้งในด้านน้ำเสียง และอารมณ์ สามารถเลียนแบบน้ำเสียง และอารมณ์ของผู้พูดได้เป็นอย่างดี แม้จะใช้เสียงต้นแบบเพียงแค่ 3 วินาทีเท่านั้น
รวมถึงยังมีสามารถในการเลียนแบบสภาพแวดล้อมของเสียงต้นฉบับไว้ได้ด้วย..
เช่น หากเสียงต้นฉบับ เป็นเสียงที่คุยผ่านโทรศัพท์ ซึ่งมีความอู้อี้ ไม่ได้ชัดเจนเหมือนเสียงพูดปกติ AI ก็จะพยายามจำลองให้เสียงที่ได้รับการสังเคราะห์ขึ้นมา ยังคงมีสภาพแวดล้อมเหล่านั้นอยู่ด้วย
นอกจากนี้ เทคโนโลยี AI VALL-E ของ Microsoft ยังสามารถสร้างเสียงสังเคราะห์อื่น ๆ เพิ่มเติมได้ โดยที่เสียงต้นแบบ ซึ่งเป็นมนุษย์จริง ๆ ไม่เคยพูดไว้เลย
อย่างไรก็ตาม ในบางครั้ง Microsoft ก็พบว่า คุณภาพเสียง ที่ AI สังเคราะห์ออกมานั้น ไม่ได้มีคุณภาพที่ดี 100% เพราะในบางครั้งเสียงที่ AI สังเคราะห์ออกมา อาจมีสำเนียงการพูด ที่แตกต่างจากเสียงพูดต้นฉบับ
ย้อนกลับไปก่อนหน้านี้ การใช้เทคโนโลยี AI เพื่อสร้างเสียงสังเคราะห์เลียนแบบการพูดของมนุษย์ มีการใช้งานกันอย่างแพร่หลาย
ซึ่งหลาย ๆ คน อาจคุ้นเคยกับเสียงสังเคราะห์กันเป็นอย่างดี หรือแม้แต่ได้ยินเสียงสังเคราะห์เหล่านี้ ในชีวิตประจำวัน อย่างเช่น เสียงของผู้ช่วยส่วนตัวอัจฉริยะ ไม่ว่าจะเป็น Siri, Google Assistant หรือ Alexa
แต่ในความจริงแล้ว เสียงสังเคราะห์ของผู้ช่วยส่วนตัวเหล่านี้ จำเป็นที่จะต้องใช้การบันทึกเสียงต้นแบบ ที่มีคุณภาพในระดับสูง ใช้อุปกรณ์มืออาชีพ รวมถึงต้องบันทึกเสียงต้นแบบในสตูดิโออย่างจริงจัง ใช้เวลานานหลายสัปดาห์
ในขณะที่เทคโนโลยี AI ของ Microsoft ใช้เสียงต้นแบบความยาวเพียง 3 วินาที จึงเป็นการเปิดทางให้ใคร ๆ ก็สามารถสร้างเสียงสังเคราะห์ของตัวเองขึ้นมาได้ โดยไม่จำเป็นต้องใช้เวลา รวมถึงงบประมาณมหาศาล เหมือนอย่างที่เคยเป็นมาในอดีต
อย่างไรก็ตาม ในขณะนี้ Microsoft ยังไม่ได้เปิดให้ใคร ๆ ก็ได้ สามารถเข้าไปทดลองใช้เทคโนโลยี AI สร้างเสียงสังเคราะห์ด้วยตัวเอง เพราะตัวเทคโนโลยี AI นี้ ยังคงมีข้อบกพร่อง ที่ต้องได้รับการพัฒนา เพื่อแก้ไขเพิ่มเติมในอนาคต
รวมถึงยังมีความเสี่ยง ที่อาจมีผู้ไม่หวังดี นำเทคโนโลยีสังเคราะห์เสียงด้วย AI ของ Microsoft ไปใช้ในทางที่ผิด ซึ่งอาจส่งผลเสียต่อสังคมโดยรวมได้
แต่หากใครต้องการทดลองฟังเสียงสังเคราะห์ที่สร้างขึ้นโดย AI VALL-E ของ Microsoft สามารถเข้าไปฟังได้ที่ลิ้งก์นี้ > https://valle-demo.github.io/

© 2024 Marketthink. All rights reserved. Privacy Policy.