Microsoft เปิดตัว AI สังเคราะห์เสียงพูด เหมือนจริง ทั้งน้ำเสียง และอารมณ์ แม้ใช้เสียงพูดต้นแบบ เพียง 3 วินาที - TechBite

11 ม.ค. 2023

ที่ผ่านมา การใช้เทคโนโลยีสร้างเสียงสังเคราะห์ เพื่อเลียนแบบเสียงพูดของมนุษย์ มีข้อจำกัดสำคัญ คือ ความเป็นธรรมชาติของเสียงสังเคราะห์ที่สร้างขึ้น ทั้งในด้านน้ำเสียง และอารมณ์ ที่ยังคงมีความแตกต่างจากเสียงพูดของมนุษย์จริง

แต่ล่าสุด เทคโนโลยีการสร้างเสียงสังเคราะห์ กำลังก้าวหน้าไปอีกขั้น เพราะ Microsoft เพิ่งจะประกาศเปิดตัว VALL-E เทคโนโลยีปัญญาประดิษฐ์ (AI) ที่สามารถสร้างเสียงสังเคราะห์ เลียนแบบเสียงพูดของมนุษย์ได้อย่างใกล้เคียง

เทคโนโลยี AI ที่ใช้สร้างเสียงสังเคราะห์ของ Microsoft ได้รับพัฒนาขึ้นมาจากเทคโนโลยีการบับอัด และเข้ารหัสเสียง ที่ Meta บริษัทแม่ของ Facebook เคยพัฒนาขึ้นเมื่อช่วงปลายปีที่แล้ว เพื่อใช้ในการเพิ่มคุณภาพเสียงสนทนาทางโทรศัพท์ ในพื้นที่ที่มีคุณภาพสัญญาณไม่ดี

แต่ Microsoft ได้นำเทคโนโลยีของ Meta มาต่อยอด ให้กลายเป็นเทคโนโลยี AI ที่สามารถสังเคราะห์เสียง เลียนแบบเสียงพูดของมนุษย์ ได้อย่างเป็นธรรมชาติ โดยใช้เสียงต้นแบบที่มีความยาวเพียง 3 วินาที เท่านั้น

ในการฝึก AI Microsoft ได้ใช้เสียงพูดต้นแบบ ที่เป็นภาษาอังกฤษ ความยาวกว่า 60,000 ชั่วโมง จากบุคคลที่แตกต่างกันถึง 7,000 คน

โดยผลลัพธ์ที่ได้นั้น พบว่า เสียงสังเคราะห์ที่ได้จาก AI VALL-E นั้น มีความเป็นธรรมชาติ ทั้งในด้านน้ำเสียง และอารมณ์ สามารถเลียนแบบน้ำเสียง และอารมณ์ของผู้พูดได้เป็นอย่างดี แม้จะใช้เสียงต้นแบบเพียงแค่ 3 วินาทีเท่านั้น

รวมถึงยังมีสามารถในการเลียนแบบสภาพแวดล้อมของเสียงต้นฉบับไว้ได้ด้วย..
เช่น หากเสียงต้นฉบับ เป็นเสียงที่คุยผ่านโทรศัพท์ ซึ่งมีความอู้อี้ ไม่ได้ชัดเจนเหมือนเสียงพูดปกติ AI ก็จะพยายามจำลองให้เสียงที่ได้รับการสังเคราะห์ขึ้นมา ยังคงมีสภาพแวดล้อมเหล่านั้นอยู่ด้วย

นอกจากนี้ เทคโนโลยี AI VALL-E ของ Microsoft ยังสามารถสร้างเสียงสังเคราะห์อื่น ๆ เพิ่มเติมได้ โดยที่เสียงต้นแบบ ซึ่งเป็นมนุษย์จริง ๆ ไม่เคยพูดไว้เลย

อย่างไรก็ตาม ในบางครั้ง Microsoft ก็พบว่า คุณภาพเสียง ที่ AI สังเคราะห์ออกมานั้น ไม่ได้มีคุณภาพที่ดี 100% เพราะในบางครั้งเสียงที่ AI สังเคราะห์ออกมา อาจมีสำเนียงการพูด ที่แตกต่างจากเสียงพูดต้นฉบับ

ย้อนกลับไปก่อนหน้านี้ การใช้เทคโนโลยี AI เพื่อสร้างเสียงสังเคราะห์เลียนแบบการพูดของมนุษย์ มีการใช้งานกันอย่างแพร่หลาย

ซึ่งหลาย ๆ คน อาจคุ้นเคยกับเสียงสังเคราะห์กันเป็นอย่างดี หรือแม้แต่ได้ยินเสียงสังเคราะห์เหล่านี้ ในชีวิตประจำวัน อย่างเช่น เสียงของผู้ช่วยส่วนตัวอัจฉริยะ ไม่ว่าจะเป็น Siri, Google Assistant หรือ Alexa

แต่ในความจริงแล้ว เสียงสังเคราะห์ของผู้ช่วยส่วนตัวเหล่านี้ จำเป็นที่จะต้องใช้การบันทึกเสียงต้นแบบ ที่มีคุณภาพในระดับสูง ใช้อุปกรณ์มืออาชีพ รวมถึงต้องบันทึกเสียงต้นแบบในสตูดิโออย่างจริงจัง ใช้เวลานานหลายสัปดาห์

ในขณะที่เทคโนโลยี AI ของ Microsoft ใช้เสียงต้นแบบความยาวเพียง 3 วินาที จึงเป็นการเปิดทางให้ใคร ๆ ก็สามารถสร้างเสียงสังเคราะห์ของตัวเองขึ้นมาได้ โดยไม่จำเป็นต้องใช้เวลา รวมถึงงบประมาณมหาศาล เหมือนอย่างที่เคยเป็นมาในอดีต

อย่างไรก็ตาม ในขณะนี้ Microsoft ยังไม่ได้เปิดให้ใคร ๆ ก็ได้ สามารถเข้าไปทดลองใช้เทคโนโลยี AI สร้างเสียงสังเคราะห์ด้วยตัวเอง เพราะตัวเทคโนโลยี AI นี้ ยังคงมีข้อบกพร่อง ที่ต้องได้รับการพัฒนา เพื่อแก้ไขเพิ่มเติมในอนาคต

รวมถึงยังมีความเสี่ยง ที่อาจมีผู้ไม่หวังดี นำเทคโนโลยีสังเคราะห์เสียงด้วย AI ของ Microsoft ไปใช้ในทางที่ผิด ซึ่งอาจส่งผลเสียต่อสังคมโดยรวมได้

แต่หากใครต้องการทดลองฟังเสียงสังเคราะห์ที่สร้างขึ้นโดย AI VALL-E ของ Microsoft สามารถเข้าไปฟังได้ที่ลิ้งก์นี้ > https://valle-demo.github.io/

อ้างอิง :
-https://gizmodo.com/microsoft-ai-voice-mimic-deepfake-natural-copy-audio-1849969596
-https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

Tag:AI Microsoft ปัญญาประดิษฐ์

Microsoft เปิดตัว AI สังเคราะห์เสียงพูด เหมือนจริง ทั้งน้ำเสียง และอารมณ์ แม้ใช้เสียงพูดต้นแบบ เพียง 3 วินาที - TechBite

Café Amazon ทำถึง ! เปิดตัว 4 เมนูเครื่องดื่ม “Fruit of Summer” จากผลไม้เด็ด 4 ภาค อร่อยฉ่ำรับซัมเมอร์

สรุปงาน Apple เปิดตัว iPad ตัวใหม่ ในรอบปีกว่า จอ OLED ชิปใหม่ M4 แรงกว่าเดิม 50%

“วีบียอนด์” รุกคืบตลาดนักลงทุนอสังหาฯ เปิดตัว VBEYOND Wealth club เสริมแกร่งธุรกิจ

“สิงห์ปาร์ค” เปิดตัว “Tea Infuse” ชาชงเย็น พร้อมดื่ม สานความสำเร็จชาน่าน ซิกเนเจอร์ เบลนด์

M·A·C ฉลอง 30 ปี VIVA GLAM เปิดตัว Ambassador ใหม่ และคอลเล็คชั่นพิเศษ