ใช้แค่เสียงต้นฉบับ 15 วินาทีก็เลียนแบบเสียงได้! พร้อมวิธีสาธิต AI ตัวใหม่ของ Open AI

ทุกวันนี้ความสามารถของ AI เริ่มนำมาเป็นตัวช่วยในการทำงานให้เร็วขึ้นได้ ตั้งแต่การเจนภาพ หรือวิดีโอด้วยการป้อนพรอมพ์ ตอนนี้ Open AI ก็ได้สาธิต “Voice Engine” โดยการป้อนอินพุตด้วยเสียงต้นฉบับเพียง 15 วินาที ก็สามารถเลียนแบบมู้ดโทนการพูด และแสดงออกทางอารมณ์เหมือนต้นฉบับได้!

ซึ่ง Voice Engine ยังเป็นเพียงแค่การสาธิตวิธีการทำงานด้วยโมเดล AI ใหม่อยู่ เพราะ Open AI ตั้งใจนำโมเดลนี้ไปใช้กับการตอบคำถามของผู้ใช้ด้วยเสียงบน ChatGPT และมองประโยชน์ในการต่ยอดการใช้งานไปถึงเสียงที่ใช้บรรยายทับคอนเทนต์ การแปลภาษาท้องถิ่น หรือทางการแพทย์เพื่อช่วยเหลือผู้ป่วยด้วย

โดยสิ่งที่ OpenAI สาธิตคือการใส่ Reference audio เวลา 15 วินาทีที่มีทั้งภาษาอังกฤษ และภาษาสเปน เทียบกับ Generated audio ที่สามารถนำน้ำเสียง ลักษณะการพูด เว้นวรรคที่คัดลอกมาจากต้นฉบับนำมาพูดเรื่องอื่น ๆ ได้ เช่น Biology, Reading, Chemistry, Math เป็นต้น

แต่อย่างไรก็ตามถึงจะมีโมเดล Voidce Engine ที่สามารถใช้ประโยชน์ในการแปลทับคอนเทนต์ได้หลากหลายภาษามากขึ้น แต่เรื่องของ Privacy ในการนำเสียงไปใช้ก็มีความเสี่ยง โดยเฉพาะในยุคที่ยังไม่มีกฎหมายเกี่ยวกับการใช้ AI ที่เข้มงวดมากพอ

และการที่พัฒนาโมเดล AI ให้สามารถสร้างคำพูด หรือประโยคจากเสียงจริง ๆ ของผู้คนได้แนบเนียนก็ยากต่อการแยกแยะ และง่ายต่อการนำไปแอบอ้างในการเป็นบุคคลนั้นเพื่อประโยชน์ส่วนตัวได้ ฉะนั้นโมเดลนี้จึงยังไม่ถูกนำมาใช้งานได้กับคนทั่วไปจนกว่าจะถึงเวลาที่เหมาะสม หรือมีมาตรการในการรองรับความเสี่ยงมากพอ

รวมถึงต้องมีการให้ความรู้ ความเข้าใจกับทุกคนด้วยว่าความสามารถ และข้อจำกัดของเทคโนโลยี AI ก็มีสิทธิ์นำไปใช้เพื่อฉ้อโกง และล่อลวงได้ แต่ท้ายที่สุดแล้วก็หวังว่าการนำเสียงสังเคราะห์มาปรับใช้งานในชีวิตจริง จะมีการกำหนดนโยบายการใช้ที่ชัดเจนทั้งกับผู้ที่เป็นนักวิจัย นักพัฒนา และนักสร้างสรรค์ต่อไปด้วย

ที่มา: https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices