Microsoft ทดสอบเครื่องมือ AI ใหม่ชื่อ ‘VASA-1’ ที่สามารถเปลี่ยนภาพนิ่งให้ขยับสีหน้าได้ พร้อมใส่เสียงประกอบจากไฟล์ที่มี จากนั้น AI จะทำการแมทช์เสียงและการขยับปาก ขยับหัว เพื่อเปลี่ยนภาพให้ดูมีชีวิตเหมือนวิดีโอ
แม้ว่าโมชั่นของการขยับปากและหัวจะยังดูติดความเป็นโรบอตอยู่บ้าง รวมถึงถ้าดูอย่างละเอียดจะมีบางช่วงที่ปากและเสียงไม่ซิงก์ตรงกัน แต่หากดูจากตัวอย่างก็ถือว่า AI ทำออกมาได้ดีในระดับนึงเลยทีเดียว
ซึ่ง VASA-1 เทรนกับชุดข้อมูล VoxCeleb2 ซึ่งประกอบไปด้วย 1 ล้านคำพูดของเหล่าคนดัง 6,112 คน ที่ได้มาจากคลิปบน YouTube รวมทั้งยังมีการทดลองบนหน้าจริง และใช้งานบนภาพเหมือนอย่าง Mona Lisa อีกด้วย
ตัวอย่างภาพ Mona Lisa ที่ใส่เสียง Paparazzi: https://vasavatar.github.io/VASA-1/video/o1.mp4
อย่างไรก็ตามทีมนักวิจัยยังมีความกังวลเรื่องการนำวิดีโอไปใช้ในทางที่ผิด เช่น สร้าง Deepfake และสวมรอยเป็นบุคคลอื่น ๆ พวกเขาระมัดระวังในเรื่องนี้เป็นอย่างมาก จึงตัดสินใจที่จะไม่ปล่อยเวอร์ชัน Online Demo รวมถึงรายละเอียดการใช้งานเพิ่มเติมของ VASA-1 ออกมา
จนกว่าจะมั่นใจว่าเทคโนโลยีที่พัฒนาจะถูกนำไปใช้อย่างมีความรับผิดชอบและเป็นไปตามกฎระเบียบ แต่ไม่ได้มีการระบุว่ามีการป้องกันการนำเครื่องมือไปใช้ในทางที่ผิดอย่างไรบ้าง
นอกจากเรื่องความกังวลแล้ว ในด้านดี VASA-1 จะเป็น AI ที่สร้างประโยชน์ได้หลายด้าน หลัก ๆ คือการที่สามารถพูดคุยตอบโต้กับคนได้ รวมถึงเข้ามาช่วยเพิ่มความเท่าเทียมด้านการศึกษามากขึ้น และช่วยปรับปรุงการเข้าถึงสำหรับผู้ที่มีปัญหาการสื่อสาร นอกจากนี้ยังสามารถใช้ในการบำบัดสำหรับคนที่ต้องการเพื่อนคุยอีกด้วย
ที่มา: Engadget