來源:環(huán)球網(wǎng)
【環(huán)球網(wǎng)科技綜合報道】4月21日消息,微軟亞洲研究院近日發(fā)布了一款名為VASA-1的實驗性人工智能工具,它擁有將靜態(tài)圖像或繪畫與音頻文件結合,最終生成動態(tài)面孔的能力。這一技術能夠根據(jù)提供的靜態(tài)圖像生成相應的面部表情、頭部動作,甚至能匹配語音或歌曲的嘴唇動作。
研究人員在項目頁面上展示了多個示例,這些視頻的逼真程度足以讓人誤以為是真實的。然而,仔細觀察后可以發(fā)現(xiàn),示例中的嘴唇和頭部動作略顯機械化,且存在輕微的同步問題。
值得注意的是,這項技術有可能被濫用,用于輕松快速地創(chuàng)建真人的深度偽造視頻。微軟研究人員已經認識到這種潛在的風險,并決定在確認該技術“將被負責任地使用并符合適當規(guī)定”之前,不發(fā)布任何在線演示、API、產品或相關實施細節(jié)。
盡管研究人員強調他們的技術可以帶來諸多好處,如增強教育公平、改善溝通障礙者的可及性,甚至為有需要的人提供陪伴和治療支持,但該技術的潛在濫用風險不容忽視。目前,研究人員并未透露是否已計劃采取保護措施,以防止不良行為者將其用于不正當目的,例如制作深度偽造不良內容或進行錯誤信息活動。
據(jù)公告中發(fā)布的論文顯示,VASA-1是在VoxCeleb2數(shù)據(jù)集上進行訓練的,該數(shù)據(jù)集包含從YouTube視頻中提取的超過100萬條名人話語。這一工具不僅適用于真實面孔的訓練,還可以應用于藝術照片,如《蒙娜麗莎》等。
研究人員已將這一技術與安妮·海瑟薇病毒式傳播的李爾·韋恩《狗仔隊》的音頻文件進行了有趣地結合,展示了其獨特的魅力。然而,對于這項技術究竟能做什么,仍存在諸多疑問和關注。