數(shù)字金融
網(wǎng)絡(luò)營(yíng)銷(xiāo)推廣
電商服務(wù)
來(lái)源:硬AI
OpenAI的Sora迎來(lái)勁敵,Meta推出號(hào)稱(chēng)最先進(jìn)的媒體基礎(chǔ)模型Movie Gen。
Meta稱(chēng),Movie Gen是公司“針對(duì)媒體的突破性生成式AI研究”,它囊括了圖像、視頻和音頻等模態(tài),用戶(hù)只需輸入文本,就可以制作自定義的視頻和聲音、編輯現(xiàn)有視頻,以及將個(gè)人圖像轉(zhuǎn)換為獨(dú)特的視頻。Movie Gen執(zhí)行這些任務(wù)的表現(xiàn)在人類(lèi)評(píng)估中由于業(yè)內(nèi)類(lèi)似模型。
Meta介紹,Movie Gen是“最先進(jìn)、沉浸式效果最佳的故事講述模型套件”,綜合了公司第一波生成式AI媒體研究的Make-A-Scene 系列模型,即可創(chuàng)建圖像、音頻、視頻和 3D 動(dòng)畫(huà)的模型,以及隨著擴(kuò)散模型出現(xiàn)而針對(duì)Llama Image 基礎(chǔ)模型進(jìn)行的第二波研究模型,即可實(shí)現(xiàn)更高質(zhì)量圖像和視頻生成以及圖像編輯的模型。
文生視頻最長(zhǎng)16秒 130億參數(shù)音頻生成模型 人工評(píng)測(cè)視頻生成對(duì)Sora凈勝率8.2
Meta概括,Movie Gen 具有四種功能:視頻生成、個(gè)性化視頻生成、精確視頻編輯、音頻生成。
對(duì)于視頻生成,Meta介紹,用戶(hù)只要提供一個(gè)文本的提示詞,Movie Gen就可以利用針對(duì)文本轉(zhuǎn)圖像和文本轉(zhuǎn)視頻進(jìn)行了優(yōu)化的聯(lián)合模型,創(chuàng)建高清的高質(zhì)量圖像和視頻。Movie Gen的視頻模型有300億參數(shù),這個(gè)轉(zhuǎn)換模型能以每秒16幀的速度生成最長(zhǎng)16秒的視頻。
Meta稱(chēng),發(fā)現(xiàn)這些模型可以推理物體的運(yùn)動(dòng)、拍攝主體與物體之間的相互作用,以及相機(jī)的運(yùn)動(dòng),并且可以學(xué)習(xí)各種概念了解有哪些合理的運(yùn)動(dòng),因此,它們成為同類(lèi)中最先進(jìn)的模型。在介紹該功能時(shí),Meta展示了多個(gè)10秒長(zhǎng)度的視頻短片,包括一只像萌翻網(wǎng)絡(luò)的彈跳豬“Moo Deng”那樣的小河馬游來(lái)游去。
華爾街見(jiàn)聞注意到,單從生成視頻的最大長(zhǎng)度看,Movie Gen還不敵今年2月OpenAI發(fā)布的Sora。Sora令業(yè)界震撼的一點(diǎn)是,可以創(chuàng)建長(zhǎng)達(dá)60秒的文生視頻,。不過(guò),相比Meta去年11月官宣的視頻模型Emu Video,Movie Gen確實(shí)進(jìn)步不小。Emu Video只能以每秒16幀的速度生成最長(zhǎng)4秒的視頻。
除了直接文生視頻,Movie Gen還有出色的個(gè)性化視頻制作能力。Meta介紹,其擴(kuò)展了前述基礎(chǔ)模型,支持生成個(gè)性化視頻。用戶(hù)可以提供某個(gè)人的圖像,配合文本的提示詞,讓Move Gen生成的視頻包含參考圖像中的人物,以及符合文本提示的視覺(jué)細(xì)節(jié)。Meta稱(chēng),在創(chuàng)建保留人類(lèi)身份和動(dòng)作的個(gè)性化視頻方面,其模型取得了最先進(jìn)的成果。
Meta展示的一個(gè)視頻顯示,用戶(hù)可以提供一個(gè)女孩的照片,輸入文字“一名身穿粉色馬甲的女DJ播放唱片,她身旁有一只獵豹”,然后就生成了以照片中女孩形象的DJ打碟,以及一只獵豹陪伴。
在精確視頻編輯方面,Meta稱(chēng),Movie Gen采用了同一基礎(chǔ)模型的編輯變體模型,在用戶(hù)輸入視頻和文本提示詞后,精確執(zhí)行任務(wù),生成所需的輸出。它將視頻生成與高級(jí)圖像編輯相結(jié)合,執(zhí)行局部編輯,例如添加、刪除或替換元素,以及諸如背景或樣式修改的全局更改。與需要專(zhuān)業(yè)技能或缺乏生成精確度的傳統(tǒng)工具不同,Movie Gen 保留了原始內(nèi)容,僅針對(duì)相關(guān)像素編輯。
Meta提供的示例之一是,用戶(hù)輸入,讓企鵝穿上有英國(guó)女王維多利亞在位時(shí)期服飾風(fēng)格的服裝,Movie Gen生成的企鵝穿上了帶蕾絲的紅色女裙。
對(duì)于音頻生成,Meta稱(chēng),訓(xùn)練了一個(gè)130億參數(shù)的音頻生成模型,該模型可以接受視頻和可選的文本提示詞,生成長(zhǎng)達(dá) 45 秒的高質(zhì)量高保真音頻,包括環(huán)境音、擬聲音效(Foley)和樂(lè)器背景音樂(lè),所有這些都與視頻內(nèi)容同步。此外,Meta引入了一種音頻擴(kuò)展技術(shù),可以為任意長(zhǎng)度的視頻生成連貫的音頻,在音頻質(zhì)量、視頻到音頻對(duì)齊和文本到音頻對(duì)齊方面總體上實(shí)現(xiàn)了最先進(jìn)的性能。
Meta提供的一個(gè)例子是,生成在吉他音樂(lè)的伴奏下,全地形車(chē)(ATV)引擎轟鳴加速的聲音,還有一個(gè)例子是,管弦樂(lè)聲中有樹(shù)葉沙沙作響和樹(shù)枝折斷的聲音。
Meta還展示了針對(duì)以上四種能力進(jìn)行的A/B對(duì)比測(cè)試人工評(píng)估結(jié)果,下圖顯示的凈正值勝率代表,相比Sora等競(jìng)品模型,人類(lèi)評(píng)估者更青睞Movie Gen模型生成的結(jié)果。在直接生成視頻這個(gè)功能方面,Movie Gen相比Sora的凈勝率達(dá)到8.2。
基于授權(quán)和公開(kāi)可用數(shù)據(jù)訓(xùn)練 未明確何時(shí)發(fā)布 扎克伯格稱(chēng)明年上線Instagram
Movie Gen 是基于哪些信息進(jìn)行訓(xùn)練的?Meta 的聲明沒(méi)有說(shuō)明具體細(xì)節(jié),只是說(shuō):“我們基于授權(quán)和公開(kāi)可用的數(shù)據(jù)集對(duì)這些模型進(jìn)行了訓(xùn)練。”
有評(píng)論指出,對(duì)生成式 AI 工具而言,訓(xùn)練數(shù)據(jù)的來(lái)源以及從網(wǎng)上抓取哪些數(shù)據(jù)合理仍然是有爭(zhēng)議的問(wèn)題,而且公眾很少知道使用哪些文本、視頻或音頻片段創(chuàng)建了任何大模型。
還有評(píng)論稱(chēng),Meta說(shuō)訓(xùn)練用的數(shù)據(jù)集是“專(zhuān)有/商業(yè)敏感”的,未提供細(xì)節(jié),那么只能猜測(cè),數(shù)據(jù)包括很多Instagram 和 Facebook 平臺(tái)的視頻,加上一些Meta合作伙伴的內(nèi)容,以及其他很多未得到充分保護(hù)的內(nèi)容、也就是所謂的“公開(kāi)可用”內(nèi)容。
對(duì)于發(fā)布時(shí)間,Meta本周五并未明確Movie Gen何時(shí)面向大眾推出,只是含糊地說(shuō)“可能未來(lái)發(fā)布”。今年2月OpenAI官宣Sora后迄今還未真正向公眾開(kāi)放使用,也并未透露任何計(jì)劃將要發(fā)布的日期。
不過(guò),Meta CEO扎克伯格稱(chēng),Movie Gen明年會(huì)上線Meta旗下的社交媒體Instagram。他在個(gè)人Instagram賬號(hào)發(fā)布了一段Movie Gen生成的視頻,顯示他在用腿部推舉機(jī),隨著他開(kāi)始鍛煉,背景發(fā)生了變化。先是顯示,他在一家霓虹燈照耀的未來(lái)風(fēng)格健身房鍛煉,然后變?yōu)?,他穿著角斗士盔甲鍛煉,接著變?yōu)樗苿?dòng)一臺(tái)燃燒的純金機(jī)器,最后變?yōu)?,他用腿部推舉一盒雞塊,周?chē)且黄項(xiàng)l。
扎克伯格配上文字稱(chēng),Meta新的 Movie Gen AI 模型可以制作和編輯視頻,每天都是煉腿的日子。該模型將于明年登陸 Instagram。
在社交媒體X,Meta官宣并演示Movie Gen的帖子下面,一些點(diǎn)贊高的評(píng)論顯示,網(wǎng)友已經(jīng)在催促M(fèi)eta正式發(fā)布該模型,有網(wǎng)友問(wèn),不知道大家有沒(méi)有機(jī)會(huì)來(lái)試試它。
風(fēng)險(xiǎn)提示及免責(zé)條款
市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶(hù)應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。