洋彼岸,Sora的到來,似乎讓AI有了睜眼看世界的可能。在官方表述中,Sora被稱為“世界模擬器”:它理解真實的規(guī)則,并在此基礎(chǔ)上生成“世界”。
如果說從前還是一道銅墻鐵壁,那么現(xiàn)在,虛擬與真實可能僅一線之隔。大家都不想做創(chuàng)建虛構(gòu)的玩具,而是想成為生成世界的“造夢機”。Sora之后,它的挑戰(zhàn)者們前赴后繼。
6月,視頻生成大模型迎來又一輪新品爆發(fā),生成式AI賽道像是“過年了”。快手可靈、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現(xiàn)象級爆款不斷涌現(xiàn)。其中,討論度最高的是快手自研視頻生成大模型“可靈”,全面對標Sora。
《每日經(jīng)濟新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈,對其文生視頻的能力進行測試,同時從動態(tài)、視效、細節(jié)、場景等多維度表現(xiàn)進行結(jié)果比對和關(guān)聯(lián)。
每經(jīng)記者從五大場景全面評測Sora和快手可靈
測試和觀察后發(fā)現(xiàn),雖然在部分維度Sora仍然領(lǐng)先,且可靈由于尚處開放初期,上線功能相對單一,生成存在一定限制,但幾乎可以判斷,國產(chǎn)視頻生成大模型已經(jīng)上升到了一個新的高度。
國金證券互聯(lián)網(wǎng)傳媒首席分析師陳澤敏在接受記者采訪時表示,拋開技術(shù),快手“可靈”已經(jīng)實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。
可靈,靈嗎?
Sora之后,國內(nèi)視頻生成大模型不斷推出。
3月底,字節(jié)旗下Dreamina(即夢)內(nèi)測視頻生成功能;4月底,生數(shù)科技首個文生視頻模型Vidu發(fā)布;5月,騰訊也開源了DiT架構(gòu)的混元文生圖模型。
今年以來,快手先后發(fā)布1750億參數(shù)規(guī)模的通用大語言模型“快意”和文生圖大模型產(chǎn)品“可圖”。視頻生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運動,模擬物理世界特性,生成的視頻分辨率達1080p,時長最長可達2分鐘。圖生視頻功能后續(xù)開放。
《每日經(jīng)濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)測試可靈。同時比對生成視頻進行效果測試,從“畫面呈現(xiàn)”“功能與體驗”兩大維度下的多個具體表現(xiàn)進行總結(jié)。
在畫面呈現(xiàn)上:
1、動態(tài)效果。可靈的“鏡頭”普遍為前后向邏輯推進,Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項,Sora畫面的聚焦點在提示詞中“有燈塔的小島”,對整個環(huán)境進行環(huán)視,重點突出。可靈的鏡頭前后推進,小島被設(shè)置在畫面的最遠端,沒有重點突出小島。不過,Sora和可靈對海浪的運動軌跡描述都很準確。
2、視覺效果。這一項上,Sora和可靈表現(xiàn)都較為優(yōu)秀。特別是在“東京街頭的女士”視頻畫面呈現(xiàn)上,無論是對霓虹燈色彩的展示,還是潮濕地面反光的呈現(xiàn),兩個模型的畫面光影表達都很準確。
3、細節(jié)表現(xiàn)。記者重點關(guān)注到二者對人的五官的呈現(xiàn)。Sora的刻畫更細致,特別是人在動態(tài)場景下,五官沒有變形,幾乎是相對靜態(tài)的。可靈在動態(tài)場景下,人的五官有所變形,會隨著畫面鏡頭的推進、人的動作而扭曲。
但在“3D動畫的小怪物”生成上,可靈的細節(jié)表現(xiàn)與Sora差別不大,特別是對小怪物蓬松毛發(fā)特性的捕捉和呈現(xiàn)上,很精準也很細致。