分鏡頭多角度,畫面精細(xì)流暢,時長是此前市場上產(chǎn)品的2——5倍……2月16日,曾因ChatGPT一炮走紅的人工智能研究公司OpenAI推出的文生視頻大模型Sora,令全球從事文字、音視頻以及科技的工作人士驚嘆不已。
就在OpenAI已公布的演示視頻中,我們看到一名時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街頭;看到兩艘海盜船在咖啡杯中纏斗,咖啡如海浪洶涌;看到可愛的水獺穿著黃色救生衣站在滑板上沖浪……惟妙惟肖,與實(shí)景拍攝、高清特效無異。網(wǎng)友的評價也出奇一致:炸裂!驚艷!顛覆!
而這,也被視作整個AI產(chǎn)業(yè)、視頻產(chǎn)業(yè)的新挑戰(zhàn)、新機(jī)遇。連日來,有人為新“風(fēng)口”的到來振奮不已;有人如音視頻領(lǐng)域從業(yè)者感受到了危機(jī):“要失業(yè)了。”
Sora到底厲害在哪里?它又將掀起哪些新的浪潮?
意料之中與出乎意外
“沒想到這一天來得這么快!”“沒想到效果這么有顛覆性。”這是記者采訪業(yè)界人士時聽到最多的兩句話。
盡管截至記者發(fā)稿,Sora尚未公開發(fā)布或未公測,有的只是OpenAI公布的數(shù)十段演示視頻。但前有ChatGPT為證,后有Sora遠(yuǎn)超其他模型的效果——任誰都會思考,一個新的時代是否來了?
Sora可簡單視作一個人工智能視頻生成工具:只需我們輸入一段文字,它就能創(chuàng)建一個與真實(shí)世界接近的虛擬世界,時長可達(dá)60秒。此前在文生視頻領(lǐng)域,谷歌、Meta、Runway、Pika等產(chǎn)品大都在30秒甚至10秒之內(nèi)。
更讓人嘖嘖稱奇的是,Sora生成的視頻,無論是光影色彩的轉(zhuǎn)變,還是多鏡頭多角度的切換,甚至細(xì)微到紋理結(jié)構(gòu)變化,都呈現(xiàn)出“大片感”。
“Sora還能模擬現(xiàn)實(shí)世界的物理規(guī)律。這尤其有難度。”阿里巴巴大模型算法專家曹宇舉例說,其中有一段視頻展現(xiàn)的是兩艘船在咖啡中戰(zhàn)斗,Sora精準(zhǔn)呈現(xiàn)了咖啡流動的流體動力學(xué)效果。
要知道,在文字、圖片、視頻等不同體裁中,視頻生成是最難的。Sora不僅要理解文本指令的含義,即語義理解能力,不能輸入“女孩”出來一“老頭”,也不能違背邏輯與物理規(guī)則,如輸入“狗坐在椅子上”出來“狗嵌入了椅子”;生產(chǎn)效果要好,畫面流暢程度、穩(wěn)定性、連貫性等都不能缺,比如太陽在左上角,不能右下角又無故生出陽光;還有就是時長,時間越長,視頻表現(xiàn)力越強(qiáng),AI“露餡”的可能性也越大。
Sora有遠(yuǎn)超同類的表現(xiàn),其核心技術(shù)與底層邏輯卻被普遍認(rèn)為“還是老一套”,即時空Patch技術(shù)和DiT架構(gòu)。前者的技術(shù)論文由谷歌DeepMind團(tuán)隊于2023年7月發(fā)表。后者的技術(shù)論文,是Sora團(tuán)隊領(lǐng)導(dǎo)者之一William Peebles與另一位科學(xué)家合作的。記者瀏覽了OpenAI公布的參考文獻(xiàn)清單,其中有很多出自谷歌、Meta、微軟、斯坦福、MIT、UC伯克利等機(jī)構(gòu)的成果。也就是說,Sora的誕生源于整個AI社區(qū)多年來的探索,是“意料之中”的事情。
“事實(shí)上,Sora依然遵循OpenAI的規(guī)模理論——大量數(shù)據(jù)、大模型和大量算力。”浙江大學(xué)杭州國際科創(chuàng)中心求是科創(chuàng)學(xué)者、AI交叉中心專家丁科炎估計,Sora與ChatGPT一樣,也是來自大力出奇跡的“暴力美學(xué)”。
此前,AI視頻創(chuàng)業(yè)公司Runway和Pika被認(rèn)為是視頻生成賽道的佼佼者,如今卻被Sora輕松“吊打”。業(yè)內(nèi)人士分析,Sora制勝之道,一在其使用的圖文對、視頻等的數(shù)量比這兩家大一個量級以上;二在算力堆疊的效果更好。
在杭州城市大腦有限公司CEO申永生看來,Sora體現(xiàn)了AI對現(xiàn)實(shí)世界的理解已更上一層樓,“它在訓(xùn)練中結(jié)合了多種先進(jìn)的算法,比如masked(遮掩)算法,把一個畫面隨機(jī)遮掩掉30%局部,讓AI根據(jù)對畫面整體理解還原出來,同時利用生成式算法讓畫面比原作更富有創(chuàng)意。”
曹宇則表示,Sora的基礎(chǔ)架構(gòu)Transformer能實(shí)現(xiàn)“作文續(xù)寫”,相比于傳統(tǒng)“完形填空”式的技術(shù)擁有更優(yōu)秀的創(chuàng)作能力。
“打個比方,我們可以將一堆雜亂無章的積木整理好放入一個個小盒子中。如此一來,即便面對眾多積木,只要找到了這個小盒子就能輕松找到所需積木。”丁科炎也給出自己的解讀,由于前期用于訓(xùn)練的海量視頻數(shù)據(jù)被轉(zhuǎn)化成一個個“小方塊”,當(dāng)我們向Sora提供一個新任務(wù)時,AI就會從視頻數(shù)據(jù)中提取出一些包含時間和空間信息的“小方塊”,并將之交給Sora,讓其根據(jù)這些信息生成新視頻。
“某種程度上,Sora已經(jīng)可以像人一樣,對世界有了一定認(rèn)知。”丁科炎說。
浪漫與現(xiàn)實(shí)
Sora帶來的產(chǎn)業(yè)變革,被視作技術(shù)進(jìn)步產(chǎn)生的“浪漫”。
“相比于ChatGPT,Sora的產(chǎn)業(yè)空間更廣,影視劇、游戲視頻、廣告策劃、創(chuàng)意和設(shè)計可視化、數(shù)字孿生、自動駕駛、醫(yī)療等都是它的舞臺。”申永生表示,視頻與文本有著本質(zhì)的區(qū)別,其開放空間很大,“比如我們在做城市大腦新場景應(yīng)用的推廣宣傳片時,以前要么是找人拍,要么做動漫,成本很高,創(chuàng)新挑戰(zhàn)的壓力也很大;有了Sora這類新工具,我們可以用更少的成本、更快的速度、更貼近現(xiàn)實(shí)的視頻來做推廣,效果也會更好。”
這種強(qiáng)大的生成能力,或?qū)⒋蜷_AIGC新的空間,特別是突破知識產(chǎn)權(quán)領(lǐng)域的瓶頸。
浙江震天律師事務(wù)所律師錢航告訴記者,是否具有“獨(dú)特個性”,是傳統(tǒng)著作權(quán)法理論判斷一件創(chuàng)作物是否是作品的關(guān)鍵因素之一。此前不少專家反對人工智能創(chuàng)作物具有獨(dú)創(chuàng)性,主要認(rèn)為人工智能的創(chuàng)作物是算法、模板等統(tǒng)一產(chǎn)生的結(jié)果,“但現(xiàn)在看來,一方面Sora等新工具的創(chuàng)新能力明顯更強(qiáng);另一方面,Sora生成視頻的好壞也更受制于提示文本的好壞、文本創(chuàng)作者創(chuàng)意的好壞,其獨(dú)創(chuàng)性也更明顯。”
更重要的是,Sora一旦公開投用,其強(qiáng)大的能力肯定會被大量用于商業(yè)用途,成為具備經(jīng)濟(jì)價值的交易客體,隨之也會產(chǎn)生越來越多的法律問題。錢航認(rèn)為:“當(dāng)下應(yīng)該盡快立法,明確人工智能創(chuàng)作物的法律屬性,完善相關(guān)權(quán)利保障體系,一方面激勵人工智能及相關(guān)產(chǎn)業(yè)發(fā)展,一方面維護(hù)現(xiàn)有版權(quán)秩序。”
很多“浪漫遐想”已經(jīng)展開。
浙江省工業(yè)和信息化研究院區(qū)域經(jīng)濟(jì)研究所所長趙立龍認(rèn)為,隨著Sora的到來,其“模擬數(shù)字世界”能力將對元宇宙發(fā)展產(chǎn)生顛覆性影響。它不僅能夠直接根據(jù)需求生成虛擬視頻,迅速構(gòu)建元宇宙所需的場景,而且其展現(xiàn)出了直接生成可深入探索的動態(tài)虛擬空間的潛力,這意味著元宇宙將進(jìn)入到全新的發(fā)展階段。
影視行業(yè)的變化最受關(guān)注。
工信部信息通信經(jīng)濟(jì)專家委員會委員、數(shù)字經(jīng)濟(jì)專家劉興亮稱,AI生成的視頻可能減少了對人類演員、導(dǎo)演和其他創(chuàng)意角色的需求,從而影響到這個行業(yè)的就業(yè)。
“Sora將重塑影視創(chuàng)作等行業(yè)的游戲規(guī)則,以文生視頻模式顛覆電影創(chuàng)作過程,可能今后會有若干人通過AIGC相關(guān)技術(shù)來生成電影。”浙江大學(xué)人工智能研究院院長、計算機(jī)與技術(shù)學(xué)院教授吳飛認(rèn)為。
確實(shí),去年拿到七項奧斯卡大獎的年度影片《瞬息全宇宙》就使用了AI視頻,迪士尼更是完全用 AI 制作了《秘密入侵》的開頭動畫。就在2月10日晚,一場AI(人工智能)春晚上演,成為眾多AI愛好者的盛宴。
但在杭州時空奇跡互娛科技有限公司CEO胡小凡看來,Sora只是一種工具,“它可以在短時間內(nèi)把視頻產(chǎn)品的產(chǎn)量拉出來,但影視級別的產(chǎn)品目前還是替代不了。”胡小凡判斷,未來影視作品的發(fā)展方向是多維度多鏈路的,就像玩游戲一樣,按照用戶的不同想法推進(jìn)、分化,最后的結(jié)果是不一樣的,而Sora未來可以幫助影視公司降低這類游戲化影視作品的生產(chǎn)成本。
浙江省社會治理與傳播創(chuàng)新研究院研究員宋哲認(rèn)為,也許未來的影視創(chuàng)作是由編劇+大模型+算力供應(yīng)商來完成,不再需要演員、攝像、導(dǎo)演,但實(shí)現(xiàn)起來還有很長的路要走。“最現(xiàn)實(shí)的限制條件就是算力。目前的算力成本對影視創(chuàng)作來說是極其昂貴的,雖然可能會有第一個吃螃蟹的人嘗試用AI做一部電影出來,但是規(guī)模化應(yīng)用于影視產(chǎn)業(yè),我覺得短期內(nèi)還不會實(shí)現(xiàn)。”他說。
2月18日,一則“Sora首部AI電影共創(chuàng)計劃”的共享文檔開始在東陽橫店的編劇圈子里流傳。文檔發(fā)布者稱,將“共創(chuàng)世界第一部AI電影這一壯舉”,現(xiàn)面向全社會征集劇本。網(wǎng)友評價:噱頭十足。
現(xiàn)實(shí)中,亂象也隨之而生。某電商平臺上,有人在售賣Sora教程,內(nèi)容據(jù)悉90%是網(wǎng)上公開資料;盡管還未公測,也有商家號稱有“內(nèi)測名額”;而“Sora讓人賺到了‘第一桶金’”的消息也是不絕于“屏”……亂象背后,是亟需引起重視的投機(jī)與“套路”。
正視差距與奮起直追
“差距很大。”……相比ChatGPT剛出來時國內(nèi)業(yè)界的群情激動,各種相關(guān)大模型迅速成“雨后春筍”之勢,記者發(fā)現(xiàn),Sora問世,目前幾乎沒有大廠跟進(jìn)發(fā)聲。記者的采訪也被紛紛婉拒。
“從ChatGPT到Sora,人工智能發(fā)展的地區(qū)之間的代差,還是很明顯的。”一位從業(yè)者說出了大家的心聲。
但也有樂觀者。
業(yè)界公認(rèn),發(fā)展大模型離不開三要素:人才、算力和數(shù)據(jù)。三者我們與國外有差距,但并不是沒有機(jī)會。
先看算力。這也是被業(yè)界公認(rèn)OpenAI能超過谷歌這種“老牌大廠”的關(guān)鍵。“OpenAI對算力的投入很堅定。”曹宇觀察。
前不久,OpenAI宣布啟動“造芯”計劃,希望籌得7萬億美元,相當(dāng)于世界各國GDP加起來的10%。如此天文數(shù)字,可窺得OpenAI算力缺口的冰山一角。
在中國,算力等同煤電水等基礎(chǔ)資源已日漸成為共識。不少專家分析,盡管目前國內(nèi)頂級芯片相對缺乏,但總量及增量發(fā)展迅速。
2023年11月,工信部公布的一組數(shù)據(jù)顯示,近年來,我國算力產(chǎn)業(yè)年增長率近30%,算力總規(guī)模位居全球第二。截至去年底,我國算力核心產(chǎn)業(yè)規(guī)模達(dá)到1.8萬億元。
再看人才。記者查詢OpenAI官網(wǎng)發(fā)現(xiàn),Sora團(tuán)隊核心成員包括12人,其中有多位華人。值得注意的是,這支團(tuán)隊十分年輕,成立時間未超過1年。“OpenAI招了很多畢業(yè)生,這說明該企業(yè)的試錯空間很大。我們也要鼓勵類似的創(chuàng)業(yè)環(huán)境。”曹宇說。
相比較,我國差距比較大的是數(shù)據(jù)。“目前的研發(fā)范式,數(shù)據(jù)一方面看量,另一方面看標(biāo)準(zhǔn),國際上視頻解讀標(biāo)準(zhǔn)以及軟件基礎(chǔ)設(shè)施基本都是英語為核心的技術(shù)語言底座,這兩方面我們相對不足。”申永生說。確實(shí),目前互聯(lián)網(wǎng)上英語內(nèi)容約占90%,其他語言才占10%。
不過,隨著對新質(zhì)生產(chǎn)力的進(jìn)一步重視,我國的競爭力也在不斷增強(qiáng)。
2月19日,國務(wù)院國資委召開“AI賦能 產(chǎn)業(yè)煥新”中央企業(yè)人工智能專題推進(jìn)會。會議強(qiáng)調(diào),中央企業(yè)要把發(fā)展人工智能放在全局工作中統(tǒng)籌謀劃,深入推進(jìn)產(chǎn)業(yè)煥新,加快布局和發(fā)展智能產(chǎn)業(yè)。
前不久召開的杭州市“新春第一會”上,省委副書記、杭州市委書記劉捷兩提Sora,提到杭州要將人工智能時代的算力成本降到最低。
目前來看,Sora有自己的局限性,或?qū)⒊蔀楦鞣阶汾s的機(jī)遇。
ChatGPT這樣評價這位“小弟”:“Sora模型在模擬基本物理交互,如玻璃破碎等方面,不夠精確。這可能是因為模型在訓(xùn)練數(shù)據(jù)中缺乏足夠的這類物理事件的示例,或者模型無法充分學(xué)習(xí)和理解這些復(fù)雜物理過程的底層原理。”
“Sora還無法理解類似中國詩畫的深刻意境。”浙江大學(xué)杭州國際科創(chuàng)中心求是科創(chuàng)學(xué)者張強(qiáng)說。中國繪畫史上有個著名典故叫“深山藏古寺”。有人在山腰間畫座古廟,半遮半露;有些只能讓古寺露出小角。但最佳答案是,崇山峻嶺之中有和尚在挑水。
機(jī)遇,還在于比拼的最終方向并不只是Sora,而是通用人工智能(AGI)。
一般認(rèn)為,AGI是指擁有與人類相當(dāng)甚至超過人類智能的人工智能類型。去年,北京通用人工智能研究院院長朱松純曾給讀者寫信道:“如果我們把實(shí)現(xiàn)通用人工智能看作‘探月工程’,大模型現(xiàn)在取得的成就如同登上了珠峰,雖然也是了不起的成就,但并不能實(shí)現(xiàn)終極目標(biāo)。”
浙大研究院人工智能中心副主任趙俊博最近在朋友圈發(fā)文:“反對很多自媒體把這個技術(shù)類比在AGI上面,我們距離AGI還差得遠(yuǎn)……我覺得一個世界模型需要有能力去輸出動作,輸出對未來的預(yù)測,輸出對當(dāng)前所處狀態(tài)的判斷。Sora大概率是學(xué)到了一些世界運(yùn)轉(zhuǎn)的模式,但是否具備其他上述能力我們不知道。”
對此,業(yè)界學(xué)界的觀點(diǎn)也不盡相同。不過,大家都表達(dá)了追趕的急迫性。2月16日,360創(chuàng)始人周鴻祎在微博上寫道:Sora的誕生意味著AGI的實(shí)現(xiàn)可能從10年縮短至一兩年。張強(qiáng)在接受記者采訪時也表示:“我們距離通用人工智能的目標(biāo)雖然還有相當(dāng)?shù)木嚯x,但正在以越來越快的速度來挨近它。”
來源:潮新聞 | 撰稿:金春華 何冬健 姚穎康 朱高祥 | 責(zé)編:俞舒珺 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:135 8189 2583