2月17日消息,近日,OpenAI 發(fā)布了 Sora 模型,該模型可根據(jù)用戶輸入的文本提示詞描述,生成一段60秒鐘的視頻內容。從OpenAI公開的演示視頻來看效果非常超現(xiàn)實。
昨日,360董事長周鴻祎在微博發(fā)文,談到OpenAI的文字轉視頻模型Sora。他認為:Sora意味著 AGI實現(xiàn)將從 10年縮短到1年。
周鴻祎表示,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。今天 Sora 可能給廣告業(yè)、電影預告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗 TikTok,更可能成為 TikTok的創(chuàng)作工具。
同時,周鴻祎還談到中美AI差距,他認為:OpenAl手里應該還藏著一些秘密武器,無論是 GPT-5,還是機器自我學習自動產生內容,包括 AIGC。他們手里的武器并沒有全拿出來。這樣看來中國跟美國的 AI 差距可能還在加大。
以下為周鴻祎發(fā)文全文:
Sora意味著 AGI實現(xiàn)將從10年縮短到1年
年前我在風馬牛演講上分享了大模型十大趨勢預測,沒想到年還沒過完,就驗證了好幾個從 Gemini、英偉達的 Chat With RTX到 OpenA!發(fā)布 Sora,大家都覺得很炸裂。朋友問我怎么看 Sora,我談幾個觀點,總體來說就是我認為AGI很快會實現(xiàn),就這幾年的事兒了:
第一,科技競爭最終比拼的是讓人才密度和深厚積累。很多人說 Sora的效果吊打 Pika和Runway。這很正常,和創(chuàng)業(yè)者團隊比OpenAl 這種有核心技術的公司實力還是非常強勁的。有人認為有了 AI以后創(chuàng)業(yè)公司只需要做個體戶就行,實際今天再次證明這種想法是非??尚Φ摹?br />
第二,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。今天很多人談到 Sora 對影視工業(yè)的打擊,我倒不覺得是這樣,因為機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創(chuàng)意至少需要人給提示詞。一個視頻或者電影是由無數(shù)個 60 秒組成的。今天 Sora 可能給廣告業(yè)、電影預告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗 TikTok,更可能成為 TikTok的創(chuàng)作工具。
第三,我一直說國內大模型發(fā)展水平表面看已經接近 GPT-3.5 了,但實際上跟 4.0 比還有一年半的差距。而且我相信 OpenAl手里應該還藏著一些秘密武器,無論是 GPT-5,還是機器自我學習自動產生內容,包括 AIGC。奧特曼是個營銷大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒有全拿出來。這樣看來中國跟美國的 AI 差距可能還在加大。
第四,大語言模型最牛的是,它不是填空機,而是能完整地理解這個世界的知識。這次很多人從技術上、從產品體驗上分析Sora,強調它能輸出 60 秒視頻,保持多鏡頭的一致性,模擬自然世界和物理規(guī)律,實際這些都比較表象,最重要的是 Sora 的技術思路完全不一樣。因為這之前我們做視頻做圖用的都是 Diffusion,你可以把視頻看成是多個真實圖片的組合,它并沒有真正掌握這個世界的知識。現(xiàn)在所有的文生圖、文生視頻都是在 2D 平面上對圖形元素進行操作,并沒有適用物理定律。但 Sora 產生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現(xiàn)汽車撞毀坦克這樣的情況。所以我理解這次 OpenAl 利用它的大語言模型優(yōu)勢,把LLM 和 Diffusion 結合起來訓練,讓 Sora 實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出 2D 的范圍模擬真實的物理世界。這都是大模型的功勞。這也代表未來的方向。有強勁的大模型做底子,基于對人類語言的理解,對人類知識和世界模型的了解,再疊加很多其他的技術,就可以創(chuàng)造各個領域的超級工具,比如生物醫(yī)學蛋白質和基因研究,包括物理、化學、數(shù)學的學科研究上,大模型都會發(fā)揮作用。這次 Sora對物理世界的模擬,至少將會對機器人具身智能和自動駕駛帶來巨大的影響。原來的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕駛汽車的時候,很多判斷是基于對這個世界的理解。比如對方的速度怎么樣,能否發(fā)生碰撞,碰撞嚴重性如何,如果沒有對世界的理解就很難做出一個真正的無人駕駛。
所以這次 Sora 只是小試牛刀,它展現(xiàn)的不僅僅是一個視頻制作的能力,它展現(xiàn)的是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。
第五,Open Al訓練這個模型應該會閱讀大量視頻。大模型加上 Diffusion 技術需要對這個世界進行進一步了解,學習樣本就會以視頻和攝像頭捕捉到的畫面為主。一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube 上和 TikTok 的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖,這就離AGI真的就不遠了,不是10年20年的問題,可能一兩年很快就可以實現(xiàn)。
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內容、版權等問題,請與本站聯(lián)系并提供相關證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。