OpenAI內(nèi)憂外患中的自我救贖
OpenAI終于正式上線了Sora,而且是比原定更高效、更好用的Sora Turbo版本。
北京時間12月10日,延宕了10個月之久,OpenAI向付費用戶開放使用Sora,可以生成任意長寬比、時長從5秒到20秒的全新視頻,支持文生視頻、圖生視頻、視頻衍生視頻,并且附帶替換、刪除、混合、剪輯視頻功能。
在OpenAI的官方表述中,Sora依然是早期版本,OpenAI CEO塞姆·奧特曼把它類比為視頻界的GPT-1。以這家公司的調(diào)性,或許更多通往AGI的工具也在悄悄訓(xùn)練中了。
偉大的愿景背后,也少不了現(xiàn)實壓力。雖然產(chǎn)品足夠炸裂,但長居熱搜第一的OpenAI,也有自己的煩惱。
想要嘗鮮Sora,付費用戶分為兩個等級:月費20美元的Plus會員每月可以快速生成50次視頻,每條視頻長度最多5秒,最高清晰度為720p;OpenAI上周剛推出的“史上最貴會員”——月費200美元的Pro會員,每月可以快速生成500次視頻,并且有不限量慢速生成機會,每條視頻長度最多20秒,最高清晰度為1080p,并且支持同時運行5個生成任務(wù),視頻還可以無水印下載。
在OpenAI的X社交賬號下,有網(wǎng)友稱:“這是我花過最快的200美元?!?/p>
一方面,OpenAI的明星產(chǎn)品GPT系列模型迭代速度正在放緩,高昂的開發(fā)成本與低于預(yù)期的性能提升,讓前方蒙上一片迷霧。
另一方面,營利壓力是懸在OpenAI頭上的達摩克利斯之劍,奧特曼甚至坦言,如果能回到過去,他們當(dāng)初一定不會選非營利組織架構(gòu)。“我們也沒有預(yù)見到需要的資本量會如此龐大?!彼f。
為了修正這種組織架構(gòu)與商業(yè)訴求之間的“撕扯”,OpenAI在考量各種可能性,試圖轉(zhuǎn)向營利性組織架構(gòu),取消與微軟的AGI條款以釋放投資潛力,也包括尋求更多融資甚至貸款。
國內(nèi)一位AI領(lǐng)域投資人告訴21世紀經(jīng)濟報道記者,雖然相較于絕大部分AI企業(yè),OpenAI能夠吸引的資金已經(jīng)是“天量”,但高昂的研發(fā)與訓(xùn)練費用,仍然讓OpenAI難以大膽前行,未來,轉(zhuǎn)向營利性架構(gòu)既是團隊訴求,也是市場的要求。
AI競賽沒有止境。就在北京時間12月10日,谷歌發(fā)布最新的量子芯片Willow,5分鐘內(nèi)完成了當(dāng)今世界上最快超級計算機需要10^25年(這個數(shù)字遠遠超過宇宙的年齡138億年)才能完成的計算,解決了量子計算領(lǐng)域逾30年未攻克的難題,震驚了整個AI圈。
圖片來源:本報記者 梁遠浩 攝
AI視頻生態(tài)初成
與今年2月放出的Sora預(yù)覽相比,Sora Turbo已經(jīng)突破了純視頻生成架構(gòu),更像是一套完備的AI視頻生態(tài)。
首先,文生視頻功能作為“基礎(chǔ)操作”,表現(xiàn)力一如既往。
整體觀感上,對AI視頻生成有認知的人,依然大概率能從直覺上判斷出來“這是AI生成的視頻”。
在視頻生成之外,Sora的驚艷在于,它已經(jīng)是一個相對完整的實用視頻工具,聚合了創(chuàng)作、生成、剪輯等一連串功能。
創(chuàng)作環(huán)節(jié),Sora提供了“社區(qū)功能”,在這里可以看到其他創(chuàng)作者的作品,尋求一定的創(chuàng)作靈感或啟發(fā)。
Sora也給出了預(yù)設(shè)風(fēng)格模板,用戶也可以在持續(xù)使用中,將新的風(fēng)格變成預(yù)設(shè)模板。這一方面有助于探索不同風(fēng)格創(chuàng)作,也將幫助有連續(xù)作品創(chuàng)作需求的用戶,保持風(fēng)格統(tǒng)一性。
視頻生成之后,才是Sora與其他AI視頻大模型拉開差距的地方。
Sora提供的Remix重混功能,支持對已生成視頻的修改,可以替換、刪除或重新構(gòu)想視頻中的元素。
比如,已經(jīng)生成了“打開通往圖書館的大門”效果,可以繼續(xù)用一句話把視頻里的門換掉、把場景換掉……
可以想象一下,影視界耗資巨大的視頻特效,似乎將被徹底顛覆。
Sora的剪輯功能還體現(xiàn)在Re-cut,用戶可以選中自己最喜歡的一幀視頻,并向任意方向延伸它們。也就是說,如果一個片段中,只有一部分是你滿意的畫面,完全可以只用這部分繼續(xù)創(chuàng)作。
編輯視頻,也可以是段與段之間的銜接。Storyboard支持在時間軸上組織和編輯視頻的獨特序列。
常用的過渡效果也可以在Sora實現(xiàn)。Loop功能可以修剪并創(chuàng)建無縫銜接的循環(huán)視頻。
Blend功能可以把兩個視頻合并為一個無縫剪輯視頻。
秀肌肉的同時,奧特曼本人解釋了AI視頻對OpenAI的重要性,其實這也是整個AI行業(yè)向前的路徑折射。
他說,對于OpenAI而言,Sora不僅是一項技術(shù),更是激發(fā)創(chuàng)意的重要工具。通過Sora,OpenAI看到了一種全新的協(xié)作模式——AI和人類共同創(chuàng)造,AI創(chuàng)意工具或許將極大地改變?nèi)祟愃伎己蛣?chuàng)意的方式。
而且,相對于用文本進行人機交互,視頻交互意味著更立體、更生動、更豐富的信息維度。
“Sora是OpenAI通往AGI路線圖上的重要里程碑?!眾W特曼強調(diào)說。
有AI從業(yè)者表示,Sora打開的不只是AI視頻生成的想象力,行業(yè)更大的野心和愿望在于,AI視頻可能極大地改變?nèi)藱C交互。
“目前,大家也不能明確說出AI視頻通向哪里,或者怎么影響商業(yè)世界,但未來想象空間是巨大的?!眹鴥?nèi)一位關(guān)注AI生態(tài)的企業(yè)人士說。
Scaling Law瓶頸
近期,關(guān)于Scaling Law“暴力美學(xué)”正在失效的擔(dān)憂,被進一步放大。
所謂Scaling Law,也被稱為“規(guī)模定律”,在AI領(lǐng)域,Scaling Law是指模型性能會隨著模型大?。ㄈ鐓?shù)數(shù)量)、數(shù)據(jù)集大小和計算資源的增加而放大,并且這些變化通常遵循冪律關(guān)系?。
但行業(yè)早早就在擔(dān)心,Scaling Law會觸及邊界,在那之后,可能意味著訓(xùn)練投入不再有相應(yīng)成效。
而最早碰到這個瓶頸的,恰恰是行業(yè)巨獸OpenAI。
據(jù)報道,OpenAI最新模型Orion遇到訓(xùn)練困境。盡管Orion模型已完成約20%的訓(xùn)練,并在此前稱計劃于12月發(fā)布,但其在處理復(fù)雜任務(wù)時并未顯著超越GPT-4。
相較于現(xiàn)有模型,Orion能力提升有限,代碼能力甚至不如現(xiàn)有模型,躍升程度遠不如GPT-3到GPT-4階段,而且Orion運行成本更高。
與此同時,技術(shù)進展放緩可能對OpenAI的盈利模式產(chǎn)生重大影響。OpenAI的主要收入來源包括訂閱服務(wù)和API服務(wù),但如果Orion模型無法達到預(yù)期,企業(yè)客戶可能減少對OpenAI的依賴,從而影響公司收入。
投資者也在觀望,OpenAI的未來盈利能力,決定了資本現(xiàn)在的投入力度。
不只OpenAI一家,Scaling Law瓶頸也公平地困擾著其他科技公司。谷歌下一代Gemini模型也被曝性能未達預(yù)期,Anthropic傳出放緩了Opus 3.5的進展。
OpenAI不得不考慮新的技術(shù)方向。
據(jù)OpenAI知名研究員、o1研究團隊的核心科學(xué)家Noam Brown透露,盡管擴大預(yù)訓(xùn)練規(guī)模是提升模型性能的有效手段,但成本高昂且終將觸及天花板。而o1模型所代表的“推理時計算”技術(shù),為解決這一瓶頸提供了全新的思路,將加速AGI的到來。
Noam Brown介紹,這項技術(shù)讓模型能夠在推理階段進行更深入的思考和計算,從而解決更復(fù)雜的問題。
比如,o1模型可以自主學(xué)習(xí)策略、拆解任務(wù)、識別并糾正錯誤,展現(xiàn)出前所未有的智能水平,證明了模型可以進行更深入的推理和解決更復(fù)雜的問題,“它存在的意義被大大低估”。
Noam Brown還強調(diào),“推理時計算”技術(shù)目前還處于早期階段,未來提升空間巨大。
謀求轉(zhuǎn)向營利性架構(gòu)
除了內(nèi)部產(chǎn)品焦慮,OpenAI的外部壓力也不算小。
謀求轉(zhuǎn)向營利性組織結(jié)構(gòu)的OpenAI,遭到了特斯拉CEO埃隆·馬斯克更強烈的狙擊,后者甚至試圖向美國聯(lián)邦法院申請禁令,以阻止OpenAI改變組織架構(gòu)。
近日,知情人士透露,OpenAI還在別的方面努力籌劃,增加公司的投資潛力。
此前,OpenAI與大股東微軟訂立了一個條款,條款規(guī)定,當(dāng)OpenAI開發(fā)出通用人工智能(AGI)后,微軟就將無法再獲取其技術(shù)。據(jù)悉,OpenAI正在考慮撤銷這一條款,但董事會尚未做出最終決定,正在討論各種選擇。
兩個月前,微軟還曾就OpenAI轉(zhuǎn)化為營利性公司后的股權(quán)分配問題進行了談判。
OpenAI近期完成的66億美元融資中,微軟投資額約為7.5億美元。根據(jù)融資協(xié)議,OpenAI將在兩年內(nèi)完成向營利性公司的轉(zhuǎn)變,否則投資者將有權(quán)收回資本。
截至目前,微軟共計投資OpenAI137.5億美元,而作為OpenAI的最大投資方,微軟卻沒有OpenAI的話事權(quán),甚至迫于反壟斷調(diào)查的壓力,退出了OpenAI董事會。
如果OpenAI能夠順利轉(zhuǎn)向營利性組織,投資方將通過更直接的股權(quán)結(jié)構(gòu)消除非營利組織規(guī)定的利潤上限,并且通過掌握股權(quán)減少OpenAI高層變動可能帶來的風(fēng)險。其中,微軟作為OpenAI最大投資方,可能會獲得該公司大量股權(quán)。
加州大學(xué)洛杉磯分校洛厄爾-米爾肯慈善與非營利中心的創(chuàng)始執(zhí)行董事Rose Chan Loui表示:“OpenAI已明確表示,非營利組織將不再控制(營利性公司),因此這可能意味著微軟和其他投資者將對OpenAI的工作有更多發(fā)言權(quán)?!?/p>
近日,奧特曼本人也再次強調(diào)了這種轉(zhuǎn)變的必要性。據(jù)他透露,OpenAI成立時,完全沒有想到將來會成為一家產(chǎn)品公司,所以他們本著初心,將OpenAI設(shè)立成了非營利性的組織,承諾公司不為任何人的私利而成立,并將其技術(shù)保持開源,以AI造福公眾。
但后來,研發(fā)與訓(xùn)練AI需要的資金量巨大,OpenAI不得不設(shè)立了一個營利性子公司,拓展了有限盈利的模式。奧特曼說:“但這種模式已經(jīng)開始拉扯OpenAI非營利組織的形態(tài),而且OpenAI在下一階段所需的資本量實在是太大了。”
所以,OpenAI在積極思索一些變化,這個問題非常復(fù)雜,董事會正在研究,還未做出任何決定。
曾經(jīng)考慮過的一個方案是,非營利組織擁有一個公共利益公司(PBC)的絕大部分股份,并通過這種方式利用大量財富來實現(xiàn)非營利組織的目標(biāo)。
為了幫助OpenAI融資,也不排除奧特曼本人會為了增加投資者信心而持有一部分股權(quán)。
“如果能回到過去,我會拿一點OpenAI股權(quán),至少這會讓投資者們對我的態(tài)度更清晰一些,可能也會讓融資變得容易一些。確實有很多投資者因為我沒有拿股權(quán)而沒有投資?!眾W特曼透露。
一位來自高校的觀察人士認為,AI尤其是一個資本密集型行業(yè),OpenAI為吸引投資做出的改變,有助于公司改善資金狀況,并進一步提升業(yè)務(wù)運營能力。