風(fēng)起大模型:國內(nèi)大廠“應(yīng)戰(zhàn)”Sora

2024-03-09 05:00:00 21世紀(jì)經(jīng)濟(jì)報道 孔海麗,實(shí)習(xí)生張奕丹

2024年,Sora為AI視頻賽道打響了“發(fā)令槍”。

珠玉在前,國內(nèi)誰能最先做出“國產(chǎn)版Sora”,又或者另辟蹊徑,走出AI視頻的新路子?到底是會被全盤碾壓,還是各自找到合適的生態(tài)位?Sora的陰影之下,國內(nèi)大廠同類產(chǎn)品還會有生存余地嗎?

縱觀國內(nèi)大廠,尚未出現(xiàn)產(chǎn)品能與Sora匹敵的跡象。但應(yīng)用并非軌道,而是曠野。

近日,阿里巴巴集團(tuán)智能計算研究所推出了EMO(Emote Portrait Alive)——一款由音頻驅(qū)動的肖像—視頻生成框架。在這個應(yīng)用中,奧黛麗·赫本開始“唱歌”,蒙娜麗莎會“說話”了。

而在Sora發(fā)布以前,字節(jié)跳動曾低調(diào)推出了視頻模型Boximator,但堅決否認(rèn)這是“中文版Sora”;再往前看,百度也曾推出過“度加”創(chuàng)作工具,以AI輔助人工進(jìn)行視頻制作。

另一方面,Sora也托起了國內(nèi)相關(guān)概念股,如萬興科技、因賽集團(tuán)等,在Sora發(fā)布后,相關(guān)股票迎來了明顯上漲,這些公司的著力點(diǎn)落在泛娛樂、泛營銷等領(lǐng)域。

國內(nèi)針對Sora評論最為活躍的企業(yè)家是360創(chuàng)始人周鴻祎,他認(rèn)為,Sora的誕生意味著AGI(通用人工智能)實(shí)現(xiàn)可能從十年縮短至一兩年,國內(nèi)相似AI產(chǎn)品的差距還在繼續(xù)拉大。

一位深度跟蹤AI產(chǎn)業(yè)的投資人看法,或許帶來了新的思考方向。他認(rèn)為:“其他公司不要跟巨頭在同一條道上競速,肯定是跑不過的,要尋找更多可能性?!?/p>

從“動起來”到“會說話”

Sora問世之后,公眾試圖從國內(nèi)大廠的產(chǎn)品中尋找“宛宛類卿”的身影。字節(jié)跳動發(fā)布的一款視頻模型技術(shù),就曾被冠上“中文版Sora”的名頭。

但字節(jié)跳動隨后就做出了回應(yīng),稱Boximator是視頻生成領(lǐng)域控制對象運(yùn)動的技術(shù)方法研究項目,目前還無法作為完善的產(chǎn)品落地,“而且距離國外領(lǐng)先的視頻生成模型,在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。”

具體來看,Boximator可以通過文本控制生成視頻中人物或物體的動作,但并非直接根據(jù)輸入的文本生成視頻,而是按照文字提示將靜態(tài)圖片動態(tài)化。

如果說字節(jié)的Boximator使目標(biāo)主題的“運(yùn)動”更加合理流暢,那么阿里的EMO就是讓圖片學(xué)會“說話”。

在arXiv的官網(wǎng)上可以看到,距離Sora推出后兩周不到,阿里團(tuán)隊即發(fā)布了肖像-視頻大模型EMO的論文。研究所表示,此項研究解決了人物說話時頭部視頻生成的真實(shí)感和表現(xiàn)力不足的問題。EMO重點(diǎn)關(guān)注音頻線索和面部運(yùn)動之間的動態(tài)和細(xì)微關(guān)系,利用直接的音頻到視頻的合成方法,繞過中間的3D模型或面部地標(biāo)的需要,可以確保無縫的幀轉(zhuǎn)換,使該人物形象能在整個視頻中完整一致,從而產(chǎn)生極具表現(xiàn)力和逼真的動畫。

據(jù)不完全統(tǒng)計,截至目前,國內(nèi)已有超15家企業(yè)推出了視頻生成工具,以字節(jié)、阿里為代表的大廠和以愛詩科技、生數(shù)科技為代表的創(chuàng)企們,推出的視頻生成工具在語義理解、運(yùn)動流暢度、成像質(zhì)量等方面各有千秋。

Sora的推出可謂是“一石激起千層浪”,從“更好地動起來”到“會說話唱歌”,國內(nèi)大廠和各家創(chuàng)企后續(xù) “應(yīng)戰(zhàn)”難度無疑被大幅拉升。

大廠的“危機(jī)”

擁有抖音的字節(jié)跳動,在文生視頻大模型訓(xùn)練上有天然的數(shù)據(jù)優(yōu)勢。但與此同時,Sora的出現(xiàn),正在給字節(jié)跳動帶來巨大的“未知”,無論是抖音還是剪映,在短視頻領(lǐng)域都無法忽視Sora所帶來的顛覆性影響。

驚艷的官宣之后,Sora新視頻還在TikTok上持續(xù)推出,且TikTok是獨(dú)家放送渠道。逼真的動畫效果,讓網(wǎng)友驚呼“根本想象不到剛剛滑過去的視頻是AI生成的”。

不可否認(rèn),Sora對短視頻行業(yè)產(chǎn)生的沖擊,不只包括為短視頻平臺提供更加豐富的供給,也包括增加短視頻平臺治理難度,識別深度偽造、版權(quán)糾紛的難度將被加大。

而在視頻AI輔助工具方面,Sora將拉低普通人創(chuàng)作視頻的門檻。當(dāng)更多人傾向于選擇門檻更低,但效果更好的平臺時,目前市面上的AI視頻工具可能會被淘汰,比如,剪映、快影的用戶,將可能被搶走。

字節(jié)對AI事業(yè)是有焦慮的。今年1月30日,字節(jié)跳動CEO梁汝波在公司年度全員會直言,公司直到2023年才開始討論GPT,而業(yè)內(nèi)做得比較好的大模型創(chuàng)業(yè)公司都是在2018年至2021年創(chuàng)立的,并多次強(qiáng)調(diào)“危機(jī)感”。

字節(jié)跳動從去年開始布局AI,2023年11月成立專注于AI創(chuàng)新業(yè)務(wù)的新部門Flow。據(jù)悉,F(xiàn)low部門技術(shù)負(fù)責(zé)人為字節(jié)跳動技術(shù)副總裁洪定坤。而字節(jié)跳動創(chuàng)始人張一鳴親自牽頭,將去年一年的時間幾乎全都花在了AI上,從其精力分配上也可以看到字節(jié)跳動對AI業(yè)務(wù)的重視程度。

巧合的是,在Sora問世一周前,字節(jié)跳動宣布了一項人事變動:原抖音集團(tuán)CEO張楠辭去集團(tuán)CEO一職,未來將把精力聚焦在剪映的發(fā)展上。從抖音轉(zhuǎn)到剪映,字節(jié)不愿錯過AI視頻的關(guān)鍵風(fēng)口。據(jù)悉,張楠正親自帶隊尋求在AI輔助創(chuàng)作上有所突破,并計劃推出一個AI生成和視頻的產(chǎn)品,但字節(jié)對此未做更多披露。

張一鳴在2023年公開信中提到,字節(jié)跳動無法錯過AGI(通用人工智能),并表示AGI可以解決字節(jié)跳動的第二曲線增長困境。字節(jié)在GPT的賽道上已經(jīng)稍顯落后,這次在AI文生視頻領(lǐng)域能否抓住機(jī)遇、“釜底抽薪”實(shí)現(xiàn)自身短視頻業(yè)務(wù)的創(chuàng)新和再次增長,仍需觀望。

阿里近期也是動作不斷,短短4個月內(nèi)連發(fā)6個新項目,持續(xù)探索AI視頻領(lǐng)域。2023年11月,開源了依據(jù)圖像和文字生成高質(zhì)量視頻的I2VGen-XL,同月發(fā)布了能讓圖中角色跳舞的AnimateAnyone;2023年12月9日發(fā)布了能夠讓圖中角色在任意地點(diǎn)跳舞的DreaMoving,同月與清華大學(xué)、華中科技大學(xué)等聯(lián)合發(fā)布了生成富有表現(xiàn)力頭像的DreamTalk,此外還發(fā)布了使用無文本視頻學(xué)習(xí)的TF-T2V;今年1月,阿里發(fā)布了使用3D模型替換視頻角色的Motionshop。其中,DreamTalk可以被視為EMO的前身。

阿里的模型和Sora相比,更加注重視頻生成模型在具體行業(yè)的應(yīng)用,其重點(diǎn)關(guān)注人物神態(tài)、跳舞等運(yùn)動的細(xì)節(jié),在影視、游戲等領(lǐng)域有廣泛的應(yīng)用前景。但正因此,涉及肖像侵權(quán)、被使用在不法路徑的風(fēng)險也會加大。

除字節(jié)和阿里外,百度在AI視頻領(lǐng)域也有自己的規(guī)劃部署。去年百度推出過文生視頻工具“度加剪輯”,主要功能包括AI文案、AI提詞、智能字幕,快速剪輯、AI數(shù)字人等,主要是以AI輔助視頻剪輯,為創(chuàng)作者提供便利,在導(dǎo)入素材后提高視頻剪輯效率和觀賞度,并不能直接根據(jù)文本生成視頻。

和度加剪輯相搭配,百度還推出了“度加創(chuàng)作工具”,和剪映的“圖文成片”類似,可以自己直接通過AI生成文案,或者自己撰寫文章,度加提供“AI潤色”和“AI擴(kuò)寫”功能,語言較流暢,多采用“三段論”結(jié)構(gòu)。之后平臺會直接識別文字、提供可選擇的視頻素材,以靜態(tài)圖片變換為主。在百度搜索引擎的加持下,AI匹配的素材較豐富。但據(jù)部分使用者體驗,度加在素材和文案的貼合度上還需提高。

點(diǎn)擊“一鍵成片”之后會自動生成視頻。在視頻編輯頁面,度加會智能推薦新的素材,同時素材庫有視頻片段可以替換,比較便捷。視頻生成之后,只能發(fā)布于百家號。

對于Sora此次的“來勢洶洶”,類似于其他大廠,百度未公開發(fā)聲。

不過,百度聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏近日在財報電話會上曾對AI領(lǐng)域話題有過回應(yīng),他表示,包括文本、音頻和視頻類的多模態(tài)大模型,是未來基礎(chǔ)模型開發(fā)的重要方向,也是AGI的必經(jīng)之路,百度已經(jīng)在這一領(lǐng)域進(jìn)行了投資,并將在未來持續(xù)投入。

“大語言模型的市場是巨大的,而且現(xiàn)在還處于非常早期的階段,即便是最強(qiáng)大的語言模型,對許多應(yīng)用程序來說,依然不夠好,還有很大的創(chuàng)新空間。”李彥宏說,百度致力于讓更多企業(yè)更容易地獲得大模型服務(wù),以解決各種場景中的現(xiàn)實(shí)問題。

他還特別強(qiáng)調(diào)了自動駕駛是視覺大模型重要的應(yīng)用領(lǐng)域,百度一直在訓(xùn)練自動駕駛系統(tǒng)的視頻生成模型,從而產(chǎn)生更智能、適應(yīng)性更強(qiáng)、更安全的自動駕駛技術(shù)。

21世紀(jì)經(jīng)濟(jì)報道記者注意到,百度在AI領(lǐng)域的業(yè)務(wù)動作,更注重AI工具與實(shí)際應(yīng)用的結(jié)合,關(guān)注AI工具的實(shí)際落地,“希望AI技術(shù)是人人可用的”。

Sora的發(fā)布,無疑給國內(nèi)大廠造成了不小的壓力,但換個角度想,或許也為各公司提供了一個行之有效的解題方向。

“我們可能也高估了Sora的泛化能力,到底怎么落到應(yīng)用中去,還不明確。”一位AI視頻創(chuàng)業(yè)人士認(rèn)為,國內(nèi)大廠在AI工具的應(yīng)用上,還有作業(yè)空間。

概念股“乘風(fēng)而起”

隨“Sora風(fēng)”而動的,還有搭上了Sora概念的A股上市公司。

近來,包括萬興科技、博匯科技、易點(diǎn)天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信等10 余家A 股上市公司,都曾披露過公司涉足視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

華策影視透露,公司的技術(shù)儲備已可實(shí)現(xiàn)4秒時長的文生視頻,自研的編劇助手、劇本評估、視頻檢索、AI劇照等功能已在內(nèi)部應(yīng)用或內(nèi)測。與Sora目前60s的文生視頻時長相比,華策影視現(xiàn)有技術(shù)還存在差距。

連拉三個漲停板的因賽集團(tuán)向投資者給出了“公司對于Sora的看法”等問題的答復(fù)。因賽集團(tuán)表示,公司自研的Insight GPT屬于營銷行業(yè)應(yīng)用層垂類模型,與Sora這類底層通用大模型并不屬于直接競爭關(guān)系,反而可以結(jié)合Sora等通用大模型豐富自身視頻素材庫以及提升視頻生成效率和品質(zhì),對于Sora的出現(xiàn)持樂觀態(tài)度。

但也有多家上市公司公告澄清,并無Sora相關(guān)業(yè)務(wù)布局。睿能科技、國脈文化、華揚(yáng)聯(lián)眾、維海德等多家公司均發(fā)布股票交易異常波動公告。其中,睿能科技稱,公司核心技術(shù)和產(chǎn)品不涉及SRAM芯片、Sora等熱點(diǎn)概念;國脈文化、華揚(yáng)聯(lián)眾表示,公司主營業(yè)務(wù)中暫未涉及Sora業(yè)務(wù);維海德稱,公司不涉及文生視頻技術(shù)和產(chǎn)品,近期也沒有從事AI大模型業(yè)務(wù)的布局。

另有上市公司因涉嫌蹭“Sora概念”被交易所問詢。中科金財借與微軟的合作,聲稱“可率先申請并獲得Sora API訂閱資格”,并由此收獲了漲停板。對此,深交所要求該公司說明是否存在蹭熱點(diǎn)概念股炒作股價的情況。中科金財回復(fù)稱,公司與微軟中國的合作系非獨(dú)家合作,未來能否快速發(fā)展并取得預(yù)期的收入存在較大不確定性。

截至3月8日,涉及Sora概念的公司,多在Sora發(fā)布的一周內(nèi)收獲了不錯的股價漲幅,并在后續(xù)有所回調(diào)。值得注意的是,今年的“Sora概念股”所涉上市公司,部分也在去年因ChatGPT有過一輪股價上漲,并在去年年中回落。

今年開年,“大模型技術(shù)提振二級市場表現(xiàn)”的場景重現(xiàn),不知后續(xù)是否會重演相關(guān)概念股股價下跌情形。有從業(yè)人士感慨,如果相關(guān)公司在技術(shù)上沒有實(shí)質(zhì)性突破,股價漲跌也只是一陣“風(fēng)”。

IDC中國研究總監(jiān)盧言霞認(rèn)為,Sora在文生視頻領(lǐng)域真正邁出了第一步,真正做到生成式AI驅(qū)動生成短視頻。接下來也將刺激其他科技巨頭加快在該領(lǐng)域的技術(shù)攻關(guān)力度以及產(chǎn)品發(fā)布速度。要全面打開生成式AI的想象力,還是要依托多模態(tài)大模型。Sora的發(fā)布,以及后續(xù)科技巨頭的跟進(jìn),有望對AI產(chǎn)業(yè)帶來再一輪爆發(fā)式的增長。

AI視頻賽道是極具未來意義的,AI對行業(yè)的顛覆性意義正在時間推進(jìn)中被驗證。

不過,產(chǎn)業(yè)鏈足夠長,上下游的機(jī)會也依然廣。

前述投資人士表示:“AI視頻領(lǐng)域還有很多產(chǎn)業(yè)機(jī)會,視頻的后處理也有一番天地。比如剪映,隨著前面生產(chǎn)的AI內(nèi)容產(chǎn)生量變,剪輯工具的作用也會變得重要起來?!?/p>

如周鴻祎所言,Sora的成功證明了技術(shù)方向的正確性,OpenAI走對了方向,一旦方向感確定,國內(nèi)公司會快速迎頭趕上。

“但是做AI大模型,極其燒錢?!绷碛蠥I創(chuàng)業(yè)者向21世紀(jì)經(jīng)濟(jì)報道記者感慨:“資金和算力,在制約著國內(nèi)公司的腳步。”

21財經(jīng)客戶端下載