大廠決勝“無人區(qū)”:大模型的確定方向與未知路徑

2024-07-09 05:00:00 21世紀經(jīng)濟報道 白楊

過去幾天,2024世界人工智能大會(WAIC)的火熱程度像極了上海的天氣。

據(jù)官方數(shù)據(jù),截至7月6日下午2時,大會線下參觀人數(shù)突破30萬人次,同比上屆增長90%,創(chuàng)歷史新高。

自2018年創(chuàng)辦以來,世界人工智能大會已經(jīng)成為AI產(chǎn)業(yè)發(fā)展的風向標。而大模型無疑是整個行業(yè)近兩年最核心的發(fā)展方向。

在2024WAIC上,中國工程院院士、之江實驗室主任、阿里云創(chuàng)始人王堅表示,“今天的人工智能有別于過去的人工智能,跟過去五六十年都不一樣。人工智能有一個非常長的過去,但是有一個非常短的歷史,長到可以追溯到100多年以前,短到就是過去七八年GPT出來,而GPT的潛力還沒有被完整探索?!?/p>

在他看來,未來十年將是非常激動人心的十年。

“只要有新的技術(shù),一定會有新的大公司出現(xiàn)。如果一個新的技術(shù)出來,沒有新的大公司出現(xiàn),那它是不是顛覆性的技術(shù)是要打個問號的?!蓖鯃韵嘈?,在這個時代一定會有新的大公司出來。

這也是許多人的共識。2022年底ChatGPT橫空出世后,有公司開始用大模型重塑自家產(chǎn)品,也有人感到時不我待,投身新一輪創(chuàng)業(yè),而他們有著相同的目標,就是爭做大模型時代的弄潮兒。

正因如此,大模型也成為當前最具活力的產(chǎn)業(yè)領域。從去年激烈的百模大戰(zhàn),到今年層出不窮的各類落地產(chǎn)品,大模型的故事才剛剛開始,而WAIC,正是這場注定宏大的敘事中的一個縮影。

圖片來源:新華社

Scaling Law依然奏效

自OpenAI于2020年發(fā)布1750億參數(shù)的GPT-3以來,大模型性能上限已發(fā)生天翻地覆的變化。尤其是去年大量中國企業(yè)的入局,進一步加速了大模型在中文領域的迭代速度。

在2024WAIC期間,許多大模型新品也首次亮相。比如商湯科技帶來了多模態(tài)交互大模型日日新5.5,階躍星辰則發(fā)布了Step-2萬億參數(shù)語言大模型、Step-1.5V多模態(tài)大模型、Step-1X圖像生成大模型等三款新品。

談及大模型未來的發(fā)展,階躍星辰創(chuàng)始人、CEO姜大昕表示,探索AGI路徑,“Scaling Law”和“多模態(tài)”是相輔相成、缺一不可的兩個方向。

近年來,GPT系列模型的演進,客觀上驗證了Scaling Law(尺度定律)的有效性,即模型參數(shù)量決定模型能力的上限。雖然業(yè)內(nèi)圍繞“Scaling Law還能走多遠”尚未形成共識,但姜大昕認為,參數(shù)量接下來再提高一個數(shù)量級是依然成立的。

“Scaling Law目前依然奏效,模型性能仍在隨著參數(shù)量、數(shù)據(jù)量和計算量的增加呈冪次方增長。在此發(fā)展過程中,萬億參數(shù)量已經(jīng)成為一個基本的入門門檻?!彼f。

與此同時,姜大昕也強調(diào),多模態(tài)是構(gòu)建世界模型的基礎能力,是通向AGI的必經(jīng)之路?!皬乃惴ń嵌瓤?,世界模型的演進會分為模擬世界、探索世界、歸納世界三個階段,而多模態(tài)是貫穿這三個階段的基本能力?!?/p>

目前,全球科技巨頭也都在積極推進多模態(tài)大模型的研發(fā)。騰訊集團副總裁蔣杰也表示,大模型行業(yè)正經(jīng)歷從單模態(tài)到多模態(tài),再到全模態(tài)的演進。

“比如在文生圖領域,最近效果比較好的是采用DiT架構(gòu)的模型,它融合了早前主要用于文本生成的Transformer架構(gòu),并在圖像和視頻生成任務中展現(xiàn)出了顯著的優(yōu)勢;在文生視頻領域,視頻生成正朝著更高分辨率、更長時長、更精細的方向發(fā)展,一些較好的模型已經(jīng)能夠生成長達數(shù)分鐘高清的視頻,帶來了廣闊的應用想象空間?!笔Y杰介紹道。

但多模態(tài)大模型的發(fā)展仍存在桎梏。姜大昕指出,“目前視覺的理解模型和生成模型是分開發(fā)展的,其造成的結(jié)果就是理解模型的理解能力強而生成能力弱,或者生成模型的生成能力強而理解能力弱”。他認為,多模態(tài)大模型接下來面臨的一項關(guān)鍵挑戰(zhàn),就是能否將理解和生成統(tǒng)一在一個模型里。

但整體而言,大模型未來的增長路徑已然清晰可見。清華大學計算機系長聘副教授、面壁智能首席科學家劉知遠表示,“摩爾定律揭示了集成電路可容納晶體管數(shù)目約每隔18個月便會增加一倍的規(guī)律,在過去幾十年中給半導體和互聯(lián)網(wǎng)行業(yè)的發(fā)展帶來了科學指導意義”。

在大模型時代,傳統(tǒng)的摩爾定律已經(jīng)失效,因此劉知遠提出了一個新“摩爾定律”:大模型的知識密度(知識密度=模型能力/推理算力消耗)平均每8個月將提升一倍。

當然,新摩爾定律目前只能代表大模型過去的發(fā)展規(guī)律,未來能否按照這一規(guī)律繼續(xù)發(fā)展,還有待觀察。但不管怎樣,可以確定的是,大模型距離性能天花板仍很遙遠。

努力成為千萬DAU產(chǎn)品

相比大模型能力的進化,今年WAIC更大的看點是大模型的落地應用。

蔣杰表示,場景應用會成為未來大模型的決勝要素。但他指出,當前大模型的落地主要集中在生產(chǎn)工具和提效方面,距離真正的業(yè)務創(chuàng)新還有一定距離,缺少殺手級的應用,不過行業(yè)的探索一直沒有停下。

以騰訊為例,其內(nèi)部已有接近700個業(yè)務場景接入了騰訊混元大模型,單日調(diào)用量近3億次。此外,今年5月,騰訊也面向C端用戶發(fā)布了擁有看、聽、說等多模態(tài)交互能力的AI原生應用騰訊元寶。

事實上,今年以來,幾乎所有頭部大模型廠商都發(fā)布了面向C端用戶的AI助手產(chǎn)品。金山辦公助理總裁晁云曈向21世紀經(jīng)濟報道記者表示,目前來看,AI助手是比較適合大模型現(xiàn)階段發(fā)展的產(chǎn)品形態(tài)。

去年11月,金山辦公對外發(fā)布了AI辦公助手WPS AI。相比其他獨立的AI助手產(chǎn)品,WPS AI主要嵌套于WPS產(chǎn)品當中。今年WAIC期間,WPS AI也宣布升級到2.0版本,在原先的產(chǎn)品功能基礎上,WPS AI 2.0新增了AI寫作助手、AI閱讀助手、AI數(shù)據(jù)助手、AI設計助手等功能。

晁云曈表示,AI很多能力要想落地,還是需要在用戶應用場景里合理地嵌入AI,所以金山辦公在走的路徑就是盡量避免追求一鍵生成、一步到位,而是在用戶習慣的環(huán)境里做嵌入。

此前,有多位業(yè)內(nèi)專家均向記者表示,生產(chǎn)力工具或是大模型在C端最先成熟落地的場景。因此除了金山辦公,釘釘、飛書等協(xié)同辦公產(chǎn)品也都在大模型重塑產(chǎn)品能力,相對而言,這些辦公產(chǎn)品的用戶對于AI能力的接受程度以及付費意愿都比較高,這也讓他們的大模型商業(yè)化路徑變得清晰。

除此之外,其他大模型廠商也在摸索更多用戶可能高頻使用的場景。比如在2024WAIC期間,阿里巴巴達摩院發(fā)布的一站式AI視頻創(chuàng)作平臺“尋光”,是希望為用戶提供視頻創(chuàng)作工具;百川智能發(fā)布的AI健康顧問,則是希望去滿足用戶的醫(yī)療問診需求。

據(jù)21世紀經(jīng)濟報道記者現(xiàn)場測試,在用戶提出問詢后,百川智能的AI健康顧問能夠根據(jù)用戶的問題持續(xù)提問,進而從更多維度去了解用戶病癥信息,然后再進行綜合判斷,給出診斷結(jié)果和用藥建議。

有醫(yī)療行業(yè)人士向記者表示,目前大模型在醫(yī)療場景中的應用,要分清咨詢和診斷的區(qū)別,現(xiàn)階段,大模型扮演的角色仍然是建議者,而不是決策者。

京東探索研究院院長何曉冬在接受21世紀經(jīng)濟報道記者采訪時指出,大模型的顛覆性、殺手應用,不可能從通用大模型的優(yōu)化中產(chǎn)生,必然是技術(shù)進步與產(chǎn)業(yè)積累的結(jié)合。

今年,有多位頭部大模型廠商人士在接受21世紀報道記者采訪時,都提到了1000萬DAU的指標。在他們看來,當下大模型應用仍存在非常嚴重的同質(zhì)化,接下來各大廠商都要去尋找差異化優(yōu)勢,與其他產(chǎn)品拉開差距,然后擴大用戶規(guī)模,而1000萬DAU(日活用戶),將是衡量一款大模型應用是否成功的關(guān)鍵指標。

產(chǎn)業(yè)場景是沃土

除了C端應用外,大模型在B端的落地也在如火如荼地進行中。

騰訊云副總裁、騰訊云智能負責人、騰訊優(yōu)圖實驗室負責人吳運聲向21世紀經(jīng)濟報道記者表示,大模型的打造只是起點,把技術(shù)落地到產(chǎn)業(yè)場景、創(chuàng)造價值才是目標。

對此,何曉冬也認為,通用大模型只是種子,產(chǎn)業(yè)場景才是沃土。

他指出,大模型的基礎設施建設已經(jīng)趨于完善,已經(jīng)有巨大的資源投入,很快產(chǎn)業(yè)應用就會向大模型要實效。而大模型必須產(chǎn)生實際的產(chǎn)業(yè)價值、讓產(chǎn)業(yè)愿意買單,才能長久地發(fā)展下去。

何曉冬還從數(shù)據(jù)角度談道,GPT-4是30%的合成數(shù)據(jù),GPT-5將會是90%的合成數(shù)據(jù)。這說明能用于大模型訓練的真實數(shù)據(jù)正在枯竭,而數(shù)據(jù)的富礦在于產(chǎn)業(yè)場景,只有讓產(chǎn)業(yè)用上大模型、持續(xù)以數(shù)據(jù)反哺,才能支撐大模型對數(shù)據(jù)的持續(xù)需求。

因此,包括騰訊云、阿里云、京東云等在內(nèi)的云廠商都在圍繞大模型的產(chǎn)業(yè)場景積極布局。去年,各個廠商更多是圍繞大模型研發(fā)提供服務,而今年,服務則不斷深入業(yè)務當中。

據(jù)吳運聲介紹,騰訊在大模型領域已經(jīng)構(gòu)建了一套全鏈路產(chǎn)品矩陣,涵蓋從底層基礎設施到頂層多元智能應用,包括自研通用大模型、模型開發(fā)平臺、智能體開發(fā)平臺,針對不同場景定制的智能應用解決方案等。

比如今年5月,為了降低大模型的使用門檻,騰訊云發(fā)布了“大模型知識引擎”“大模型圖像創(chuàng)作引擎”和“大模型視頻創(chuàng)作引擎”三款PaaS工具。在2024WAIC期間,騰訊宣布已對這三款工具進行全面升級。

其中,知識引擎的多模態(tài)檢索能力得到增強,支持圖文互搜、以圖搜圖,并擴展了企業(yè)知識類型的覆蓋面;圖像創(chuàng)作引擎新增了商品背景生成、百變頭像、模特換裝、百變換裝和線稿生圖等接口;視頻創(chuàng)作引擎則推出復雜舞蹈編排算法,用戶上傳一張圖片,就可以讓人物進行轉(zhuǎn)身舞蹈。

相對于C端場景,B端用戶對于大模型的應用要求會更為嚴格,而通用模型很難滿足這些要求,所以結(jié)合行業(yè)場景進行模型精調(diào),也是目前大模型產(chǎn)業(yè)落地的重要路徑。

大會上,騰訊聯(lián)合上海交通大學發(fā)布的《2024年AI大模型十大趨勢》報告指出,算力底座、推理分析、創(chuàng)意生成、情緒智能、智能制造、游戲環(huán)境、移動革新、具身智能、開源共享、人機對齊等將是大模型的重要發(fā)展趨勢。

報告稱,從算力底座、智力增強到人機協(xié)作,大模型正在重塑人類社會,成為可依賴的“外腦”。未來,隨著大模型與人機協(xié)作的深入,每個企業(yè)、每個人都有機會借助AI外腦實現(xiàn)自己的創(chuàng)意,實現(xiàn)智力平權(quán),而這一變革將為社會各階層帶來前所未有的機遇。

然而,大模型的發(fā)展仍面臨諸多挑戰(zhàn)。比如隨著模型參數(shù)量越來越大,算力和數(shù)據(jù)支撐能否跟上?在落地過程中,大模型的準確性如何進一步提升,去滿足更多產(chǎn)業(yè)核心業(yè)務的需要?以及大模型該采用怎樣的商業(yè)模式,何時才能跑通?

2024WAIC已經(jīng)落下帷幕,但大模型的前進腳步并未停止。展望未來,人們將滿懷憧憬地期待大模型在各個領域的深入應用,帶來更多前所未有的變革與驚喜。

21財經(jīng)客戶端下載