首頁 > 科技 > 正文

智源研究院林詠華:多模態(tài)模型需求旺盛,但基礎能力仍有提升空間

2024-12-22 13:51:45 21世紀經(jīng)濟報道 21財經(jīng)APP 雷晨

21世紀經(jīng)濟報道記者雷晨北京報道

今年下半年以來,大模型經(jīng)歷了殘酷的淘汰賽,少數(shù)用戶活躍度高的大模型脫穎而出,進入決賽圈。與此同時,各界對于這些模型的性能表現(xiàn)、發(fā)展?jié)摿Φ确矫娴年P注與日俱增。

近期,北京智源人工智能研究院(簡稱:智源研究院)發(fā)布并解讀了國內(nèi)外100余個大模型的綜合及專項評測結果,涵蓋語言、視覺語言、文生圖、文生視頻、語音語言等多個領域。

圍繞大模型發(fā)展趨勢、行業(yè)現(xiàn)狀及相關熱點問題,智源研究院副院長兼總工程師林詠華與21世紀經(jīng)濟報道等媒體進行了一場深度對話,從專業(yè)視角對大模型的發(fā)展趨勢、行業(yè)現(xiàn)狀以及相關熱點問題進行剖析。

互聯(lián)網(wǎng)大廠優(yōu)勢明顯,模型發(fā)展仍具潛力

林詠華指出,互聯(lián)網(wǎng)大廠在大模型領域具有顯著優(yōu)勢。在語言模型方面,憑借強大的流量優(yōu)勢,大廠能獲取更多用戶反饋,推動數(shù)據(jù)飛輪,在主觀評測中表現(xiàn)良好。例如字節(jié)、快手等公司,在文生圖、文生視頻領域,因自身短視頻平臺積累的高質量數(shù)據(jù)而領先于非互聯(lián)網(wǎng)廠商。

針對前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya提出的預訓練停滯觀點,林詠華予以反駁。她表示,當前互聯(lián)網(wǎng)存在數(shù)據(jù)孤島現(xiàn)象,大量數(shù)據(jù)未被充分利用,中文數(shù)據(jù)在全球占比下降,但使用中文上網(wǎng)人數(shù)未變。同時,海量視頻數(shù)據(jù)也有待挖掘,以促進模型對世界的認知學習,大模型發(fā)展仍有巨大潛力。

模型發(fā)展態(tài)勢分化,多模態(tài)潛力凸顯

智源評測結果顯示,2024年下半年大模型發(fā)展呈現(xiàn)新趨勢:多模態(tài)模型發(fā)展迅速,新廠商與新模型不斷涌現(xiàn),在K12學科測試中,融合語言和視覺的多模態(tài)模型表現(xiàn)出色,其理解和推理能力更強。語言模型發(fā)展則相對放緩,開源的第一梯隊模型已達到較高水平,繼續(xù)提升需更多創(chuàng)新,模型尺寸出現(xiàn)兩極分化,除大型稠密模型外,7B或以下小模型下載量也較高。

林詠華認為,多模態(tài)模型需求旺盛,但基礎能力仍有提升空間,預計2025年將有更多新模型出現(xiàn)。對于資金不強但創(chuàng)新能力足的團隊,可在多模態(tài)模型的拼接、預處理、后處理、學習方式等方面進行創(chuàng)新。

AI應用趨勢明確,算力需求將提升

林詠華還對AI應用趨勢進行了展望。她表示,2024年語言模型基礎能力提升,推動了復雜應用發(fā)展,2025年基于語言模型的Agent將成為熱點,用于構建更復雜的AI應用和系統(tǒng)。文生圖、文生視頻應用也將在2025年迎來發(fā)展,VLM多模態(tài)模型在企業(yè)的落地場景廣泛,未來需提升基礎能力以形成新應用。

隨著模型發(fā)展,對算力需求也將變化。林詠華提到,端側模型正在發(fā)力,未來端云結合將成趨勢,小模型和大模型將分別承擔不同工作,以平衡資源消耗與效率提升。

開源生態(tài)持續(xù)發(fā)展,國內(nèi)外差距仍存

在模型開源生態(tài)方面,除了堅定開源的機構外,新的開源貢獻者不斷出現(xiàn)。林詠華同時指出,中國在大模型技術領域與國際先進水平相比,在數(shù)據(jù)和AI系統(tǒng)方面存在差距,包括各類數(shù)據(jù)資源及算力。未來,國內(nèi)需加強數(shù)據(jù)建設,提升算力水平,以推動大模型技術的進一步發(fā)展。

21財經(jīng)客戶端下載