首頁 > 科技 > 正文

2024云棲大會集聚硬科技 AI產(chǎn)品迭出、應用場景萌發(fā)

2024-09-20 05:00:00 21世紀經(jīng)濟報道 柳寧馨

9月19日,2024云棲大會在杭州開幕,這是匯集AI硬科技最多的一屆云棲大會,也展示了AI從科技前沿到提升生產(chǎn)效率、打造美好生活的應用前景。云棲大會最早可追溯至2009年,目前成為體現(xiàn)中國計算產(chǎn)業(yè)的萌發(fā)與革新的重要展會之一。

今年的大會以“云啟智躍,產(chǎn)業(yè)蝶變”為主題,吸引大模型、自動駕駛、機器人等領域的400多家國內(nèi)外企業(yè)來到現(xiàn)場。圍繞通用人工智能(AGI)、自動駕駛、人形機器人這三個決定性場景,AI為產(chǎn)業(yè)和生活帶來的巨大想象空間徐徐展開。

21世紀經(jīng)濟報道記者觀察發(fā)現(xiàn),不少機器人、制造業(yè)企業(yè)參展商是第一次參展,這意味著今年以來,AI與智能制造及延伸領域、具身智能場景領域結合得更加緊密,而生成式AI和云計算成本下降也帶動了應用創(chuàng)新門檻的降低,但大規(guī)模商業(yè)化應用仍未鋪開。

圖片來源:新華社

大模型推理成本指數(shù)級下降

阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘在主題演講中表示,過去22個月,AI發(fā)展的速度超過任何歷史時期,但現(xiàn)在依然還處于AGI變革的早期階段。大模型技術快速迭代,技術可用性大幅提升。同時,模型推理成本指數(shù)級下降,已經(jīng)遠遠超過摩爾定律。

例如,大模型已經(jīng)具備了文本、語音、視覺的多模態(tài)能力,能夠開始完成復雜指令。

多模態(tài)大模型在各應用場景加速落地。在視覺方面,AI技術生成視頻已經(jīng)是多家企業(yè)落地的產(chǎn)品。此外,分子動力模擬、3D/4D模型生成、智能編碼等也在改變?nèi)藗兊墓ぷ骱蜕罘绞健?/p>

阿里控股達摩院基礎智能中心商務負責人薛騰飛在接受21世紀經(jīng)濟報道記者采訪時表示,達摩院開發(fā)的一站式AI視頻創(chuàng)作平臺尋光視頻在今年7月的上海世界人工智能大會正式亮相,主要提供視頻制作輔助工具,可以實現(xiàn)劇本創(chuàng)作、分鏡圖設計、視頻素材編輯等需求,目前已開放內(nèi)測。

不過,AI生成視頻在物理世界模擬方面仍需要繼續(xù)提升?!吧?秒、8秒視頻和10秒以上視頻的難度不同,視頻時長越長,保證畫面物理狀態(tài)準確度的技術難度越高?!毖︱v飛說。

生數(shù)科技展示了Vidu視頻大模型,支持文字和圖片輸入,可以生成4秒和8秒時長的視頻。21世紀經(jīng)濟報道記者體驗發(fā)現(xiàn),輸入“杭州西湖跳水”這一個短句后,4秒的視頻畫面很快就自動生成,內(nèi)容為西湖邊3位正在跳水的人,人像是遠景,不過面部并不清晰,有一個瞬間人像變?yōu)樗ㄔ僮兓厝讼瘢霈F(xiàn)了與物理世界錯位的圖像。

生數(shù)科技相關負責人告訴21世紀經(jīng)濟報道記者,AI生成視頻有時會出現(xiàn)畫面和物理世界狀態(tài)不符的問題,這也是產(chǎn)品后續(xù)需要持續(xù)克服的問題。企業(yè)已研發(fā)出長視頻的生成工具,已有影視行業(yè)等B端合作用戶,用于影視分鏡制作等用途。

另一個多模態(tài)大模型的特色案例是阿里通義實驗室Mobile-Agent,Mobile-Agent項目開發(fā)人員告訴21世紀經(jīng)濟報道記者,Mobile-Agent基于最強多模態(tài)大模型GPT-4V實現(xiàn),首先接收用戶的指令,然后根據(jù)當前屏幕截圖、操作歷史和系統(tǒng)提示生成下一步操作。例如,可以在指令中輸入“在‘小紅書’中搜索一篇上海美食指南”,Agent可以迅速調動感知工具,調動相應app進行相應操作。

月之暗面Kimi創(chuàng)始人楊植麟在大會主論壇上表示,AI產(chǎn)品在形態(tài)上也會發(fā)生一些變化,現(xiàn)在AI的產(chǎn)品形態(tài)類似于即時聊天的這種產(chǎn)品形態(tài),以后AI產(chǎn)品可能不僅是這種形態(tài),還有可能是思考或者去調用各種工具,然后執(zhí)行分鐘級別、小時級別甚至每天級別的任務。

“所以AI產(chǎn)品形態(tài)上它可能會更接近一個人的生活助理的概念,新的想象空間是蠻大的?!睏钪谗胝f。

模型推理成本指數(shù)級下降,是當前大模型應用百花齊放的基礎。吳泳銘表示,一年來,通義千問API在阿里云百煉上的調用價格下降了97%,百萬Tokens調用花費最低已經(jīng)降到了5毛錢。

今年5月,AI大模型打響了價格戰(zhàn),BAT、科大訊飛、字節(jié)等多家企業(yè)集體降價,百萬Tokens低至1元,開啟了大模型“厘時代”。進入7月后,大模型價格戰(zhàn)仍然在繼續(xù)。這意味著,對企業(yè)和開發(fā)者而言,大模型像基礎設施一樣,相關成本降低后,服務創(chuàng)新應用也會持續(xù)增長。

自動駕駛、機器人迎來巨變

前沿應用,是AI最終改變?nèi)藗兩a(chǎn)和生活的落地之處。21世紀經(jīng)濟報道記者在本屆大會上觀察到,大模型正在扎進越來越多的垂直場景,逐步實現(xiàn)商業(yè)化落地。

吳泳銘表示,生成式AI讓世界有了一個統(tǒng)一的語言——Token。它可以是任何文字、代碼、圖像、視頻、聲音,或者是人類千百年來的思考。AI模型可以通過對物理世界數(shù)據(jù)的Token化,理解真實世界的方方面面,比如人類行走、奔跑、駕駛車輛、使用工具,繪畫、作曲、寫作、表達、教學、編程的技巧,甚至是開公司創(chuàng)業(yè)。理解之后,AI就可以模仿人類去執(zhí)行物理世界的任務,這將帶來新的產(chǎn)業(yè)革命。

以汽車行業(yè)為例,“端到端”的大模型技術訓練將感知、決策、執(zhí)行三個功能模塊整合在一起,傳感器端收集信息,直接到另一個端,執(zhí)行端立刻執(zhí)行。本屆大會上,“自動駕駛”是最熱門的話題之一。

在“生成式AI重塑自動駕駛”主題討論中,小鵬汽車董事長、CEO何小鵬表示,有了大模型的加持,自動駕駛試驗車轉向、切線,甚至比人們自己開車還要流暢。目前,只是自動駕駛競爭的初級階段,未來,一定會有更多的突破出現(xiàn)。

英偉達全球副總裁、汽車事業(yè)部負責人吳新宙則表示,有了大模型,智能駕駛沒有上限。

21世紀經(jīng)濟報道記者觀察到,特斯拉的展位上實時播放“端到端”的視頻介紹,今年1月,特斯拉FSD升級到了基于“端到端”的V12版本,今年3月,特斯拉FSDV12版本正式在北美推送。

不過,“端到端”自動駕駛將功能模塊神經(jīng)網(wǎng)絡化,背后需要巨大的算力支撐和成本支出。目前,特斯拉FSD累計學習的人類駕駛視頻片段超過2000萬個,僅采集成本就需要50億元至80億元。截至2024年Q2季度,特斯拉自建超算中心AI算力已經(jīng)超過4萬張英偉達H100等效算力。

在吳泳銘看來,機器人將是下一個迎來巨變的行業(yè)。未來,所有能移動的物體都會變成智能機器人。它可以是工廠里的機械臂、工地里的起重機、倉庫里的搬運工、救火現(xiàn)場的消防員,包括家庭里的寵物狗、保姆、助理。

人形機器人同樣是AI應用的重要領域。杭州聰寶科技有限公司總裁顧高生在接受21世紀經(jīng)濟報道記者采訪時表示,企業(yè)參與了復旦大學工程與應用技術研究院智能機器人研究院研發(fā)的“光華一號”人形機器人,該產(chǎn)品目標定位為老年人的“保健醫(yī)生”,將中醫(yī)藥診療的大模型與機器人結合起來,可以提供中醫(yī)調養(yǎng)按摩、中醫(yī)咨詢、情感陪護等。

“以往機器人采用固定的機械臂,按照固定程序進行機械動作,但現(xiàn)在智能機器人有很多傳感器、雷達、攝像頭,可以進行圖像識別和更多智能化的動作。大模型也大大提升了機器人的決策能力,未來機器人會變得更加聰明。”顧高生說。

目前,機器人的大模型成本已經(jīng)明顯下降,但傳感器等零部件成本依然比較高。

不少機器人企業(yè)告訴21世紀經(jīng)濟報道記者,人形機器人的競爭目前還在產(chǎn)品性能,AI和機器人硬件的成本都不低,雖然目前大模型的成本在下降,但人形機器人企業(yè)需要投入自身的研發(fā)成本進行強化學習、模仿學習等,目前還未有清晰的商業(yè)化應用場景。

不過,一些機器人企業(yè)已經(jīng)找到細分的落地方向,逐步實現(xiàn)量產(chǎn),杭州宇樹科技有限公司是其中的代表。目前,企業(yè)的兩款人形機器人Unitree G1、H1和兩款四足機器狗已實現(xiàn)量產(chǎn)。H1是全球首款實現(xiàn)原地后空翻的電驅人形機器人,已在汽車工廠成功部署,可進行搬運等工作。

21財經(jīng)客戶端下載