以“創(chuàng)業(yè)投資開啟AI技術與應用共振周期”為主題的啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇近日在滬舉行。在“具身智能的奇點時刻”專題對話環(huán)節(jié),多名業(yè)內專家一致認為,具身智能已站在奇點到來的早期窗口。當前,具身智能技術雖未完全收斂,但已處于快速發(fā)展階段。
啟明創(chuàng)投主管合伙人周志峰表示,具身智能機器人將率先在揀選、搬運、組裝等場景實現(xiàn)規(guī)模化部署,積累大量機器人第一視角數(shù)據(jù)與帶觸覺的操作數(shù)據(jù),構建“模型—本體—場景數(shù)據(jù)”的閉環(huán)飛輪。這一飛輪將驅動模型能力迭代,最終推動通用機器人邁向大規(guī)模落地。
站在具身智能奇點的“前夜”,原力靈機聯(lián)合創(chuàng)始人兼首席執(zhí)行官、曠視科技聯(lián)合創(chuàng)始人唐文斌表示,投身具身智能行業(yè)最大的信心,來自于看到大模型領域鏈式推理(CoT)與智能體(Agent)能力的巨大潛力。唐文斌認為,機器人從專用走向通用有兩個必要條件,一個是對物理世界的精確感知能力,一個是對復雜任務的規(guī)劃和推理能力。
具身智能來到發(fā)展的關鍵階段
從進廠擰螺絲,到便利店遞可樂,具身智能作為人工智能與機器人技術融合的前沿領域,目前已來到技術突破與產業(yè)培育的關鍵階段。
“具身智能技術過去兩年的發(fā)展速度,已超越此前多年積累,進入‘越跑越快’階段。”它石智航創(chuàng)始人兼首席執(zhí)行官陳亦倫表示,一方面,業(yè)內對端到端技術的信息倍增,操作領域實驗室樣機能力顯著提升;另一方面,多模態(tài)大模型發(fā)展?jié)摿κ悖曈X、語言等模態(tài)的進步尚未觸頂,數(shù)據(jù)驅動能力持續(xù)增強。從硬件成熟度上來看,高自由度終端(如靈巧手)和接近量產的形態(tài)加速落地。
唐文斌表示,具身智能的發(fā)展動力主要來自大模型在鏈式推理(CoT)與智能體(Agent)上的能力達到一定的臨界值。
“通用機器人的出現(xiàn),需同時滿足兩項必要條件:其一,對物理世界的高精度多模態(tài)感知。這也是我們過去創(chuàng)業(yè)十多年以來一直在做的事情,如今無論是小模型還是大模型,我們的多模感知能力已經做到了行業(yè)領先水平,并且還在不斷提升。”唐文斌說,“其二,復雜的規(guī)劃與推理能力,我們希望機器人能夠像人一樣實現(xiàn)敏捷的決策、結合多模態(tài)的感知實現(xiàn)對復雜問題的推理。兩者結合方可推動機器人邁向通用化,而當前Agent與CoT的進展,正使這一技術朝著可行的方向發(fā)展”。
技術尚未收斂 增長空間可觀
盡管發(fā)展速度極快、宏觀方向趨同,但具身智能技術尚未收斂。業(yè)內普遍認為,下一階段需通過量產落地驗證技術路線,加速標準制定與生態(tài)協(xié)作,推動分化領域逐步收斂。這一發(fā)展現(xiàn)狀也為創(chuàng)新企業(yè)提供了定義技術范式的戰(zhàn)略窗口期。
唐文斌認為,當前具身智能的技術路線尚未收斂,算法框架、數(shù)據(jù)來源、硬件形態(tài)與穩(wěn)定性以及場景落地的先后順序仍處于開放探索階段。
“雖然業(yè)內正逐步形成‘端到端、純數(shù)據(jù)驅動、采用類VLA(視覺—語言—動作)框架’的共識,并普遍認同多模態(tài)信息(視覺、觸覺、力覺、深度等)需統(tǒng)一納入大模型,但終極模型架構尚無定論。”唐文斌提到,現(xiàn)有VLA多為單幀模型,缺乏原生記憶機制,難以完成需要狀態(tài)累積的任務(如連續(xù)添加調料)。此外,“大小腦模型”將高頻執(zhí)行與低頻決策人為拆分,雖為當下工程實踐,但并非終極形態(tài);未來仍需探索單一模型如何以動態(tài)、柔性的頻率進行實時思考與決策。
“整體上看,技術框架仍面臨大量未解問題,而開放的不確定性正是推動行業(yè)持續(xù)創(chuàng)新的關鍵動力。”唐文斌說。
據(jù)陳亦倫介紹,在具身智能領域,業(yè)界已在宏觀層面形成高度共識,例如,數(shù)據(jù)被視為核心驅動力,模型最終部署形態(tài)大概率采用端到端架構等。不過,在具體實踐中,各個團隊的路徑差異明顯。“宏觀共識、微觀多元”成為行業(yè)現(xiàn)狀。
例如,數(shù)據(jù)獲取方面,有人主張大規(guī)模部署真機采集,有人傾向高比例仿真生成;算法層面,即便認同VLA的任務定義,網絡架構仍存分歧——是否采用單一大網絡、是否加入隱變量層、強化學習的選擇及世界模型必要性等問題仍在探索。硬件層面同樣多元,通用機器人形態(tài)分為雙足與輪式兩大類,雙足方案又存在直驅關節(jié)與復雜傳動機構等不同設計。
后端場景有先發(fā)優(yōu)勢
在實驗室場景下,機器人已具備“十八般武藝”,復刻了人類諸多技術和勞動。然而,在商業(yè)化應用中,機器人實際落地或遵循嚴謹?shù)南群箜樞颉?/p>
唐文斌認為,機器人的規(guī)模化應用大概率將從工業(yè)、物流等領域的后端場景起步。這類場景因規(guī)模大、勞動力密集,能產生更大價值。之后,具身智能逐步向商用場景拓展,最終走向民用。
“機器人能否落地的關鍵在于兩點:一是真正解決問題(能用、好用),二是經濟模型成立。”唐文斌說。
從技術與市場的結合角度,唐文斌還提出了三個關鍵標準:其一,堅持技術發(fā)展的正向梯度,即不過早將技術形態(tài)固化于特定垂直場景,避免犧牲泛化性,而是沿著技術演進的正確路徑推進,保持模型在通用能力上的迭代空間。其二,注重技術可達性,選擇容錯率較高、對操作時間容忍度更強的場景,逐步從90%向95%、100%優(yōu)化。其三,場景需具備規(guī)模與強需求。
陳亦倫則遵循高價值、有規(guī)模、有難度的“黃金三角”邏輯篩選機器人應用場景。他表示,公司會選擇用戶非常在意的真實需求、存在較大市場空間且上一代機器人技術難以解決的問題,最終實現(xiàn)通用機器人的AGI終極目標。
7月下旬,上海發(fā)放了新一批智能網聯(lián)汽車示范運營牌照。8月以來,全無人駕駛的出租車在上海市區(qū)開展日常運營。在技術底座上,無人駕駛和機器人共享“感知—決策—執(zhí)行”技術棧與產業(yè)鏈資源,有望形成“車—機共生”生態(tài)。未來,兩大領域將從協(xié)同研發(fā)走向規(guī)模化發(fā)展。
陳亦倫表示,具身智能和自動駕駛在任務場景和底層技術上同宗同源,模型技術可以復用,工程能力可以遷移,自動駕駛行業(yè)的經驗與認知也能幫助具身智能領域的探索與落地。
校對:陶謙