http://www.sharifulalam.com 2025-06-18 09:25 來源:中國信息化周報
當談到具身智能時,大多數不明就里的人往往會問:具身智能是否就等于人形機器人?因為人形機器人被廣泛提及,熱度也最高。其實不然,從技術的角度來講,具身智能是指通過物理實體與周圍環境進行互動,從而不斷增長智能的系統。它不僅僅局限于人形機器人,而是指任何能在空間中移動的有形智能機器。
對此,華為云盤古大模型CTO李寅解釋道,具身智能是一個更寬泛的概念,能夠與不同的硬件本體結合,包括但不限于人形機器人、特種機器人、機械臂、無人機、無人船等。
三種主流技術路線
北京智源人工智能研究院研究員王業全表示,目前,以人形機器人為代表的具身智能包含三個要點:一是智能化;二是運動控制;三是本體。其中,對于智能化而言,端到端是目前的主流技術路線。他表示,自動駕駛領域,端到端的技術路線被視為通向高級別自動駕駛的關鍵。此外,大腦+小腦也是智能化技術路線中的重要組成部分,其本質是模仿人類,大腦主要負責高級認知功能,包括思維、記憶、情感等,小腦主要負責運動控制方面的功能。
在運動控制技術路線中,強化學習發揮了巨大作用,能夠使機器人通過與環境的交互學習最優的行為策略,但存在數據獲取成本較高,且獎勵信號對運動影響大的問題。“如果大家用過市面上的多種機器人,會發現有些機器人的腳步聲音很輕,有些機器人腳步聲音很重。之所以出現這種現象,可能是因為訓練模型相關控制策略時,關注更多的是機器人能否穩定行走,而不是腳步的輕與重。這是強化學習路線的特點,更看重‘獎勵’和‘懲罰’,設置什么‘獎懲’目標,就會帶來對應的效果。”王業全解釋道。
除此之外,模仿學習也是運動控制的重要技術路線。王業全表示,人類是具備智能的,具身智能人形機器人就是對人類的模仿,在這種情況下,讓機器人像人是一條可行之路。這一思路沒有問題,但是實踐面臨頗多問題。
強化學習和模仿學習都有各自的優缺點,那如果將二者結合起來,形成強強聯合是不是一種更好的思路呢?對此,王業全表示,目前科研界正在探索將強化學習和模仿學習的優點結合起來。
在本體技術路線中,本體電動驅動是主流方案,其好處是響應速度、控制精度和靜音性較好,缺點是成本比較高。王業全舉例說道,波士頓動力基于液壓驅動做了大量工作,取得了非常好的效果。液壓驅動的好處是輸出功率高、續航性能好,并且能夠負重,缺點是噪音較大,輕量化較難。此外,王業全還表示,除電動驅動和液壓驅動方式之外,還有氣動驅動或其他的驅動方式,目前還處于實驗室探索階段。
產業應用需循序漸進
王業全表示,從應用的角度來說,具身智能有非常龐大的場景和領域,但對能力要求很高。從短期來看,具身智能的部分重點能力可能產生一定的突破并且聚焦于特定垂類場景。長期來看,具身智能一定會進入通用化的發展階段,這樣才可能達到機器人具備類人智能的長期目標。
李寅表示,2024年,具身智能技術剛開始出現之后,政府的賦能作用可能更為凸顯,就是通過扶持科研機構、高校以及初創企業做一些場景的創新和孵化。2025年到2026年,當具身智能開始更多涉及產業落地時,應該從一些比較成熟的場景中去找到具身智能的落地計劃。2027年之后,具身智能可能會實現從工業到家用的規模復制,此時具身智能才可能真正走進人們的生產和生活。
對此,中興通訊股份有限公司機器人產品總工張慧說的更為具體。她表示,談到具身智能,更多的是面向非結構化和柔性化的場景。在當前的技術背景下,工業領域可以更快地實現應用,因為工業領域不僅存在很多人為限定的非結構化場景,柔性化的場景種類也是有限的。在工業領域積累更多能力之后,再面向商業場景、生活場景等泛化性要求更高的場景去做應用。
具體來看,在工業領域中,物料分揀、柔性上下料、倉儲物流因需求迫切、場景可控,可能成為最先落地方向。例如,巨一科技聚焦 SMT 物料分選與大型生產現場物流配送,預計1年內實現應用;中興通訊關注電子元器件分揀與單板插拔,海信則探索展廳講解與大件物料上下料。而在商業服務領域中,導購、清潔、前臺接待等場景需求明確,短期內可實現。
從可用到好用的挑戰
2022年之前,具身智能往往面臨單一的任務、單一的場景和單一的本體,大模型出現之后,具身智能盡管能解決多種任務,跨越不同本體,面對不同場景,但也存在不好用、不易用、不通用的科學難題,需要研究更加“聰明”的大腦模型和跨本體的大小腦結構框架,來實現跨本體、跨場景、可泛化的具身智能。
李寅表示,當前,具身智能與物理世界的精準交互,對大模型提出了更高要求。像盤古和DeepSeek等語言類模型,解決的是從感知到認知,再到決策的問題,并沒有解決精神或思維層面上的問題,從而無法實現與物理世界的真正交互。實際上,感知、認知、決策的下一步應該是執行,執行就涉及到與物理世界的交互,只有具身智能和大模型的結合才有可能解決這一問題。
在具身智能落地應用的過程中,李寅認為存在三大難點:一是數據嚴重不足。她表示,工業產線大多數是半結構化或半標準化的場景,盡管它與泛化性要求更高的家用場景有一定區別,但即使完成在大家看來很簡單的操作,對具身智能來說也是非常復雜的長程任務。例如,在手機裝配線上,將手機、電源線、手機膜、說明書等統一放在一個包裝盒中,就是目前行業內正在攻關的一個技術難點。目前,解決這些問題所需要的數據依然是稀缺的。
二是模型。李寅表示,目前,具身智能模型百花齊放,到底最終的模型應該做成什么樣,才能讓這個模型具備強大的推理能力,能夠理解真實世界復雜的環境并且準確的執行任務,而且還具備一定的魯棒性和泛化性,這也是具身智能面臨的技術難點。
三是具身智能在產業應用中不僅要面對不同的領域和場景,任務類型也極其碎片化。在這種情況下,如果要想聯合打造具身智能系統,就需要提供完整的工具鏈,這也是亟待突破的一個難點。
王業全表示,一方面,目前的大模型還無法滿足具身智能對于視、聽、說、想、做多種模態聯合建模的要求,另一方面,還不具備自我認知、類人記憶以及人物識別等能力。此外,在相關的技術路線中,無論是VLA路線還是其他路線都存在數據成本極高、泛化性不好的問題。“傳統機器人開發遵循‘控制設計-算法實現-仿真調試’流程,具身智能時代轉向‘數據驅動+ 模型訓練’,需解決異構數據標準化、模型積木式組合等問題。”國家地方共建人形機器人創新中心劉宇飛如是說。
不僅如此,在操作智能方面,還需攻克成功率、穩定性與魯棒性難題,并且能夠有效應對光照變化、工件差異及環境振動等環境的干擾。此外,動態平衡與多機器人一致性,情感表達、意圖理解、語音交互的自然性,以及軟硬件的工程化問題也亟待解決。
未來,全模態大模型一定會成為具身智能的核心。在具身智能發展演進的過程中,無論是全面的環境感知能力,還是無損的信息捕獲能力、類人的思考能力、泛化能力以及一致、準確、合理的行為輸出,對于具身智能來說都是需要具備的。只有具備這些能力,才能更快地實現從可用到好用的跨越。