http://www.sharifulalam.com 2025-06-18 09:25 來源:中國信息化周報
當(dāng)談到具身智能時,大多數(shù)不明就里的人往往會問:具身智能是否就等于人形機(jī)器人?因?yàn)槿诵螜C(jī)器人被廣泛提及,熱度也最高。其實(shí)不然,從技術(shù)的角度來講,具身智能是指通過物理實(shí)體與周圍環(huán)境進(jìn)行互動,從而不斷增長智能的系統(tǒng)。它不僅僅局限于人形機(jī)器人,而是指任何能在空間中移動的有形智能機(jī)器。
對此,華為云盤古大模型CTO李寅解釋道,具身智能是一個更寬泛的概念,能夠與不同的硬件本體結(jié)合,包括但不限于人形機(jī)器人、特種機(jī)器人、機(jī)械臂、無人機(jī)、無人船等。
三種主流技術(shù)路線
北京智源人工智能研究院研究員王業(yè)全表示,目前,以人形機(jī)器人為代表的具身智能包含三個要點(diǎn):一是智能化;二是運(yùn)動控制;三是本體。其中,對于智能化而言,端到端是目前的主流技術(shù)路線。他表示,自動駕駛領(lǐng)域,端到端的技術(shù)路線被視為通向高級別自動駕駛的關(guān)鍵。此外,大腦+小腦也是智能化技術(shù)路線中的重要組成部分,其本質(zhì)是模仿人類,大腦主要負(fù)責(zé)高級認(rèn)知功能,包括思維、記憶、情感等,小腦主要負(fù)責(zé)運(yùn)動控制方面的功能。
在運(yùn)動控制技術(shù)路線中,強(qiáng)化學(xué)習(xí)發(fā)揮了巨大作用,能夠使機(jī)器人通過與環(huán)境的交互學(xué)習(xí)最優(yōu)的行為策略,但存在數(shù)據(jù)獲取成本較高,且獎勵信號對運(yùn)動影響大的問題。“如果大家用過市面上的多種機(jī)器人,會發(fā)現(xiàn)有些機(jī)器人的腳步聲音很輕,有些機(jī)器人腳步聲音很重。之所以出現(xiàn)這種現(xiàn)象,可能是因?yàn)橛?xùn)練模型相關(guān)控制策略時,關(guān)注更多的是機(jī)器人能否穩(wěn)定行走,而不是腳步的輕與重。這是強(qiáng)化學(xué)習(xí)路線的特點(diǎn),更看重‘獎勵’和‘懲罰’,設(shè)置什么‘獎懲’目標(biāo),就會帶來對應(yīng)的效果。”王業(yè)全解釋道。
除此之外,模仿學(xué)習(xí)也是運(yùn)動控制的重要技術(shù)路線。王業(yè)全表示,人類是具備智能的,具身智能人形機(jī)器人就是對人類的模仿,在這種情況下,讓機(jī)器人像人是一條可行之路。這一思路沒有問題,但是實(shí)踐面臨頗多問題。
強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)都有各自的優(yōu)缺點(diǎn),那如果將二者結(jié)合起來,形成強(qiáng)強(qiáng)聯(lián)合是不是一種更好的思路呢?對此,王業(yè)全表示,目前科研界正在探索將強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的優(yōu)點(diǎn)結(jié)合起來。
在本體技術(shù)路線中,本體電動驅(qū)動是主流方案,其好處是響應(yīng)速度、控制精度和靜音性較好,缺點(diǎn)是成本比較高。王業(yè)全舉例說道,波士頓動力基于液壓驅(qū)動做了大量工作,取得了非常好的效果。液壓驅(qū)動的好處是輸出功率高、續(xù)航性能好,并且能夠負(fù)重,缺點(diǎn)是噪音較大,輕量化較難。此外,王業(yè)全還表示,除電動驅(qū)動和液壓驅(qū)動方式之外,還有氣動驅(qū)動或其他的驅(qū)動方式,目前還處于實(shí)驗(yàn)室探索階段。
產(chǎn)業(yè)應(yīng)用需循序漸進(jìn)
王業(yè)全表示,從應(yīng)用的角度來說,具身智能有非常龐大的場景和領(lǐng)域,但對能力要求很高。從短期來看,具身智能的部分重點(diǎn)能力可能產(chǎn)生一定的突破并且聚焦于特定垂類場景。長期來看,具身智能一定會進(jìn)入通用化的發(fā)展階段,這樣才可能達(dá)到機(jī)器人具備類人智能的長期目標(biāo)。
李寅表示,2024年,具身智能技術(shù)剛開始出現(xiàn)之后,政府的賦能作用可能更為凸顯,就是通過扶持科研機(jī)構(gòu)、高校以及初創(chuàng)企業(yè)做一些場景的創(chuàng)新和孵化。2025年到2026年,當(dāng)具身智能開始更多涉及產(chǎn)業(yè)落地時,應(yīng)該從一些比較成熟的場景中去找到具身智能的落地計劃。2027年之后,具身智能可能會實(shí)現(xiàn)從工業(yè)到家用的規(guī)模復(fù)制,此時具身智能才可能真正走進(jìn)人們的生產(chǎn)和生活。
對此,中興通訊股份有限公司機(jī)器人產(chǎn)品總工張慧說的更為具體。她表示,談到具身智能,更多的是面向非結(jié)構(gòu)化和柔性化的場景。在當(dāng)前的技術(shù)背景下,工業(yè)領(lǐng)域可以更快地實(shí)現(xiàn)應(yīng)用,因?yàn)楣I(yè)領(lǐng)域不僅存在很多人為限定的非結(jié)構(gòu)化場景,柔性化的場景種類也是有限的。在工業(yè)領(lǐng)域積累更多能力之后,再面向商業(yè)場景、生活場景等泛化性要求更高的場景去做應(yīng)用。
具體來看,在工業(yè)領(lǐng)域中,物料分揀、柔性上下料、倉儲物流因需求迫切、場景可控,可能成為最先落地方向。例如,巨一科技聚焦 SMT 物料分選與大型生產(chǎn)現(xiàn)場物流配送,預(yù)計1年內(nèi)實(shí)現(xiàn)應(yīng)用;中興通訊關(guān)注電子元器件分揀與單板插拔,海信則探索展廳講解與大件物料上下料。而在商業(yè)服務(wù)領(lǐng)域中,導(dǎo)購、清潔、前臺接待等場景需求明確,短期內(nèi)可實(shí)現(xiàn)。
從可用到好用的挑戰(zhàn)
2022年之前,具身智能往往面臨單一的任務(wù)、單一的場景和單一的本體,大模型出現(xiàn)之后,具身智能盡管能解決多種任務(wù),跨越不同本體,面對不同場景,但也存在不好用、不易用、不通用的科學(xué)難題,需要研究更加“聰明”的大腦模型和跨本體的大小腦結(jié)構(gòu)框架,來實(shí)現(xiàn)跨本體、跨場景、可泛化的具身智能。
李寅表示,當(dāng)前,具身智能與物理世界的精準(zhǔn)交互,對大模型提出了更高要求。像盤古和DeepSeek等語言類模型,解決的是從感知到認(rèn)知,再到?jīng)Q策的問題,并沒有解決精神或思維層面上的問題,從而無法實(shí)現(xiàn)與物理世界的真正交互。實(shí)際上,感知、認(rèn)知、決策的下一步應(yīng)該是執(zhí)行,執(zhí)行就涉及到與物理世界的交互,只有具身智能和大模型的結(jié)合才有可能解決這一問題。
在具身智能落地應(yīng)用的過程中,李寅認(rèn)為存在三大難點(diǎn):一是數(shù)據(jù)嚴(yán)重不足。她表示,工業(yè)產(chǎn)線大多數(shù)是半結(jié)構(gòu)化或半標(biāo)準(zhǔn)化的場景,盡管它與泛化性要求更高的家用場景有一定區(qū)別,但即使完成在大家看來很簡單的操作,對具身智能來說也是非常復(fù)雜的長程任務(wù)。例如,在手機(jī)裝配線上,將手機(jī)、電源線、手機(jī)膜、說明書等統(tǒng)一放在一個包裝盒中,就是目前行業(yè)內(nèi)正在攻關(guān)的一個技術(shù)難點(diǎn)。目前,解決這些問題所需要的數(shù)據(jù)依然是稀缺的。
二是模型。李寅表示,目前,具身智能模型百花齊放,到底最終的模型應(yīng)該做成什么樣,才能讓這個模型具備強(qiáng)大的推理能力,能夠理解真實(shí)世界復(fù)雜的環(huán)境并且準(zhǔn)確的執(zhí)行任務(wù),而且還具備一定的魯棒性和泛化性,這也是具身智能面臨的技術(shù)難點(diǎn)。
三是具身智能在產(chǎn)業(yè)應(yīng)用中不僅要面對不同的領(lǐng)域和場景,任務(wù)類型也極其碎片化。在這種情況下,如果要想聯(lián)合打造具身智能系統(tǒng),就需要提供完整的工具鏈,這也是亟待突破的一個難點(diǎn)。
王業(yè)全表示,一方面,目前的大模型還無法滿足具身智能對于視、聽、說、想、做多種模態(tài)聯(lián)合建模的要求,另一方面,還不具備自我認(rèn)知、類人記憶以及人物識別等能力。此外,在相關(guān)的技術(shù)路線中,無論是VLA路線還是其他路線都存在數(shù)據(jù)成本極高、泛化性不好的問題。“傳統(tǒng)機(jī)器人開發(fā)遵循‘控制設(shè)計-算法實(shí)現(xiàn)-仿真調(diào)試’流程,具身智能時代轉(zhuǎn)向‘數(shù)據(jù)驅(qū)動+ 模型訓(xùn)練’,需解決異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化、模型積木式組合等問題。”國家地方共建人形機(jī)器人創(chuàng)新中心劉宇飛如是說。
不僅如此,在操作智能方面,還需攻克成功率、穩(wěn)定性與魯棒性難題,并且能夠有效應(yīng)對光照變化、工件差異及環(huán)境振動等環(huán)境的干擾。此外,動態(tài)平衡與多機(jī)器人一致性,情感表達(dá)、意圖理解、語音交互的自然性,以及軟硬件的工程化問題也亟待解決。
未來,全模態(tài)大模型一定會成為具身智能的核心。在具身智能發(fā)展演進(jìn)的過程中,無論是全面的環(huán)境感知能力,還是無損的信息捕獲能力、類人的思考能力、泛化能力以及一致、準(zhǔn)確、合理的行為輸出,對于具身智能來說都是需要具備的。只有具備這些能力,才能更快地實(shí)現(xiàn)從可用到好用的跨越。