http://www.sharifulalam.com 2025-06-18 09:25 來(lái)源:中國(guó)信息化周報(bào)
當(dāng)談到具身智能時(shí),大多數(shù)不明就里的人往往會(huì)問(wèn):具身智能是否就等于人形機(jī)器人?因?yàn)槿诵螜C(jī)器人被廣泛提及,熱度也最高。其實(shí)不然,從技術(shù)的角度來(lái)講,具身智能是指通過(guò)物理實(shí)體與周圍環(huán)境進(jìn)行互動(dòng),從而不斷增長(zhǎng)智能的系統(tǒng)。它不僅僅局限于人形機(jī)器人,而是指任何能在空間中移動(dòng)的有形智能機(jī)器。
對(duì)此,華為云盤古大模型CTO李寅解釋道,具身智能是一個(gè)更寬泛的概念,能夠與不同的硬件本體結(jié)合,包括但不限于人形機(jī)器人、特種機(jī)器人、機(jī)械臂、無(wú)人機(jī)、無(wú)人船等。
三種主流技術(shù)路線
北京智源人工智能研究院研究員王業(yè)全表示,目前,以人形機(jī)器人為代表的具身智能包含三個(gè)要點(diǎn):一是智能化;二是運(yùn)動(dòng)控制;三是本體。其中,對(duì)于智能化而言,端到端是目前的主流技術(shù)路線。他表示,自動(dòng)駕駛領(lǐng)域,端到端的技術(shù)路線被視為通向高級(jí)別自動(dòng)駕駛的關(guān)鍵。此外,大腦+小腦也是智能化技術(shù)路線中的重要組成部分,其本質(zhì)是模仿人類,大腦主要負(fù)責(zé)高級(jí)認(rèn)知功能,包括思維、記憶、情感等,小腦主要負(fù)責(zé)運(yùn)動(dòng)控制方面的功能。
在運(yùn)動(dòng)控制技術(shù)路線中,強(qiáng)化學(xué)習(xí)發(fā)揮了巨大作用,能夠使機(jī)器人通過(guò)與環(huán)境的交互學(xué)習(xí)最優(yōu)的行為策略,但存在數(shù)據(jù)獲取成本較高,且獎(jiǎng)勵(lì)信號(hào)對(duì)運(yùn)動(dòng)影響大的問(wèn)題。“如果大家用過(guò)市面上的多種機(jī)器人,會(huì)發(fā)現(xiàn)有些機(jī)器人的腳步聲音很輕,有些機(jī)器人腳步聲音很重。之所以出現(xiàn)這種現(xiàn)象,可能是因?yàn)橛?xùn)練模型相關(guān)控制策略時(shí),關(guān)注更多的是機(jī)器人能否穩(wěn)定行走,而不是腳步的輕與重。這是強(qiáng)化學(xué)習(xí)路線的特點(diǎn),更看重‘獎(jiǎng)勵(lì)’和‘懲罰’,設(shè)置什么‘獎(jiǎng)懲’目標(biāo),就會(huì)帶來(lái)對(duì)應(yīng)的效果。”王業(yè)全解釋道。
除此之外,模仿學(xué)習(xí)也是運(yùn)動(dòng)控制的重要技術(shù)路線。王業(yè)全表示,人類是具備智能的,具身智能人形機(jī)器人就是對(duì)人類的模仿,在這種情況下,讓機(jī)器人像人是一條可行之路。這一思路沒(méi)有問(wèn)題,但是實(shí)踐面臨頗多問(wèn)題。
強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)都有各自的優(yōu)缺點(diǎn),那如果將二者結(jié)合起來(lái),形成強(qiáng)強(qiáng)聯(lián)合是不是一種更好的思路呢?對(duì)此,王業(yè)全表示,目前科研界正在探索將強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的優(yōu)點(diǎn)結(jié)合起來(lái)。
在本體技術(shù)路線中,本體電動(dòng)驅(qū)動(dòng)是主流方案,其好處是響應(yīng)速度、控制精度和靜音性較好,缺點(diǎn)是成本比較高。王業(yè)全舉例說(shuō)道,波士頓動(dòng)力基于液壓驅(qū)動(dòng)做了大量工作,取得了非常好的效果。液壓驅(qū)動(dòng)的好處是輸出功率高、續(xù)航性能好,并且能夠負(fù)重,缺點(diǎn)是噪音較大,輕量化較難。此外,王業(yè)全還表示,除電動(dòng)驅(qū)動(dòng)和液壓驅(qū)動(dòng)方式之外,還有氣動(dòng)驅(qū)動(dòng)或其他的驅(qū)動(dòng)方式,目前還處于實(shí)驗(yàn)室探索階段。
產(chǎn)業(yè)應(yīng)用需循序漸進(jìn)
王業(yè)全表示,從應(yīng)用的角度來(lái)說(shuō),具身智能有非常龐大的場(chǎng)景和領(lǐng)域,但對(duì)能力要求很高。從短期來(lái)看,具身智能的部分重點(diǎn)能力可能產(chǎn)生一定的突破并且聚焦于特定垂類場(chǎng)景。長(zhǎng)期來(lái)看,具身智能一定會(huì)進(jìn)入通用化的發(fā)展階段,這樣才可能達(dá)到機(jī)器人具備類人智能的長(zhǎng)期目標(biāo)。
李寅表示,2024年,具身智能技術(shù)剛開始出現(xiàn)之后,政府的賦能作用可能更為凸顯,就是通過(guò)扶持科研機(jī)構(gòu)、高校以及初創(chuàng)企業(yè)做一些場(chǎng)景的創(chuàng)新和孵化。2025年到2026年,當(dāng)具身智能開始更多涉及產(chǎn)業(yè)落地時(shí),應(yīng)該從一些比較成熟的場(chǎng)景中去找到具身智能的落地計(jì)劃。2027年之后,具身智能可能會(huì)實(shí)現(xiàn)從工業(yè)到家用的規(guī)模復(fù)制,此時(shí)具身智能才可能真正走進(jìn)人們的生產(chǎn)和生活。
對(duì)此,中興通訊股份有限公司機(jī)器人產(chǎn)品總工張慧說(shuō)的更為具體。她表示,談到具身智能,更多的是面向非結(jié)構(gòu)化和柔性化的場(chǎng)景。在當(dāng)前的技術(shù)背景下,工業(yè)領(lǐng)域可以更快地實(shí)現(xiàn)應(yīng)用,因?yàn)楣I(yè)領(lǐng)域不僅存在很多人為限定的非結(jié)構(gòu)化場(chǎng)景,柔性化的場(chǎng)景種類也是有限的。在工業(yè)領(lǐng)域積累更多能力之后,再面向商業(yè)場(chǎng)景、生活場(chǎng)景等泛化性要求更高的場(chǎng)景去做應(yīng)用。
具體來(lái)看,在工業(yè)領(lǐng)域中,物料分揀、柔性上下料、倉(cāng)儲(chǔ)物流因需求迫切、場(chǎng)景可控,可能成為最先落地方向。例如,巨一科技聚焦 SMT 物料分選與大型生產(chǎn)現(xiàn)場(chǎng)物流配送,預(yù)計(jì)1年內(nèi)實(shí)現(xiàn)應(yīng)用;中興通訊關(guān)注電子元器件分揀與單板插拔,海信則探索展廳講解與大件物料上下料。而在商業(yè)服務(wù)領(lǐng)域中,導(dǎo)購(gòu)、清潔、前臺(tái)接待等場(chǎng)景需求明確,短期內(nèi)可實(shí)現(xiàn)。
從可用到好用的挑戰(zhàn)
2022年之前,具身智能往往面臨單一的任務(wù)、單一的場(chǎng)景和單一的本體,大模型出現(xiàn)之后,具身智能盡管能解決多種任務(wù),跨越不同本體,面對(duì)不同場(chǎng)景,但也存在不好用、不易用、不通用的科學(xué)難題,需要研究更加“聰明”的大腦模型和跨本體的大小腦結(jié)構(gòu)框架,來(lái)實(shí)現(xiàn)跨本體、跨場(chǎng)景、可泛化的具身智能。
李寅表示,當(dāng)前,具身智能與物理世界的精準(zhǔn)交互,對(duì)大模型提出了更高要求。像盤古和DeepSeek等語(yǔ)言類模型,解決的是從感知到認(rèn)知,再到?jīng)Q策的問(wèn)題,并沒(méi)有解決精神或思維層面上的問(wèn)題,從而無(wú)法實(shí)現(xiàn)與物理世界的真正交互。實(shí)際上,感知、認(rèn)知、決策的下一步應(yīng)該是執(zhí)行,執(zhí)行就涉及到與物理世界的交互,只有具身智能和大模型的結(jié)合才有可能解決這一問(wèn)題。
在具身智能落地應(yīng)用的過(guò)程中,李寅認(rèn)為存在三大難點(diǎn):一是數(shù)據(jù)嚴(yán)重不足。她表示,工業(yè)產(chǎn)線大多數(shù)是半結(jié)構(gòu)化或半標(biāo)準(zhǔn)化的場(chǎng)景,盡管它與泛化性要求更高的家用場(chǎng)景有一定區(qū)別,但即使完成在大家看來(lái)很簡(jiǎn)單的操作,對(duì)具身智能來(lái)說(shuō)也是非常復(fù)雜的長(zhǎng)程任務(wù)。例如,在手機(jī)裝配線上,將手機(jī)、電源線、手機(jī)膜、說(shuō)明書等統(tǒng)一放在一個(gè)包裝盒中,就是目前行業(yè)內(nèi)正在攻關(guān)的一個(gè)技術(shù)難點(diǎn)。目前,解決這些問(wèn)題所需要的數(shù)據(jù)依然是稀缺的。
二是模型。李寅表示,目前,具身智能模型百花齊放,到底最終的模型應(yīng)該做成什么樣,才能讓這個(gè)模型具備強(qiáng)大的推理能力,能夠理解真實(shí)世界復(fù)雜的環(huán)境并且準(zhǔn)確的執(zhí)行任務(wù),而且還具備一定的魯棒性和泛化性,這也是具身智能面臨的技術(shù)難點(diǎn)。
三是具身智能在產(chǎn)業(yè)應(yīng)用中不僅要面對(duì)不同的領(lǐng)域和場(chǎng)景,任務(wù)類型也極其碎片化。在這種情況下,如果要想聯(lián)合打造具身智能系統(tǒng),就需要提供完整的工具鏈,這也是亟待突破的一個(gè)難點(diǎn)。
王業(yè)全表示,一方面,目前的大模型還無(wú)法滿足具身智能對(duì)于視、聽、說(shuō)、想、做多種模態(tài)聯(lián)合建模的要求,另一方面,還不具備自我認(rèn)知、類人記憶以及人物識(shí)別等能力。此外,在相關(guān)的技術(shù)路線中,無(wú)論是VLA路線還是其他路線都存在數(shù)據(jù)成本極高、泛化性不好的問(wèn)題。“傳統(tǒng)機(jī)器人開發(fā)遵循‘控制設(shè)計(jì)-算法實(shí)現(xiàn)-仿真調(diào)試’流程,具身智能時(shí)代轉(zhuǎn)向‘數(shù)據(jù)驅(qū)動(dòng)+ 模型訓(xùn)練’,需解決異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化、模型積木式組合等問(wèn)題。”國(guó)家地方共建人形機(jī)器人創(chuàng)新中心劉宇飛如是說(shuō)。
不僅如此,在操作智能方面,還需攻克成功率、穩(wěn)定性與魯棒性難題,并且能夠有效應(yīng)對(duì)光照變化、工件差異及環(huán)境振動(dòng)等環(huán)境的干擾。此外,動(dòng)態(tài)平衡與多機(jī)器人一致性,情感表達(dá)、意圖理解、語(yǔ)音交互的自然性,以及軟硬件的工程化問(wèn)題也亟待解決。
未來(lái),全模態(tài)大模型一定會(huì)成為具身智能的核心。在具身智能發(fā)展演進(jìn)的過(guò)程中,無(wú)論是全面的環(huán)境感知能力,還是無(wú)損的信息捕獲能力、類人的思考能力、泛化能力以及一致、準(zhǔn)確、合理的行為輸出,對(duì)于具身智能來(lái)說(shuō)都是需要具備的。只有具備這些能力,才能更快地實(shí)現(xiàn)從可用到好用的跨越。