http://www.sharifulalam.com 2025-06-16 10:35 來源:中國信息化周報
近日,東風柳州汽車有限公司(以下簡稱“東風柳汽”)與智平方(深圳)科技有限公司(以下簡稱“智平方”)簽署戰(zhàn)略合作協(xié)議,探索具身大模型在汽車制造全方位場景的首次深度應用。
搭載智平方全域全身VLA(GOVLA)大模型的通用智能機器人AlphaBot 2(愛寶)將進駐東風柳汽汽車工廠,在柔性裝配、油液加注、安全巡檢等多個場景執(zhí)行智能化作業(yè),覆蓋質量檢測、裝配作業(yè)、物流轉運、工廠運維等關鍵制造環(huán)節(jié)。這是通用智能機器人探索“進廠打工”的最新一例,標志著國產具身大模型首次獲得汽車制造全場景驗證。
VLA(視覺-語言-動作模型)作為具身智能領域的關鍵新范式,能有效整合視覺信息、語言指令與行動決策,顯著提升機器人對復雜環(huán)境的理解和適應能力,對推動機器人從單一任務執(zhí)行向多樣化場景自主決策的跨越至關重要。但在實際應用過程中,VLA模型在泛化能力、精確性、多模態(tài)信息融合上仍存挑戰(zhàn)。
VLA僅是具身智能的起點
具身智能旨在讓智能體在物理世界中通過感知、決策和行動來實現(xiàn)目標,而視覺-語言-動作(VLA)模型作為其中的關鍵技術,近年來備受關注。
例如,在機器人任務中,VLA模型可以根據(jù)看到的場景(視覺)和接收到的任務指令(語言)來決定如何移動和操作(行動),其末端執(zhí)行器或特定參考點在空間中所經過的路徑便是運動軌跡,通過VLA模型對多模態(tài)信息的處理和分析,能夠不斷優(yōu)化和調整運動軌跡,使機器人能夠高效、準確、安全地完成各種任務。
2023年8月,谷歌DeepMind推出機器人模型Robotics Transformer 2(RT-2),是全球第一個控制機器人的視覺-語言-動作大模型(Vision Language Action Models,VLAs),10月發(fā)布RT-X機器人大模型。
如今,VLA模型已廣泛擴散至輔助駕駛領域。3月18日,理想發(fā)布了下一代自動駕駛架構MindVLA,成功整合了空間智能、語言智能和行為智能;隨后的4月,小鵬披露其正在研發(fā)的720億參數(shù)自動駕駛大模型——小鵬世界基座模型,該模型以大語言模型為骨干網絡,通過海量優(yōu)質駕駛數(shù)據(jù)訓練而成,具備視覺理解、鏈式推理和動作生成三大核心能力;此外,吉利、奇瑞等車企也在積極研發(fā)布局VLA大模型。
而在6月6日的2025智源大會上,銀河通用機器人Galbot G1也亮相現(xiàn)場,機器人在語音指令下自主、精確的從現(xiàn)場搭建的貨架上抓取對應物品,全程無遙操、自主推理、且事先無采集場景數(shù)據(jù)。此次Galbot G1展示的貨架精準取貨,背后的技術正是銀河通用團隊最新研發(fā)的端到端具身大模型Grocery VLA。
對于VLA的泛化性,銀河通用創(chuàng)始人兼CTO(首席技術官)王鶴認為,“VLA是當下具身研究的熱點,但VLA只是一個起點,要真正做到人類級別的具身智能,只能是不斷融合新的模態(tài)。VLA面對的很多任務,在工業(yè)、商業(yè)、服務等方面都有非常廣泛的應用,如果把這樣的VLA做好,將見證具身智能第一次真正高峰的到來。”
中關村人才協(xié)會RWA工作委員會常務副主任及秘書長吳高斌向《中國信息化周報》記者表示:“盡管VLA模型在整合視覺信息、語言指令與行動決策方面表現(xiàn)出色,但在實際應用中仍面臨環(huán)多方面挑戰(zhàn),真實生產環(huán)境中存在諸多不確定性因素,如光照變化、噪聲干擾等,這些因素可能影響VLA模型的準確性和穩(wěn)定性。雖然VLA模型在處理簡單任務時表現(xiàn)出色,但在面對復雜、長程任務時,如何有效規(guī)劃行動路徑、避免沖突等仍是需要解決的問題。如何提高模型的泛化能力,減少對特定環(huán)境依賴,是未來研究重點。”
天使投資人、資深人工智能專家郭濤接受《中國信息化周報》記者采訪時表示:“VLA模型在工業(yè)場景的深化應用仍面臨多重技術挑戰(zhàn)。其一,多模態(tài)信息融合精度亟待提升,工業(yè)環(huán)境中的光照變化、部件遮擋等因素易造成視覺感知誤差,需進一步優(yōu)化跨模態(tài)對齊算法;其二,長程任務規(guī)劃系統(tǒng)的魯棒性不足,面對動態(tài)產線干擾時,語言指令解析與動作執(zhí)行的容錯機制仍需完善;其三,數(shù)據(jù)獲取與處理存在瓶頸,汽車制造領域數(shù)據(jù)樣本稀缺且標注成本高昂,如何通過小樣本學習技術實現(xiàn)模型對不同車型產線的快速適配,成為制約技術規(guī)?;瘧玫年P鍵難題。”
機器人打工首獲汽車全場景驗證
近年來,人形機器人的發(fā)布會總少不了“太空步”“后空翻”等表演。而在東風柳汽的實際應用場景中,智平方愛寶展現(xiàn)出全方位的智能化作業(yè)能力。
例如,在上下料場景,愛寶能夠精準完成從料車搬箱、姿態(tài)調整到定位放置的全流程作業(yè),同步完成取件、滅燈及轉身放置,顯著提升搬運效率和操作靈活性;在拖拽料車場景,基于全域環(huán)境感知技術,機器人可實時分析產線運行狀態(tài),自主規(guī)劃最優(yōu)路徑并安全介入,實現(xiàn)空料車的精準拖拽;在車門質檢與貼保護布環(huán)節(jié),GOVLA大模型協(xié)調視覺、決策與動作系統(tǒng),讓愛寶能夠自主執(zhí)行車門識別、車門檢測、漆面掃描、抓取保護布、保護布貼合等多步驟復雜任務,確保長程任務穩(wěn)定操作。
這種能力的背后,是智平方大模型的革新。作為國內最早提出并系統(tǒng)性研發(fā)端到端VLA技術范式的企業(yè),智平方于今年4月在原有具身大模型AI2R Brain基礎上正式發(fā)布全球首個自主研發(fā)的GOVLA大模型。該具身大模型具備從桌面到開放環(huán)境的適應能力、從單臂到全身協(xié)同的操作能力,以及從簡單任務到長程復雜任務的推理能力。
“東風柳汽本次與智平方的合作,不僅體現(xiàn)了技術從實驗室到工業(yè)場景的落地能力,更通過真實生產環(huán)境的數(shù)據(jù)反饋,推動了具身智能技術的快速迭代。對于汽車制造業(yè)而言,智能化升級是提升效率、降低成本、增強競爭力的關鍵路徑,而此次合作正是這一趨勢的生動實踐。”北京市社會科學院副研究員王鵬向《中國信息化周報》記者說道。
郭濤認為,“這項創(chuàng)新應用開創(chuàng)了具身大模型在汽車制造全流程落地的先河,徹底打破傳統(tǒng)工業(yè)機器人‘專機專用’的技術桎梏。相較以往,本次技術升級實現(xiàn)三大維度突破:在任務執(zhí)行層面,憑借34+自由度全身協(xié)同控制系統(tǒng),機器人可靈活切換裝配、檢測、巡檢等跨工序作業(yè),顯著提升生產柔性;環(huán)境適應方面,通過360°全域自主導航與多車型混線生產適配技術,有效解決傳統(tǒng)機器人部署周期長、產線調整效率低的行業(yè)痛點;決策能力維度,基于GOVLA模型構建的視覺-語言-動作閉環(huán)系統(tǒng),賦予機器人自主完成油液加注等復雜復合任務的能力,較傳統(tǒng)示教編程模式大幅提升生產效率”。
近年來,機器人公司加速進入工業(yè)場景,如開普勒與全球前五大主機廠及頭部物流公司展開合作,優(yōu)必選在極氪汽車5G智慧工廠完成多場景多任務機器人協(xié)同實訓,比亞迪通過工業(yè)人形機器人Walker S1與無人車協(xié)同作業(yè)打通產品從來料到生產的物流鏈路。具身智能的進化,離不開海量真實數(shù)據(jù)的聚合。通過在制造工廠的場景應用,可以為國產機器人提供最佳的“實戰(zhàn)訓練場”。