http://www.sharifulalam.com 2024-12-30 15:08 來源:科創板日報
今日(12月30日),智元機器人聯合上海人工智能實驗室、國家地方共建人形機器人創新中心以及上海庫帕思,正式開源百萬真機數據集AgiBot World,數據質量從實驗室級上升到工業級標準,后續還將發布具身基座大模型。
據智元機器人方面介紹,AgiBot World是全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數據集。此前,具身智能訓練領域大規模的開源數據集是Google的Open X-Embodiment。相較于前者,AgiBot World長程數據規模高出10倍,場景范圍覆蓋面擴大100倍,數據質量也從實驗室級上升到工業級標準。
AgiBot World數據集復刻了家居(40%)、餐飲(20%)、工業(20%)、商超(10%)和辦公(10%)五大核心場景,涵蓋了80余種日常生活中的動作和技能。
在這個具身數據的世界里,機器人不再只是進行簡單的桌面任務,而是進入到人類日常生活的方方面面,既有抓取、放置、推、拉等基礎操作,也有攪拌、折疊、熨燙等復雜動作。
高質量的數據集對于當下人形機器人技術的發展尤為重要。人形機器人需要在訓練中不斷成長,才能像人一樣的活動并完成任務。如同小學生做習題提高自己的學習能力一樣,人形機器人也需要數據集這樣的“習題冊”來提升自己。
但是數據,尤其是高質量的的數據仍是發展人形機器人當下一個卡點。現有開源數據集,或多或少都存在采集流程缺乏標準化、機器人構型過時、數據質量格式參差不齊等問題,在機器人策略學習的過程中甚至會帶來副作用。
在數據采集方面,傅利葉智能通用機器人事業部副總裁周斌表示,現在的機器人數據采集方式主流的還是以人的遙操的方式采集,未來則需要更擬人化,以提高數據對具身智能的泛化和遷移能力;二是提升數據維度,如增加觸覺等數據輸入,滿足工業和實際場景需求;三是采用虛實結合的技術路徑,提升數據集量級,目前物理世界數據集仍不足。
通過低成本方式,高質量地獲取數據對機器人進行訓練,是量產前要解決的關鍵問題。一直以來,業界也正在積極補齊短板,如特斯拉等公司開展大規模真機數據采集。
12月27日,北京國地共建具身智能機器人創新數據采集基地亮相;12月28日,上海提出“搭建超大規模城市級的模擬應用場景,率先賦能具身智能、自動駕駛等大模型實訓”。
國家地方共建人形機器人創新中心(“國地中心”),是目前我國發展人形機器人產業一個重要載體。該中心當前一個重要任務也是組建機器人訓練場收集數據。
國地中心總經理許彬在接受《科創板日報》記者采訪時表示,這個訓練場將落地在浦東張江模力社區,可容納100個人形機器人同時訓練,預計到2027年這一數字將達1000個。
AgiBot World是智元機器人本年度開源的第三個項目,相關數據將在HuggingFace、Github以及agibot-world.com項目主頁上分批上傳。
智元機器人方面稱,將陸續開源千萬仿真數據,以支持更泛化和更通用的大模型訓練;將發布具身基座大模型,可支持模型微調;發布全套工具鏈,實現采集、訓練和評測閉環。