http://www.sharifulalam.com 2025-06-24 09:29 來源:南方財經
6月23日,南方財經記者從帕西尼感知科技(深圳)有限公司(以下簡稱“帕西尼”)處獲悉,該公司主導建設的具身智能超級數據工廠(Super EID Factory)正式投入運營。
作為深圳本土培育的前沿科技企業,本次帕西尼落成的數據工廠選址于天津市河西區空天數字產業園,面積近12000平方米,預計年產近2億條高維訓練數據。
帕西尼方面稱,這座超級數據工廠是目前全球范圍規模最大、數據采集體量領先的具身智能數據采集與模型訓練基地,將為當前具身智能產業面臨的數據集稀缺、觸覺模態數據空白、泛化性差等核心困境提供革命性解決方案。
據悉,這座工廠里構建了“15+N”個全場景矩陣為基礎的千種任務與百萬道工序,涵蓋汽車制造、3C裝配、家庭、辦公、餐飲、商超、康養、醫療等全鏈條具身智能應用環境,旨在模擬真實世界中機器人可能遇到的各種復雜場景。
值得一提的是,這并不是第一個為獲取數據而建設具身智能工廠的案例。此前北京和上海都有類似的具身智能機器人創新中心負責數據生產和采集。其中,北京具身智能機器人創新中心成立于2023年,由優必選、京城機電、小米機器人、亦莊機器人等10家行業領軍企事業單位出資聯合組建,號稱數據集將達百萬級。
但此次帕西尼參與建設的數據工廠光是數據量就奔著上億級別的量級而去。而這么大量的數據將涉及的第一個問題就是,數據能否通用。
據了解,為保證數據的廣泛適配性,帕西尼在工廠內部部署150個標準化采集單元,每個標準化數據集采集都基于真人手部動作姿態來捕捉,并通過“空間視覺矩陣”進行“視覺-觸覺”模態對齊,極大地提升了數據的通用性。同時,后續通過體感重定向系統(Soma Redirect),采集而來的數據還能向不同型號、不同設計的機器人輸出,使得數據集有效突破模型的跨本體泛化能力瓶頸。
(圖為工程師佩戴帕西尼自研的“多維觸覺數據采集設備PMEC”在采集數據)
數據采集量所面臨的第二個問題就是成本。帕西尼方面表示,由于無需依賴昂貴的機器人本體進行數據采集,帕西尼的解決方案顯著降低了采集成本,使得大規模、高質量的數據生產成為可能,為行業發展提供了經濟高效的路徑。
當通用性和成本得到保障之后,第三個需要探討的就是數據集是否足夠高質量。帕西尼方面稱,其獨創的多模態神經織網技術(Neural Mesh)實現了觸覺、視覺、關節角度、動作軌跡、語音等多維度數據的無損采集。這種多模態數據的融合,能夠為具身智能模型提供更全面的環境信息,使其能夠更精準地理解任務、感知世界。
該具身智能超級數據工廠不僅能惠及全行業,還能助力帕西尼多模態具身智能數據集(MotionSharing DB),升級成為全模態數據集(OmniSharing DB)。
而升級后的全模態數據集,將進一步提升帕西尼自研的 TacFlow Engine大模型,形成共生飛輪,即數據作為模型的“感官輸入”驅動其進化;模型預測能力的缺口又能反向指導數據的定向增強采集。
值得注意的是,5日前,帕西尼剛完成A系列的第四輪融資,投資方包括TCL創投、毅達資本、尚頎資本、基石資本、商湯國香、中信里昂、湖南財信產業基金、鈞犀資本等多家知名機構聯合投資,融資金額高達數億元人民幣。