http://www.sharifulalam.com 2024-11-12 13:38 來源:中國(guó)科學(xué)報(bào)
人形機(jī)器人最近又火了。近日據(jù)多家媒體報(bào)道,波士頓動(dòng)力公司推出的人形機(jī)器人Atlas已進(jìn)入工廠測(cè)試階段,“可以在工廠中實(shí)現(xiàn)全自動(dòng)工作”。
人形機(jī)器人的技術(shù)進(jìn)步有多快?
“或許某一天有‘人’敲你的門,但你分不清站在門外的是機(jī)器人還是真人。”在日前舉行的一場(chǎng)論壇分享活動(dòng)中,至頂科技首席職行官(CEO)高飛提出,這一天或許很快就會(huì)到來。
但這一天到底什么時(shí)候到來,高飛也沒有答案。他看到的是,隨著大模型的出現(xiàn),人工智能(AI)越來越讓人真假難辨。而當(dāng)“人形機(jī)器人+大模型”組合闖進(jìn)人類世界,人形機(jī)器人或許將迎來“圖靈時(shí)刻”。
云棲大會(huì)上展出的人形機(jī)器人。 阿里云供圖
機(jī)器人與物理世界交互的載體
對(duì)于許多人而言,機(jī)器人早已不是新鮮事物,但人形機(jī)器人是。尤其2024年以來,人形機(jī)器人仿佛一夜之間走出實(shí)驗(yàn)室,在吸引人們關(guān)注的同時(shí),成為投資圈的新寵。
人形機(jī)器人只比機(jī)器人多了個(gè)“人形”,何以如此與眾不同?人形機(jī)器人為何一定要做成“人形”?
成立于2022年1月的深圳逐際動(dòng)力科技有限公司(以下簡(jiǎn)稱逐際動(dòng)力),從創(chuàng)立之日起就瞄準(zhǔn)了“通用機(jī)器人”研發(fā)制造這條賽道。其創(chuàng)始人張巍在回答高飛拋出的上述問題時(shí),談到了“人形”的獨(dú)特之處。
“我覺得,機(jī)器人和AI的使命不同,AI代替人的部分思考和決策,而機(jī)器人本質(zhì)上要替代人勞動(dòng),所以它必須能動(dòng)。”張巍說,各式各樣的機(jī)器人本質(zhì)上只做兩件事:移動(dòng)和操作。而通用機(jī)器人的特點(diǎn),就是在這兩種能力上都能達(dá)到接近人的環(huán)境適應(yīng)能力和對(duì)任務(wù)的泛化性。
張巍提到,如果只需要機(jī)器人具有通用的移動(dòng)能力,它可以不需要雙臂;而只要論及通用的操作能力,雙臂、雙腿都是必須的,否則就不能做許多的人的工作。
他還談到,大模型的出現(xiàn),讓“通用”和“專用”有了更多意義。“大模型強(qiáng)調(diào)先構(gòu)建一個(gè)通用的基礎(chǔ)模型,然后在上面‘生長(zhǎng)’出專用的能力,這是系統(tǒng)化解決AI泛化能力問題的一個(gè)關(guān)鍵。”
在張巍看來,軟件算法的通用性要靠大模型,而機(jī)器人與物理世界交互的通用性要靠人形機(jī)器人。
“所以我覺得人形機(jī)器人一定要做成人形,而且是有兩條腿的人形機(jī)器人。”他說。
北京銀河通用機(jī)器人有限公司(以下簡(jiǎn)稱銀河通用)是一家比逐際動(dòng)力還年輕的人形機(jī)器人創(chuàng)新企業(yè),由歸國(guó)學(xué)者、北京大學(xué)助理教授王鶴創(chuàng)辦。自2023年5月成立至今,它已經(jīng)拿到超7億元融資。業(yè)內(nèi)人士對(duì)其最新估值為30億元。不過,銀河通用現(xiàn)階段研發(fā)的人形機(jī)器人并沒有兩條腿,它的“雙腿”是一個(gè)可以360度活動(dòng)的輪盤。
“銀河通用從創(chuàng)立的第一天,目標(biāo)就是實(shí)現(xiàn)通用機(jī)器人。”王鶴說,走通用機(jī)器人之路需要一個(gè)過程——逐步從“單一場(chǎng)景、多任務(wù)、可移動(dòng)”過渡到“多場(chǎng)景、多任務(wù)”,最后實(shí)現(xiàn)“全場(chǎng)景、全任務(wù)”。
王鶴認(rèn)為,在這個(gè)過程中,人形機(jī)器的形態(tài)在不同階段有最適合、最經(jīng)濟(jì)、最穩(wěn)定的載體,在對(duì)應(yīng)場(chǎng)景中“沿途下蛋”、創(chuàng)造價(jià)值。
他進(jìn)一步解釋了現(xiàn)階段銀河通用人形機(jī)器人“為何有兩只手卻沒有腿”。“我們先選擇在幾個(gè)特定場(chǎng)景如藥店、超市等,讓機(jī)器人幫助上貨、下貨。在這些場(chǎng)景下,只要是平地,360度輪式就夠用。”
人形機(jī)器人“小腦”更受關(guān)注
如果粗略地將人形機(jī)器人重要的技術(shù)分成3塊:大腦(智能水平)、小腦(身體協(xié)調(diào)和運(yùn)動(dòng)能力)、本體(機(jī)器人硬件等),“行家”更關(guān)注它的哪部分呢?
答案是“小腦”。
清華大學(xué)交叉信息研究院助理教授、北京星動(dòng)紀(jì)元科技有限公司創(chuàng)始人陳建宇雖然是“90后”,但他已是機(jī)器人行業(yè)的“老兵”,有10多年的機(jī)器人和AI研發(fā)經(jīng)驗(yàn)。
“‘大腦’‘小腦’‘本體’同等重要,但對(duì)人形機(jī)器人來說,我個(gè)人認(rèn)為‘小腦’最重要,因?yàn)樗侨诵螜C(jī)器人最基礎(chǔ)、賴以立足的部分。”陳建宇說,如果只有大腦和本體,人形機(jī)器人“只是一堆會(huì)思考的爛鐵”。
陳建宇同時(shí)提到,現(xiàn)在人形機(jī)器人的“小腦”相對(duì)于其他部分,技術(shù)是最薄弱的,也是不確定性最高的。
“‘大腦’的發(fā)育有不斷進(jìn)化的大模型技術(shù),機(jī)器人本體也有許多可以借鑒的硬件新技術(shù),但我們發(fā)現(xiàn),現(xiàn)在大部分機(jī)器人操作和運(yùn)動(dòng)能力的技術(shù)源頭,還是十幾年前甚至幾十年前工業(yè)機(jī)器人或掃地機(jī)的技術(shù)。”他說,這讓他對(duì)人形機(jī)器人的發(fā)展前景感到擔(dān)憂。
當(dāng)前,人形機(jī)器人的雙手和雙腿還不能像人一樣又穩(wěn)、又快,還靈活,能夠“上得廳堂、下得廚房”幫人們做事,甚至稍微需要一些靈巧度的事情,機(jī)器人都有可能搞砸,比如在倒水的時(shí)候捏碎一只玻璃杯。
因此,當(dāng)談及人形機(jī)器人最關(guān)鍵的技術(shù)能力時(shí),幾位技術(shù)派的創(chuàng)業(yè)者不約而同地提到兩個(gè)關(guān)鍵詞——泛化和通用。
“看一款人形機(jī)器人是不是真厲害,就在演示的時(shí)候給它搗亂——走的時(shí)候突然踢一腳、給它設(shè)置一些障礙物,或者在它要做一個(gè)抓取動(dòng)作時(shí)把目標(biāo)物突然移開,看它能不能穩(wěn)定、智能地去適應(yīng)變化或完成任務(wù)。”陳建宇說。
王鶴和張巍的答案雖然和陳建宇的不太相同,但講的是同一回事。
王鶴說,銀河通用現(xiàn)在著重關(guān)注機(jī)器人上半身的“手-眼-腦”的協(xié)調(diào)。例如,看它抓取物體是否能夠做到不限材質(zhì)、色澤,能不能通過機(jī)器視覺的泛化能力在完全陌生的環(huán)境中有強(qiáng)大的適應(yīng)性。“第一是它的泛化能力有多強(qiáng),第二是它能不能用自然語言順暢地與人溝通,然后實(shí)現(xiàn)零代碼部署。”
“我看機(jī)器人先看腿。”張巍說,他認(rèn)為人形機(jī)器人不是傳統(tǒng)機(jī)械臂公司的延續(xù),而是一個(gè)“本質(zhì)就是要‘長(zhǎng)’出兩條腿的新物種”——這兩條腿既要能完成本職工作,有對(duì)地形的泛化能力,還要能支撐雙臂完成全身協(xié)同的操作。
“這是雙腿存在的價(jià)值。”張巍說。
人形機(jī)器人何時(shí)才能“下地干活”
相比銀河通用、逐際動(dòng)力這些“新銳”勢(shì)力,成立于2016年的杭州宇樹科技有限公司(以下簡(jiǎn)稱宇樹科技)算得上是一家“老牌”機(jī)器人公司。在創(chuàng)始人、CEO王興興的帶領(lǐng)下,宇樹科技并沒有“All in”(全部押進(jìn))人形機(jī)器人,而是四足機(jī)器人和人形機(jī)器人“兩條腿”走路。目前,宇樹科技的四足機(jī)器人不但實(shí)現(xiàn)了量產(chǎn),還在多個(gè)行業(yè)的數(shù)十個(gè)項(xiàng)目上展露應(yīng)用潛力、實(shí)現(xiàn)商品化,儼然是四足機(jī)器人企業(yè)“龍頭”。
“如果在三五年前有投資人問我,宇樹科技做不做人形機(jī)器人,我會(huì)堅(jiān)決反對(duì)做人形機(jī)器人。”王興興說,這緣于他的研發(fā)經(jīng)歷。在上大學(xué)時(shí),他就嘗試做過小型人形機(jī)器人,當(dāng)時(shí)的失敗經(jīng)歷讓他意識(shí)到,當(dāng)前人類科技無法駕馭那么復(fù)雜的機(jī)器人系統(tǒng)。
改變上述看法的是驚艷到王興興的大模型技術(shù)。2023年,宇樹科技開始涉足人形機(jī)器人。一年半后,宇樹科技已經(jīng)發(fā)布了兩款人形機(jī)器人。
“人形機(jī)器人的發(fā)展節(jié)奏,無論硬件還是軟件,都超出了我的預(yù)期。”王興興說,他希望到2025年,能看到推理性能和運(yùn)動(dòng)水平同步進(jìn)化的AI模型。“只要給它看一個(gè)演示視頻,它就能學(xué)會(huì)一個(gè)動(dòng)作。”
這不是一般的進(jìn)步。王興興認(rèn)為,如果這些能夠?qū)崿F(xiàn),將給人形機(jī)器人未來應(yīng)用落地創(chuàng)造巨大空間。到那時(shí),就不必再去想“人形機(jī)器人何時(shí)才能‘下地干活’”這個(gè)問題了。
王鶴和王興興都認(rèn)為,即便是現(xiàn)在,人形機(jī)器人的技術(shù)也已經(jīng)到了產(chǎn)業(yè)化的邊緣。他們預(yù)計(jì),到2025年,人形機(jī)器人將在某些固定場(chǎng)景產(chǎn)生一些具有商業(yè)價(jià)值的落地應(yīng)用;3年后,全球范圍內(nèi)誕生更加通用的機(jī)器人“是概率很大的事”;而隨著資本對(duì)AI、機(jī)器人持續(xù)不斷的巨量投入,未來5至10年,人形機(jī)器人有望成規(guī)模地進(jìn)入工廠,甚至人類家庭。
不過,張巍對(duì)此有不同的理解。他認(rèn)為,人形機(jī)器人的賽道用時(shí)間衡量比較難,因?yàn)檫@條賽道的產(chǎn)業(yè)發(fā)展是“事件驅(qū)動(dòng)”而非技術(shù)驅(qū)動(dòng),關(guān)鍵要看什么時(shí)候找到“關(guān)鍵事件開關(guān)”。他還提醒,“避免過早的商業(yè)化”或許對(duì)人形機(jī)器人未來的商業(yè)化更友好,畢竟誰也不想看到人形機(jī)器人的產(chǎn)業(yè)落地走AI最初“智能不夠就靠人工打補(bǔ)丁”的老路。
陳建宇則提出,根據(jù)美國(guó)社會(huì)學(xué)家艾弗雷特·羅杰斯提出的“創(chuàng)新擴(kuò)散模型”,任何創(chuàng)新產(chǎn)業(yè)都會(huì)有早期使用者愿意嘗試、試錯(cuò),人形機(jī)器人產(chǎn)業(yè)也是如此。“相信近兩年就會(huì)看到各個(gè)行業(yè)人形機(jī)器人的早期試用者。”