谷歌發(fā)布本地具身智能模型！全程無聯(lián)網(wǎng)執(zhí)行精細(xì)操作，從人形機器人到工業(yè)機器人全覆蓋

2025-06-25 09:04:59

Google DeepMind團隊首個可以完全在機器人本地運行的視覺-語言-動作（VLA）模型Gemini Robotics On-Device發(fā)布。

機器人終于有了自己的“離線大腦”。

Google DeepMind團隊首個可以完全在機器人本地運行的視覺-語言-動作（VLA）模型Gemini Robotics On-Device發(fā)布。

這個模型不僅能離線運行，還保持了相當(dāng)強悍的操作能力，能遵循指令完成各種需要精細(xì)操作的任務(wù)。

支持從人形機器人到工業(yè)雙臂機器人的多種機器人本體上部署，響應(yīng)延遲還低到飛起。

此前3月份發(fā)布的Gemini Robotics雖然性能強大，但需要依賴云端計算。而這次的On-Device版本，直接把AI塞進了機器人的“大腦”里，徹底解決了網(wǎng)絡(luò)延遲和連接不穩(wěn)定的老大難問題。

給機器人裝上本地大腦

團隊把Gemini 2.0的多模態(tài)推理能力和真實世界理解能力，全都塞進了這個可以在機器人設(shè)備上運行的模型里。

由于模型獨立于數(shù)據(jù)網(wǎng)絡(luò)運行，它特別適合對延遲敏感的應(yīng)用，并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。

評測數(shù)據(jù)顯示，On-Device版本在泛化性能測試中表現(xiàn)亮眼。在視覺泛化、語義理解和行為泛化等多個維度上，雖然比云端版本的Gemini Robotics略有差距，但已經(jīng)大幅超越了之前最好的本地模型。

在處理分布外任務(wù)（out-of-distribution tasks）和復(fù)雜多步驟指令時，Gemini Robotics On-Device對比此前的本地模型也展現(xiàn)出了碾壓級的優(yōu)勢。

這種指令跟隨能力，讓機器人真正能夠理解人類的自然語言指令，而不是簡單地執(zhí)行預(yù)設(shè)程序。

如果說性能強悍只是基礎(chǔ)，那么Gemini Robotics On-Device的適應(yīng)能力才是真正的殺手锏。

這是谷歌首次開放VLA模型的微調(diào)功能。

開發(fā)者只需要50到100個演示樣本，就能讓模型適應(yīng)全新的任務(wù)。在測試中，團隊在七個不同難度的靈巧操作任務(wù)上進行了驗證，包括給午餐盒拉拉鏈、抽卡片、倒沙拉醬等。

結(jié)果顯示，即使是最復(fù)雜的任務(wù)，用不到100個樣本就能達(dá)到相當(dāng)高的成功率。

雖然這個模型最初只在ALOHA機器人上訓(xùn)練，但團隊成功將其遷移到了完全不同的機器人平臺上。

在雙臂Franka FR3機器人上，模型不僅能執(zhí)行通用的指令跟隨任務(wù)，還能完成工業(yè)級的皮帶裝配任務(wù)。

而在Apptronik公司的Apollo人形機器人上，面對截然不同的機械結(jié)構(gòu)，模型同樣展現(xiàn)出了強大的泛化能力。它能夠遵循自然語言指令，操作各種物體，包括訓(xùn)練時從未見過的新物體。

團隊還特別強調(diào)，他們在開發(fā)過程中嚴(yán)格遵循了谷歌的AI原則，采用了語義安全和物理安全并重的整體安全方案。通過Live API捕獲語義和內(nèi)容安全問題，并與底層安全關(guān)鍵控制器接口來執(zhí)行動作。

為了讓更多開發(fā)者能夠使用這項技術(shù)，谷歌同時發(fā)布了Gemini Robotics SDK。

這個SDK不僅能讓開發(fā)者輕松評估模型在自己任務(wù)和環(huán)境中的表現(xiàn)，還提供了MuJoCo物理模擬器的測試功能。開發(fā)者可以先在模擬環(huán)境中驗證想法，再部署到真實機器人上，大大降低了開發(fā)成本和風(fēng)險。

目前，SDK正在通過可信測試者計劃（trusted tester program）逐步開放。感興趣的開發(fā)者可以在官網(wǎng)上申請加入，搶先體驗這項技術(shù)。

責(zé)任編輯：張燕妮來源：量子位