谷歌發(fā)布本地具身智能模型!全程無聯(lián)網(wǎng)執(zhí)行精細(xì)操作,從人形機器人到工業(yè)機器人全覆蓋
機器人終于有了自己的“離線大腦”。
Google DeepMind團隊首個可以完全在機器人本地運行的視覺-語言-動作(VLA)模型Gemini Robotics On-Device發(fā)布。
這個模型不僅能離線運行,還保持了相當(dāng)強悍的操作能力,能遵循指令完成各種需要精細(xì)操作的任務(wù)。
支持從人形機器人到工業(yè)雙臂機器人的多種機器人本體上部署,響應(yīng)延遲還低到飛起。
此前3月份發(fā)布的Gemini Robotics雖然性能強大,但需要依賴云端計算。而這次的On-Device版本,直接把AI塞進了機器人的“大腦”里,徹底解決了網(wǎng)絡(luò)延遲和連接不穩(wěn)定的老大難問題。
給機器人裝上本地大腦
團隊把Gemini 2.0的多模態(tài)推理能力和真實世界理解能力,全都塞進了這個可以在機器人設(shè)備上運行的模型里。
由于模型獨立于數(shù)據(jù)網(wǎng)絡(luò)運行,它特別適合對延遲敏感的應(yīng)用,并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。
評測數(shù)據(jù)顯示,On-Device版本在泛化性能測試中表現(xiàn)亮眼。在視覺泛化、語義理解和行為泛化等多個維度上,雖然比云端版本的Gemini Robotics略有差距,但已經(jīng)大幅超越了之前最好的本地模型。
在處理分布外任務(wù)(out-of-distribution tasks)和復(fù)雜多步驟指令時,Gemini Robotics On-Device對比此前的本地模型也展現(xiàn)出了碾壓級的優(yōu)勢。
這種指令跟隨能力,讓機器人真正能夠理解人類的自然語言指令,而不是簡單地執(zhí)行預(yù)設(shè)程序。
快速適應(yīng)新任務(wù),跨平臺部署不是夢
如果說性能強悍只是基礎(chǔ),那么Gemini Robotics On-Device的適應(yīng)能力才是真正的殺手锏。
這是谷歌首次開放VLA模型的微調(diào)功能。
開發(fā)者只需要50到100個演示樣本,就能讓模型適應(yīng)全新的任務(wù)。在測試中,團隊在七個不同難度的靈巧操作任務(wù)上進行了驗證,包括給午餐盒拉拉鏈、抽卡片、倒沙拉醬等。
結(jié)果顯示,即使是最復(fù)雜的任務(wù),用不到100個樣本就能達(dá)到相當(dāng)高的成功率。
雖然這個模型最初只在ALOHA機器人上訓(xùn)練,但團隊成功將其遷移到了完全不同的機器人平臺上。
在雙臂Franka FR3機器人上,模型不僅能執(zhí)行通用的指令跟隨任務(wù),還能完成工業(yè)級的皮帶裝配任務(wù)。
而在Apptronik公司的Apollo人形機器人上,面對截然不同的機械結(jié)構(gòu),模型同樣展現(xiàn)出了強大的泛化能力。它能夠遵循自然語言指令,操作各種物體,包括訓(xùn)練時從未見過的新物體。
團隊還特別強調(diào),他們在開發(fā)過程中嚴(yán)格遵循了谷歌的AI原則,采用了語義安全和物理安全并重的整體安全方案。通過Live API捕獲語義和內(nèi)容安全問題,并與底層安全關(guān)鍵控制器接口來執(zhí)行動作。
SDK開放申請,機器人開發(fā)者有福了
為了讓更多開發(fā)者能夠使用這項技術(shù),谷歌同時發(fā)布了Gemini Robotics SDK。
這個SDK不僅能讓開發(fā)者輕松評估模型在自己任務(wù)和環(huán)境中的表現(xiàn),還提供了MuJoCo物理模擬器的測試功能。開發(fā)者可以先在模擬環(huán)境中驗證想法,再部署到真實機器人上,大大降低了開發(fā)成本和風(fēng)險。
目前,SDK正在通過可信測試者計劃(trusted tester program)逐步開放。感興趣的開發(fā)者可以在官網(wǎng)上申請加入,搶先體驗這項技術(shù)。