大翻車!斯坦福超火機(jī)器人自曝內(nèi)幕,研究者救場還受傷了,網(wǎng)友:放心了
爆火的斯坦福全能家務(wù)機(jī)器人Mobile ALOHA,大!翻!!車!!!
你以為它擦個紅酒輕而易舉,但實(shí)際上卻是這樣的:
全給你弄撒嘍,順帶碎個杯子
……
你以為它能化身大廚嫻熟烹炒,結(jié)果給你上演一個炒鍋底:
Mobile ALOHA的翻車大合集還不止這些。
例如剛才炒完蝦的鍋,哎呦喂,一不小心沒拿住:
即使小哥一個箭步?jīng)_上去也沒阻止“悲劇”的發(fā)生(好像還燙到手了)。
這畫面,真是像極了莊嫂摔碗……
昨天還在“神壇”上的Mobile ALOHA,一夜之間便被曝出了這么多“笨手笨腳”的樣子,也是引來不少網(wǎng)友的圍觀。
然而,這次即使面對翻車鐵證,網(wǎng)友們的畫風(fēng)卻是一反常態(tài):
它并不完美,不過很可愛。
總會有犯錯的余地。
最重要的是:
放心了。(手動狗頭)
這到底是怎么回事?
斯坦福團(tuán)隊(duì)自曝“丑聞”
原來,這段機(jī)器人大翻車的視頻,就是由斯坦福Mobile ALOHA的作者Tony Z. Zhao發(fā)布的。
并且他還直言不諱地說道:
機(jī)器人還沒有做好準(zhǔn)備接管這個世界。
而這段翻車視頻,正是機(jī)器人完全在自主模式下所犯的。
用作者的話來形容,就是“最愚蠢的錯誤”。
畢竟除了剛才我們展示的幾個例子之外,Mobile ALOHA甚至連鍋都放不進(jìn)櫥柜里:
炒完的蝦粘鍋倒不出來不說,連碗的位置也找不到:
拿支筆也沒法找對位置下手:
面對失敗合集,作者卻是打趣道:
這是我目前為止最喜歡的視頻了,(不過)當(dāng)機(jī)器人在你面前犯錯的時候,你就不會覺得那么有趣了。
確實(shí),畢竟手都被燙了……
不過作者今天自曝這段視頻其實(shí)應(yīng)該還有另外一個原因。
因?yàn)榍皟商霱obile ALOHA神級現(xiàn)場的視頻確實(shí)引來了不小的關(guān)注度,不過很多人誤以為這是它在自主模式下完成的。
但其實(shí),Mobile ALOHA采用的是混合模式,并非完全自主,作者也呼吁網(wǎng)友們在吃瓜的同時認(rèn)真看下論文和代碼。
值得一提的是,作者還引用了2015年波士頓動力Atlas人形機(jī)器人“翻車合集”并向它致敬。
或許這也正如英偉達(dá)科學(xué)家Jim Fan說的那樣:
一步一個腳印。
學(xué)習(xí)50次,成功率能到90%
就在這兩天,Mobile ALOHA團(tuán)隊(duì)連續(xù)放出三個爆火視頻,展示了該機(jī)器人敏捷靈巧的家務(wù)能力,看呆網(wǎng)友。
包括做滿漢全席(磕雞蛋、給雞肉翻面這種細(xì)活都信手拈來):
套枕套鋪床單:
澆花、拖地板、開瓶蓋,甚至逗貓貓:
那叫一個人模人樣,上得廳堂下得廚房。
不過,大部分都是真人操控的,比如上面這些。
更直觀的可以看下面這個抽紙擦玻璃的動圖,背后直接站了個人類1:1示范:
不過,對于一些相對簡單的任務(wù),例如這個單炒蝦仁:
還有刷鍋、將餐椅歸位、呼叫并乘坐電梯、擦桌子等等,只需真人少量示教,它就可以學(xué)會,然后脫離人類進(jìn)行自主操作。
具體而言,作者介紹,上面這些簡單動作目前只需要學(xué)習(xí)50次就可以做到90%的成功率——
經(jīng)測試,Mobile ALOHA可以連續(xù)9次擦干倒灑了的酒、連續(xù)呼叫5次電梯都不會出錯,能夠保持一定的穩(wěn)定性。
除此之外,它還能抗干擾,在完成歸置鍋具到柜子之中時,實(shí)驗(yàn)人員不停向它面前投擲雜物,都完全沒有影響它發(fā)揮:
在訓(xùn)練期間根本看不見的椅子?它也能準(zhǔn)確識別并完成歸位任務(wù)。
那么,作者是如何僅通過50個演示就讓Mobile ALOHA實(shí)現(xiàn)自主任務(wù)的呢?
最關(guān)鍵的是通過ACT或擴(kuò)散策略進(jìn)行模仿學(xué)習(xí),然后和靜態(tài)操作數(shù)據(jù)一起對機(jī)器人系統(tǒng)進(jìn)行聯(lián)合訓(xùn)練。
有了這一聯(lián)合訓(xùn)練方式,機(jī)器人的性能可以顯著提高,尤其是那種需要精確操作的任務(wù)。
最后,也再次為介紹一遍斯坦福大學(xué)的這個機(jī)器人成果:
它于今年3月底正式發(fā)布,歷經(jīng)了8個月的迭代和2個月的測試。
一共三位作者,其中兩位為斯坦福計(jì)算機(jī)科學(xué)專業(yè)的華人博士生(最后一位是導(dǎo)師):
當(dāng)時的這位機(jī)器人,就已經(jīng)能夠利用工具完成各種精密細(xì)活了,只不過只能在固定的位置:
當(dāng)然,背后也是真人遙控的。
而正如其名ALOHA全稱是“?? ??ow-cost ??pen-source ????rdware System”,這款機(jī)器人主打的就是開源和低成本:
全部軟硬件設(shè)計(jì)包括代碼和數(shù)據(jù)都一并發(fā)布,而搭建這一個系統(tǒng)“只”需3.2萬美元(約合22.7萬人民幣),具體需要哪些硬件,作者還列了個清單,感興趣的朋友可以照著DIY。
機(jī)器人元年?
幾乎和斯坦福的爆火機(jī)器人同一時間,谷歌也發(fā)布了自家最新的研究成果,并且是一氣發(fā)了仨:
一個是將機(jī)器人決策速度提高14%,同時保持操作準(zhǔn)確率不變并增加了10.6%的改進(jìn)模型;
一個是專攻泛化能力的新框架,用了一種全新方法讓機(jī)器人完成從未見過任務(wù)的成功率從29%提升至63%;
以及一個可以同時容納20個機(jī)器人的收據(jù)收集系統(tǒng),將用于加快機(jī)器人理解人類指令的能力的訓(xùn)練。
這些新成果全部用于升級谷歌的機(jī)器人大模型RT-2。
和斯坦福的Mobile ALOHA對比起來,谷歌的RT-2表現(xiàn)還是高冷一些,但它所有效果都是全自主的。
除了這兩家,李飛飛團(tuán)隊(duì)也一直在跟進(jìn),其名為VoxPoser的機(jī)器人系統(tǒng)也已經(jīng)可以聽懂人話完成各種指令,并且無需額外訓(xùn)練。
這不由地讓人想到,不少人那句“2024會是機(jī)器人元年”的預(yù)言:
你覺得會成真嗎?