機器人8小時速成物流分揀員!Figure-02大規模上崗只用30天
好家伙!
機器人已入廠打工分揀快遞,手法嫻熟和人類一模一樣。
前幾天,Figure推出了端到端通用控制模型——Helix,能讓機器人像人一樣感知、理解和行動。
現在,是時候檢驗最新成果了。
視頻中,一批Figure 02走上生產一線,秩序井然地分揀快遞,還能正確調整條形碼位置以供機器掃描……
最重要的是,按照官方說法,此次場景微調只用了30天。而作為對比,第一個客戶案例用了12個月之久。
端到端學習方法讓Figure的機器人能夠快速學習新任務!
面對如此進化速度,網友們直呼:我們完啦!
背后關鍵:改進了Helix系統1
除了視頻,針對本次實驗的高速、小包裝物流場景,Figure還公開了Helix進展的最新報告。
在和OpenAI斷交之后,就在上周五,Figure公布了首個成果Helix。
作為一個端到端通用控制模型,只需自然語言提示,機器人就能拿起任何東西,哪怕是從沒見過的東西(比如這個活潑的小仙人掌)。
更有意思的是,兩個機器人也可以共同協作,而且用的是同一組神經網絡。
根據當時的介紹,Helix主要由兩個系統組成,兩個系統經過端到端訓練,并且可以進行通信。
- 系統1:80M參數的交叉注意力Transformer,用于處理底層控制。
- 系統2:基于在互聯網規模數據上預訓練的7B開源VLM,用于場景理解和語言理解。
而這一次,Figure在物流場景重點對系統1(底層控制)進行了一系列改進:
1、隱式立體視覺(Implicit stereo vision):增強了3D空間感知,使機器人動作更精準;
2、多尺度視覺表示(Multi-scale visual representation):結合細節和整體場景理解,提高操作精度;
3、學習視覺本體感知(Learned visual proprioceptio):每個Figure機器人現在都可以自我校準,簡化跨機器人技能遷移;
4、運動模式(Sport mode):使用簡單的test-time加速技術,同時保持高成功率和更快的執行速度。
最重要的是,Figure針對該特定場景,進一步探討了數據質量和數量之間的權衡關系,并初步發現:
僅用8小時精心挑選的數據就能訓練出一個靈活且適應性強的策略。
下面具體展開。
在物流場景下,關鍵環節包括包裝處理和分類,主要是需要將包裹在傳送帶上轉移并確保標簽正確掃描。
聽起來是不是很簡單,但如果要讓機器人取代人類來完成這項工作,面臨的挑戰在于:
包裹的尺寸、形狀、重量等各異,機器人不僅要能拿起來,而且需要確定最佳抓取和轉移時間,甚至放錯了之后還能立馬糾正。
為了實現上述目標,Figure首先改進了Helix系統1的視覺能力。
新一代系統1通過采用立體視覺骨干網絡和多尺度特征提取網絡來增強其空間理解能力。
簡單說,系統不再獨立處理來自每個攝像頭的圖像特征,而是首先在多尺度立體網絡中合并兩個攝像頭的特征,然后再進行標記化(Tokenize)處理。
這樣做的好處是,保持了輸入到交叉注意力transformer的視覺tokens總數不變,避免了計算開銷。
同時,多尺度特征提取網絡能夠同時捕捉到細節和更廣泛的上下文信息,這有助于提高操作的準確性和可靠性。
此外,為了解決在多個機器人上部署統一策略時遇到的挑戰,以及如何通過在線自我校準來實現跨機器人策略遷移。
例如由于機器人硬件差異導致的觀察和動作空間的分布偏移,傳統的手動校準方法不適用于大規模機器人群體。
Figure訓練了一個視覺自體感覺模型(visual proprioception model),這個模型可以讓每個機器人通過自身的視覺輸入來自我校準,估算出機械臂末端(即抓取物體的部分)的精確位置和姿態。
并且這種自我校準是在線進行的,也就是說機器人可以在工作的同時進行校準,這樣就能最大程度地減少因校準而需要停止工作的時間。
順便一提,訓練過程中,Figure排除了那些較慢的、遺漏的或失敗的案例,不過特意保留了包含糾正行為的案例(非遙控操作員導致,自然產生)。
最后,為了達到并超過人類的操作速度,Figure采用了一種被稱為“運動模式”的test-time加速技術。
具體來說,他們讓系統1以每秒200次的頻率輸出一系列動作,這些動作被稱為動作“塊”(action “chunks”)。
然后采用了一種插值方法來加速這些動作塊的執行。插值是一種數學方法,可以在原有數據點之間生成新的數據點。在這里,他們將原本的動作塊(比如代表T毫秒的動作)通過插值縮短為0.8T毫秒的動作塊,但是仍然以每秒200次的頻率執行這些縮短后的動作塊。
這種方法不需要改變機器人的訓練過程,只是在test-time對動作執行進行加速。通過這種方法,Figure機器人能夠在實際測試中實現高達20%的速度提升。
Figure創始人:未來四年交付10萬臺
總之,技術升級讓Figure走進工廠的速度更快了。
官方提到的第1個客戶,應該是指去年8月發布的Figure 02進寶馬工廠從事汽車裝配的事兒。
當時寶馬工廠花了12個月才給機器人安排好合適的工作,而這一次,機器人正式上崗物流僅用了30天時間。
也難怪Figure創始人有底氣宣布,未來四年要交付10萬臺人形機器人。
另一方面,隨著國內外各家機器人紛紛“進廠打工”,大家逐漸達成了一個共識:
2025是機器人量產關鍵之年
從各家demo來看,人形機器人的技術已基本成熟,因此接下來的爭奪主要圍繞量產展開,而且要往實際生產場景走了。
比如在一家上海機器人工廠內,大批“未來工人”正在生產ing。
嗯,都卷起來吧!