SmolVLA來襲:用“小模型”解鎖高效機器人控制 精華
在當今這個科技飛速發展的時代,機器人已經逐漸走進了我們的生活。從工業生產線上的機械臂,到家庭中的掃地機器人,它們都在以各種形式為我們提供便利。然而,盡管我們在機器人控制領域取得了不少進展,但將這些技術真正應用到現實場景中,依然面臨著諸多挑戰。尤其是那些基于大規模視覺-語言-動作(VLA)模型的機器人系統,往往因為硬件和數據需求過高,而難以在普通環境中廣泛部署。這些模型通常依賴于擁有數十億參數的Transformer架構,不僅需要大量的內存,還對計算能力提出了極高的要求。這使得許多研究和實驗只能在資源豐富的實驗室或云端進行,那些使用低成本硬件的研究者們往往被拒之門外。此外,目前VLA領域的許多研究成果要么是保密的,要么無法復現,這極大地阻礙了開放研究的進程。再加上不同機器人平臺之間在形態、傳感器和控制模式上的差異,使得數據異構性問題愈發突出,進一步增加了跨平臺學習和泛化的難度。
但就在最近,Hugging Face給我們帶來了一個好消息——他們推出了SmolVLA,一款專為低成本和高效部署而設計的緊湊型視覺-語言-動作模型。與傳統的VLA模型不同,SmolVLA完全基于社區收集的數據集進行訓練,并且經過優化,能夠在單GPU甚至CPU環境下運行。它的模型架構將一個預訓練的緊湊型視覺-語言模型(SmolVLM-2)和一個基于Transformer的動作專家模塊相結合,能夠從自然語言指令和RGB相機輸入中實現高效的低級控制。
SmolVLA有一個非常獨特的特點,那就是它的異步推理堆棧。這種設計將動作預測與執行解耦,使得模型即使在資源受限的環境中,也能實現低延遲控制,非常適合實時應用。而且,SmolVLA是以開源許可證發布的,附帶了代碼、訓練數據和部署工具,這對于推動整個行業的發展無疑是一個巨大的福音。
架構概覽與設計權衡
SmolVLA模型主要由兩個部分構成:
感知模塊(SmolVLM-2)
這個模塊是一個預訓練的緊湊型視覺-語言編碼器,能夠處理RGB圖像序列、傳感器運動狀態和語言指令。為了提高效率,模型通過下采樣限制了視覺標記的數量,并且只使用了Transformer層的下半部分。這是因為研究發現,較早的層通常會產生更具可遷移性的特征。
動作專家
這是一個輕量級的Transformer,通過流匹配進行訓練,用于預測連續控制動作的序列。動作專家在自注意力層和交叉注意力層之間交替,以平衡內部動作的一致性和對感知輸入的條件約束。同時,為了確保時間一致性,還應用了因果掩碼。
為了減少計算開銷,模型使用線性投影來對齊不同模態的標記維度,并且生成動作塊而不是單步預測,從而減少了推理調用的頻率。此外,模型還通過bfloat16精度和Torch的JIT編譯進行了運行時優化。
實證評估:仿真與現實世界的性能
SmolVLA在仿真基準測試(LIBERO和Meta-World)以及使用低成本SO100和SO101平臺的真實機器人任務中都進行了評估。模型從頭開始在481個社區數據集上進行了訓練,涵蓋了約2.3萬個劇集,任務標簽由一個VLM自動生成。評估指標包括在分布內和分布外條件下任務級別的成功率。
在LIBERO基準測試中,SmolVLA(0.45B)的平均成功率達到了87.3%,與π?(3.3B)等更大的模型不相上下,甚至在某些情況下還超過了它們。在Meta-World中,該模型在不同難度級別的任務中都優于擴散策略和較小規模的VLA??紤]到SmolVLA較小的訓練足跡以及缺乏針對機器人學的預訓練,這些結果尤其令人印象深刻。
在現實場景中,SmolVLA在抓取放置、堆疊和排序任務中的平均成功率達到了78.3%,超過了從頭開始訓練的ACT和經過微調的π?。此外,SmolVLA還能夠跨機器人實體進行泛化,即使只在SO100數據上進行訓練,也能在SO101上保持性能。
異步推理的性能影響
SmolVLA的異步推理堆棧通過重疊預測和執行來提高控制效率。與傳統的同步推理相比,這種方法將平均任務時間縮短了約30%,并且在固定時間場景下,完成的動作數量翻了一番。這對于邊緣部署來說尤其有利,因為在這些場景中,推理延遲會嚴重影響實時性能。
結論
SmolVLA證明了緊湊型、可復現和開源的VLA模型能夠在低成本硬件上實現高效的機器人控制。通過精心的架構選擇——包括層剪枝、分塊動作預測和異步執行——SmolVLA在顯著降低計算需求的同時,保持了性能。
SmolVLA的開放訓練和部署堆棧,加上真實世界的評估,為高效和可訪問的機器人學習研究提供了一個實用的基礎。未來的研究方向包括擴展跨實體數據集、在不犧牲延遲的情況下擴展模型容量,以及探索在機器人數據之外的多模態語料庫上進行聯合訓練。
本文轉載自??Halo咯咯?? 作者:基咯咯
