LightPlanner:中科視語開源的輕量化具身推理大模型,賦能機(jī)器人高效決策
在人工智能和機(jī)器人技術(shù)迅速發(fā)展的當(dāng)下,機(jī)器人在復(fù)雜環(huán)境中的任務(wù)規(guī)劃與決策能力顯得尤為重要。然而,現(xiàn)有的許多機(jī)器人系統(tǒng)在處理復(fù)雜任務(wù)時(shí)往往面臨推理效率低下、決策不準(zhǔn)確等問題。為了解決這一挑戰(zhàn),中科視語推出了LightPlanner,這是一個(gè)開源的輕量化具身推理大模型,旨在提升機(jī)器人在復(fù)雜任務(wù)中的推理和決策能力。本文將深入探討 LightPlanner 的項(xiàng)目背景、技術(shù)原理、功能特點(diǎn)、應(yīng)用場(chǎng)景以及如何快速上手使用,幫助讀者全面了解這一前沿技術(shù)。
一、項(xiàng)目概述
中科視語推出LightPlanner,是一個(gè)專為機(jī)器人設(shè)計(jì)的輕量化具身推理大模型,它的主要目標(biāo)是開發(fā)一個(gè)輕量級(jí)、高效的具身推理模型,能夠支持機(jī)器人在復(fù)雜環(huán)境中的任務(wù)規(guī)劃和決策。具體目標(biāo)包括:
1. 提升機(jī)器人在復(fù)雜任務(wù)中的推理效率,減少推理時(shí)間。
2. 提高機(jī)器人決策的準(zhǔn)確性,減少錯(cuò)誤決策。
3. 優(yōu)化模型的資源占用,使其能夠在邊緣設(shè)備上高效運(yùn)行。
二、技術(shù)原理
(一)層次化深度推理
LightPlanner 采用了層次化深度推理技術(shù),模擬人類的決策邏輯。在每一步執(zhí)行前,模型會(huì)觸發(fā)三層驗(yàn)證,包括執(zhí)行反饋、語義一致性和參數(shù)有效性。這種多層次的驗(yàn)證機(jī)制能夠有效減少錯(cuò)誤決策,實(shí)現(xiàn)“錯(cuò)誤自愈”,從而提升模型的推理準(zhǔn)確性和魯棒性。
(二)參數(shù)化動(dòng)態(tài)技能鏈
傳統(tǒng)的具身推理模型通常依賴于固定的技能模板,這限制了模型在處理復(fù)雜任務(wù)時(shí)的靈活性。LightPlanner 引入了參數(shù)化動(dòng)態(tài)技能鏈,突破了這一限制。通過上下文感知的函數(shù)調(diào)用機(jī)制,模型能夠動(dòng)態(tài)解析指令中的動(dòng)態(tài)參數(shù),從而執(zhí)行需要視覺或空間推理的復(fù)雜具身任務(wù)。
(三)邊緣設(shè)備友好架構(gòu)
為了滿足邊緣設(shè)備的部署需求,LightPlanner 在大模型的輸入端引入了動(dòng)態(tài)更新的歷史行動(dòng)記憶模塊,并結(jié)合迭代式上下文管理,顯著降低了顯存占用。這種架構(gòu)優(yōu)化使得 LightPlanner 能夠在資源受限的邊緣設(shè)備上高效運(yùn)行,而不失推理性能。
三、功能特點(diǎn)
(一)高效推理能力
LightPlanner 在推理效率方面表現(xiàn)出色。實(shí)驗(yàn)結(jié)果顯示,在真實(shí)世界環(huán)境中的具身決策規(guī)劃任務(wù)中,盡管 LightPlanner 的參數(shù)數(shù)量最少,僅為 1.5B,但其任務(wù)成功率最高。在需要空間語義推理的任務(wù)中,其成功率比 ReAct 高出 14.9%。
(二)動(dòng)態(tài)參數(shù)化技能控制
LightPlanner 支持動(dòng)態(tài)參數(shù)化技能控制,能夠根據(jù)任務(wù)需求動(dòng)態(tài)調(diào)整技能參數(shù)。這種靈活性使得機(jī)器人能夠更好地適應(yīng)復(fù)雜多變的環(huán)境,執(zhí)行各種復(fù)雜的具身任務(wù)。
(三)開源量化模型
為了促進(jìn)技術(shù)的普及和應(yīng)用,中科視語開源了LightPlanner 的量化模型。提供 0.9 到 2.7G 多種量化版本,這些模型在 Hugging Face 平臺(tái)熱度飆升,為研究人員和開發(fā)者提供了豐富的資源。
(四)豐富的數(shù)據(jù)集支持
LightPlanner 配套發(fā)布了 LightPlan-40K 數(shù)據(jù)集,這是首個(gè)具身決策深度推理數(shù)據(jù)集,覆蓋動(dòng)作序列長度為 2-13 的不同復(fù)雜度任務(wù),總計(jì)包含 4 萬個(gè)帶有層次化深度推理的動(dòng)作決策步驟。
四、應(yīng)用場(chǎng)景
(一)物流領(lǐng)域
在物流倉庫中,機(jī)器人需要高效地規(guī)劃路徑、搬運(yùn)貨物,并處理各種突發(fā)情況。LightPlanner 能夠顯著提升機(jī)器人在這些任務(wù)中的推理和決策能力,優(yōu)化物流效率。
(二)制造業(yè)
在復(fù)雜的制造環(huán)境中,機(jī)器人需要執(zhí)行高精度的組裝和加工任務(wù)。LightPlanner 的動(dòng)態(tài)參數(shù)化技能控制功能能夠幫助機(jī)器人更好地適應(yīng)這些任務(wù),提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
(三)服務(wù)行業(yè)
服務(wù)機(jī)器人需要在動(dòng)態(tài)環(huán)境中與人類進(jìn)行交互,執(zhí)行各種服務(wù)任務(wù)。LightPlanner 的高效推理能力和動(dòng)態(tài)技能控制功能能夠使服務(wù)機(jī)器人更好地適應(yīng)這些需求,提供更優(yōu)質(zhì)的服務(wù)。
五、快速使用
(一)環(huán)境準(zhǔn)備
在開始之前,請(qǐng)確保您已經(jīng)安裝了以下必要的軟件和庫:
- Python 3.10
- PyTorch 2.2.0
- LightPlanner 代碼庫
(二)安裝步驟
1. 克隆代碼庫:
git clone https://github.com/unira-zwj/LightPlanner.git
cd LightPlanner
2. 安裝依賴項(xiàng):
pip install fastapi pydantic transformers torch asyncio gradio re
如果您使用的是UR 機(jī)器人,還需要安裝 `urx`:
pip install urx
(三)硬件連接
1. UR 機(jī)器人和 Robotiq 夾爪:
- 將 UR 機(jī)器人的網(wǎng)絡(luò)電纜連接到 Jetson(或 PC)。
- 將 Robotiq 的 USB 電纜插入 Jetson(或 PC)。
- 將 Inter D435 相機(jī)的 USB 連接到 Jetson(或 PC)的 USB 3.0 端口。
- 確保 UR 機(jī)器人的末端執(zhí)行器與相機(jī)對(duì)齊,并在軟件設(shè)置中配置坐標(biāo)變換矩陣。
2. 設(shè)置 IP 地址:
- 將 UR 機(jī)器人的 IP 地址設(shè)置為 192.168.0.1。
- 將 Jetson(或 PC)的 IP 地址設(shè)置為 192.168.0.2(或確保與 UR 機(jī)器人在同一網(wǎng)段)。
3. 查詢 Robotiq 的 tty 設(shè)備號(hào):
- 通常為 `/dev/ttyUSB0`。
4. 設(shè)置坐標(biāo)變換矩陣:
- 在 `lightplanner_callback_v2.py` 的第 110 行設(shè)置:
R_C_to_T = np.eye(3) # 從相機(jī)到工具的旋轉(zhuǎn)矩陣
t_C_to_T = np.array([-0.038, -0.065, -0.135]) # 從相機(jī)到工具的平移向量
5. 設(shè)置機(jī)器人的初始位置:
- 在 `lightplanner_callback_v2.py` 的第 106 行設(shè)置:
HOME_POSE = [-0.025, -0.32, 0.2, 0, 3.133, 0] # 垂直向下任務(wù)的初始位置
HOME_POSE_H = [-0.025, -0.48, 0.15, 0, 2.24, -2.16] # 水平操作任務(wù)的初始位置
(四)模型下載
- 從 [Hugging Face](https://huggingface.co/lightplanner) 下載模型文件。
- 將下載的模型文件移動(dòng)到 `checkpoints` 文件夾中,或者在 `llm-serve.py` 的第 24 行更改模型路徑。
(五)啟動(dòng)服務(wù)
1. 啟動(dòng) FastAPI 服務(wù):
uvicorn llm-serve:app --host 0.0.0.0 --port 8000
2. 啟動(dòng) Web 界面:
python web-v2.py
(六)使用示例
1. 發(fā)送請(qǐng)求:
- 打開瀏覽器,訪問:http://localhost:8000。
- 在 Web 界面中輸入指令,例如:
In: What action should the robot take to {<INSTRUCTION>}?
Out:
- 模型將生成相應(yīng)的動(dòng)作指令,并顯示在界面上。
六、結(jié)語
LightPlanner 作為中科視語推出的開源輕量化具身推理大模型,憑借其層次化深度推理技術(shù)、參數(shù)化動(dòng)態(tài)技能鏈和邊緣設(shè)備友好架構(gòu),在機(jī)器人任務(wù)規(guī)劃和決策領(lǐng)域取得了顯著的成果。通過提升推理效率和決策準(zhǔn)確性,LightPlanner 為機(jī)器人在復(fù)雜環(huán)境中的應(yīng)用提供了強(qiáng)大的支持。隨著技術(shù)的不斷發(fā)展和開源社區(qū)的貢獻(xiàn),LightPlanner 有望在物流、制造、服務(wù)等多個(gè)領(lǐng)域發(fā)揮更大的作用,推動(dòng)機(jī)器人技術(shù)的發(fā)展和普及。
項(xiàng)目主頁:???https://github.com/unira-zwj/LightPlanner??
本文轉(zhuǎn)載自????小兵的AI視界????,作者:AGI小兵?
