LightPlanner：中科視語開源的輕量化具身推理大模型，賦能機(jī)器人高效決策

發(fā)布于 2025-5-8 00:41

瀏覽

0收藏

在人工智能和機(jī)器人技術(shù)迅速發(fā)展的當(dāng)下，機(jī)器人在復(fù)雜環(huán)境中的任務(wù)規(guī)劃與決策能力顯得尤為重要。然而，現(xiàn)有的許多機(jī)器人系統(tǒng)在處理復(fù)雜任務(wù)時(shí)往往面臨推理效率低下、決策不準(zhǔn)確等問題。為了解決這一挑戰(zhàn)，中科視語推出了LightPlanner，這是一個(gè)開源的輕量化具身推理大模型，旨在提升機(jī)器人在復(fù)雜任務(wù)中的推理和決策能力。本文將深入探討 LightPlanner 的項(xiàng)目背景、技術(shù)原理、功能特點(diǎn)、應(yīng)用場(chǎng)景以及如何快速上手使用，幫助讀者全面了解這一前沿技術(shù)。

一、項(xiàng)目概述

中科視語推出LightPlanner，是一個(gè)專為機(jī)器人設(shè)計(jì)的輕量化具身推理大模型，它的主要目標(biāo)是開發(fā)一個(gè)輕量級(jí)、高效的具身推理模型，能夠支持機(jī)器人在復(fù)雜環(huán)境中的任務(wù)規(guī)劃和決策。具體目標(biāo)包括：

1. 提升機(jī)器人在復(fù)雜任務(wù)中的推理效率，減少推理時(shí)間。

2. 提高機(jī)器人決策的準(zhǔn)確性，減少錯(cuò)誤決策。

3. 優(yōu)化模型的資源占用，使其能夠在邊緣設(shè)備上高效運(yùn)行。

LightPlanner：中科視語開源的輕量化具身推理大模型，賦能機(jī)器人高效決策-AI.x社區(qū)

二、技術(shù)原理

（一）層次化深度推理

LightPlanner 采用了層次化深度推理技術(shù)，模擬人類的決策邏輯。在每一步執(zhí)行前，模型會(huì)觸發(fā)三層驗(yàn)證，包括執(zhí)行反饋、語義一致性和參數(shù)有效性。這種多層次的驗(yàn)證機(jī)制能夠有效減少錯(cuò)誤決策，實(shí)現(xiàn)“錯(cuò)誤自愈”，從而提升模型的推理準(zhǔn)確性和魯棒性。

（二）參數(shù)化動(dòng)態(tài)技能鏈

傳統(tǒng)的具身推理模型通常依賴于固定的技能模板，這限制了模型在處理復(fù)雜任務(wù)時(shí)的靈活性。LightPlanner 引入了參數(shù)化動(dòng)態(tài)技能鏈，突破了這一限制。通過上下文感知的函數(shù)調(diào)用機(jī)制，模型能夠動(dòng)態(tài)解析指令中的動(dòng)態(tài)參數(shù)，從而執(zhí)行需要視覺或空間推理的復(fù)雜具身任務(wù)。

（三）邊緣設(shè)備友好架構(gòu)

為了滿足邊緣設(shè)備的部署需求，LightPlanner 在大模型的輸入端引入了動(dòng)態(tài)更新的歷史行動(dòng)記憶模塊，并結(jié)合迭代式上下文管理，顯著降低了顯存占用。這種架構(gòu)優(yōu)化使得 LightPlanner 能夠在資源受限的邊緣設(shè)備上高效運(yùn)行，而不失推理性能。

LightPlanner：中科視語開源的輕量化具身推理大模型，賦能機(jī)器人高效決策-AI.x社區(qū)

三、功能特點(diǎn)

（一）高效推理能力

LightPlanner 在推理效率方面表現(xiàn)出色。實(shí)驗(yàn)結(jié)果顯示，在真實(shí)世界環(huán)境中的具身決策規(guī)劃任務(wù)中，盡管 LightPlanner 的參數(shù)數(shù)量最少，僅為 1.5B，但其任務(wù)成功率最高。在需要空間語義推理的任務(wù)中，其成功率比 ReAct 高出 14.9%。

（二）動(dòng)態(tài)參數(shù)化技能控制

LightPlanner 支持動(dòng)態(tài)參數(shù)化技能控制，能夠根據(jù)任務(wù)需求動(dòng)態(tài)調(diào)整技能參數(shù)。這種靈活性使得機(jī)器人能夠更好地適應(yīng)復(fù)雜多變的環(huán)境，執(zhí)行各種復(fù)雜的具身任務(wù)。

（三）開源量化模型

為了促進(jìn)技術(shù)的普及和應(yīng)用，中科視語開源了LightPlanner 的量化模型。提供 0.9 到 2.7G 多種量化版本，這些模型在 Hugging Face 平臺(tái)熱度飆升，為研究人員和開發(fā)者提供了豐富的資源。

（四）豐富的數(shù)據(jù)集支持

LightPlanner 配套發(fā)布了 LightPlan-40K 數(shù)據(jù)集，這是首個(gè)具身決策深度推理數(shù)據(jù)集，覆蓋動(dòng)作序列長度為 2-13 的不同復(fù)雜度任務(wù)，總計(jì)包含 4 萬個(gè)帶有層次化深度推理的動(dòng)作決策步驟。

四、應(yīng)用場(chǎng)景

（一）物流領(lǐng)域

在物流倉庫中，機(jī)器人需要高效地規(guī)劃路徑、搬運(yùn)貨物，并處理各種突發(fā)情況。LightPlanner 能夠顯著提升機(jī)器人在這些任務(wù)中的推理和決策能力，優(yōu)化物流效率。

（二）制造業(yè)

在復(fù)雜的制造環(huán)境中，機(jī)器人需要執(zhí)行高精度的組裝和加工任務(wù)。LightPlanner 的動(dòng)態(tài)參數(shù)化技能控制功能能夠幫助機(jī)器人更好地適應(yīng)這些任務(wù)，提高生產(chǎn)效率和產(chǎn)品質(zhì)量。

（三）服務(wù)行業(yè)

服務(wù)機(jī)器人需要在動(dòng)態(tài)環(huán)境中與人類進(jìn)行交互，執(zhí)行各種服務(wù)任務(wù)。LightPlanner 的高效推理能力和動(dòng)態(tài)技能控制功能能夠使服務(wù)機(jī)器人更好地適應(yīng)這些需求，提供更優(yōu)質(zhì)的服務(wù)。

五、快速使用

（一）環(huán)境準(zhǔn)備

在開始之前，請(qǐng)確保您已經(jīng)安裝了以下必要的軟件和庫：

Python 3.10
PyTorch 2.2.0
LightPlanner 代碼庫

（二）安裝步驟

1. 克隆代碼庫：

git clone https://github.com/unira-zwj/LightPlanner.git
cd LightPlanner

2. 安裝依賴項(xiàng)：

pip install fastapi pydantic transformers torch asyncio gradio re

如果您使用的是UR 機(jī)器人，還需要安裝 `urx`：

pip install urx

（三）硬件連接

1. UR 機(jī)器人和 Robotiq 夾爪：

將 UR 機(jī)器人的網(wǎng)絡(luò)電纜連接到 Jetson（或 PC）。
將 Robotiq 的 USB 電纜插入 Jetson（或 PC）。
將 Inter D435 相機(jī)的 USB 連接到 Jetson（或 PC）的 USB 3.0 端口。
確保 UR 機(jī)器人的末端執(zhí)行器與相機(jī)對(duì)齊，并在軟件設(shè)置中配置坐標(biāo)變換矩陣。

2. 設(shè)置 IP 地址：

將 UR 機(jī)器人的 IP 地址設(shè)置為 192.168.0.1。
將 Jetson（或 PC）的 IP 地址設(shè)置為 192.168.0.2（或確保與 UR 機(jī)器人在同一網(wǎng)段）。

3. 查詢 Robotiq 的 tty 設(shè)備號(hào)：

通常為 `/dev/ttyUSB0`。

4. 設(shè)置坐標(biāo)變換矩陣：

在 `lightplanner_callback_v2.py` 的第 110 行設(shè)置：

R_C_to_T = np.eye(3)  # 從相機(jī)到工具的旋轉(zhuǎn)矩陣
t_C_to_T = np.array([-0.038, -0.065, -0.135])  # 從相機(jī)到工具的平移向量

5. 設(shè)置機(jī)器人的初始位置：

在 `lightplanner_callback_v2.py` 的第 106 行設(shè)置：

HOME_POSE = [-0.025, -0.32, 0.2, 0, 3.133, 0]  # 垂直向下任務(wù)的初始位置
HOME_POSE_H = [-0.025, -0.48, 0.15, 0, 2.24, -2.16]  # 水平操作任務(wù)的初始位置

（四）模型下載

從 [Hugging Face](https://huggingface.co/lightplanner) 下載模型文件。
將下載的模型文件移動(dòng)到 `checkpoints` 文件夾中，或者在 `llm-serve.py` 的第 24 行更改模型路徑。

（五）啟動(dòng)服務(wù)

1. 啟動(dòng) FastAPI 服務(wù)：

uvicorn llm-serve:app --host 0.0.0.0 --port 8000

2. 啟動(dòng) Web 界面：

python web-v2.py

（六）使用示例

1. 發(fā)送請(qǐng)求：

打開瀏覽器，訪問：http://localhost:8000。
在 Web 界面中輸入指令，例如：

In: What action should the robot take to {<INSTRUCTION>}?
Out:

模型將生成相應(yīng)的動(dòng)作指令，并顯示在界面上。

六、結(jié)語

LightPlanner 作為中科視語推出的開源輕量化具身推理大模型，憑借其層次化深度推理技術(shù)、參數(shù)化動(dòng)態(tài)技能鏈和邊緣設(shè)備友好架構(gòu)，在機(jī)器人任務(wù)規(guī)劃和決策領(lǐng)域取得了顯著的成果。通過提升推理效率和決策準(zhǔn)確性，LightPlanner 為機(jī)器人在復(fù)雜環(huán)境中的應(yīng)用提供了強(qiáng)大的支持。隨著技術(shù)的不斷發(fā)展和開源社區(qū)的貢獻(xiàn)，LightPlanner 有望在物流、制造、服務(wù)等多個(gè)領(lǐng)域發(fā)揮更大的作用，推動(dòng)機(jī)器人技術(shù)的發(fā)展和普及。

項(xiàng)目主頁：???https://github.com/unira-zwj/LightPlanner??

本文轉(zhuǎn)載自????小兵的AI視界????，作者：AGI小兵?

標(biāo)簽

開源

大模型

機(jī)器人

已于2025-5-8 11:27:45修改

贊

回復(fù)