LLM的關(guān)鍵轉(zhuǎn)折：LAM，究竟是什么？

發(fā)布于 2025-6-25 13:49

瀏覽

0收藏

作者 | Bill Doerrfeld

編譯 | 云昭

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

操作 Windows 程序、自動對賬發(fā)票、預(yù)訂航班和酒店——這些只是新一代大型語言模型（LLMs）為 AI 智能體帶來的眾多可能性中的幾個。研究人員將這一階段的進化稱為“大型行動模型（Large Action Models）”，簡稱 LAMs。

迄今為止，LLM 是無狀態(tài)的——它們無法自行采取行動、適應(yīng)環(huán)境或與工具交互。但 LAMs 的出現(xiàn)，正在使智能體能夠執(zhí)行更復(fù)雜的操作，甚至能在圖形用戶界面（GUI）中自主導(dǎo)航。

IT 服務(wù)公司 Xebia 的集團董事總經(jīng)理 Preetpal Singh 在接受采訪時表示：“LAM 是 AI 系統(tǒng)發(fā)展中的一個關(guān)鍵轉(zhuǎn)折點，它標志著 AI 從被動應(yīng)答者向自主操作者的躍遷。”

實際上，LAM 正在將行業(yè)從“生成式 AI”引導(dǎo)向“智能體 AI”。

xtype（一家 ServiceNow 多實例管理平臺公司）的產(chǎn)品營銷負責(zé)人 Scott Willson 也表示：“AI 一直需要一個‘執(zhí)行引擎’，LAM 正是生成式 AI 對這一需求的回應(yīng)。”

1.什么是大型行動模型？

LAM 是在 LLM 基礎(chǔ)上訓(xùn)練而成的，專注于“行動”任務(wù)，并具備真實的外部數(shù)據(jù)與系統(tǒng)連接能力。這意味著，LAM 驅(qū)動的智能體遠比普通 LLM 更強大——后者僅限于推理、檢索和文本生成。

MinIO（對象存儲系統(tǒng)）的 AI 解決方案工程師 Keith Pijanowski 表示：“當你在討論 LAM，其實你就是在談智能體。LAM 實際上是智能體的大腦。”

與傳統(tǒng) LLM 面向通用用途、訓(xùn)練數(shù)據(jù)來源廣泛不同，LAM 更注重任務(wù)導(dǎo)向。Imagine Learning（教育平臺）的 AI 事務(wù)副總裁 Jason Fournier 指出：“LAM 是將 LLM 微調(diào)，使其在推薦達成目標的行動方面表現(xiàn)更優(yōu)。”

目前的一些 LAM 實踐案例包括：

微軟研究人員開發(fā)了可在 Office 中執(zhí)行任務(wù)的 LAM（來源：The Decoder）；
Orby 推出了一款用于企業(yè)任務(wù)自動化的 LAM；
CogAgent 是一個開源模型，設(shè)計用于在 GUI 中執(zhí)行任務(wù)；
加州大學(xué)伯克利分校發(fā)布了 Gorilla，一個在 RAG（檢索增強生成）基礎(chǔ)上擴展運行時、執(zhí)行行動的微調(diào)模型。

目前學(xué)界仍在積極研究 LAM，而業(yè)界對其定義尚未統(tǒng)一。盡管名稱五花八門，許多被稱為“可調(diào)用工具的 LLM”或“智能體框架”的項目，本質(zhì)上都屬于 LAM 范疇。

例如，OpenAI 最近在其 Responses API 中新增了“計算機操作”功能，允許開發(fā)者引導(dǎo) AI 執(zhí)行點擊、滾動等屏幕上的操作。雖然 OpenAI 沒有使用 LAM 這一術(shù)語，但這一功能正體現(xiàn)了“AI 行動力”的整體趨勢。

微軟研究人員在去年12月發(fā)布的一篇關(guān)于 LAM 的研究摘要中寫道：“人們對超越語言助手、能執(zhí)行現(xiàn)實任務(wù)的智能體系統(tǒng)需求正在快速增長。”而今年5月更新的另一項研究則描繪了一種“以 LLM 為大腦的新一代 GUI 智能體”。