LLM的關(guān)鍵轉(zhuǎn)折:LAM,究竟是什么?
作者 | Bill Doerrfeld
編譯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
操作 Windows 程序、自動對賬發(fā)票、預(yù)訂航班和酒店——這些只是新一代大型語言模型(LLMs)為 AI 智能體帶來的眾多可能性中的幾個。研究人員將這一階段的進化稱為“大型行動模型(Large Action Models)”,簡稱 LAMs。
迄今為止,LLM 是無狀態(tài)的——它們無法自行采取行動、適應(yīng)環(huán)境或與工具交互。但 LAMs 的出現(xiàn),正在使智能體能夠執(zhí)行更復(fù)雜的操作,甚至能在圖形用戶界面(GUI)中自主導(dǎo)航。
IT 服務(wù)公司 Xebia 的集團董事總經(jīng)理 Preetpal Singh 在接受采訪時表示:“LAM 是 AI 系統(tǒng)發(fā)展中的一個關(guān)鍵轉(zhuǎn)折點,它標志著 AI 從被動應(yīng)答者向自主操作者的躍遷。”
實際上,LAM 正在將行業(yè)從“生成式 AI”引導(dǎo)向“智能體 AI”。
xtype(一家 ServiceNow 多實例管理平臺公司)的產(chǎn)品營銷負責(zé)人 Scott Willson 也表示:“AI 一直需要一個‘執(zhí)行引擎’,LAM 正是生成式 AI 對這一需求的回應(yīng)。”
1.什么是大型行動模型?
LAM 是在 LLM 基礎(chǔ)上訓(xùn)練而成的,專注于“行動”任務(wù),并具備真實的外部數(shù)據(jù)與系統(tǒng)連接能力。這意味著,LAM 驅(qū)動的智能體遠比普通 LLM 更強大——后者僅限于推理、檢索和文本生成。
MinIO(對象存儲系統(tǒng))的 AI 解決方案工程師 Keith Pijanowski 表示:“當你在討論 LAM,其實你就是在談智能體。LAM 實際上是智能體的大腦。”
與傳統(tǒng) LLM 面向通用用途、訓(xùn)練數(shù)據(jù)來源廣泛不同,LAM 更注重任務(wù)導(dǎo)向。Imagine Learning(教育平臺)的 AI 事務(wù)副總裁 Jason Fournier 指出:“LAM 是將 LLM 微調(diào),使其在推薦達成目標的行動方面表現(xiàn)更優(yōu)。”
目前的一些 LAM 實踐案例包括:
- 微軟研究人員開發(fā)了可在 Office 中執(zhí)行任務(wù)的 LAM(來源:The Decoder);
- Orby 推出了一款用于企業(yè)任務(wù)自動化的 LAM;
- CogAgent 是一個開源模型,設(shè)計用于在 GUI 中執(zhí)行任務(wù);
- 加州大學(xué)伯克利分校發(fā)布了 Gorilla,一個在 RAG(檢索增強生成)基礎(chǔ)上擴展運行時、執(zhí)行行動的微調(diào)模型。
目前學(xué)界仍在積極研究 LAM,而業(yè)界對其定義尚未統(tǒng)一。盡管名稱五花八門,許多被稱為“可調(diào)用工具的 LLM”或“智能體框架”的項目,本質(zhì)上都屬于 LAM 范疇。
例如,OpenAI 最近在其 Responses API 中新增了“計算機操作”功能,允許開發(fā)者引導(dǎo) AI 執(zhí)行點擊、滾動等屏幕上的操作。雖然 OpenAI 沒有使用 LAM 這一術(shù)語,但這一功能正體現(xiàn)了“AI 行動力”的整體趨勢。
微軟研究人員在去年12月發(fā)布的一篇關(guān)于 LAM 的研究摘要中寫道:“人們對超越語言助手、能執(zhí)行現(xiàn)實任務(wù)的智能體系統(tǒng)需求正在快速增長。”而今年5月更新的另一項研究則描繪了一種“以 LLM 為大腦的新一代 GUI 智能體”。
2.LAM 如何推動智能體發(fā)展?
在傳統(tǒng)的企業(yè)自動化中,人們依賴于“機器人流程自動化(RPA)”,通過模擬點擊、滾動、復(fù)制文本等用戶行為來完成重復(fù)任務(wù)。而 LAM 正在走得更遠。
不同于依賴硬編碼邏輯的 RPA,基于 LAM 的智能體可以在運行時收集信息,甚至是那些在流程設(shè)計時尚不存在的數(shù)據(jù)。Pijanowski 表示:“這更像是一種動態(tài)業(yè)務(wù)邏輯。”
Willson 則認為 LAM 比 RPA “強太多了”:“……”
Willson 認為 LAM 的能力已經(jīng)遠超 RPA:“它不是根據(jù)固定腳本去做事,而是實時推理,適應(yīng)不同場景。RPA 是靜態(tài)的,而 LAM 是動態(tài)的。”
這使得基于 LAM 的智能體比傳統(tǒng)系統(tǒng)更能適應(yīng)變化的業(yè)務(wù)環(huán)境和用戶需求。例如,它們可以:
- 在操作過程中根據(jù)最新上下文調(diào)整執(zhí)行策略;
- 主動判斷執(zhí)行哪個工具或 API;
- 處理無法預(yù)料的異常情況。
3.實現(xiàn) LAM 的關(guān)鍵構(gòu)件
目前的 LAM 系統(tǒng),往往由以下幾個關(guān)鍵構(gòu)件組成:
- 多模態(tài)感知能力:能讀取屏幕、識別按鈕、理解圖形界面。
- 動作規(guī)劃與執(zhí)行模塊:基于任務(wù)目標生成一系列操作指令,比如點擊、鍵入、滾動等。
- 實時環(huán)境反饋機制:能根據(jù)執(zhí)行結(jié)果即時修正或重新規(guī)劃步驟。
- 與外部系統(tǒng)的連接能力:調(diào)用 API、讀寫數(shù)據(jù)庫、發(fā)送請求等。
這些能力使 LAM 成為真正意義上的“AI 操作員”,可以輔助甚至替代人類在桌面環(huán)境、網(wǎng)頁、企業(yè)內(nèi)部系統(tǒng)等界面中執(zhí)行任務(wù)。
4.誰在推進 LAM?
目前,除了微軟、OpenAI 和一些學(xué)術(shù)機構(gòu)之外,還有越來越多創(chuàng)業(yè)公司和開源社區(qū)也在推動 LAM 的實踐。比如:
- AutoGPT和AgentGPT的演化,雖然主要聚焦在文本流程自動化,但也逐步開始探索 GUI 操作;
- Orby和Cognosys等公司,則專注于企業(yè)環(huán)境下的 LAM 商業(yè)化落地;
- GitHub 上涌現(xiàn)出大量“Auto Agent Framework”,正在嘗試將 LAM 和 GUI 控制統(tǒng)一集成。
盡管這一領(lǐng)域仍在早期階段,但它可能比“僅生成文本”的 AI 革命更具現(xiàn)實影響力,因為它直接進入了人類工作流的執(zhí)行層。
5.從語言模型到行動模型,AI 的下一步是什么?
我們曾用 LLM 革命性地解決了“理解”和“表達”的問題,現(xiàn)在 LAM 正試圖解決“執(zhí)行”的問題。
就像 Keith Pijanowski 所說:“語言模型是 AI 的大腦,而行動模型才是 AI 的雙手和雙腳。”
隨著更多 GUI-aware、具備系統(tǒng)訪問能力的 LAM 被開發(fā)出來,我們將看到 AI 真正開始動手做事——從寫郵件、處理表格,到登錄系統(tǒng)、分析報表、執(zhí)行指令。
也許未來,企業(yè)的每個部門都會配有一個“數(shù)字助手”,不再只是回答你問題,而是真正替你完成任務(wù)。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,編譯:云昭
