成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM的關(guān)鍵轉(zhuǎn)折:LAM,究竟是什么?

發(fā)布于 2025-6-25 13:49
瀏覽
0收藏

作者 | Bill Doerrfeld 

編譯 | 云昭

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

操作 Windows 程序、自動對賬發(fā)票、預(yù)訂航班和酒店——這些只是新一代大型語言模型(LLMs)為 AI 智能體帶來的眾多可能性中的幾個。研究人員將這一階段的進化稱為“大型行動模型(Large Action Models)”,簡稱 LAMs。

迄今為止,LLM 是無狀態(tài)的——它們無法自行采取行動、適應(yīng)環(huán)境或與工具交互。但 LAMs 的出現(xiàn),正在使智能體能夠執(zhí)行更復(fù)雜的操作,甚至能在圖形用戶界面(GUI)中自主導(dǎo)航。

IT 服務(wù)公司 Xebia 的集團董事總經(jīng)理 Preetpal Singh 在接受采訪時表示:“LAM 是 AI 系統(tǒng)發(fā)展中的一個關(guān)鍵轉(zhuǎn)折點,它標志著 AI 從被動應(yīng)答者向自主操作者的躍遷。”

實際上,LAM 正在將行業(yè)從“生成式 AI”引導(dǎo)向“智能體 AI”。

xtype(一家 ServiceNow 多實例管理平臺公司)的產(chǎn)品營銷負責(zé)人 Scott Willson 也表示:“AI 一直需要一個‘執(zhí)行引擎’,LAM 正是生成式 AI 對這一需求的回應(yīng)。”

1.什么是大型行動模型?

LAM 是在 LLM 基礎(chǔ)上訓(xùn)練而成的,專注于“行動”任務(wù),并具備真實的外部數(shù)據(jù)與系統(tǒng)連接能力。這意味著,LAM 驅(qū)動的智能體遠比普通 LLM 更強大——后者僅限于推理、檢索和文本生成。

MinIO(對象存儲系統(tǒng))的 AI 解決方案工程師 Keith Pijanowski 表示:“當你在討論 LAM,其實你就是在談智能體。LAM 實際上是智能體的大腦。”

與傳統(tǒng) LLM 面向通用用途、訓(xùn)練數(shù)據(jù)來源廣泛不同,LAM 更注重任務(wù)導(dǎo)向。Imagine Learning(教育平臺)的 AI 事務(wù)副總裁 Jason Fournier 指出:“LAM 是將 LLM 微調(diào),使其在推薦達成目標的行動方面表現(xiàn)更優(yōu)。”

目前的一些 LAM 實踐案例包括:

  • 微軟研究人員開發(fā)了可在 Office 中執(zhí)行任務(wù)的 LAM(來源:The Decoder);
  • Orby 推出了一款用于企業(yè)任務(wù)自動化的 LAM;
  • CogAgent 是一個開源模型,設(shè)計用于在 GUI 中執(zhí)行任務(wù);
  • 加州大學(xué)伯克利分校發(fā)布了 Gorilla,一個在 RAG(檢索增強生成)基礎(chǔ)上擴展運行時、執(zhí)行行動的微調(diào)模型。

目前學(xué)界仍在積極研究 LAM,而業(yè)界對其定義尚未統(tǒng)一。盡管名稱五花八門,許多被稱為“可調(diào)用工具的 LLM”或“智能體框架”的項目,本質(zhì)上都屬于 LAM 范疇。

例如,OpenAI 最近在其 Responses API 中新增了“計算機操作”功能,允許開發(fā)者引導(dǎo) AI 執(zhí)行點擊、滾動等屏幕上的操作。雖然 OpenAI 沒有使用 LAM 這一術(shù)語,但這一功能正體現(xiàn)了“AI 行動力”的整體趨勢。

微軟研究人員在去年12月發(fā)布的一篇關(guān)于 LAM 的研究摘要中寫道:“人們對超越語言助手、能執(zhí)行現(xiàn)實任務(wù)的智能體系統(tǒng)需求正在快速增長。”而今年5月更新的另一項研究則描繪了一種“以 LLM 為大腦的新一代 GUI 智能體”。

2.LAM 如何推動智能體發(fā)展?

在傳統(tǒng)的企業(yè)自動化中,人們依賴于“機器人流程自動化(RPA)”,通過模擬點擊、滾動、復(fù)制文本等用戶行為來完成重復(fù)任務(wù)。而 LAM 正在走得更遠。

不同于依賴硬編碼邏輯的 RPA,基于 LAM 的智能體可以在運行時收集信息,甚至是那些在流程設(shè)計時尚不存在的數(shù)據(jù)。Pijanowski 表示:“這更像是一種動態(tài)業(yè)務(wù)邏輯。”

Willson 則認為 LAM 比 RPA “強太多了”:“……”

Willson 認為 LAM 的能力已經(jīng)遠超 RPA:“它不是根據(jù)固定腳本去做事,而是實時推理,適應(yīng)不同場景。RPA 是靜態(tài)的,而 LAM 是動態(tài)的。”

這使得基于 LAM 的智能體比傳統(tǒng)系統(tǒng)更能適應(yīng)變化的業(yè)務(wù)環(huán)境和用戶需求。例如,它們可以:

  • 在操作過程中根據(jù)最新上下文調(diào)整執(zhí)行策略;
  • 主動判斷執(zhí)行哪個工具或 API;
  • 處理無法預(yù)料的異常情況。

3.實現(xiàn) LAM 的關(guān)鍵構(gòu)件

目前的 LAM 系統(tǒng),往往由以下幾個關(guān)鍵構(gòu)件組成:

  • 多模態(tài)感知能力:能讀取屏幕、識別按鈕、理解圖形界面。
  • 動作規(guī)劃與執(zhí)行模塊:基于任務(wù)目標生成一系列操作指令,比如點擊、鍵入、滾動等。
  • 實時環(huán)境反饋機制:能根據(jù)執(zhí)行結(jié)果即時修正或重新規(guī)劃步驟。
  • 與外部系統(tǒng)的連接能力:調(diào)用 API、讀寫數(shù)據(jù)庫、發(fā)送請求等。

這些能力使 LAM 成為真正意義上的“AI 操作員”,可以輔助甚至替代人類在桌面環(huán)境、網(wǎng)頁、企業(yè)內(nèi)部系統(tǒng)等界面中執(zhí)行任務(wù)。

4.誰在推進 LAM?

目前,除了微軟、OpenAI 和一些學(xué)術(shù)機構(gòu)之外,還有越來越多創(chuàng)業(yè)公司和開源社區(qū)也在推動 LAM 的實踐。比如:

  • AutoGPT和AgentGPT的演化,雖然主要聚焦在文本流程自動化,但也逐步開始探索 GUI 操作;
  • Orby和Cognosys等公司,則專注于企業(yè)環(huán)境下的 LAM 商業(yè)化落地;
  • GitHub 上涌現(xiàn)出大量“Auto Agent Framework”,正在嘗試將 LAM 和 GUI 控制統(tǒng)一集成。

盡管這一領(lǐng)域仍在早期階段,但它可能比“僅生成文本”的 AI 革命更具現(xiàn)實影響力,因為它直接進入了人類工作流的執(zhí)行層。

5.從語言模型到行動模型,AI 的下一步是什么?

我們曾用 LLM 革命性地解決了“理解”和“表達”的問題,現(xiàn)在 LAM 正試圖解決“執(zhí)行”的問題。

就像 Keith Pijanowski 所說:“語言模型是 AI 的大腦,而行動模型才是 AI 的雙手和雙腳。”

隨著更多 GUI-aware、具備系統(tǒng)訪問能力的 LAM 被開發(fā)出來,我們將看到 AI 真正開始動手做事——從寫郵件、處理表格,到登錄系統(tǒng)、分析報表、執(zhí)行指令。

也許未來,企業(yè)的每個部門都會配有一個“數(shù)字助手”,不再只是回答你問題,而是真正替你完成任務(wù)。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,編譯:云昭

已于2025-6-25 13:49:42修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 激情婷婷成人 | 欧美自拍网站 | 久久草在线视频 | 精品一二区 | 亚洲图片一区二区三区 | 在线播放中文字幕 | 日韩一区二区三区在线视频 | 麻豆久久 | 成人免费在线小视频 | 免费在线观看一区二区三区 | 免费啪啪 | 成人av一区| 日韩在线不卡视频 | 亚洲三级免费看 | 精品久久久久久久久久久久 | 久久久久久国产精品 | 观看毛片 | 91一区二区 | 亚洲国产精久久久久久久 | 国产乱码一区 | 欧美日韩亚洲国产 | 中文字幕在线观看第一页 | 国户精品久久久久久久久久久不卡 | 四季久久免费一区二区三区四区 | 日本电影免费完整观看 | 亚洲网视频| 免费看黄色视屏 | 国产精品永久免费 | 国产熟熟 | 亚洲欧美一区二区三区国产精品 | 99久久精品一区二区毛片吞精 | 波多野结衣在线观看一区二区三区 | av香港经典三级级 在线 | 日韩在线不卡视频 | 九九热在线观看 | 国产精品毛片无码 | 一区二区三区四区不卡 | 中文字幕乱码一区二区三区 | 天堂一区二区三区 | 色免费看 | 亚洲黄色成人网 |