成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM的關鍵轉折:LAM,究竟是什么?

譯文 精選
人工智能
迄今為止,LLM 是無狀態的——它們無法自行采取行動、適應環境或與工具交互。但 LAMs 的出現,正在使智能體能夠執行更復雜的操作,甚至能在圖形用戶界面(GUI)中自主導航。

作者 | Bill Doerrfeld 

編譯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

操作 Windows 程序、自動對賬發票、預訂航班和酒店——這些只是新一代大型語言模型(LLMs)為 AI 智能體帶來的眾多可能性中的幾個。研究人員將這一階段的進化稱為“大型行動模型(Large Action Models)”,簡稱 LAMs。

迄今為止,LLM 是無狀態的——它們無法自行采取行動、適應環境或與工具交互。但 LAMs 的出現,正在使智能體能夠執行更復雜的操作,甚至能在圖形用戶界面(GUI)中自主導航。

IT 服務公司 Xebia 的集團董事總經理 Preetpal Singh 在接受采訪時表示:“LAM 是 AI 系統發展中的一個關鍵轉折點,它標志著 AI 從被動應答者向自主操作者的躍遷。”

實際上,LAM 正在將行業從“生成式 AI”引導向“智能體 AI”。

xtype(一家 ServiceNow 多實例管理平臺公司)的產品營銷負責人 Scott Willson 也表示:“AI 一直需要一個‘執行引擎’,LAM 正是生成式 AI 對這一需求的回應。”

1.什么是大型行動模型?

LAM 是在 LLM 基礎上訓練而成的,專注于“行動”任務,并具備真實的外部數據與系統連接能力。這意味著,LAM 驅動的智能體遠比普通 LLM 更強大——后者僅限于推理、檢索和文本生成。

MinIO(對象存儲系統)的 AI 解決方案工程師 Keith Pijanowski 表示:“當你在討論 LAM,其實你就是在談智能體。LAM 實際上是智能體的大腦。”

與傳統 LLM 面向通用用途、訓練數據來源廣泛不同,LAM 更注重任務導向。Imagine Learning(教育平臺)的 AI 事務副總裁 Jason Fournier 指出:“LAM 是將 LLM 微調,使其在推薦達成目標的行動方面表現更優。”

目前的一些 LAM 實踐案例包括:

  • 微軟研究人員開發了可在 Office 中執行任務的 LAM(來源:The Decoder);
  • Orby 推出了一款用于企業任務自動化的 LAM;
  • CogAgent 是一個開源模型,設計用于在 GUI 中執行任務;
  • 加州大學伯克利分校發布了 Gorilla,一個在 RAG(檢索增強生成)基礎上擴展運行時、執行行動的微調模型。

目前學界仍在積極研究 LAM,而業界對其定義尚未統一。盡管名稱五花八門,許多被稱為“可調用工具的 LLM”或“智能體框架”的項目,本質上都屬于 LAM 范疇。

例如,OpenAI 最近在其 Responses API 中新增了“計算機操作”功能,允許開發者引導 AI 執行點擊、滾動等屏幕上的操作。雖然 OpenAI 沒有使用 LAM 這一術語,但這一功能正體現了“AI 行動力”的整體趨勢。

微軟研究人員在去年12月發布的一篇關于 LAM 的研究摘要中寫道:“人們對超越語言助手、能執行現實任務的智能體系統需求正在快速增長。”而今年5月更新的另一項研究則描繪了一種“以 LLM 為大腦的新一代 GUI 智能體”。

2.LAM 如何推動智能體發展?

在傳統的企業自動化中,人們依賴于“機器人流程自動化(RPA)”,通過模擬點擊、滾動、復制文本等用戶行為來完成重復任務。而 LAM 正在走得更遠。

不同于依賴硬編碼邏輯的 RPA,基于 LAM 的智能體可以在運行時收集信息,甚至是那些在流程設計時尚不存在的數據。Pijanowski 表示:“這更像是一種動態業務邏輯。”

Willson 則認為 LAM 比 RPA “強太多了”:“……”

Willson 認為 LAM 的能力已經遠超 RPA:“它不是根據固定腳本去做事,而是實時推理,適應不同場景。RPA 是靜態的,而 LAM 是動態的。”

這使得基于 LAM 的智能體比傳統系統更能適應變化的業務環境和用戶需求。例如,它們可以:

  • 在操作過程中根據最新上下文調整執行策略;
  • 主動判斷執行哪個工具或 API;
  • 處理無法預料的異常情況。

3.實現 LAM 的關鍵構件

目前的 LAM 系統,往往由以下幾個關鍵構件組成:

  • 多模態感知能力:能讀取屏幕、識別按鈕、理解圖形界面。
  • 動作規劃與執行模塊:基于任務目標生成一系列操作指令,比如點擊、鍵入、滾動等。
  • 實時環境反饋機制:能根據執行結果即時修正或重新規劃步驟。
  • 與外部系統的連接能力:調用 API、讀寫數據庫、發送請求等。

這些能力使 LAM 成為真正意義上的“AI 操作員”,可以輔助甚至替代人類在桌面環境、網頁、企業內部系統等界面中執行任務。

4.誰在推進 LAM?

目前,除了微軟、OpenAI 和一些學術機構之外,還有越來越多創業公司和開源社區也在推動 LAM 的實踐。比如:

  • AutoGPT 和 AgentGPT 的演化,雖然主要聚焦在文本流程自動化,但也逐步開始探索 GUI 操作;
  • Orby 和 Cognosys 等公司,則專注于企業環境下的 LAM 商業化落地;
  • GitHub 上涌現出大量“Auto Agent Framework”,正在嘗試將 LAM 和 GUI 控制統一集成。

盡管這一領域仍在早期階段,但它可能比“僅生成文本”的 AI 革命更具現實影響力,因為它直接進入了人類工作流的執行層。

5.從語言模型到行動模型,AI 的下一步是什么?

我們曾用 LLM 革命性地解決了“理解”和“表達”的問題,現在 LAM 正試圖解決“執行”的問題。

就像 Keith Pijanowski 所說:“語言模型是 AI 的大腦,而行動模型才是 AI 的雙手和雙腳。”

隨著更多 GUI-aware、具備系統訪問能力的 LAM 被開發出來,我們將看到 AI 真正開始動手做事——從寫郵件、處理表格,到登錄系統、分析報表、執行指令。

也許未來,企業的每個部門都會配有一個“數字助手”,不再只是回答你問題,而是真正替你完成任務。

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2020-07-08 08:09:08

邊緣計算邊緣云云平臺

2011-02-16 16:13:40

Debian

2015-08-26 09:54:19

物聯網

2019-05-27 15:30:44

Node.jsJavaScript前端

2015-09-29 09:47:14

2018-09-10 13:47:21

數據科學統計學決策

2011-08-04 13:24:28

IT運維

2012-05-28 22:49:50

PureView

2022-06-13 09:51:35

UWB超寬帶無線載波通信技術

2014-07-28 08:28:38

Windows

2014-08-07 10:32:02

Windows微軟

2009-07-30 14:43:30

認識BSM

2021-08-09 05:19:08

Provider 前端前端代碼

2010-03-19 17:30:18

云計算

2012-09-17 09:52:20

云計算云存儲公有云

2020-12-17 17:33:47

MLOps大數據數據

2022-10-19 12:23:50

緩存CDN外部緩存

2015-06-04 10:26:50

2014-06-27 09:35:16

機器學習

2022-02-07 15:20:53

去中心化加密經濟學加密貨幣
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 密乳av| 久久久女女女女999久久 | 日韩高清一区 | www.久草| 黄色成人在线 | 亚洲精品无 | 国产精品久久久久久久久久 | 黄色片在线免费看 | 在线免费中文字幕 | 婷婷色在线 | 黑人精品欧美一区二区蜜桃 | 国产精品一区二区无线 | 一级毛片免费完整视频 | 免费黄色在线观看 | 中文字幕精品视频 | 国产成人免费 | 亚洲精品中文字幕 | 黄视频国产 | 超碰国产在线 | 久久精品久久精品久久精品 | 午夜寂寞影院在线观看 | 不卡一区| 亚洲欧美激情精品一区二区 | www.国产视频| 亚洲视频在线一区 | caoporn国产精品免费公开 | 国产精品国产馆在线真实露脸 | 久久精品免费 | 精品综合久久久 | www.久久久久久久久久久久 | 日韩中文字幕 | av高清毛片 | 欧美日韩久久久 | 99小视频 | 日韩欧美不卡 | 一级黄色绿像片 | 欧美日韩在线观看一区 | 欧美性猛交 | 一区在线视频 | 国产精品一区二区三区久久 | 在线免费观看视频你懂的 |