深入探討AI Agent在2025年的發展
AI系統正逐步獲得在現實世界中獨立行動的能力。過去一年,我們在推理、計算機控制和記憶系統方面取得了重大進展,這些技術推動了這一轉變。本文分析了這些發展的技術基礎、不同領域中AI Agent的現狀,以及確保其可靠性所需的基礎設施。我們將探討推動這一變革的技術進步,以及尚待解決的挑戰。
第一部分:巨大的轉變——從模型到 Agent
2024年,我們見證了AI Agent關鍵能力的崛起。OpenAI的o1和o3模型表明,機器可以分解復雜任務。Claude 3.5展示了其像人類一樣使用計算機的能力——控制界面并運行軟件。這些進展,再加上記憶和學習系統的改進,使AI正從簡單的聊天界面邁向自主系統。
AI Agent已經在例如法律分析、科學研究和技術支持這些特定領域中發揮作用。在具有明確規則的結構化環境中,它們表現出色,但在不可預測的情境和開放性問題上仍然面臨挑戰。當任務涉及異常處理或適應變化條件時,其成功率會顯著下降。
該領域正從對話式AI向能夠獨立推理和行動的系統演進。每一步都需要更強的計算能力,并帶來新的技術挑戰。本文將探討AI Agent的工作原理、當前能力以及保障其可靠運行所需的基礎設施。
什么是AI Agent?
AI Agent是一個能夠推理問題、制定計劃并使用工具執行任務的系統。與傳統僅響應提示的AI模型不同,AI Agent具備以下特性:
- 自主性:能夠獨立追求目標并做出決策
- 工具使用:可直接與軟件、API和外部系統交互
- 記憶:保持上下文并從過去的經驗中學習
- 規劃:將復雜任務分解為可執行的步驟
- 適應性:通過經驗學習,提高決策能力和執行效率
理解AI從被動響應者到自主Agent的演進,對于把握未來的機遇與挑戰至關重要。接下來,我們將探討促成這一變革的關鍵技術進展。
基礎:2024年的突破
2024年,三項關鍵技術進步為自主AI Agent的崛起奠定了基礎:
- 首先,OpenAI的o系列模型在推理能力上取得突破。o3在ARC-AGI基準測試中達到了87%的準確率,該測試評估AI解決類人問題的能力。這些模型通過生成多個并行解決方案,并利用共識機制選擇最可靠的答案,從而實現這一成就。這種通過多種推理路徑系統性地解決新問題的能力,為AI Agent的自主行動奠定了基礎。
- 其次,AI模型獲得了視覺能力和基礎的計算機控制能力。主流模型開始普遍具備視覺能力,使其能夠處理屏幕截圖并理解軟件界面。Claude 3.5展示了控制計算機的能力——它可以移動光標、點擊界面元素并執行簡單指令。盡管仍低于人類水平且僅限于基礎操作,但這些進展表明AI系統可以與標準軟件界面交互,從而擴展其應用范圍。
- 第三,模型架構的進步徹底改變了AI系統處理記憶和上下文的方式。新的方法突破了傳統的注意力機制,引入了更復雜的記憶管理——結合擴展的上下文窗口、顯式工作記憶以及高效的知識緩存。這一演進使得AI Agent能夠在更長時間、更復雜的交互中保持連貫的理解能力。
現狀:AI Agent正在崛起
如今,這些能力正在帶來實際成果。我們正見證AI Agent在特定領域擴展人類能力的崛起。早期應用已初見成效:
- Harvey正在構建法律AI Agent,可與律師協作完成復雜任務,如S-1文件編制。它利用o1的高級推理能力來拆解并規劃多階段的法律工作。
- OpenHands等開發平臺允許AI Agent編寫代碼、與命令行交互,并像人類開發者一樣瀏覽網頁。
- 研究團隊正在使用多Agent系統進行科學實驗的設計與驗證,特定的Agent負責假設生成、實驗設計和結果分析。
- 醫療團隊部署AI Agent作為醫療記錄助手,從醫生與患者的對話中自動生成臨床筆記。
- 航空公司使用AI Agent處理復雜的機票變更,協調航班可用性、票價規則和退款政策。
- 采購團隊采用AI Agent進行供應商協議談判。
近期研究表明,這些系統正在迅速成熟。AI Agent已經能夠在自然對話中同時處理復雜的業務規則和多個后臺系統——這標志著AI從實驗性原型向實際部署的轉變。
關鍵問題
在這場變革中,三個核心問題浮現:
- 自主AI Agent何時能夠超越傳統的AI工具?
- 實現AI Agent成功部署所需的技術和組織基礎設施是什么?
- 如何確保AI Agent的運行可靠、安全且具備成本效益?
接下來的內容將深入探討:
- 現有AI Agent的能力范圍
- 不同行業中AI Agent帶來的實際變革
- 成功部署AI Agent所需的技術基礎設施
- 現存的局限性與挑戰
- 未來發展方向
理解這些方面至關重要,因為AI Agent技術正在改變我們解決復雜任務和做出決策的方式。接下來,我們將探討支撐這些能力的核心構建模塊。
第二部分:理解Agent頻譜
當前的AI Agent在能力和自主程度上存在差異。一些任務僅需要基礎的工具使用和響應生成,而另一些則需要復雜的推理和自主決策。理解這些能力層級有助于判斷何時應使用更簡單、可預測的系統,何時需要完全自主的Agent。
構建模塊
三大核心能力使AI Agent區別于更簡單的AI工具:
推理與規劃
- 將復雜任務拆解為多個步驟
- 系統性地探索多種解決方案
- 根據結果調整策略
- 從成功和失敗中學習
工具使用
- 直接與軟件界面交互
- 調用API和函數
- 生成并執行代碼
- 進行網頁瀏覽和數據訪問
記憶與學習
- 在多輪交互中保持上下文
- 構建可復用的技能
- 從過去的經驗中學習
- 隨時間推移提升性能
Agent能力頻譜
從簡單的AI工具到完全自主的Agent,其發展遵循一個逐步增加復雜性和能力的頻譜:
1)單工具系統
- 依賴單個語言模型進行基礎工具使用
- 交互簡單且明確
- 受限于特定的API或函數
- 示例:基于搜索的聊天應用
2)多工具編排
- 在單個模型內集成多個工具
- 結構化API交互
- 預定義工作流和模式
- 示例:帶插件的ChatGPT
3)組合系統
- 多個模型協同工作
- 迭代式處理,支持循環執行
- 更復雜的編排邏輯
- 示例:多Agent協作開發系統
4)通用訪問Agent
- 直接訪問系統(屏幕、鍵盤、CLI)
- 超越結構化API的限制
- 可處理開放式任務
- 示例:計算機控制Agent
并非所有問題都需要最高級別的Agent。像工具使用模型或編排系統這樣的簡單方案通常更合適且成本更低。
上下文與控制的作用
在增強Agent自主性的同時,保持能力與控制的平衡至關重要,需考慮以下因素:
安全與治理
- 訪問控制與權限管理
- 活動監控與日志記錄
- 資源使用限制
- 安全約束
可靠性與可信度
- 行為驗證機制
- 決策透明度
- 錯誤處理與恢復
- 性能監控
成本與資源管理
- 計算資源優化
- API調用效率
- 存儲與內存管理
在這一能力頻譜中,理解自身需求至關重要。并非所有任務都需要完全自主的Agent,有時一個簡單的工具使用系統更合適且成本更優。
第三部分:現實世界的變革
AI Agent的真正潛力在于其實際應用。讓我們看看不同行業如何利用Agent能力來解決現實問題。
軟件開發
從簡單的代碼補全到自主開發的演進,展示了AI Agent不斷擴展的能力。GitHub Copilot在2021年推出實時代碼建議,而如今的Agent(如Devin)已經能夠處理從環境搭建到部署的端到端開發任務。
MetaGPT(一種多Agent協作框架)展示了專業化Agent如何高效協作:
- 產品經理:負責定義需求
- 架構師:設計系統結構
- 開發者:實現解決方案
- QA Agent:進行結果驗證
AI Agent雖然沒有人類的局限性,但這也引發了一個根本性問題:過去50-60年來,軟件開發活動一直圍繞人類能力設計,而如今AI正在改變這一模式。盡管它們在原型開發和自動化測試等任務上表現出色,但真正的機遇在于重新定義軟件開發本身,而不僅僅是加速現有流程。
這種變革已經影響到招聘趨勢。Salesforce宣布2025年將不再招聘軟件工程師,因為AI Agent技術已提升了30%的生產力。Meta CEO馬克·扎克伯格預計,到2025年,AI將具備中級軟件工程師的能力,能夠生成生產級代碼用于應用和AI系統。
然而,近期對Devin的現實測試揭示了開發Agent的局限性:
- 優勢:在API集成等孤立任務上表現優異
- 劣勢:在復雜開發工作中仍然存在困難,20個端到端任務中僅成功完成3個
- 替代方案:更簡單的、由開發者驅動的工具(如Cursor)可以避免許多自主Agent遇到的問題
客戶服務
從簡單的聊天機器人到復雜的服務Agent的演進,標志著AI Agent在部署上的顯著成功。研究表明,現代Agent可以處理過去需要多個人工客服才能完成的復雜任務——從航班改簽到多步驟退款——同時還能保持自然的對話交互。
這些系統的核心能力包括:
- 協調多個后臺系統(如預訂、支付、庫存管理)
- 在復雜的多輪對話中保持上下文
- 遵循業務規則,并在記錄過程中確保合規
- 處理常規案例,平均加快40%至60%的解決速度
然而,政策例外和需要同理心的情況仍然是重大挑戰。一些實施方案通過限制Agent訪問已批準的知識庫并設定明確的人工升級路徑來解決這些問題。實踐表明,這種混合模式(Agent處理常規事務,復雜情況交由人工客服)在實際生產環境中最為高效。
銷售與市場營銷
銷售和市場營銷Agent現在處理結構化的工作流程,如潛在客戶資格審核、會議安排和營銷活動分析。這些系統在CRM平臺和通信渠道之間協調,同時遵循可配置的業務規則。例如,Salesforce的Agentforce可以處理客戶互動,保持對話上下文,并在需要時將復雜案例轉交給人工客服。
最近的基準測試顯示,Agent在以下兩個領域取得了可衡量的成果:
銷售發展
- 自主的潛在客戶資格審核和外展——例如,11x的Alice Agent可以識別潛在客戶并安排會議,同時根據互動進行調整。
- 多模態通信處理——例如,11x的Mike Agent可以處理28種語言的語音和文本互動。
- 與CRM平臺和業務工具的系統編排,按照可配置的參數操作,確保合規性。
營銷操作
- 內容生成和優化。
- 性能跟蹤。
- 數據分析和報告。
這些系統的關鍵能力包括:
- 理解并回應跨渠道的復雜客戶查詢
- 協調多個業務系統和數據源
- 在長期互動中保持對話上下文
- 在需要時將問題升級給人工Agent
- 在可配置的參數范圍內操作,以與業務目標和合規標準對齊
這些解決方案的集成和采用面臨一些挑戰:
- 在自動化與人際關系建設之間找到平衡
- 隨著規模擴大,確保質量的一致性
- 在自動化互動中保持個性化
銷售和營銷的成功需要一種平衡的方法,其中Agent處理常規互動和數據驅動任務,而人工團隊則專注于關系建設和復雜決策。
法律服務
法律Agent現在在嚴格的監管框架內處理復雜的文檔。Harvey的系統能夠將像S-1申報表這樣的多月項目分解為結構化步驟,協調多個利益相關方,并在不同司法管轄區內保持合規性。然而,這些系統仍然需要謹慎的人類監督,特別是對于需要主觀判斷或依賴上下文的推理任務。
關鍵特點:
- 處理和分析成千上萬的法律文檔,同時保持文檔的一致性。
- 將像S-1申報表這樣復雜的任務分解為結構化的工作流程,并設定清晰的檢查點。
- 跟蹤不同司法管轄區的監管要求。
- 保留所有修改和推理的詳細審計追蹤。
驗證和責任問題仍然是部署中的重大障礙。所有Agent輸出都需要人工審查,且AI輔助的法律工作中的責任問題尚未解決。雖然Agent在文檔處理和研究方面表現出色,但戰略性的法律決策仍然掌握在人工手中。
法律AI Agent的未來可能在于人類律師和AI系統之間的增強協作,Agent負責常規的文檔處理和分析,而律師則專注于戰略、談判和最終的驗證。
金融
金融服務已成為Agent技術的早期試驗場,應用范圍從市場分析到自動化交易不等。
主要應用場景:
- 市場分析與研究
- 分析公司報告、新聞和市場數據——例如,Decagon通過詳細的市場趨勢分析幫助分析師評估投資機會。
- 基于多模態數據分析生成投資洞察和建議。
- 處理多種數據源,包括市場數據、證券交易委員會(SEC)文件和新聞。
- 交易與投資
- 基于定義的策略執行交易。
- 管理投資組合。
- 最近的基準測試顯示,專有模型已達到95%的買入持有收益,而開源替代方案則達到了80%。
- 風險管理
- 監控投資組合風險指標。
- 生成合規報告。
- 在人工監督下保持性能一致性。
當前的局限性包括:
- 單一資產聚焦(大多數系統在復雜的投資組合管理中表現不佳)。
- 市場條件下的可靠性變化。
- 長期策略維持的挑戰。
- 實時處理和全球市場適應性的問題。
早期的結果是有希望的,但金融應用需要仔細的風險管理和合規性。大多數組織從在人工監督下聚焦于單一資產交易的狹窄應用場景開始,然后逐步過渡到復雜的投資組合管理。
科學研究
科學研究中的AI Agent能夠加速發現,同時保持嚴格的方法論。最近的論文展示了專業Agent如何在整個研究生命周期中協作:
- 文獻Agent分析成千上萬篇論文,識別模式和空白。
- 假設Agent根據現有知識提出可測試的理論。
- 實驗Agent設計實驗方案并預測結果。
- 分析Agent解釋結果并提出改進建議。
這種多Agent方法在化學領域取得了有希望的成果,Agent幫助識別了新的催化劑和反應路徑。隨著谷歌最近宣布的Gemini Deep Research,它匯總并分析基于網絡的研究,我們可以看到這些能力不僅限于專業領域,還能支持更廣泛的研究任務。
主要的挑戰包括驗證、可重復性和自動化質量評估——Agent的輸出在專家評審中評分低于人工工作。雖然Agent能夠通過處理常規任務加速發現,但人類科學家在創意指導和結果驗證方面依然是不可或缺的。成功的關鍵在于將Agent能力與現有的研究方法論進行有效集成,同時保持科學的嚴謹性。
新興模式
盡管Agent的應用因行業而異,但有三個共同的主題出現:
- 改進的記憶
- 在更長時間的互動中保持更豐富的上下文。
- 保留相關信息以改善決策。
- 復雜的規劃
- 將任務分解為可執行的邏輯步驟。
- 協調多步驟的工作流程或業務流程。
- 直接工具集成
- 與外部API和軟件環境進行互動。
- 處理專業任務(如代碼生成、數據分析等)。
雖然AI Agent的潛力巨大,但大多數行業仍處于實驗性采用階段。組織通常從建立的方式開始,如檢索增強生成(RAG),然后過渡到更高級的Agent實現。
一個關鍵挑戰是識別出Agent在傳統的AI方法上能提供可衡量優勢的場景。雖然Agent提供了擴展的能力,但它們也通過所需的安全控制、集成和基礎設施開銷引入了復雜性。
一些任務需要更簡單的工具,而其他任務則從多步驟規劃、先進的記憶或專業協作中受益。有效的實施要求評估何時Agent能力值得其在開發努力和運營開銷方面的復雜性。
第四部分:引擎艙
之前討論的基礎構建模塊——規劃、工具使用和記憶——在生產環境中高效運行需要復雜的基礎設施。盡管技術在不斷發展,但一些關鍵組件已經成為成功部署Agent的必要條件。
開發框架與架構
Agent開發框架生態系統已經成熟,出現了幾家關鍵玩家:
- 微軟的AutoGen擅長靈活的工具集成和多Agent編排。
- CrewAI專注于基于角色的協作和團隊模擬。
- LangGraph提供強大的工作流定義和狀態管理。
- Llamaindex提供先進的知識集成和檢索模式。
雖然這些框架各有不同,但成功的Agent通常需要三個核心架構組件:
- 記憶系統:能夠保持上下文并從過去的互動中學習。
- 規劃系統:將復雜任務分解為邏輯步驟,同時驗證每個階段。
- 工具集成:通過函數調用和API接口訪問專業功能。
盡管這些框架提供了堅實的基礎,但生產環境中的部署通常需要進行大量定制,以處理高規模工作負載、安全需求和與現有系統的集成。
規劃 & 執行
處理復雜任務需要先進的規劃能力,通常包括:
- 計劃生成:將任務分解為可管理的步驟。
- 計劃驗證:在執行前評估計劃,以避免浪費計算資源。
- 執行監控:跟蹤進度并處理失敗情況。
- 反思:評估結果并調整策略。
Agent的成功通常依賴于其以下能力:
- 通過結合工具與實際知識(例如,知道在客戶退款請求中按順序調用哪些API)生成有效的計劃。
- 分解并驗證復雜任務,在每個步驟進行錯誤處理,以防止錯誤積累。
- 在長時間運行的操作中管理計算成本。
- 通過動態重新規劃和適應,優雅地從錯誤和意外情況中恢復。
- 應用不同的驗證策略,從結構驗證到運行時測試。
- 當其他視角能夠提高準確性時,通過工具調用或共識機制與其他Agent協作。
使用多個Agent進行共識可以提高準確性,但計算成本相當高。即使是OpenAI,在為共識答案運行并行模型實例時,也仍然無法盈利,即使在高價位(例如ChatGPT Pro每月$200)的情況下,復雜任務的多數投票系統將成本增加3到5倍,因此,專注于強大的單一Agent規劃和驗證的簡化架構可能在經濟上更具可行性。
記憶 & 檢索
AI Agent需要復雜的記憶管理來保持上下文并從經驗中學習。這涉及多個互補的系統:
上下文窗口
底層語言模型的即時處理能力——這是“物理記憶”,限制了Agent一次能處理的信息量。最近的進展將這些限制擴展到了超過100萬個token,從而使單次交互能夠支持更豐富的上下文。
工作記憶
在任務過程中,多個LLM調用之間保持的狀態:
- 活動目標:跟蹤當前目標和子任務
- 中間結果:計算和部分輸出
- 任務狀態:進度跟蹤和狀態管理
- 狀態驗證:在任務執行過程中跟蹤已驗證的事實和修正
上下文管理能力:
- 上下文優化:通過優先級和組織有效使用有限的上下文空間
- 記憶管理:自動將信息在工作記憶和長期存儲之間移動——從預加載整個知識庫到維護動態記憶單元以存儲相關信息
長期記憶與知識管理
存儲系統:
- 知識圖譜:像Zep和Neo4j這樣的工具能有效表示實體和關系
- 虛擬記憶:像Letta(由MemGPT提供支持)這樣的系統提供工作記憶和外部存儲之間的分頁
管理能力:
- 記憶維護:隨著時間推移,自動總結、修剪并整合新信息
- 記憶操作:高效地搜索和檢索相關信息
現代記憶系統不僅僅是簡單的存儲,還能實現:
- 復合任務處理:管理多步操作,確保在每個步驟中保持準確性
- 持續學習:通過持續交互自動構建知識圖譜(例如Zep)
- 記憶管理:通過自動化記憶管理提供虛擬“無限上下文”(例如Letta/MemGPT)
- 減少錯誤:提高信息檢索能力,減少幻覺并保持一致性
- 成本優化:有效利用上下文窗口,減少API調用和延遲
記憶系統對Agent至關重要,因為:
- 任務通常需要多個步驟,依賴于先前的結果
- 信息需求通常超過模型的上下文窗口
- 長時間運行的操作需要持久的狀態管理
- 在復雜工作流中必須保持準確性
像Anthropic的Model Context Protocol (MCP)這樣的集成標準正在提供將Agent與持久記憶系統連接的標準化方法。然而,如何高效地協調這些記憶類型,管理計算成本并保持一致性仍然是挑戰。
安全與執行
隨著Agent逐漸獲得自主性,安全性和可審計性變得至關重要。現代部署需要多個保護層:
- 工具訪問控制:謹慎管理Agent能執行哪些操作。
- 執行驗證:在執行前驗證生成的計劃。
- 沙箱執行:像e2b.dev和CodeSandbox這樣的平臺提供了安全的隔離環境,用于運行不受信任的AI生成代碼。
- 訪問控制:細粒度的權限和API治理,限制影響。
- 監控與可觀察性:通過專用平臺(如LangSmith和AgentOps)進行全面的日志記錄和性能跟蹤,包括錯誤檢測和資源使用。
- 審計日志:詳細記錄決策過程和系統交互。
這些安全措施必須在保護與允許Agent在生產環境中有效操作之間取得平衡。
實際限制
盡管有了快速進展,但仍然存在幾個重要的挑戰:
1. 工具調用
- 基本工具調用:盡管模型在規劃和推理方面表現出色,但它們在基本工具交互方面存在困難。即使是簡單的API調用也常因格式錯誤和參數不匹配而失敗。
- 工具選擇:模型經常選擇錯誤的工具,或者在面對大量工具時未能有效地組合多個工具。
- 工具接口穩定性:自然語言接口對工具仍然不可靠,模型會出現格式錯誤或行為不一致。
2. 多步驟執行
- 工具調用不穩定性:盡管模型在規劃和推理方面表現出色,但它們在通過工具調用可靠地執行計劃方面存在困難。即使是簡單的API交互也因格式錯誤、參數不匹配和上下文誤解而出現較高的失敗率。
- 復合錯誤積累:多步驟任務會加劇這種不可靠性——如果每個工具調用的成功率為90%,一個10步的工作流成功率降至35%。這使得復雜工作流在沒有大量人工監督的情況下變得不可行。
- 上下文管理:模型難以在多個工具交互中保持一致的理解,導致在較長序列中的性能下降。
- 規劃可靠性:復雜的工作流需要仔細驗證生成的計劃,因為Agent往往忽略關鍵依賴關系或對工具能力做出錯誤假設。
3. 技術基礎設施
- 系統集成:缺乏標準化的接口迫使團隊為每個部署構建定制的集成層,導致顯著的開發開銷。
- 記憶架構:盡管有向量存儲和檢索系統,但有限的上下文窗口限制了歷史信息訪問和自我反思能力。
- 計算需求:大規模部署需要大量處理能力和內存,導致顯著的基礎設施成本。
4. 交互挑戰
- 計算機接口復雜性:即使是最好的Agent,在簡單的項目管理工具中也只能達到約40%的成功率,使用像辦公軟件套件和文檔編輯器等復雜軟件時,性能顯著下降。
- 協作溝通:Agent在通過協作平臺與同事互動時僅能取得21.5%的成功率,在細致的對話和政策討論中存在困難。
5. 訪問控制
- 身份驗證與授權:Agent在代表用戶執行長時間運行或異步任務時面臨重大的身份驗證挑戰。傳統的身份驗證流程并不適合需要跨越數小時或數天訪問的自主Agent。
解決方案正在出現——例如Okta為GenAI提供的認證解決方案,包括:
- 背景任務的異步認證
- 代表用戶的安全API訪問
- 細粒度的數據訪問授權
- 基于推送通知的人類審批工作流
6. 可靠性與性能
- 錯誤恢復:Agent在面對意外錯誤時難以動態調整計劃,使其在從錯誤中學習方面不如人類強大。
- 跨領域性能變異:Agent在不同任務中的可靠性表現不穩定,即使在明確定義的領域內也是如此。例如,零售中功能調用Agent可以在個別任務上成功完成多達50%的任務,但對于類似任務的變化,其成功率會降至25%以下。這種不一致在不同領域之間表現出來,尤其是在需要技術領域專業知識的任務中,如編碼。
當前Agent的能力在不同領域有所差異。在軟件開發領域,目標和驗證明確,Agent能夠自主完成30.4%的復雜任務。這與Graham Neubig在NeurIPS 2024中的評論一致:“我希望Agent解決的30%到40%的問題,它能在我的代碼庫中自動解決,無需人工干預”。然而,在需要更廣泛上下文的領域,表現卻不盡如人意,Agent在行政工作中幾乎無法完成(0%),在財務分析中也存在困難(8.3%)。這種模式表明,
Agent在有明確驗證標準的任務上表現更好,而在需要廣泛業務背景或政策解讀的工作中會遇到困難。
最近的進展表明,Agent能力正在趨于融合:更豐富的上下文保留的記憶架構、通過較長推理鏈進行深度理解的推理改進(例如o系列模型)以及分解復雜任務并在步驟之間保持狀態的規劃系統。這些發展表明,增強的上下文理解可能來自這些技術能力的互動,而不是需要在模型架構上取得突破。挑戰在于如何協調這些組件,同時管理增加的計算需求。
第五部分:路在前方
憑借足夠的計算能力,下一token預測可能足以實現AGI(通用人工智能)。
近期演變(2025年)
OpenAI CEO Sam Altman表示:“我們現在有信心知道如何構建我們傳統理解中的AGI(通用人工智能)”。然而,前進的道路在很大程度上依賴于計算密集型的推理——正如Brown所指出的,解決最困難的問題可能需要“每個解決方案價值百萬美元”的計算資源。這表明,盡管我們可能知道如何通過測試時計算擴展智能,但部署的經濟學將決定我們能夠解決哪些問題。
快速進展沒有放緩的跡象。雖然先進的推理能力仍然需要大量的計算,但當前的部署已經具有變革性——Salesforce報告稱,AI Agent帶來了30%的生產力提升,從而導致2025年暫停工程師招聘。這與行業預測一致——Meta的Zuckerberg預計到2025年,“Meta和其他公司……將擁有一種可以有效地充當中級工程師的AI”。這些影響表明,AGI類似的能力可能首先出現在具有明確成功標準和豐富合成數據的領域,如編程和數學推理。
核心智能
- 推理模型的開發周期壓縮(2-4個月)
- 數學和編碼基準的跨越式進展
- 通過系統化的任務分解、行動路徑探索和結果驗證提高推理能力
接口與控制
- 人機協作的新模式
- 通過模型上下文協議(Model Context Protocol)實現標準化的數據訪問
- 從格式化命令(文本/JSON)轉向程序化工具使用
- 改進的視覺感知能力
記憶與上下文
- 新模型具有超大上下文窗口
- 通過較小的模型和重復采樣實現成本效益推理
- 使用模型蒸餾和數據策劃降低推理成本
基礎設施與擴展
- 缺乏足夠的計算資源來大規模部署Agent
- 電網中的芯片和電力不足以建立更多的計算資源
中期發展(2026年)
核心智能
- 多步規劃與驗證
- 更好地處理不確定情況和邊緣案例
- 推理模型的瓶頸
接口與控制
- 通過系統化的UI探索實現更可靠的計算機控制
- Agent原生的安全性和權限框架
- 通過代碼生成實現動態工具創建
- 多Agent系統在大規模上實現高效協作
記憶與上下文
- 在交互環境中更可靠的狀態追蹤[記憶調查論文]
雖然當前的Agent在基本的UI交互中表現不佳——在簡單的項目管理工具上僅能實現約40%的成功率——但新的學習方法顯示出前景。通過允許Agent探索界面并通過“逆任務合成”推導任務,復雜的GUI交互成功率幾乎翻倍。這表明,到2026年,我們可能會看到能夠通過直接理解界面而非跟隨人類指令可靠控制計算機的Agent。
長期可能性(2026年以后)
核心智能
- 新類型的模型出現,能夠實現更復雜的世界建模
- 跨領域推理能力
- 科學發現自動化
- 在新領域中的復雜問題解決
接口與控制
- 轉向代碼優先的Agent范式
基礎設施與擴展
- 計算集群和電力基礎設施的擴展
AI能力的進展及其經濟影響正變得愈加清晰。ChatGPT Plus以每月20美元的價格推出了基礎聊天功能,而ChatGPT Pro則以每月200美元的價格提供了更高級的推理能力。OpenAI近期在多Agent研究方面的推動以及Altman對“如何構建AGI”充滿信心的表態,暗示著自主Agent可能是下一個發展方向——這一過程可能會帶來更高的成本。正如Brown所指出的,我們才剛開始擴展推理能力,一些重要問題可能需要“價值百萬美元”的計算資源才能解決。這預示著未來,越來越強大的系統——從自主Agent到創造性問題解決者——可能會以更高的計算成本涌現。
我們現在已經具備了構建AI Agent的核心要素,這些要素模仿了人類如何處理復雜工作的方式:將問題分解為更小的任務、理解上下文、從經驗中學習、使用工具并適應反饋。盡管這些能力在受控環境中表現良好,但在面對現實任務的復雜性和不確定性時,它們仍然存在挑戰。
接下來的幾年將是實驗的階段——發現如何有效地結合這些組件、尋找可靠的模式并確立構建強大Agent的最佳實踐。盡管我們已經擁有了核心能力,但要將它們協調成能夠應對現實世界復雜性的可靠系統,還需要技術創新和實踐經驗。AI Agent的時代已經開始,但我們仍處于理解如何有效構建它們的初期階段。
https://medium.com/@carlrannaberg/state-of-ai-agents-in-2025-5f11444a5c78
本文轉載自??PyTorch研習社???,作者:南七無名式
