AI應用落地關鍵技術:AI Agent 原創
一、什么是 AI Agent?
1、用快思考與慢思考類比大模型的能力
根據丹尼爾·卡尼曼的著作《思考,快與慢》,人類的思維可以分為兩大系統:系統1和系統2。系統1負責直覺式的快速思考,這種思考往往是無意識的;而系統2則擅長進行有意識的邏輯推理和主動控制。
在探討大型模型的思維能力時,我們首先可以觀察到,這些大模型可能具備了類似人類的分析問題能力,它們能夠理解、分析和解決復雜問題。進一步地,人類與動物的一個重要區別在于人類擅長創造和使用工具。隨著大模型認知能力的不斷提升,當它們遇到自身不擅長的領域時,這些大模型可能會展現出一種類似于人腦使用工具的能力——即尋找并利用適當的工具來解決問題,而不是直接依靠自身能力去解決。
2、OpenAI 對 AI Agent 的定義
在2023年6月,Open AI 的應用研究主管 Lilian Weng發 表了《LLM Powered Autonomous Agents》一文,其中她提出了一個公式:“智能體=大模型(LLMs)+規劃(Planning)+記憶(Memory)+工具使用(Tools)”。
1)智能體的推理與執行能力,指的是利用大模型(LLMs)來理解、執行并回顧任務。這包括將復雜任務分解為更小、更易管理的子任務以提高效率,并且通過吸取歷史經驗和錯誤教訓來優化行動的質量。
2)智能體具備短期與長期記憶功能:短期記憶通過利用提示(Prompt)中的信息和上下文數據進行學習,而長期記憶則通過外部向量存儲和快速檢索技術來實現,這使得智能體能夠在更廣泛的時間跨度內存儲和回憶(理論上無限)信息。
3)智能體具有調用外部 API 來使用“工具”的能力,這包括瀏覽網頁、啟動應用程序、讀寫文件、進行支付甚至操控用戶設備等。與傳統的自動化工具不同,AI智能體能夠在未知和不可預測的新環境中有效工作。
4)在Open AI 的定義基礎上,還應補充智能體的反饋接受能力。正如人類在處理復雜任務時需要與環境互動,我們的行為會改變環境,環境也會給予我們反饋,我們根據這些反饋進行決策。因此,智能體應該能夠根據采取的行動接收正面或試錯性的反饋、階段性成果或獎勵,并據此進行下一輪的規劃和行動。
3、AI Agent 更廣泛的定義
在 AI Agent 的整體架構設計中,一般可以將框架劃分為五個主要模塊:感知、定義、記憶、規劃和行動。
- 感知模塊:這一部分主要負責處理各種輸入信息,確保智能體能夠與環境進行有效的交互。
- 定義模塊:該模塊包含了智能體的特性、目標和其他相關屬性信息。
- 記憶模塊:涵蓋了短期和長期記憶,它為智能體在處理復雜任務時提供歷史數據和策略支持。
- 規劃模塊:涉及任務分解、反思、推理、策略制定等,是智能體的決策中心,類似于大腦的功能。
- 行動模塊:負責以文本、實體動作、工具指令等多種方式輸出智能體的決策結果。
二、AI Agent 的關鍵能力要素
1、記憶能力
目前的研究普遍將記憶分為短期記憶和長期記憶兩大類。
- -短期記憶主要依賴于上下文學習,但受到 Transformer 模型上下文窗口大小的限制。
- 長期記憶則更加廣泛地應用于任務中,它涉及對世界的宏觀和抽象理解。這包括存儲生產系統的過程記憶、關于世界事實的語義記憶,以及代理過去行為序列的情節記憶。長期記憶通過參數知識存儲(模型訓練)和非參數知識存儲(外部搜索)來實現。
- 對于超出常規上下文范圍的長期記憶,學術界探索了兩條路徑:一條是擴展上下文,即將上下文支持擴展到100K甚至無限大;另一條是利用 RAG 和信息壓縮技術,即對輸入信息進行總結和壓縮存儲,僅在需要時提取相關記憶。
- 擴展上下文的方案相對簡單,依賴于算力的提升和成本的降低,但目前的成本仍然較高。
- RAG 技術則是搜索相關信息片段,并將搜索結果融入大模型的上下文中,以便大模型基于這些結果回答問題。
- 信息壓縮則是對信息進行總結,最基本的方法是文本總結,更高級的方法是使用指令訪問外部存儲,或者在模型層面使用 Embedding 技術進行總結。
2、規劃能力
規劃是 AI Agent 解決復雜問題的關鍵能力,主要包括子目標分解、反思和提煉等。
- 子目標分解:通過思維鏈(CoT)技術,將大任務分解為多個更易管理的子任務,并為大模型的思維過程提供解釋線索。思維樹技術則通過在每一步探索多種推理可能性來擴展 CoT,創建一個樹狀結構的思考過程。
- 反思提煉:ReAct 技術通過將動作空間擴展為特定任務的離散動作和語言空間的組合,將推理和動作整合到 LLM中。Reflexion 框架則為智能體提供了動態記憶和自我反思的能力,以提高推理技能。
- ReAct 方法能夠發揮 LLM 的推理能力,通過交錯生成推理軌跡和任務特定的操作,實現推理與操作的協同。盡管存在一些局限性,如解決復雜問題的能力有限、成本不可控等,但它仍然是提升AI智能體能力的重要途徑。
3、行動能力
智能體的行動能力主要體現在文本輸出、工具使用和具身動作等方面。
- 在工具使用方面,智能體主要通過微調或預設模型描述框架來調用外部API,實現對現有功能的使用或特定信息的訪問。未來,隨著模型能力的提升,智能體可能能夠創造新工具。
- 如何讓大模型學會按需使用工具?有兩種觀點:一種認為工具使用是過程記憶,需要通過 Fine-tuning 方法教授模型工具使用的樣例;另一種認為工具使用是代碼生成能力,可以通過 RAG 方法匹配工具并使用。
4、減少幻覺
減少幻覺主要依賴于基礎模型的進步和 Scaling Law,同時也有工程方法可以減少現有模型的幻覺。
- 事實性校驗:首先使用大模型生成回答,然后通過 RAG 方法找到與回答內容匹配的原始語料,最后讓大模型判斷回答的準確性。
- 多次生成:論文 SelfCheckGPT 提出的多次生成方法,通過多次生成同一問題的回答并讓大模型挑選最一致的回答,以減少偶發的幻覺問題,但無法解決系統性偏差。
三、AI Agent 發展的三個階段
1、AI Agent 能力的三個發展階段
1) Embedding 嵌入式模式:這一階段主要依賴于人類問答,提供信息和建議,這是目前最普遍的大模型(LLM)應用方式。
2) Copilot 輔助駕駛模式:在這一階段,Agent 基于人類設定的目標,完成單一或簡單任務。
3) Agent 智能體模式:智能體在這一階段能夠基于人類的目標,執行多任務、復雜任務或任務組合。
2、ChatGPT 代表了第一階段的大模型能力。
它并不完全符合 Agent 的典型定義,主要向用戶提供廣泛的世界知識。
3、目前,單一任務場景下已有一些 AI 應用實例
在辦公場景中,我們有 Microsoft 365 Copilot(及其新推出的個人版 Copilot Pro)、Google Duet AI、專注于輕文檔辦公的 Notion AI、輔助代碼開發的 Copilot X 以及數據分析處理的 Deepnote AI 等。這些應用常見的功能包括起草文檔、內容匯總、提供公式建議等,它們通常以側邊欄或對話框的形式出現,幫助用戶自動調用工作空間中的文件和信息,并進行處理生成。
4、展望未來,AI Agent 將不僅僅局限于解決問題的執行層面,而是將進一步深入到如何解決問題的規劃層面。
在工作場景中,我們對 AI Agent 的期待包括:
1) 連續執行:Agent 能夠對用戶的任務指令進行拆解,分解為多個步驟,對這些步驟進行規劃排序并連續執行。
2) 完成復雜任務:目前 Agent 只能解決單個或少數簡單任務,未來期望能夠處理多個復雜任務。
3) 多步驟規劃:Agent 在執行后續步驟的同時,能夠保持對任務目標和前序任務的記憶,具備強大的步驟規劃執行能力。
本文轉載自公眾號玄姐聊AGI 作者:玄姐
