智能體互聯網(Agentic Web)
1.引 言
隨著大模型在多模態理解、邏輯推理等方面的進一步發展,Agent 或將在 2025 年迎來大規模落地應用,替代人類自主解決越來越多的日常工作。人工智能(AI)專家普遍認為,2025 年將是智能體(agent)爆發之年。
2024年底,Gartner 也將 agentic AI 列入了 2025 年十大技術趨勢之一,并預測 2028 年將至少有 15% 的日常工作決策由 agentic AI 自主完成,而這一數字在 2024 年為 0。
在CES 2025,黃仁勛也強調2025年Agent將會有許多商業化應用。
本文從Agent展開,重點介紹Agent組網(Agentic Web)的相關發展。
2.什么是 AI Agent
根據OpenAI前安全研究副總裁Lilian Weng的博文,Agent =大語言模型(LLM)+規劃(planning)+記憶(memory)+工具(tools)+行動(Action),在大語言模型(LLM)驅動的Agent系統中,LLM充當Agent的大腦,并由Planning(規劃)、Memory(記憶)、Tools(工具)、Action(動作)等幾個關鍵組件組成。
3.多 AI Agent 協作
隨著單個Agent具有很大的自主性,研究人員逐步發現可以通過多個Agent之間協助完成并解決一些問題。
2023年斯坦福大學的人機交互研究小組創造了一個包含25個Agent的AI小鎮,用以模擬社會互動。這個AI小鎮設有大學、公寓、咖啡館和書店等基礎設施,Agent在其中居住并進行日常活動,盡管他們沒有意識到自己生活在模擬環境中。這些Agent不僅能去工作、閑聊、組織社交活動、結交新朋友,甚至能墜入愛河,每個Agent都有獨特的個性和背景故事。通過這種社會化模擬,展示了Agent在復雜的人類社交環境中的適應能力和行為多樣性。
清華大學的研究團隊嘗試了AI員工的一些早期探索,他們打造了一個名為ChatDev的虛擬軟件公司,由各種具有不同角色的Agent運作,包括CEO(首席執行官)、CPO(首席產品官)、CTO(首席技術官)、程序員、代碼審查員、測試員和藝術設計師等。這些Agent組成了一個多代理組織結構,被設定了一個使命是“通過編程革新數字世界”。
復旦大學的技術團隊開發了一個名為AI2Apps的一站式AI員工開發與端側服務平臺,將Devin的開發模式復刻到了任何崗位的AI員工上。團隊自研了一套基于瀏覽器的Agent操作系統,提供全套的開發人員工具,包括終端、文件管理、Agent調試、代碼編輯器和瀏覽器沙盒環境等,讓開發者能在“建筑師Agent”的主導下完成任何崗位AI員工團隊的構建與組合。經過AI2Apps的端側部署后,AI員工可以通過瀏覽器在各種用戶設備中既“無所不能”又“有所不為”,模擬人類員工辦公的同時又避免了直接操控用戶設備。
上面的多 agent 系統,都是在自己的“局域網”組成的系統,而如果所有的Agent都在目前的互聯網上,我們還需要全球公認和采用的協議,這些協議應該得到普遍認可和實施,以便協調 agent 能夠安全、合乎道德地與其他企業 agent 進行溝通、協商和合作,并使雙方互惠互利。這種“合奏”級別的參與必須快速、高效和公平。如果沒有這樣的協議,往好了說,我們會面臨 agent 與 agent 之間的“垃圾郵件”風險,往壞了說,我們會面臨欺詐和其他危險。
4.AI Agent 互聯網
正如互聯網把全世界所有信息和人連接在一起,物聯網把所有設備連接在一起,一個統一的智能體平臺可以把散落在世界各地的Agent連接起來。
但是“互聯網Agent”可能有不同的架構、運行于不同的設備、有不同的能力,同時在數量和功能上飛速演進,但目前單個智能體更多處于“孤島”的相對隔離狀態,智能體之間的互相發現、大規模自由協作,還沒有先例。多智能體局域網協作,盡管已經顯示了巨大的應用潛力,卻依然存在著三重限制:
- 只允許接入內部定義的智能體。
- 大多數多智能體系統在一個設備上模擬多個智能體。現實場景更迫切的需求,是分布在多個設備和位置的智能體通過“網絡”進行協作。
- 大多數多智能體系統的溝通機制單一,或者需要用戶進行指定。溝通和多輪的信息交換,非常的不靈活。
為了跨過這些障礙,許多研究機構 都希望提出類似Http的協議,統一將世界各地的Agent 通過協議連接起來。
IoA(Internet of Agents)
清華大學某AI團隊推出了LLM驅動的智能體互聯網(Internet of Agents, IoA),這是一個受互聯網啟發的智能體通信和協作通用框架。簡單來說,IoA 創建了一個可以自由注冊、互相發現的Agent協作平臺,并且讓智能體之間協作再向上構建,對原來Agent協作工作流(Work Flow)進行三個方向擴容,跨設備、更多異質Agent開放互聯、協作組織方式高度靈活,從而在更高維度上形成智能體互聯網 Internet of Agents(IoA)。
IoA 的核心由兩個主要組件組成:服務器和客戶端。服務器作為中心樞紐,管理智能體注冊、發現和消息路由,確保具備不同能力的智能體能夠互相發現并發起通信。客戶端則作為單個智能體的包裝,提供必要的通信功能,并適應指定的溝通協議。IoA能夠實現智能體注冊與發現 、自主嵌套團隊組建、自主會話流程控制、任務分配與執行等功能。
MCP(Model Context Protocol)
Anthropic 提出了一種MCP協議,以模型為核心,整個互聯網都是他的上下文與工具(如下圖所示)。MCP允許任何一臺Server通過Web Apis訪問互聯網提供上下文信息。
Agora Protocol
異構的LLM 之間的通信效率低下,嚴重制約了 AI Agent網絡的規模化應用,來自牛津大學的研究團隊提出的 Agora 協議,為解決這一難題提供了創新方案。
具體步驟為:
- 定義協議文檔(PD):創建 PD 來描述通信協議,使 LLM 能夠理解和遵循協議。
- 實現多層次通信策略:根據通信頻率和任務復雜度,選擇自然語言、LLM 編寫的例程或人工編寫的例程進行通信。
- 自動協商與實現協議:代理之間通過自然語言或 PD 中定義的例程自動協商和實現通信協議。
- 協議的涌現與共享:鼓勵代理生成和共享 PD,以促進自組織協議的涌現和網絡的自我優化。
- 成本效益分析:評估 Agora 協議相對于純自然語言通信的成本效益。
ANP(Agent Network Protocol)
國內方面,提出了一種ANP,愿景是定義智能體之間的連接方式,為數十億智能體構建一個開放、安全、高效的協作網絡,成為智能體互聯網時代的HTTP。
- 身份與加密通信層:基于W3C DID(Decentralized Identifiers,去中心化標識符)規范,在現有成熟的Web基礎設施上,構建一個去中心化的身份認證方案和端到端加密通信方案。它可以讓任意平臺之間的智能體進行身份認證,而不依賴于任何中心化系統。
- 元協議層:元協議即協商智能體之間通信協議的協議。是智能體網絡演進為自組織、自協商的高效協作網絡的關鍵。
- 應用協議層:基于語義網相關規范,讓智能體能夠描述其他能力與支持的應用協議,并且高效的管理這些協議。
此外,AutoGPT和W3C 也各自定義了Agent Protocol設計的目標,不過都在萌芽階段。
5.總 結
從上面的分析可以看出,目前基于Agent提出的互聯網協議都在實驗階段,可能各家都基于自身的產品都提出了各自的想法。隨著我們對大量Agent 協作的理解不斷加深,我們發現未來不是人類與人工智能的對決,而是人類與人工智能的協同合作,發揮各自的獨特優勢。而建立多個Agent之間、Agent與人之間如何交互的協議也成為重中之重。
隨著互聯網的逐步發展,我們已經走過Web 1.0、2.0、3.0,前兩代?絡專注于信息傳播,Web 3.0通過去中心化和區塊鏈等技術,用戶能夠真正擁有自己的數據,可以自由決定數據的使用方式、分享對象等,同時也能更好地保護自己的隱私,?現在通過Agent組網則通過?型語?模型(LLM)賦予了智能,因此有專家提出我們正在進入“Web 4.0”時代。
