我們一起聊聊智能體的基礎架構
2023年下半年,智能體這個概念開始隨著AI的突進式發展而被很多人關注起來。
到了2024年,大模型的能力進一步增強,為智能體快速發展提供了底層能力支撐。
隨著2025年DeepSeek的爆火,智能體在各行各業的落地應用案例開始明顯增加。
大家已經不再滿足于單一功能的智能體,而是開始追求通用智能體甚至AIGC的能力,Manus是這個趨勢下的一個典型案例,除此之外還有字節的扣子空間,以及百度的心響APP。
回看過去十年移動互聯網的爆發,支撐移動互聯網的土壤,其實是3G、4G通信網絡的支撐,以及智能手機行業的蓬勃發展。從中我們不難得出一個結論:軟件生態要想發展得足夠龐大,需要底層硬件和基礎設施的支撐。
在AI領域,這個論斷依然成立,這也是寫這篇文章的原因:智能體(甚至是AIGC)的發展甚至構建生態,背后需要的基礎設施建設是重中之重。Agent Infra是Agent落地的關鍵,因為它涵蓋了Agent從開發到部署的完整生命周期。
從我查閱的很多資料來看,目前在Agent Infra層面,大致可以劃分為如下四個領域,分別是:
- Environment:提供Agent開發和運行環境,相當于給了Agent一臺可自行操作的計算機。
- Context:為Agent有效運行提供所需的信息,包括任務相關的背景知識和工具的使用方法。
- Tools:使Agent能便捷調用和協作的各類工具,包括各種類型的插件,以實現多樣化的任務。
- Agent Security:以Agent-native的方式保障Agent的行為與數據在執行過程中的安全與合規。
一、Environment
Environment,即我們所熟知的運行環境(操作系統和服務部署運行容器),它為Agent提供了開發和部署環境,可以讓Agent更好地完成端到端的任務。目前在AI領域,比較突出的路徑有兩種,分別是Sandbox和Browser:
1、Sandbox是一種安全機制,為執行中的程序提供隔離環境。傳統的虛擬機并不能很好地滿足Agent需求,因為Agent對虛擬機的性能提出了更高的要求,比如需要更高的隔離性、更快的啟動速度、更強的穩定性,以及具備一定的AI性能。
2、瀏覽器是Agent最重要的工作環境之一,瀏覽并操縱網頁的能力也將成為Agent的核心能力之一。Browser Infra賦予Agent的能力大致可以分為兩類:1-讓Agent可以大規模瀏覽網頁;2-使Agent可以操縱網頁。
最典型的案例就是Manus,它的運行環境主要基于Linux Sandbox,借助無頭瀏覽器來完成任務。
二、Context
目前無論是ChatBot還是Agent,都需要人主動描述需求(提示詞),但信息幻覺問題是困擾人和AI協作的最大挑戰。除此之外,大模型、智能體之間的協作交互問題,也是另一大挑戰。
1、當下最有效的緩解AI信息幻覺的方法就是RAG,因此,RAG方法也可以視作Agent Infra領域很重要的一個組成部分。目前,RAG已成為一種共識性的技術,并在各類應用場景廣泛使用。
Agentic RAG系統能夠持續分析Context和用戶意圖,自主從多種來源檢索并整合相關信息,使Agent可以更好地完成任務。
2、大模型和智能體之間,系統內部和外部之間的協作調用,目前已經出現了一個標準化的解決方案,即MCP。MCP是Anthropic發布的一個開放式協議,重新定義了Agent調用外部工具、獲取數據以及與各類服務交互的方式。
三、Tools
Tools的價值不言而喻,可以讓Agent能夠便捷調用各類工具,實現多樣化的任務。隨著Agent交互復雜度的不斷提升,相關的Infra使工具層正在快速擴張。在Tools Infra層面,較為通用的有如下三個方向的工具:
1、搜索:搜索是Agent獲取外部信息的重要途徑。相比我們手動利用搜索引擎去檢索信息,Agent會進行更頻繁、更復雜的搜索,且傳統搜索引擎無法滿足Agent的搜索需求。因此,Tools Infra搜索領域需要解決兩大難題:1-更快且低成本的信息檢索;2-更智能的搜索和爬蟲架構(解決人為造成的信息閉塞問題)。
2、支付:如前面為大家介紹的AI落地核心因素所說,確定性的場景是AI落地的前置條件,而金融、法律等領域天然具備這樣的條件。因此,金融領域未來會成為Agent落地的重要場景,而金融領域最重要的屬性就是Finance & Payment,即資管和支付。
3、工作流:工作流大家并不陌生,在IT軟件開發領域,工作流的概念其實大家日常都在實踐,最典型的就是CICD持續交付流水線。在AI領域,工作流也是很重要的一項基礎設施,特別是對于一些很復雜的任務,讓AI自定義工作流來進行決策和執行任務,最終的結果很難保證符合預期。
當然,工作流也分為前后端,比如Manus的在線可視化任務執行,其實就是Frontend Workflow(前端工作流);像字節扣子空間的專家Agent,其實背后也需要Backend Workflow(后端工作流)來支撐。
四、Agent Security
隨著Agent能力邊界的拓展,安全性上的要求也在同步提升,最核心的就是信息安全。因為大模型的訓練需要投入大量的數據,且AI本身會檢索互聯網上大量的數據并輸出結果,我們需要保證自己的敏感信息不被泄漏,也希望AI給出的結果符合信息安全法規。
我們需要對Agent進行身份驗證,并保證Agent的每個意圖和行動都是安全的。此外,Agent每次數據交互都需要動態校驗,這也對數據安全提出了更高的要求。不過安全領域一向遵循“需求驅動”的邏輯,即先有成熟的下游產品設計,再有對應的安全問題與解決方案。安全問題,先天的稟賦就是后知后覺的后來者。