一文剖析大模型、RAG、Agent、MCP、Function Calling、知識庫、向量數據庫、知識圖譜、AGI 的區別和聯系 原創
我們要把 AI 大模型當做人的大腦,因此調用 AI 大模型,相當于調用一個人,把 AI 大模型當人看,TA 懂人話、TA 說人話、TA 會直接給出結果,但結果不一定正確。
因此在 AI 大模型的推理基礎上,通過 RAG、Agent、MCP、Function Calling、知識庫、向量數據庫、知識圖譜等技術手段實現了真正的 AGI(通用人工智能)。這些技術到底有哪些區別和聯系,下圖作了橫向對比,接下來我們詳細剖析。
1、大語言模型(LLM)
大語言模型(LLM)是通過深度學習方法,利用龐大的文本數據集進行訓練的機器學習模型,它具備生成自然流暢的語言文本以及準確理解語言文本深層語義的能力。大語言模型廣泛應用于各種自然語言處理任務,包括但不限于文本分類、智能問答以及人機交互對話等,是 AI 領域的重要支柱之一。
過去的一年中,大語言模型及其在 AI 領域的應用受到了全球科技界的廣泛關注。特別值得注意的是,這些大語言模型在規模上取得了顯著的增長,參數量從最初的數十億激增到如今驚人的萬億級別。這一飛躍性的增長不僅使得大語言模型在捕捉人類語言的微妙差異上更為精準,更讓它能夠深入洞察人類語言的復雜本質。
隨著 DeepSeek V3 的發布,回顧過去的一年,大語言模型在多個方面取得了顯著的進步,包括高效吸納新知識、有效分解復雜任務以及圖文精準對齊等。隨著技術的不斷演進和完善,大語言模型將繼續拓展其應用邊界,為人們帶來更加智能化、個性化的服務體驗,從而深刻改變我們的生活方式和生產模式。
大語言模型擁有推理能力,TA 是一切應用的基石。
2、檢索增強生成(RAG)
RAG(Retrieval-Augmented Generation)技術是一種集成檢索與生成雙重能力的知識增強方案,旨在應對復雜多變的信息查詢和生成挑戰。在如今的大模型時代背景下,RAG 巧妙地引入外部數據源,比如:本地知識庫或企業信息庫,為 AI 大模型賦予了更強大的檢索和生成實力,從而顯著提升了信息查詢和生成的品質。
RAG 技術的核心在于它將先進的向量數據庫與大模型的智能問答能力進行了完美結合。知識庫中的信息被精心存儲在向量數據庫中,當接收到用戶的問題時,系統能夠迅速從知識庫中檢索出相關的知識片段。隨后,這些片段會與大模型的智慧相結合,共同孕育出精確而全面的回答。這種技術的運用極大地提高了 AI 系統在處理復雜問題時的準確性和響應速度,為用戶帶來了更加優質和高效的體驗。
總之,RAG 技術就是給大語言模型新知識。
3、智能體(Agent)
在 AI 大模型時代,任何具備獨立思考能力并能與環境進行交互的實體,都可以被抽象地描述為智能體(Agent)。這個英文詞匯在 AI 領域被普遍采納,用以指代那些能夠自主活動的軟件或硬件實體。在國內,我們習慣將其譯為“智能體”,盡管過去也曾出現過“代理”、“代理者”或“智能主體”等譯法。
智能體構建在大語言模型的推理能力基礎上,對大語言模型的 Planning 規劃的方案使用工具執行(Action) ,并對執行的過程進行觀測(Observation),保證任務的落地執行。
總之,Agent 智能體 = 大語言模型的推理能力 + 使用工具行動的能力。
4、MCP(Model Context Protocol)
MCP(模型上下文協議)是由 Anthropic 定義的一個開放協議,標準化應用程序如何為大語言模型(LLM)提供上下文。更具體地說,它試圖標準化基于 LLM 的應用程序與其他環境集成的協議。
在 AI Agent 系統(Agentic Systems)中,上下文可以通過多種方式提供:
1.外部數據:這是長期記憶的一部分。
2.工具:系統與環境交互的能力。
3.動態提示詞:可以作為系統提示詞(System Prompt)的一部分注入。
第一、為什么要標準化?
目前,AI Agent 應用的開發流程很混亂:
1.有許多 AI Agent 框架存在細微差異。雖然看到生態系統蓬勃發展令人鼓舞,但這些細微差異很少能帶來足夠的價值,但可能會顯著改變你的代碼編寫方式。
2.與外部數據源的集成通常是臨時實現的,并且使用不同的協議,即使在組織內部也是如此。對于不同公司來說,這顯然是如此。
3.工具在代碼庫中以略微不同的方式定義。如何將工具附加到增強型 LLM 上也是不同的。
目標是提高我們創新 AI Agent 應用的速度、安全性以及將相關數據帶入上下文的便利性。
第二、MCP 架構設計
1.MCP Host:使用 LLM 為核心并希望通過 MCP 訪問數據的程序。
2.MCP Client:與 MCP Server 保持1:1連接的客戶端。
3.MCP Server:每個 MCP Server 都通過標準化的模型上下文協議公開特定功能的輕量級程序。
4.Local Data Sources:你計算機上的文件、數據庫和服務,MCP Server 可以安全訪問。
5.Remote Data Sources:通過互聯網可用的外部系統(比如:通過 API),MCP Server 可以連接到這些系統。
5、Function Calling
Function Calling 是由 OpenAI 等公司推動的一種技術,它允許大語言模型(LLM)通過自然語言指令與外部工具和服務進行交互,從而將自然語言轉換為具體的 API 調用。這一技術解決了大語言模型在訓練完成后知識更新停滯的問題,使大模型能夠獲取實時信息,比如:當前的天氣、股市收盤點數等。
第一、工作原理
Function Calling 的工作原理可以通過以下4個步驟來理解:
1.識別需求:大模型識別出用戶的問題需要調用外部 API 來獲取實時信息。比如:用戶詢問“今天北京的天氣如何?”大模型會識別出這是一個關于實時天氣的問題。
2.選擇函數:大模型從可用的函數庫中選擇合適的函數。在這個例子中,大模型會選擇 get_current_weather 函數。
3.準備參數:大模型準備調用函數所需的參數。例如:{ "location": "北京", "unit": "celsius"}
3.調用函數:AI 應用使用這些參數調用實際的天氣 API,獲取北京的實時天氣數據。
4.整合回答:大模型將獲取的數據整合成一個完整的回答,比如:“根據最新數據,北京今天的天氣晴朗,當前溫度23°C,濕度45%,微風。今天的最高溫度預計為26°C,最低溫度為18°C。”
第二、對開發者的好處
對于開發者來說,使用 LLM 的 Function Calling 入門相對容易。開發者只需按照 API 的要求定義函數規格(通常是 JSON 格式),并將其隨 Prompt 請求發送給大模型。大模型會根據需要調用這些函數,整個邏輯相當直觀。因此,對于單一大模型、少量功能的簡單應用,Function Calling 的實現非常直接,幾乎可以“一鍵”將大模型輸出對接到代碼邏輯中。
第三、局限性
然而,Function Calling 也有一些局限性:
缺乏跨大模型的一致性:每個 LLM 供應商的接口格式略有差異,這使得開發者在支持多個大模型時需要為不同的 API 做適配,或者使用額外的框架來處理這些差異。
平臺依賴性:Function Calling 通常依賴于特定的平臺或框架,這限制了其在不同環境中的通用性。
擴展性有限:雖然 Function Calling 能夠解決特定問題,但在面對更復雜的任務時,其擴展性可能會受到限制。開發者可能需要為每個新功能編寫新的函數,并確保這些函數與模型的交互邏輯兼容。
第四、總結
Function Calling 是一種強大的工具,它為大語言模型提供了與外部工具和服務交互的能力,從而解決了大模型知識更新停滯的問題。然而,它的局限性在于缺乏跨模型的一致性和平臺依賴性。盡管如此,Function Calling 仍然是一個重要的技術,尤其是在需要快速實現特定功能時。未來,隨著技術的不斷發展,我們期待看到更多能夠克服這些局限性的解決方案。
6、知識庫
對于企業而言,構建一個符合自身業務需求的知識庫是至關重要的。通過RAG、微調等技術手段,我們可以將通用的大模型轉變為對特定行業有著深度理解的“行業專家”,從而更好地服務于企業的具體業務需求。這樣的知識庫基本上適用于每個公司各行各業,包括:市場調研知識庫、人力資源知識庫、項目管理知識庫、技術文檔知識庫、項目流程知識庫、招標投標知識庫等等。
知識庫的技術架構分為兩部分:
第一、離線的知識數據向量化
- 加載:通過文檔加載器(Document Loaders)加載數據/知識庫。
- 拆分:文本拆分器將大型文檔拆分為較小的塊。便于向量或和后續檢索。
- 向量:對拆分的數據塊,進行 Embedding 向量化處理。
- 存儲:將向量化的數據塊存儲到向量數據庫 VectorDB 中,方便進行搜索。
第二、在線的知識檢索返回
- 檢索:根據用戶輸入,使用檢索器從存儲中檢索相關的 Chunk。
- 生成:使用包含問題和檢索到的知識提示詞,交給大語言模型生成答案。
總之,知識庫是 AI 大模型應用的知識基礎。
7、向量數據庫
向量數據庫是專注于存儲和查詢向量的系統,其向量源于文本、語音、圖像等數據的向量化表示。
相較于傳統數據庫,向量數據庫更擅長處理非結構化數據,比如:文本、圖像和音頻。在機器學習和深度學習中,數據通常以向量形式存在。
向量數據庫憑借高效存儲、索引和搜索高維數據點的能力,在處理比如:數值特征、文本或圖像嵌入等復雜數據時表現出色。
總之,知識庫的存儲載體往往是向量數據庫,另外在數據存儲和檢索上,向量數據庫以向量空間模型高效存儲和檢索高維數據,為 AI 大模型和 Agent 智能體提供強有力的數據支持。
8、知識圖譜
知識圖譜是一種基于實體和關系的圖結構數據庫,旨在表示和管理知識。它采用結構化數據模型來存儲、管理和顯示人類語言知識。
知識圖譜通過語義抽取建立人類語言知識間的關系,形成樹狀結構。實體如人、地點、組織等,具有特定屬性和關系,這些關系連接著不同的實體。通過數據挖掘、信息處理和圖形繪制,知識圖譜揭示了知識領域的動態發展規律,為學科研究提供了有價值的參考。
醫療領域是知識圖譜技術的一個廣泛應用場景,它可以幫助臨床診療、醫療數據的整合與利用,并通過實體識別、關系抽取和數據集訓練,以圖譜形式展示關鍵節點和它們之間的聯系,從而支持更精準的醫療決策。
與此同時,在智能推薦、自然語言處理、機器學習等領域也具有廣泛的應用。尤其在搜索引擎領域,它能夠提高搜索的準確性,為用戶提供更加精準的搜索結果。
總之,知識圖譜本質上是一種叫作語義網絡的知識庫,即一個具有有向圖結構的知識庫,其中圖的結點代表實體或者概念,而圖的邊代表實體/概念之間的各種語義關系。
9、AGI
AGI(通用人工智能)作為 AI 發展的終極愿景,追求的是讓智能系統具備像人類一樣理解和處理各種復雜情況與任務的能力。在實現這一宏偉目標的過程中,AI 大模型、Prompt Engineering、Agent 智能體、知識庫、向量數據庫、RAG 以及知識圖譜等技術扮演著至關重要的角色。這些技術元素在多樣化的形態中相互協作,共同推動 AI 技術持續向前發展,為實現 AGI 的最終目標奠定堅實基礎。
本文轉載自公眾號玄姐聊AGI 作者:玄姐
