解鎖數據工程的潛力:Agentic AI 的自主編排與優化
1. 引言
關于 ChatGPT(廣義上為生成式 AI)的討論現已演變為 Agentic AI。ChatGPT 主要是一個生成文本響應的聊天機器人,而 AI Agents 則能夠自主執行復雜任務,例如完成銷售、計劃旅行、預訂航班、雇傭承包商進行房屋工作、訂購披薩等。圖 1 展示了 Agentic AI 系統的演變。
比爾·蓋茨(Bill Gates)最近設想了一個未來,人們將擁有一個能夠處理和響應自然語言并完成多種不同任務的 AI Agent。蓋茨以計劃旅行為例。
通常,這需要你親自預訂酒店、航班、餐廳等。但 AI Agent 能夠根據你的偏好知識,代表你預訂和購買這些服務。
Agentic AI 系統的核心特性是其自主性和推理能力,允許它們將復雜任務分解為更小的可執行任務,并以能夠監控、反思和根據需要適應/自我糾正的方式編排執行。基于此,Agentic AI 有潛力顛覆當今企業中幾乎所有的業務流程。
在本文中,我們從軟件工程的角度,以一個業務流程為例進行探討。雖然我們都同意高質量數據對于生成式 AI 和 Agentic AI 解決方案提供競爭優勢至關重要,但我們將展示如何利用 Agentic AI 重新設計數據管理流程本身。
具體來說,我們展示了 Agentic AI 如何應用于兩個核心數據管理流程:數據編目和數據工程(數據倉庫),并概述了兩種場景相關的任務特定 AI Agents。我們隨后描述了一個 Agentic AI 平臺的參考架構,并展示它如何在不斷變化的業務和數據環境中以自持續的方式編排這些 Agents(用于數據管理)。
2. 數據管理簡介
在一個理想(且簡化)的世界中,數據管理平臺的參考架構如圖所示。
結構化和非結構化的源數據被攝入 Bronze 層,在那里進行清洗和標準化,進入 Silver 層,進一步建模和轉換為 Gold 層。此時,數據已準備好供商業智能(BI)和機器學習(ML)管道使用。
然而,在現實中,我們看到這些經過整理/處理的數據被移動到另一個位置,例如云存儲桶或其他數據湖,作為 ML 訓練和部署的一部分進行進一步轉換。
因此,在企業環境中:
MLOps 的數據(預)處理部分專注于將數據從源移動到 ML 模型,而不一定包括模型如何在數據上執行。這通常包括支持學習算法的一系列轉換。例如,數據科學家可能選擇構建線性回歸管道或探索性因子分析管道來支持 ML 模型。
ML 訓練和驗證需要執行比傳統提取-轉換-加載(ETL)工具支持的更復雜的功能。
這在復雜的數據處理、聚合和回歸中尤為常見。此處推薦的方法是使用有向無環圖(DAG)流來補充數據處理策略。
與 BI 的線性數據流相比,DAG 流支持可擴展的有向圖,用于數據路由、統計轉換和系統邏輯。像 Apache Airflow 這樣的工具支持 DAG 流的創作、管理和維護,這些流可以以編程方式與 ETL 管道集成。
不用說,這導致了 DataOps 和 MLOps 管道的冗余和碎片化。可以說,當前的 DataOps 更關注 BI/結構化分析,而 MLOps 則涵蓋了包含數據(預)處理的完整 ML 管道。
數據平臺供應商已經開始著手解決這個問題,我們看到了一些初步的解決方案。Snowflake 提供了 Snowpark Python API,允許在 Snowflake 內訓練和部署 ML 模型,Snowpark 使數據科學家能夠使用 Python(而不是用 SQL 編寫代碼)。
谷歌云平臺(GCP)提供了 BigQuery ML,這是一個允許在 GCP 數據倉庫環境中僅使用 SQL 訓練 ML 模型的工具。類似地,AWS Redshift Data API 使任何用 Python 編寫的應用程序都可以輕松與 Redshift 交互。這允許 SageMaker 筆記本連接到 Redshift 集群,并在 Python 中運行 Data API 命令。這種原地分析提供了一種從 AWS 數據倉庫直接拉取數據到筆記本的有效方式。
3. Agentic AI 用于數據管理
在本節中,我們展示如何在企業環境中使用自主 AI Agents 重新設計上述數據管理任務,通過適應不斷變化的數據環境來驅動業務價值(如圖 4 所示):
?自動化數據管道(攝入、建模、轉換);
?通過 AI 驅動的政策執行實現治理和合規的運營化;
?為實時業務決策提供洞察和預測。
接下來,我們展示 Agentic AI 對兩個核心流程的編排:數據編目和數據工程(數據倉庫)。
3.1 數據編目的 AI Agents
自主 Agents 可以通過自動化數據發現、分類和元數據豐富來顛覆數據編目。這需要編排多個 AI Agents,提供跨異構系統的端到端數據編目。這些 Agents 持續從用戶交互中學習,確保實時元數據更新、智能實體識別和上下文標記。
核心數據編目 Agents 包括(如圖所示):
?Supervisor Agent:掃描企業源系統以發現新的相關數據,分配和調度任務給其他 Agents。
?Data Discovery Agent:執行自主實體提取,檢測關系并應用元數據豐富。
?Data Integration Agent:與 ERP、CRM 等企業系統無縫集成,支持實時編目更新。
?Metadata Validation Agent:執行元數據一致性檢查,檢測重復項,確保關系映射的準確性。
?Data Observability Agent:持續跟蹤數據血緣,應用安全和訪問控制策略,確保合規性。
3.2 數據工程的 AI Agents
Agentic AI 可以通過自動化數據管道、查詢優化和模式演變來革新數據倉庫。這需要編排多個專門從事數據倉庫關鍵領域的 Agents:數據攝入、建模、轉換和洞察生成。
核心數據工程 Agents 如圖 6 所示:
?Supervisor Agent:調度批處理和實時作業,自動化從批處理和流式源攝入數據。
?ETL Agents:提供數據管道的端到端自動化,包括數據攝入、建模和轉換。
?Data Quality Agent:執行數據質量、完整性和一致性檢查,消除重復記錄等。
?Data Modeling and Tuning Agent:根據模式漂移檢測和用戶查詢趨勢動態調整模式和索引,自動適應表結構。
?Data Observability Agent:持續監控數據倉庫性能,自動調整數據管道以提高速度和成本效率。
3.3 數據管理的 Agentic AI 參考架構
在本節中,我們概述了數據管理 Agentic AI 平臺的關鍵模塊(如圖 7 所示):
?推理模塊:分解復雜任務并調整其執行以實現給定目標;
?Agentic 市場:現有和可用 Agents 的市場;
?編排模塊:編排和監控多 Agents 系統的執行;
?集成模塊:與企業源系統集成;
?共享內存管理:用于 Agents 之間的數據和上下文共享;
?治理層:包括可解釋性、隱私、安全等。
給定一個用戶(數據管理)任務,Agentic AI 平臺的目標是識別(組合)能夠執行該任務的 Agent(或 Agents 組)。因此,我們需要的第一個組件是一個推理模塊,能夠將任務分解為子任務,并通過編排引擎協調相應 Agents 的執行。
解決此類復雜任務的高級方法包括:(a) 將給定復雜任務分解為(層級或工作流中的)簡單任務;(b) 組合能夠執行這些較簡單任務的 Agents。這可以通過動態或靜態方式實現。在動態方法中,給定復雜用戶任務,系統根據運行時可用 Agents 的能力制定計劃以滿足請求。在靜態方法中,給定一組 Agents,在設計時手動定義組合 Agents,結合它們的能力。
鏈式思考(Chain of Thought, CoT)是目前最廣泛使用的分解框架,用于將復雜任務轉化為多個可管理任務,并揭示模型思考過程的解釋。
Agent 組合意味著存在一個 Agent 市場/注冊表,包含 Agent 能力和約束的明確描述。在這種情況下,相關的數據管理 Agents 包括:
?Data Discovery Agent
?Data Processing Agent
?Data Modeling Agent
?Insights Generation Agent
?Data (and Metadata) Quality Agent
?Data Observability Agent
鑒于需要編排多個 Agents,需要一個支持不同 Agent 交互模式的數據集成模塊,例如 Agent 到 Agent API、Agent API 提供供人類消費的輸出、人類觸發 AI Agent、AI Agent 到 Agent 且有人類參與的循環。這些集成模式需要底層 Agent OS 平臺支持。
吳恩達(Andrew Ng)最近從性能角度討論了這一點:
今天,許多 LLM 輸出是供人類消費的。但在 Agentic 工作流中,LLM 可能被反復提示以反思和改進其輸出、使用工具、計劃和執行多個步驟,或實現協作的多個 Agents。因此,我們可能在向用戶顯示任何輸出之前生成數十萬甚至更多的 token。這使得快速生成 token 非常重要,而較慢的生成速度則成為充分利用現有模型的瓶頸。
這包括與多個企業源系統(例如 ERP、CRM)集成,這在大多數用例中都是必要的。例如,Anthropic 最近提出的模型上下文協議(Model Context Protocol, MCP)可將 AI Agents 連接到存儲企業數據的外部系統。
鑒于此類復雜任務的長時間運行特性,內存管理對 Agentic AI 系統至關重要。
這包括任務之間的上下文共享以及長時間保持執行上下文。
標準方法是將 Agent 信息的嵌入表示保存到支持最大內積搜索(MIPS)的向量存儲數據庫中。為了快速檢索,使用近似最近鄰(ANN)算法,返回大約 top k 最近鄰,犧牲一定準確性以換取巨大的速度提升。
最后是數據治理模塊。我們需要確保用戶針對特定任務共享的數據或跨任務的用戶配置文件數據,僅與相關 Agents 共享(表/報告認證和訪問控制)。請參閱我之前的文章《負責任的 AI Agents》,討論了在幻覺防護、數據質量、隱私、可重復性、可解釋性等方面啟用良好治理的 AI Agent 平臺所需的關鍵維度。
4. 結論
Agentic AI 是一個強大的范式,有潛力顛覆當今企業中許多業務流程。本文聚焦于數據管理流程。雖然我們通常關注“數據”方面,以提供高質量數據來啟用 Agentic AI 系統,但我們展示了如何利用 Agentic AI 重新設計數據管理流程本身。
具體來說,我們將 Agentic AI 應用于兩個核心數據管理流程:數據編目和數據工程(數據倉庫),概述了兩種場景相關的任務特定 AI Agents。我們最后描述了一個 Agentic AI 平臺的參考架構,可以以自持續的方式組合和編排這些 Agents(用于數據管理)。
鑒于數據對所有 AI(包括生成式 AI 和 Agentic AI)的重要性,我們相信高效(Agentic AI 賦能的)數據管理有潛力通過自主適應不斷變化的企業流程顯著驅動業務價值。
本文轉載自??AI大模型觀察站??,作者:AI大模型觀察站
