“數(shù)據(jù)產(chǎn)品”究竟是什么以及它為何對AI代理至關(guān)重要
深陷數(shù)據(jù)泥潭,渴望洞察
如今,許多組織都深陷數(shù)據(jù)洪流。信息從銷售系統(tǒng)、營銷工具、運(yùn)營數(shù)據(jù)庫、網(wǎng)站以及無數(shù)其他來源涌入。然而,盡管信息浩如煙海,要獲得清晰可靠的業(yè)務(wù)答案卻異常困難。數(shù)據(jù)常常被困在不同的部門或系統(tǒng)中,難以查找、難以理解,有時(shí)甚至不可靠。這是一種常見的挫敗感:原始信息量巨大,但人們真正渴望的是切實(shí)可行的洞察。
如果有更好的方法會(huì)怎樣?如果組織不再將數(shù)據(jù)視為運(yùn)營的技術(shù)副產(chǎn)品,而是將其視為產(chǎn)品,會(huì)怎樣?這意味著將數(shù)據(jù)的“消費(fèi)者”——同事、分析師、數(shù)據(jù)科學(xué)家和其他團(tuán)隊(duì)——視為“客戶”,并專門設(shè)計(jì)數(shù)據(jù)產(chǎn)品以有效滿足他們的需求。這種視角的轉(zhuǎn)變正是一個(gè)日益受到廣泛關(guān)注的概念的核心:“數(shù)據(jù)產(chǎn)品”。它代表著從簡單地收集數(shù)據(jù)到積極管理和包裝數(shù)據(jù),使其成為有價(jià)值的可消耗資產(chǎn)的轉(zhuǎn)變。這不僅僅是技術(shù)變革,更是對數(shù)據(jù)在業(yè)務(wù)中的作用和價(jià)值的全新思考方式。
那么,什么是數(shù)據(jù)產(chǎn)品?
簡單來說,數(shù)據(jù)產(chǎn)品是為特定目的或受眾設(shè)計(jì)的即用型、可靠且易于理解的數(shù)據(jù)包。想象一下,送貨上門的一盒未經(jīng)烹制的原料和一整套餐食的區(qū)別。餐食不僅包含食材,還包含食譜卡、營養(yǎng)信息,甚至可能還有一些預(yù)先切好的蔬菜——所有這些東西都能輕松準(zhǔn)備一頓特定的飯菜。
同樣,數(shù)據(jù)產(chǎn)品不僅僅是原始數(shù)據(jù)。它是一個(gè)獨(dú)立的、可部署的單元,將數(shù)據(jù)與有效使用所需的一切捆綁在一起。這個(gè)包通常包括:
- 數(shù)據(jù)本身:核心信息,無論是原始的、清理過的、匯總的還是衍生的。
- 元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù)——字段描述、定義、來源、質(zhì)量指標(biāo)(如產(chǎn)品標(biāo)簽)。
- 代碼:用于創(chuàng)建或訪問數(shù)據(jù)的邏輯(例如,轉(zhuǎn)換腳本、API 訪問代碼)。
- 訪問信息:如何連接和使用數(shù)據(jù)。
- 服務(wù)水平目標(biāo) (SLO):關(guān)于其質(zhì)量、新鮮度和可靠性的承諾。
其核心理念是將成熟的產(chǎn)品開發(fā)思維應(yīng)用于數(shù)據(jù)世界。它旨在從消費(fèi)者的角度設(shè)計(jì)數(shù)據(jù)解決方案,以解決特定問題或?qū)崿F(xiàn)特定分析,使其成為分析數(shù)據(jù)的最小價(jià)值單元。這是一種刻意的努力,旨在超越簡單的數(shù)據(jù)存儲(chǔ),創(chuàng)造真正符合用途且自身有價(jià)值的東西。
數(shù)據(jù)產(chǎn)品組件——從原始數(shù)據(jù)到可立即使用的包。
在數(shù)據(jù)工程中,區(qū)分?jǐn)?shù)據(jù)產(chǎn)品與更傳統(tǒng)的結(jié)構(gòu)至關(guān)重要。例如:
傳統(tǒng)批量加載:這類操作通常需要每晚(或定期)將大量原始數(shù)據(jù)或少量處理的數(shù)據(jù)從源系統(tǒng)傳輸?shù)綌?shù)據(jù)倉庫或數(shù)據(jù)湖等中央存儲(chǔ)庫。雖然它們有助于數(shù)據(jù)整合,但通常缺乏豐富的元數(shù)據(jù)、明確的所有權(quán)、明確的服務(wù)水平目標(biāo) (SLO) 以及針對特定業(yè)務(wù)需求的直接可用性,而這些正是數(shù)據(jù)產(chǎn)品所特有的。消費(fèi)者通常需要執(zhí)行大量的下游工作才能使這些數(shù)據(jù)可用。
簡單數(shù)據(jù) API:雖然 API 提供了數(shù)據(jù)訪問,但簡單的 API 端點(diǎn)僅僅暴露原始數(shù)據(jù)表或轉(zhuǎn)儲(chǔ)數(shù)據(jù),缺乏全面的元數(shù)據(jù)、質(zhì)量保證或明確的預(yù)期用途和生命周期管理定義,因此不屬于數(shù)據(jù)產(chǎn)品。數(shù)據(jù)產(chǎn)品的 API 是面向管理完善、可靠且易于理解的數(shù)據(jù)資產(chǎn)的接口,并包含所有支持組件。
這就是“數(shù)據(jù)契約”概念變得高度相關(guān)的地方。數(shù)據(jù)產(chǎn)品具有明確的服務(wù)水平目標(biāo) (SLO)、模式定義、元數(shù)據(jù)和質(zhì)量保證,本質(zhì)上體現(xiàn)了數(shù)據(jù)生產(chǎn)者與消費(fèi)者之間的數(shù)據(jù)契約。這份契約確保消費(fèi)者了解他們將獲得什么、如何使用它以及他們可以期待什么樣的可靠性。如果數(shù)據(jù)產(chǎn)品發(fā)生變化(例如,模式演變、數(shù)據(jù)語義變化),契約提供了一個(gè)框架來管理這些變化并將其傳達(dá)給消費(fèi)者,從而防止下游流程出現(xiàn)問題并增強(qiáng)對數(shù)據(jù)的信任。數(shù)據(jù)契約是一種機(jī)制,旨在增強(qiáng)數(shù)據(jù)產(chǎn)品理念中固有的可靠性和可信度。
數(shù)據(jù)產(chǎn)品理念的誕生
“數(shù)據(jù)產(chǎn)品”一詞在 2019 年左右開始流行,這主要?dú)w功于 ThoughtWorks 的 Zhamak Dehghani。她將其作為一項(xiàng)核心原則——“數(shù)據(jù)即產(chǎn)品”——引入了更廣泛的架構(gòu)概念“數(shù)據(jù)網(wǎng)格”。
數(shù)據(jù)網(wǎng)格本身是一種范式轉(zhuǎn)變,旨在解決數(shù)據(jù)倉庫和數(shù)據(jù)湖等傳統(tǒng)集中式數(shù)據(jù)方法的局限性,這些局限性往往會(huì)成為大型組織的瓶頸。數(shù)據(jù)網(wǎng)格并非由一個(gè)中心團(tuán)隊(duì)管理所有數(shù)據(jù),而是倡導(dǎo)將數(shù)據(jù)所有權(quán)分散到特定的業(yè)務(wù)領(lǐng)域(例如市場營銷、銷售和財(cái)務(wù))。
在這樣一個(gè)去中心化的世界里,擁有定義明確、高質(zhì)量、易于共享的數(shù)據(jù)單元至關(guān)重要。數(shù)據(jù)產(chǎn)品正是這些重要的構(gòu)建塊,使不同領(lǐng)域的團(tuán)隊(duì)能夠有效地創(chuàng)建、共享和使用數(shù)據(jù),而無需僅僅依賴一個(gè)中心化的數(shù)據(jù)團(tuán)隊(duì)。理解這一起源有助于闡明數(shù)據(jù)產(chǎn)品日益重要的原因:它們通過促進(jìn)去中心化的數(shù)據(jù)共享和所有權(quán),成為在現(xiàn)代復(fù)雜組織中擴(kuò)展數(shù)據(jù)使用和創(chuàng)新的關(guān)鍵推動(dòng)因素。
什么讓數(shù)據(jù)產(chǎn)品脫穎而出?
并非所有數(shù)據(jù)都能被歸類為數(shù)據(jù)產(chǎn)品。要獲得這一稱號,數(shù)據(jù)需要具備某些特征,使其對消費(fèi)者真正有用且可靠。這些特征直接解決了人們在處理數(shù)據(jù)時(shí)經(jīng)常遇到的難題。關(guān)鍵特征包括:
1.可發(fā)現(xiàn)性:用戶需要能夠輕松找到與其需求相關(guān)的數(shù)據(jù)產(chǎn)品,就像搜索在線目錄一樣。這通常需要一個(gè)專門的“數(shù)據(jù)產(chǎn)品目錄”,其中列出可用的產(chǎn)品并可供搜索。這解決了“我找不到我需要的數(shù)據(jù)”的問題。
2.易于理解(自描述):數(shù)據(jù)產(chǎn)品應(yīng)提供清晰的文檔和元數(shù)據(jù),解釋其內(nèi)容、字段含義、創(chuàng)建方式及其預(yù)期用途——就像清晰的產(chǎn)品標(biāo)簽一樣。這解決了“我找到了數(shù)據(jù),但不知道它的含義或是否適合我”的難題。
3.值得信賴:消費(fèi)者必須對數(shù)據(jù)的質(zhì)量、準(zhǔn)確性和時(shí)效性充滿信心。數(shù)據(jù)產(chǎn)品通過公開其質(zhì)量標(biāo)準(zhǔn)(通常定義為服務(wù)級別目標(biāo),簡稱 SLO)及其達(dá)成情況來實(shí)現(xiàn)這一點(diǎn)??梢詫⑵湟暈橐粋€(gè)以可靠性著稱的值得信賴的品牌。這可以消除“我不信任這些數(shù)據(jù)”的顧慮。
4.自身價(jià)值:數(shù)據(jù)產(chǎn)品應(yīng)該提供內(nèi)在價(jià)值,無需與許多其他數(shù)據(jù)集結(jié)合才能發(fā)揮作用。它代表著一個(gè)有凝聚力且有意義的信息概念。這確保用戶能夠立即獲得有用的信息,而不僅僅是需要復(fù)雜組裝的原始零件。
其他重要特性通常包括可尋址(具有唯一且穩(wěn)定的位置)、可訪問(可通過 SQL 或 API 等標(biāo)準(zhǔn)工具使用)、可互操作(易于與其他數(shù)據(jù)產(chǎn)品結(jié)合)以及安全性(具有適當(dāng)?shù)脑L問控制)。這些特性共同構(gòu)成了數(shù)據(jù)產(chǎn)品生產(chǎn)者與其消費(fèi)者之間的“合同”,確保了良好的用戶體驗(yàn)。
實(shí)際數(shù)據(jù)產(chǎn)品案例
數(shù)據(jù)產(chǎn)品并非僅限于理論;它們以多種形式存在,通常為常見的應(yīng)用程序和業(yè)務(wù)流程提供支持。它們遠(yuǎn)不止簡單的數(shù)據(jù)集。例如:
基于洞察的產(chǎn)品:這些產(chǎn)品提供可供決策的已處理信息。
銷售績效儀表板顯示為銷售經(jīng)理精心挑選的收入、渠道和區(qū)域績效等關(guān)鍵指標(biāo)。
自動(dòng)為銀行客戶計(jì)算信用風(fēng)險(xiǎn)評分,以簡化貸款申請。
YNAB 或 Mint 等應(yīng)用程序提供的個(gè)人理財(cái)洞察,分析消費(fèi)模式。
算法/自動(dòng)決策產(chǎn)品:這些產(chǎn)品使用數(shù)據(jù)來驅(qū)動(dòng)自動(dòng)化操作或復(fù)雜的建議。
Netflix 或 Amazon 等平臺(tái)上的推薦引擎根據(jù)用戶行為推薦電影或產(chǎn)品。
預(yù)測分析工具,例如 Zillow 估算房屋價(jià)值或預(yù)測客戶流失的模型。
GPS 導(dǎo)航應(yīng)用程序提供實(shí)時(shí)路線指引。
基于主數(shù)據(jù)的產(chǎn)品:這些產(chǎn)品提供了關(guān)鍵業(yè)務(wù)實(shí)體的綜合、標(biāo)準(zhǔn)化視圖。
精心策劃的“黃金客戶記錄”數(shù)據(jù)集結(jié)合了來自 CRM、銷售和支持系統(tǒng)的信息,用于營銷的統(tǒng)一客戶視圖。
數(shù)據(jù)集/數(shù)據(jù)即服務(wù)產(chǎn)品:這些產(chǎn)品通常通過 API 提供對精選數(shù)據(jù)或原始數(shù)據(jù)的訪問。
各種應(yīng)用程序用來顯示天氣信息的天氣預(yù)報(bào) API。
用于電子商務(wù)的動(dòng)態(tài)定價(jià)產(chǎn)品數(shù)據(jù)集,根據(jù)庫存水平和到期日期調(diào)整價(jià)格。
清理并記錄以電子表格或數(shù)據(jù)庫表形式提供的競爭對手定價(jià)數(shù)據(jù)。
這些示例展現(xiàn)了數(shù)據(jù)產(chǎn)品的多樣性。無論是簡單的報(bào)告、復(fù)雜的機(jī)器學(xué)習(xí)模型,還是基礎(chǔ)數(shù)據(jù)集,其共同點(diǎn)在于運(yùn)用“產(chǎn)品思維”——設(shè)計(jì)、打包和管理數(shù)據(jù)資產(chǎn),以實(shí)現(xiàn)可用性、可靠性和價(jià)值。
小結(jié):為什么要關(guān)心數(shù)據(jù)產(chǎn)品
將數(shù)據(jù)視為產(chǎn)品不僅僅是采用新的術(shù)語;它是一種克服常見數(shù)據(jù)挑戰(zhàn)的實(shí)用方法。通過關(guān)注數(shù)據(jù)消費(fèi)者的需求并運(yùn)用產(chǎn)品管理原則,組織可以使其數(shù)據(jù)更加:
- 可發(fā)現(xiàn):人們更容易找到他們需要的東西。
- 易于理解:含義和背景更清晰。
- 值得信賴:更高的質(zhì)量和可靠性。
- 可訪問且可用:更輕松地集成到分析和工作流程中。
數(shù)據(jù)產(chǎn)品的最終目標(biāo)是打破數(shù)據(jù)孤島,促進(jìn)協(xié)作,并賦能組織內(nèi)更多人員有效利用數(shù)據(jù),從而做出更優(yōu)、更快速的決策。它有助于將數(shù)據(jù)從復(fù)雜的技術(shù)挑戰(zhàn)轉(zhuǎn)變?yōu)殡S時(shí)可用的資產(chǎn),從而推動(dòng)創(chuàng)新并創(chuàng)造切實(shí)的商業(yè)價(jià)值。
未來展望:數(shù)據(jù)產(chǎn)品和代理人工智能的興起
隨著代理人工智能 (Agentic AI) 的快速發(fā)展,數(shù)據(jù)產(chǎn)品的基本原則將變得更加重要。代理人工智能系統(tǒng)旨在通過與環(huán)境交互并利用各種工具自主實(shí)現(xiàn)目標(biāo),這在很大程度上依賴于可靠、可理解且可操作的數(shù)據(jù)。
數(shù)據(jù)產(chǎn)品如何對 Agentic AI 的使用和采用產(chǎn)生積極影響:
- 賦能自主代理:人工智能代理需要高質(zhì)量、豐富的上下文數(shù)據(jù)來做出明智的決策并有效地執(zhí)行任務(wù)。數(shù)據(jù)產(chǎn)品本質(zhì)上可以提供以下功能:
- 可發(fā)現(xiàn)性:代理可以通過數(shù)據(jù)產(chǎn)品目錄以編程方式找到所需的數(shù)據(jù)。
- 可理解性:豐富的元數(shù)據(jù)使代理能夠正確解釋數(shù)據(jù)。
- 可信度: SLO 和質(zhì)量保證確保代理根據(jù)可靠的信息進(jìn)行操作,減少錯(cuò)誤并提高自主行動(dòng)的效率。
- 可訪問性:標(biāo)準(zhǔn)化的訪問機(jī)制(如為數(shù)據(jù)產(chǎn)品設(shè)計(jì)的 API)使代理更容易使用數(shù)據(jù)。
- 支持復(fù)雜工具的使用: Agentic AI 通常依賴于多種工具和數(shù)據(jù)源。數(shù)據(jù)產(chǎn)品可以作為客服人員工具包中標(biāo)準(zhǔn)化、可靠的“工具”。例如,負(fù)責(zé)市場分析的客服人員可以無縫訪問“已驗(yàn)證銷售數(shù)據(jù)產(chǎn)品”、“精選競爭對手洞察產(chǎn)品”和“實(shí)時(shí)社交情緒產(chǎn)品”,從而生成一份綜合報(bào)告。
- 提升安全性和治理:隨著人工智能代理日益自主,確保它們在合乎道德和安全的界限內(nèi)運(yùn)行至關(guān)重要。擁有明確所有權(quán)、血統(tǒng)和內(nèi)置治理機(jī)制(例如,訪問控制、嵌入元數(shù)據(jù)的使用策略)的數(shù)據(jù)產(chǎn)品,可以幫助管理代理有權(quán)訪問的數(shù)據(jù)及其使用方式。這有助于負(fù)責(zé)任的人工智能開發(fā)。
- 加速代理的開發(fā)和部署:當(dāng)數(shù)據(jù)以定義明確的產(chǎn)品形式隨時(shí)可用時(shí),開發(fā)人員可以更快地構(gòu)建和訓(xùn)練人工智能代理。他們可以減少在數(shù)據(jù)整理上花費(fèi)的時(shí)間,而將更多時(shí)間投入到代理的核心邏輯和功能上。
- 促進(jìn)人機(jī)協(xié)作:當(dāng)人類和人工智能代理都依賴相同的可信數(shù)據(jù)產(chǎn)品時(shí),協(xié)作將變得更加無縫。人類可以輕松理解代理正在使用的數(shù)據(jù),驗(yàn)證其輸出,并在必要時(shí)進(jìn)行干預(yù)。
連接到 Entropic 的模型上下文協(xié)議 (MCP):
數(shù)據(jù)產(chǎn)品的愿景與 Anthropic 的模型上下文協(xié)議 (MCP) 等新興標(biāo)準(zhǔn)高度契合。MCP 是一種開放協(xié)議,旨在規(guī)范 AI 模型(包括支持代理的模型)與外部數(shù)據(jù)源和工具的連接和交互方式。
數(shù)據(jù)產(chǎn)品可以被視為通過 MCP 服務(wù)器進(jìn)行公開的理想選擇。通過將數(shù)據(jù)、元數(shù)據(jù)、訪問邏輯和質(zhì)量保證打包到數(shù)據(jù)產(chǎn)品中,組織可以創(chuàng)建一個(gè)現(xiàn)成的、可靠的“上下文源”,AI 代理可以通過 MCP 連接到該源。這具有以下幾個(gè)優(yōu)勢:
- 標(biāo)準(zhǔn)化訪問: MCP 提供“AI 的 USB-C 端口”,為代理提供接入各種數(shù)據(jù)源的標(biāo)準(zhǔn)化方式。通過 MCP 公開的數(shù)據(jù)產(chǎn)品,對于任何符合 MCP 標(biāo)準(zhǔn)的代理來說,都可以輕松成為其使用的構(gòu)建模塊。
- 增強(qiáng) LLM 的上下文:代理系統(tǒng)通常利用大型語言模型 (LLM)。數(shù)據(jù)產(chǎn)品可以通過 MCP 為這些 LLM 提供豐富、結(jié)構(gòu)化且值得信賴的上下文,從而使代理能夠做出更準(zhǔn)確、更相關(guān)、更可靠的響應(yīng)和操作。LLM 不再僅僅依賴于自身的訓(xùn)練數(shù)據(jù),而是可以從專用數(shù)據(jù)產(chǎn)品中獲取最新的、特定領(lǐng)域的高質(zhì)量信息。
- 安全且受管控的數(shù)據(jù)交換: MCP 旨在實(shí)現(xiàn)安全連接。當(dāng)通過 MCP 訪問具有固有安全性和管控功能的數(shù)據(jù)產(chǎn)品時(shí),它可以加強(qiáng)對 AI 代理敏感信息的訪問控制。
本質(zhì)上,數(shù)據(jù)產(chǎn)品提供結(jié)構(gòu)良好、可靠且受管控的“內(nèi)容”(數(shù)據(jù)資產(chǎn)本身),而像 MCP 這樣的協(xié)議則提供標(biāo)準(zhǔn)化的“方法”(AI 代理訪問和使用該資產(chǎn)的機(jī)制)。兩者強(qiáng)強(qiáng)聯(lián)手,可以顯著加速復(fù)雜 Agentic AI 系統(tǒng)的開發(fā)和可信應(yīng)用,使其能夠更有效、更安全地利用組織數(shù)據(jù),從而實(shí)現(xiàn)商業(yè)價(jià)值。