從0到1,聊聊貨拉拉如何搭建數據指標體系
一、背景
指標體系是指一系列維度、有組織及結構的指標集合。構建指標體系主要是為公司業務目標落地做輔助決策,以及監控業務運行的穩定性情況等。
具體從業務、技術及產品三個視角來闡述指標體系構建中的痛點:
1. 業務視角:
- 可信任性:業務口徑不一致,導致指標數據不一致,影響到業務部門對數據的信任感;
- 可理解性:業務術語不一致,導致不同人對業務的理解不一致,從而導致數據存在略微的差異,增加溝通成本;
- 可衡量性:指標與業務的真實相關程度,能否準確衡量業務的變化,指導目標的達成;
- 可追溯性:隨著業務的發展,業務及數據口徑的變更歷史較難回溯。
2. 技術視角
- 數據穩定性:數據的產出是否穩定及時;
- 數據質量:數據是否準確,完整、一致。
3. 產品視角
- 可訪問性:數據是否易于訪問;
- 合規性:使用是否安全合規,如何防止數據泄漏的風險等。
二、指標體系構建
1. 指標設計
針對上述痛點,我們從以下三個方面去解決:
- 解決業務痛點:在指標設計時首先選取核心業務成體系化的來搭建指標體系,并將整個建設流程標準化。
- 解決技術痛點:將數據研發流程規范化,把握好數據模型的業務擴展性及 ETL 的性能問題,并做好數據鏈路及質量監控。
- 解決產品痛點:將建設的元數據產品化,數據的使用做到服務化。
對于建設范圍:先聚焦核心業務,快速將核心業務的指標體系搭建出來并落地應用,然后再迭代優化。切忌刻意地追求指標的業務覆蓋面,避免導致需求范圍過大,實現周期太長,導致指標的應用落地嚴重延期。整個核心構建過程如上圖中所示,目標是圍繞賦能業務去設計指標。
2. 指標體系搭建
下面以貨拉拉為例,簡單介紹指標體系搭建的思路(例子與實際業務不一定相符,僅供參考):
- 首先公司會制定業務的主要目標,然后依據參與人的業務軌跡梳理核心的業務過程;
- 然后拆解負責各個核心業務的相關部門的具體目標,接著業務部門依此制定落地的方案或策略;
- 最后為了指導目標達成,再梳理各業務具體的衡量指標。
3. 指標維度拆解
上圖中列出了指標及維度拆解中的一些經典原則及常用數據模型。這里強調兩點:
- 遵循 MECE原則,尤其是在底層數據模型的設計過程中,最好將維度和指標拆解地互斥且不交叉,這樣有利于保證上層應用層維度及指標組合的靈活性、同時也有利于提升復用率、降低整體的計算及研發成本;具體的拆分方法參考如上圖所示,二(多)分法、流程法等。
- 需要深入理解各核心業務場景的常用數據分析模型(比如上圖中 AARRR 等模型),結合自己公司的業務特點,選取合適的業務數據模型來搭建部門內部的指標體系。
三、指標標準化建設
指標體系建設的標準化流程可以參考以上流程圖,重點強調的內容有以下兩點:
- 數據需求準入評審:為了解決業務口徑描述不一致、業務口徑轉換為數據口徑的質量問題,一定要成立一個指標評審組織,至少由業務方、數據分析人員、數倉研發人員這三部分組成,此項工作人力投入價值最大,直接影響后續數據研發的效率、交付質量及是否返工修復數據口徑等工作量。
- 數據研發的標準化:為了數據模型設計工作的高質量開展,需要梳理好數據口徑;核心工作內容是數據的維度及指標梳理,落地為指標維度矩陣,再進一步拆解到事實層(DWD)的維度及原子指標,這樣可以更準確地評估后續數據研發的工作量。
指標體系建設過程中數據研發的工作重點:依據數倉的架構主要集中在匯總層各業務主題域的指標維度事實表的建設落地,其次是集市層,面向業務的多賬期、跨業務主題域、衍生指標的建設工作等。
四、指標元數據管理
指標建設完成后,則需要進行指標元數據管理,主要有四部分內容:
- 首先管理好指標建設流程;前期可以先采用 SOP 等文檔落地,后續再產品化。
- 其次管理好數據模型,包括偏向技術的物理模型和偏向業務的邏輯模型。
- 然后管理好指標及維度的元數據信息,包括業務數據域、業務口徑、數據口徑、血緣關系等。
- 最后將數據封裝成服務,并將業務應用方的使用和調用信息登記管理起來,以便后期的服務穩定性分級管理及指標體系建設的業務收益回收等。
對于指標元數據管理方面,介紹以下三個相關定義:
- 數據需求=時間+維度+指標
- 指標=時間+修飾詞+原子指標
- 維度=通用維度+個性化的業務維度
因此對應的具體管理內容主要是如上圖所示的三部分元數據的管理,修飾詞管理、指標管理和維度管理。
五、指標應用&未來發展
對于指標體系的主要應用場景包括:業務報表和看板、特定的業務數據產品等,另外實際已落地的新場景是:結合 AI 大模型通過自然語言快速取數,具體框架如上圖所示。
具體應用場景功能設計上,對于衍生指標,即基礎指標的四則運算、派生及衍生維度,關聯父子維度,或者簡單關聯轉化的維度,我們都是通過元數據配置來實現的,這樣極大提高了數據應用的靈活性,并大大降低了數據及后端數據接口服務研發的成本,同時提高了需求響應的及時性。
對于指標體系應用在未來的熱門發展方向主要體現在通過自然語言快速取數、歸因診斷及智能運營這三個方面:
- 自然語言快速取數及簡單可視化,在貨拉拉已經接近落地,相關云廠商或者頭部互聯網公司也基本都有相關產品。這個場景的主要挑戰是如何降低錯誤率,個人理解在這個場景中可以拒答,但是不能給出錯誤數據。
- 診斷歸因,則處于探索逐步落地階段,前期主要先基于業務部門的分析經驗來配置歸因的邏輯來實現,后續再探索如何讓大模型通過對行業業務的理解學習,結合數理統計分析算法來自主歸因。
- 智能運營場景,為了提高運營效率,進一步對 AI 大模型提出了更高的定制化能力要求。傳統運營早已深入各行業公司的具體業務,主要是基于個人經驗和歷史沉淀的經驗知識等,因此需要更深入理解行業及公司業務的運營知識。同時由于涉及到具體的運營策略及業務數據,對于這部分的數據安全性也是一個挑戰。為了這個場景能更好地落地及推廣,還要求相關產品能具備通用化且安全的行業知識學習及更新能力,并最好將大模型行業知識的學習流程產品化,降低大家的學習使用成本,在保證運營效果的同時,大大減少公司的運營人力投入成本。