分析成熟度模型:阻礙數(shù)據(jù)科學(xué)團(tuán)隊發(fā)展的“罪魁禍?zhǔn)住?/h1>
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)
下面這種模型你肯定見過,高德納優(yōu)勢分析模型在數(shù)據(jù)分析和數(shù)據(jù)科學(xué)會議上實在是太常見了。
不要與卡內(nèi)基梅隆大學(xué)的能力成熟度模型混淆,該圖表被多樣地稱作成熟度模型、連續(xù)體,甚至是自動扶梯。有時,公司也會顛倒用詞次序使用。而行業(yè)術(shù)語常常將其稱為分析成熟度模型,本文也將使用這種叫法。

分析成熟度模型令人無法抗拒…
人們太偏愛這種模型了,主要原因有以下幾個:
(1) 它的比喻是吸引人且能引發(fā)共鳴的。“這就像是一個孩子在成長。首先學(xué)著爬,其次是走,最后是跑。”與會者很容易理解這種比喻,并表示贊同。
(2) 其格式與新聞記者使用的經(jīng)典5W1H技巧十分接近,能夠立即吸引人們的注意。
從據(jù)理力爭的創(chuàng)業(yè)數(shù)據(jù)極客到身著細(xì)條紋套裝的企業(yè)銷售分析人員,任何人都可以傳達(dá)典型的套話:“我們從‘發(fā)生了什么’開始,接著直觀地轉(zhuǎn)到‘為什么發(fā)生’,再到‘將要發(fā)生什么’,并以令人滿意的‘我們?nèi)绾螌崿F(xiàn)這一目標(biāo)’結(jié)束。”
(3) 它有助于公司發(fā)展。常見的介入式咨詢模式始于在成熟度模型上對公司所處位置的評估。然后,公司用對應(yīng)的級別來確定接下來要優(yōu)先學(xué)習(xí)的能力。
因此,該模型不僅通過令人印象深刻的能力結(jié)構(gòu),且通過清晰的提升路線圖,為公司提供了十分清晰的發(fā)展思路。
但該模型包含可能阻礙數(shù)據(jù)科學(xué)發(fā)展的錯誤假設(shè)
以這種方式表現(xiàn)模型,在視覺上引入了許多巧妙的假設(shè)。不幸的是,這些假設(shè)中有許多是錯誤的,并且可能嚴(yán)重阻礙數(shù)據(jù)科學(xué)團(tuán)隊的發(fā)展。
這就很諷刺了,該模型旨在幫助公司做出更好的數(shù)據(jù)驅(qū)動型決策,卻導(dǎo)致了建立數(shù)據(jù)科學(xué)團(tuán)隊的錯誤決策。
成熟度模型被構(gòu)造為一系列效益級別。然而,在我們做以下假設(shè)時,風(fēng)險也隨之而來:
- 從底部開始,按順序前進(jìn)到各個級別
- 每個更高級別都比之前的較低級別帶來更多價值
- 管理這些能力的方式屬于同一領(lǐng)域
這些假設(shè)無一正確
讓我們來一次性解構(gòu)這些假設(shè):
在進(jìn)階到高級分析前,無需“完成”附加描述型分析。
首先,一家公司如何準(zhǔn)確地“完整擁有”附加報道、商業(yè)智能和分析能力?數(shù)據(jù)是不斷變化的世界的動態(tài)表示,只要世界不斷變化(這當(dāng)然是永遠(yuǎn)的,且速度會不斷加快),描述型分析就會有新的要求。
成熟的數(shù)據(jù)管理十分重要,出色的數(shù)據(jù)平臺是數(shù)據(jù)科學(xué)的有力支持,且擁有所有所需數(shù)據(jù)并進(jìn)行建模是一種難得的樂趣。擁有良好的數(shù)據(jù)倉庫和數(shù)據(jù)湖,為隨機(jī)森林的生長創(chuàng)造了一片肥沃土壤。
然而,數(shù)據(jù)倉庫項目需要等待多年完成,在此期間還將數(shù)據(jù)科學(xué)團(tuán)隊部署到從事結(jié)構(gòu)化查詢語言(SQL)和歸檔責(zé)任的工作,這是得不償失,甚至還會促使數(shù)據(jù)科學(xué)團(tuán)隊跳槽。
從根本上講,除非正在構(gòu)建產(chǎn)品功能,否則數(shù)據(jù)科學(xué)和數(shù)據(jù)分析的價值源泉僅來自于一個因素——就是決策。
如果數(shù)據(jù)科學(xué)家能通過數(shù)據(jù)來影響決策以達(dá)到更好效果,那么就可以創(chuàng)造價值。如果決策仍沒有改變,那么就浪費(fèi)了時間。無論安全高性能云托管可解釋深度學(xué)習(xí)模型多么強(qiáng)大,都不會改變決策。整個團(tuán)隊極有可能存在數(shù)年,工資照領(lǐng),卻沒有創(chuàng)造出任何價值。
在高級數(shù)據(jù)分析有所進(jìn)展的機(jī)會渺茫的同時,無需在成熟度模型的較低級別上停留。數(shù)據(jù)科學(xué)家在少量但重要的業(yè)務(wù)決策上立即創(chuàng)造價值也是常見情況。
一個更好的策略在其簡單程度方面幾乎是可笑的:讓數(shù)據(jù)科學(xué)家參與到可以接觸到的最高層人員作出的最重要決策中。
坐在高層人員身邊,了解他們的想法和決策過程。從他們已經(jīng)想到的地方開始,繼續(xù)推進(jìn)思路。查看本地訪問數(shù)據(jù)庫、Excel電子表格程序。查找管理會計師,并運(yùn)用你儲備的各項技術(shù)來改善決策。
更高級別的數(shù)據(jù)分析是否能帶來更多價值尚不確定
計算預(yù)測或規(guī)范模型的價值或“提升”有許多完善的方法,例如,可以利用統(tǒng)計技術(shù)來預(yù)測世界狀況,你無需使用模型進(jìn)行干預(yù),一段時間后,再將其預(yù)測值與真值、創(chuàng)造價值進(jìn)行比較。
例如,在啟動數(shù)據(jù)科學(xué)項目以增加零售產(chǎn)品銷售之前,可以預(yù)測在沒有任何模型干預(yù)的情況下,下個月的收入可能是1萬美元。執(zhí)行定價和促銷模型后,收入為1.2萬美元,包括2000美元的模型營銷增益。
但矛盾的是,計算描述型或診斷型工作的價值可能會非常棘手。人們?nèi)绾螠?zhǔn)確地量化意識的價值?如果一個人被蒙住眼睛行走,那么如何估計他摘下眼罩的價值呢?
不同類型工作在完全不同的管理方法下蓬勃發(fā)展
我們知道,不同級別的團(tuán)隊可以并行工作,并以不同的方式衡量價值。這還沒完:團(tuán)隊在成熟度模型下限停滯不前的一個重要原因就是,使描述型和診斷型分析有效的管理范式可能為預(yù)測型和規(guī)范型工作敲響“喪鐘”。
簡而言之,前者在強(qiáng)大的“工程”模式下蓬勃發(fā)展,要求互聯(lián)網(wǎng)技術(shù)風(fēng)格,擁有強(qiáng)大的項目管理和穩(wěn)健的流程。而后者則在定義了起點(diǎn)和終點(diǎn)的項目范圍外工作效果最佳。
二者最大的區(qū)別在于數(shù)據(jù)不確定性。預(yù)測型和規(guī)范型分析的特殊風(fēng)險是:無法保證數(shù)據(jù)中包含足夠的信息,使預(yù)測型和規(guī)范型分析的應(yīng)用程序變得有價值。
更復(fù)雜的是,還可以使用多種通常同樣有效的技術(shù),來解決給定的問題。因此,必須有足夠的空間進(jìn)行早期嘗試、試驗和失敗,使其影響較小。
如果正在建立用于預(yù)測型維護(hù)的機(jī)器學(xué)習(xí)模型,并且發(fā)現(xiàn)可用數(shù)據(jù)沒有任何有用的信號,那么在筆記本電腦上進(jìn)行兩周的實驗后失敗總比在六個月的預(yù)算項目和十人團(tuán)隊中試驗失敗要好得多。
概言之,成熟度模型對團(tuán)隊造成損害的主要方式是:企業(yè)采用用于提供描述型分析解決方案的管理方法,并將其強(qiáng)加于高級分析工作中,而不去改變導(dǎo)致數(shù)據(jù)不確定性的方法。
通向更好的數(shù)據(jù)科學(xué)團(tuán)隊成熟度模型
成熟數(shù)據(jù)科學(xué)團(tuán)隊的選擇是什么呢?
首先,拋棄描述型、診斷型、預(yù)測型和規(guī)范型兼具的模式。在一線,工作通常在這四項分析模式間無縫過渡。數(shù)據(jù)分析和數(shù)據(jù)科學(xué)專業(yè)人士始終在全面地進(jìn)行診斷工作。
而且,每當(dāng)有人從建立可視化轉(zhuǎn)變到建立機(jī)器學(xué)習(xí)模型(反之亦然),并將此作為日常工作的一部分時,把公司的主要流程強(qiáng)加其上是費(fèi)力不討好的。
人們不該將分析成熟度和其價值比作正在長個頭的孩子,這是在單個維度上的連續(xù)增量。更準(zhǔn)確的出發(fā)點(diǎn)應(yīng)從兩個維度看待成熟度,即實際上創(chuàng)造價值的維度:決策支持或生產(chǎn)系統(tǒng)。
生產(chǎn)中成熟的決策科學(xué)和數(shù)據(jù)科學(xué)
我們真正想要的成熟度是決策科學(xué)成熟度。在這里,“工程學(xué)”就是次要的了。取而代之的是研究數(shù)據(jù)素養(yǎng)和數(shù)據(jù)解析、減輕認(rèn)知偏見、并建立正確的指標(biāo)和激勵措施和實際獎勵數(shù)據(jù)驅(qū)動的決策。
建立數(shù)據(jù)科學(xué)產(chǎn)品或?qū)⒛P屯度肷a(chǎn)是一項十分不同的活動。它需要成熟的流程來確認(rèn)數(shù)據(jù)不確定性,安全的空間進(jìn)行實驗以降低高級分析工作的風(fēng)險,上線后適當(dāng)?shù)哪P筒僮鳎约搬槍Ξa(chǎn)品而非項目量身定制的財務(wù)模型。
本文中還省略了一些現(xiàn)實生活中數(shù)據(jù)科學(xué)團(tuán)隊的復(fù)雜性:人工智能的子學(xué)科是否被視為科學(xué)或工程學(xué)?對于擁有博士學(xué)位的人最應(yīng)該去哪里?僅調(diào)用預(yù)訓(xùn)練模型的人屬于一名數(shù)據(jù)科學(xué)家?數(shù)據(jù)工程應(yīng)該成為一個單獨(dú)的團(tuán)隊嗎?
數(shù)據(jù)科學(xué)是一個不斷發(fā)展著的學(xué)科,這些問題都是快速發(fā)展過程中不斷催生出的問題,也是我們必須去適應(yīng)和解決的問題。