數(shù)據(jù)質(zhì)量成熟度模型:分析數(shù)據(jù)準(zhǔn)備的五個級別
生成可供分析的數(shù)據(jù)的一個關(guān)鍵要求是數(shù)據(jù)必須是“好”的。各組織對良好數(shù)據(jù)質(zhì)量的定義存在差異,這些定義符合其在分析和數(shù)據(jù)科學(xué)方面的成熟度。
由于兩個原因,成熟度模型類比似乎適合這里。首先,模型中的關(guān)卡是相互依存的,在掌握較低的關(guān)卡之前不可能達到更高的關(guān)卡。其次,向更高層次移動不僅僅是工具或算法的問題,因為它還需要不同的流程和組織思維。
第1級:數(shù)據(jù)來源
了解數(shù)據(jù)來自哪里、如何收集、如何轉(zhuǎn)換、為什么以及由誰轉(zhuǎn)換,是任何可用數(shù)據(jù)集的最基本要求。例如,在臨床環(huán)境中——如果我們不知道哪個實驗室進行了測試,誰資助了這項研究,血壓是站立還是坐下,或者在我們得到試驗結(jié)果之前是否將某些患者從試驗結(jié)果中剔除——數(shù)據(jù)實際上是無用的。
擁有關(guān)于每個數(shù)據(jù)集的明確出處、沿襲、所有者和其他元數(shù)據(jù)——甚至在查看數(shù)據(jù)本身之前——是任何數(shù)據(jù)分析之前的基本要求。在醫(yī)療保健領(lǐng)域,披露利益沖突、資金來源、隱私和其他道德考慮也是關(guān)鍵。
俗話說——“如果你足夠折磨數(shù)據(jù),它會告訴你任何事情”。
第2級:基本衛(wèi)生
在這個級別,團隊關(guān)注的是基本數(shù)據(jù)元素的統(tǒng)一表示:
- 數(shù)字(格式為“3,500”或“3500”)
- 空值(將“null”、“N/A”、“na”、“?”、“-1”和“未指定”格式化為單個值)
- 標(biāo)準(zhǔn)單位和標(biāo)準(zhǔn)單位的轉(zhuǎn)換(格式為“30lbs”至“13.6”,單位為 kg)
- 地理空間點、圓、弧和多邊形
- 日期和時間、貨幣、姓名、地址、電子郵件、布爾值和其他常見類型
大多數(shù)這些價值觀都有國際標(biāo)準(zhǔn),盡管通常有不止一個“標(biāo)準(zhǔn)”在起作用。對于數(shù)據(jù)消費者而言,正確的選擇始終是“工具本身可以理解的格式”——因此,如果該工具是 Tableau、R、pandas 或 Excel,答案可能會有所不同。
大多數(shù)提供數(shù)據(jù)質(zhì)量指標(biāo)、數(shù)據(jù)完整性或豐富性指標(biāo)、自動數(shù)據(jù)規(guī)范化或主數(shù)據(jù)管理的工具都在這個級別上運行。
第 3 級:異常值、混亂和不太可能的組合
下一個級別超越單個數(shù)據(jù)元素,進入描述性統(tǒng)計數(shù)據(jù)和可能的錯誤。例如,一名患者服用 12,345 種不同類型的藥物很可能是數(shù)據(jù)輸入錯誤,或者至少是在計算對異常值敏感的描述性統(tǒng)計數(shù)據(jù)(如均值和標(biāo)準(zhǔn)差)時應(yīng)排除的異常值。
有時問題不是個別異常值,而是一連串幾乎是例外的情況。例如,在一個網(wǎng)站每秒網(wǎng)絡(luò)流量的數(shù)據(jù)集中,10 分鐘內(nèi)從歷史標(biāo)準(zhǔn)增加 100 倍的可能性要大得多,這很可能是機器人的結(jié)果,而不是真實用戶活動的結(jié)果。Flurries 經(jīng)常出現(xiàn)在時間序列數(shù)據(jù)中,必須根據(jù)具體情況決定保留或刪除。
領(lǐng)域?qū)<疫€應(yīng)該深入挖掘以發(fā)現(xiàn)由于不太可能的組合而導(dǎo)致的錯誤。特別是在醫(yī)療保健領(lǐng)域,通常可以識別出臨床上不太可能的組合。例如,在一個案例中,一個 25 歲的女性體重 535 磅本身是合理的,但查看同一患者的其他測量和實驗室結(jié)果,很明顯這是一個打字錯誤53.5磅的女人。這種“臨床上不太可能的組合”通常是數(shù)據(jù)輸入錯誤,應(yīng)該在下游數(shù)據(jù)分析之前消除。
第 3 級需要更深入的統(tǒng)計知識以及 DataOps 團隊更深入的領(lǐng)域?qū)I(yè)知識。如示例所示,在此級別“固定”數(shù)據(jù)質(zhì)量不再能夠完全自動化。
第 4 級:覆蓋缺口
下一個層次超越了將數(shù)據(jù)集的質(zhì)量描述為一種通用度量——討論是否適合給定的分析項目。這尤其涉及識別所提供數(shù)據(jù)中的差距,并找到補充它們的方法。
例如,考慮一個跟蹤英國兒童疫苗接種率的項目。收集的數(shù)據(jù)可能存在空間覆蓋缺口(即沒有在威爾士收集數(shù)據(jù))、時間覆蓋缺口(有 15 年的數(shù)據(jù),由于當(dāng)年的預(yù)算限制,2010 年除外)或人口覆蓋缺口(即不在學(xué)校沒有被調(diào)查)。
這種差距的重要性在很大程度上取決于項目。例如,如果目標(biāo)是識別有風(fēng)險的孩子,那么找到不在學(xué)校的孩子可能很關(guān)鍵;然而,如果目標(biāo)是比較男孩和女孩,這種差距可能不會破壞整個分析。做出正確的決定和更正需要您的分析團隊和 DataOps 團隊之間的協(xié)作。
第 5 級:偏見
在更高的層次上,運行完全集成的項目團隊,團隊結(jié)合了數(shù)據(jù)科學(xué)、DataOps 和軟件工程師。人們每天都在同一個項目上工作,這樣可以發(fā)現(xiàn)和解決已經(jīng)“通過”所有先前級別的質(zhì)量門的數(shù)據(jù)中細微但關(guān)鍵的偏差。
這最常適用于機器學(xué)習(xí)和數(shù)據(jù)挖掘項目。例如,假設(shè)我們正在尋找一種算法,該算法可以根據(jù)患者的醫(yī)院臨床記錄自動分配 ICD-10 診斷和程序代碼。為了訓(xùn)練它,我們只能從鎮(zhèn)上的兩家醫(yī)院之一獲得數(shù)據(jù)。兩家醫(yī)院都設(shè)有內(nèi)科病房,但其中一家專攻心臟病學(xué)和腫瘤學(xué)(并且處理了大多數(shù)病例),而另一家專攻免疫學(xué)、內(nèi)分泌學(xué)和老年醫(yī)學(xué)。
請注意,無論我們選擇哪家醫(yī)院——我們的訓(xùn)練數(shù)據(jù)中診斷和程序代碼的分布都將與我們將在“現(xiàn)實世界”中觀察到的情況有所偏差,這將扭曲機器學(xué)習(xí)算法,因為先驗分布訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)將不同于在線觀察到的數(shù)據(jù)。
數(shù)據(jù)集的選擇也會導(dǎo)致其他不太明顯的偏差。每家醫(yī)院本質(zhì)上都會經(jīng)歷不同的年齡、性別和合并癥分布——因為在醫(yī)療保健領(lǐng)域,所有這些都是相關(guān)的。這意味著,由于這些關(guān)系和相關(guān)性,有監(jiān)督和無監(jiān)督學(xué)習(xí)算法都會以微妙但重要的方式出現(xiàn)偏差。
這在實踐中具有重要意義,因為我們越來越依賴機器來做出影響人們健康和福祉的日常決策。您對訓(xùn)練數(shù)據(jù)的選擇隱含地忽略了其中沒有代表的人,并且可能會根據(jù)他們過去的行為過度懲罰或獎勵那些被代表的人。這基本上是一個數(shù)據(jù)質(zhì)量問題。
了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學(xué)家和 DataOps 專家之間持續(xù)進行深入合作,這是生成機器學(xué)習(xí)模型或預(yù)測分析的必要條件,這些模型或預(yù)測分析不受未公開偏見的影響并經(jīng)受住現(xiàn)實世界的考驗采用。