數(shù)據(jù)質(zhì)量成熟度模型：分析數(shù)據(jù)準(zhǔn)備的五個級別

作者：何威風(fēng) 2022-06-10 07:04:56

大多數(shù)這些價值觀都有國際標(biāo)準(zhǔn)，盡管通常有不止一個“標(biāo)準(zhǔn)”在起作用。對于數(shù)據(jù)消費者而言，正確的選擇始終是“工具本身可以理解的格式”——因此，如果該工具是 Tableau、R、pandas 或 Excel，答案可能會有所不同。

生成可供分析的數(shù)據(jù)的一個關(guān)鍵要求是數(shù)據(jù)必須是“好”的。各組織對良好數(shù)據(jù)質(zhì)量的定義存在差異，這些定義符合其在分析和數(shù)據(jù)科學(xué)方面的成熟度。

由于兩個原因，成熟度模型類比似乎適合這里。首先，模型中的關(guān)卡是相互依存的，在掌握較低的關(guān)卡之前不可能達到更高的關(guān)卡。其次，向更高層次移動不僅僅是工具或算法的問題，因為它還需要不同的流程和組織思維。

第1級：數(shù)據(jù)來源

了解數(shù)據(jù)來自哪里、如何收集、如何轉(zhuǎn)換、為什么以及由誰轉(zhuǎn)換，是任何可用數(shù)據(jù)集的最基本要求。例如，在臨床環(huán)境中——如果我們不知道哪個實驗室進行了測試，誰資助了這項研究，血壓是站立還是坐下，或者在我們得到試驗結(jié)果之前是否將某些患者從試驗結(jié)果中剔除——數(shù)據(jù)實際上是無用的。

擁有關(guān)于每個數(shù)據(jù)集的明確出處、沿襲、所有者和其他元數(shù)據(jù)——甚至在查看數(shù)據(jù)本身之前——是任何數(shù)據(jù)分析之前的基本要求。在醫(yī)療保健領(lǐng)域，披露利益沖突、資金來源、隱私和其他道德考慮也是關(guān)鍵。

俗話說——“如果你足夠折磨數(shù)據(jù)，它會告訴你任何事情”。

第2級：基本衛(wèi)生

在這個級別，團隊關(guān)注的是基本數(shù)據(jù)元素的統(tǒng)一表示：

數(shù)字（格式為“3,500”或“3500”）
空值（將“null”、“N/A”、“na”、“?”、“-1”和“未指定”格式化為單個值）
標(biāo)準(zhǔn)單位和標(biāo)準(zhǔn)單位的轉(zhuǎn)換（格式為“30lbs”至“13.6”，單位為 kg）
地理空間點、圓、弧和多邊形
日期和時間、貨幣、姓名、地址、電子郵件、布爾值和其他常見類型

大多數(shù)提供數(shù)據(jù)質(zhì)量指標(biāo)、數(shù)據(jù)完整性或豐富性指標(biāo)、自動數(shù)據(jù)規(guī)范化或主數(shù)據(jù)管理的工具都在這個級別上運行。

第 3 級：異常值、混亂和不太可能的組合

下一個級別超越單個數(shù)據(jù)元素，進入描述性統(tǒng)計數(shù)據(jù)和可能的錯誤。例如，一名患者服用 12,345 種不同類型的藥物很可能是數(shù)據(jù)輸入錯誤，或者至少是在計算對異常值敏感的描述性統(tǒng)計數(shù)據(jù)（如均值和標(biāo)準(zhǔn)差）時應(yīng)排除的異常值。

有時問題不是個別異常值，而是一連串幾乎是例外的情況。例如，在一個網(wǎng)站每秒網(wǎng)絡(luò)流量的數(shù)據(jù)集中，10 分鐘內(nèi)從歷史標(biāo)準(zhǔn)增加 100 倍的可能性要大得多，這很可能是機器人的結(jié)果，而不是真實用戶活動的結(jié)果。Flurries 經(jīng)常出現(xiàn)在時間序列數(shù)據(jù)中，必須根據(jù)具體情況決定保留或刪除。

領(lǐng)域?qū)＜疫€應(yīng)該深入挖掘以發(fā)現(xiàn)由于不太可能的組合而導(dǎo)致的錯誤。特別是在醫(yī)療保健領(lǐng)域，通常可以識別出臨床上不太可能的組合。例如，在一個案例中，一個 25 歲的女性體重 535 磅本身是合理的，但查看同一患者的其他測量和實驗室結(jié)果，很明顯這是一個打字錯誤53.5磅的女人。這種“臨床上不太可能的組合”通常是數(shù)據(jù)輸入錯誤，應(yīng)該在下游數(shù)據(jù)分析之前消除。

第 3 級需要更深入的統(tǒng)計知識以及 DataOps 團隊更深入的領(lǐng)域?qū)I(yè)知識。如示例所示，在此級別“固定”數(shù)據(jù)質(zhì)量不再能夠完全自動化。

第 4 級：覆蓋缺口

下一個層次超越了將數(shù)據(jù)集的質(zhì)量描述為一種通用度量——討論是否適合給定的分析項目。這尤其涉及識別所提供數(shù)據(jù)中的差距，并找到補充它們的方法。

例如，考慮一個跟蹤英國兒童疫苗接種率的項目。收集的數(shù)據(jù)可能存在空間覆蓋缺口（即沒有在威爾士收集數(shù)據(jù)）、時間覆蓋缺口（有 15 年的數(shù)據(jù)，由于當(dāng)年的預(yù)算限制，2010 年除外）或人口覆蓋缺口（即不在學(xué)校沒有被調(diào)查）。

這種差距的重要性在很大程度上取決于項目。例如，如果目標(biāo)是識別有風(fēng)險的孩子，那么找到不在學(xué)校的孩子可能很關(guān)鍵；然而，如果目標(biāo)是比較男孩和女孩，這種差距可能不會破壞整個分析。做出正確的決定和更正需要您的分析團隊和 DataOps 團隊之間的協(xié)作。

第 5 級：偏見

在更高的層次上，運行完全集成的項目團隊，團隊結(jié)合了數(shù)據(jù)科學(xué)、DataOps 和軟件工程師。人們每天都在同一個項目上工作，這樣可以發(fā)現(xiàn)和解決已經(jīng)“通過”所有先前級別的質(zhì)量門的數(shù)據(jù)中細微但關(guān)鍵的偏差。

這最常適用于機器學(xué)習(xí)和數(shù)據(jù)挖掘項目。例如，假設(shè)我們正在尋找一種算法，該算法可以根據(jù)患者的醫(yī)院臨床記錄自動分配 ICD-10 診斷和程序代碼。為了訓(xùn)練它，我們只能從鎮(zhèn)上的兩家醫(yī)院之一獲得數(shù)據(jù)。兩家醫(yī)院都設(shè)有內(nèi)科病房，但其中一家專攻心臟病學(xué)和腫瘤學(xué)（并且處理了大多數(shù)病例），而另一家專攻免疫學(xué)、內(nèi)分泌學(xué)和老年醫(yī)學(xué)。

請注意，無論我們選擇哪家醫(yī)院——我們的訓(xùn)練數(shù)據(jù)中診斷和程序代碼的分布都將與我們將在“現(xiàn)實世界”中觀察到的情況有所偏差，這將扭曲機器學(xué)習(xí)算法，因為先驗分布訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)將不同于在線觀察到的數(shù)據(jù)。

數(shù)據(jù)集的選擇也會導(dǎo)致其他不太明顯的偏差。每家醫(yī)院本質(zhì)上都會經(jīng)歷不同的年齡、性別和合并癥分布——因為在醫(yī)療保健領(lǐng)域，所有這些都是相關(guān)的。這意味著，由于這些關(guān)系和相關(guān)性，有監(jiān)督和無監(jiān)督學(xué)習(xí)算法都會以微妙但重要的方式出現(xiàn)偏差。

這在實踐中具有重要意義，因為我們越來越依賴機器來做出影響人們健康和福祉的日常決策。您對訓(xùn)練數(shù)據(jù)的選擇隱含地忽略了其中沒有代表的人，并且可能會根據(jù)他們過去的行為過度懲罰或獎勵那些被代表的人。這基本上是一個數(shù)據(jù)質(zhì)量問題。

了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學(xué)家和 DataOps 專家之間持續(xù)進行深入合作，這是生成機器學(xué)習(xí)模型或預(yù)測分析的必要條件，這些模型或預(yù)測分析不受未公開偏見的影響并經(jīng)受住現(xiàn)實世界的考驗采用。

責(zé)任編輯：武曉燕來源：祺印說信安

數(shù)據(jù)級別模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看