成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)質(zhì)量成熟度模型:分析數(shù)據(jù)準(zhǔn)備的五個級別

安全 數(shù)據(jù)安全
大多數(shù)這些價值觀都有國際標(biāo)準(zhǔn),盡管通常有不止一個“標(biāo)準(zhǔn)”在起作用。對于數(shù)據(jù)消費者而言,正確的選擇始終是“工具本身可以理解的格式”——因此,如果該工具是 Tableau、R、pandas 或 Excel,答案可能會有所不同。

生成可供分析的數(shù)據(jù)的一個關(guān)鍵要求是數(shù)據(jù)必須是“好”的。各組織對良好數(shù)據(jù)質(zhì)量的定義存在差異,這些定義符合其在分析和數(shù)據(jù)科學(xué)方面的成熟度。

由于兩個原因,成熟度模型類比似乎適合這里。首先,模型中的關(guān)卡是相互依存的,在掌握較低的關(guān)卡之前不可能達到更高的關(guān)卡。其次,向更高層次移動不僅僅是工具或算法的問題,因為它還需要不同的流程和組織思維。

圖片

第1級:數(shù)據(jù)來源

了解數(shù)據(jù)來自哪里、如何收集、如何轉(zhuǎn)換、為什么以及由誰轉(zhuǎn)換,是任何可用數(shù)據(jù)集的最基本要求。例如,在臨床環(huán)境中——如果我們不知道哪個實驗室進行了測試,誰資助了這項研究,血壓是站立還是坐下,或者在我們得到試驗結(jié)果之前是否將某些患者從試驗結(jié)果中剔除——數(shù)據(jù)實際上是無用的。

擁有關(guān)于每個數(shù)據(jù)集的明確出處、沿襲、所有者和其他元數(shù)據(jù)——甚至在查看數(shù)據(jù)本身之前——是任何數(shù)據(jù)分析之前的基本要求。在醫(yī)療保健領(lǐng)域,披露利益沖突、資金來源、隱私和其他道德考慮也是關(guān)鍵。

俗話說——“如果你足夠折磨數(shù)據(jù),它會告訴你任何事情”。

第2級:基本衛(wèi)生

在這個級別,團隊關(guān)注的是基本數(shù)據(jù)元素的統(tǒng)一表示:

  • 數(shù)字(格式為“3,500”或“3500”)
  • 空值(將“null”、“N/A”、“na”、“?”、“-1”和“未指定”格式化為單個值)
  • 標(biāo)準(zhǔn)單位和標(biāo)準(zhǔn)單位的轉(zhuǎn)換(格式為“30lbs”至“13.6”,單位為 kg)
  • 地理空間點、圓、弧和多邊形
  • 日期和時間、貨幣、姓名、地址、電子郵件、布爾值和其他常見類型

大多數(shù)這些價值觀都有國際標(biāo)準(zhǔn),盡管通常有不止一個“標(biāo)準(zhǔn)”在起作用。對于數(shù)據(jù)消費者而言,正確的選擇始終是“工具本身可以理解的格式”——因此,如果該工具是 Tableau、R、pandas 或 Excel,答案可能會有所不同。

大多數(shù)提供數(shù)據(jù)質(zhì)量指標(biāo)、數(shù)據(jù)完整性或豐富性指標(biāo)、自動數(shù)據(jù)規(guī)范化或主數(shù)據(jù)管理的工具都在這個級別上運行。

第 3 級:異常值、混亂和不太可能的組合

下一個級別超越單個數(shù)據(jù)元素,進入描述性統(tǒng)計數(shù)據(jù)和可能的錯誤。例如,一名患者服用 12,345 種不同類型的藥物很可能是數(shù)據(jù)輸入錯誤,或者至少是在計算對異常值敏感的描述性統(tǒng)計數(shù)據(jù)(如均值和標(biāo)準(zhǔn)差)時應(yīng)排除的異常值。

有時問題不是個別異常值,而是一連串幾乎是例外的情況。例如,在一個網(wǎng)站每秒網(wǎng)絡(luò)流量的數(shù)據(jù)集中,10 分鐘內(nèi)從歷史標(biāo)準(zhǔn)增加 100 倍的可能性要大得多,這很可能是機器人的結(jié)果,而不是真實用戶活動的結(jié)果。Flurries 經(jīng)常出現(xiàn)在時間序列數(shù)據(jù)中,必須根據(jù)具體情況決定保留或刪除。

領(lǐng)域?qū)<疫€應(yīng)該深入挖掘以發(fā)現(xiàn)由于不太可能的組合而導(dǎo)致的錯誤。特別是在醫(yī)療保健領(lǐng)域,通常可以識別出臨床上不太可能的組合。例如,在一個案例中,一個 25 歲的女性體重 535 磅本身是合理的,但查看同一患者的其他測量和實驗室結(jié)果,很明顯這是一個打字錯誤53.5磅的女人。這種“臨床上不太可能的組合”通常是數(shù)據(jù)輸入錯誤,應(yīng)該在下游數(shù)據(jù)分析之前消除。

第 3 級需要更深入的統(tǒng)計知識以及 DataOps 團隊更深入的領(lǐng)域?qū)I(yè)知識。如示例所示,在此級別“固定”數(shù)據(jù)質(zhì)量不再能夠完全自動化。

圖片

第 4 級:覆蓋缺口

下一個層次超越了將數(shù)據(jù)集的質(zhì)量描述為一種通用度量——討論是否適合給定的分析項目。這尤其涉及識別所提供數(shù)據(jù)中的差距,并找到補充它們的方法。

例如,考慮一個跟蹤英國兒童疫苗接種率的項目。收集的數(shù)據(jù)可能存在空間覆蓋缺口(即沒有在威爾士收集數(shù)據(jù))、時間覆蓋缺口(有 15 年的數(shù)據(jù),由于當(dāng)年的預(yù)算限制,2010 年除外)或人口覆蓋缺口(即不在學(xué)校沒有被調(diào)查)。

這種差距的重要性在很大程度上取決于項目。例如,如果目標(biāo)是識別有風(fēng)險的孩子,那么找到不在學(xué)校的孩子可能很關(guān)鍵;然而,如果目標(biāo)是比較男孩和女孩,這種差距可能不會破壞整個分析。做出正確的決定和更正需要您的分析團隊和 DataOps 團隊之間的協(xié)作。

第 5 級:偏見

在更高的層次上,運行完全集成的項目團隊,團隊結(jié)合了數(shù)據(jù)科學(xué)、DataOps 和軟件工程師。人們每天都在同一個項目上工作,這樣可以發(fā)現(xiàn)和解決已經(jīng)“通過”所有先前級別的質(zhì)量門的數(shù)據(jù)中細微但關(guān)鍵的偏差。

這最常適用于機器學(xué)習(xí)和數(shù)據(jù)挖掘項目。例如,假設(shè)我們正在尋找一種算法,該算法可以根據(jù)患者的醫(yī)院臨床記錄自動分配 ICD-10 診斷和程序代碼。為了訓(xùn)練它,我們只能從鎮(zhèn)上的兩家醫(yī)院之一獲得數(shù)據(jù)。兩家醫(yī)院都設(shè)有內(nèi)科病房,但其中一家專攻心臟病學(xué)和腫瘤學(xué)(并且處理了大多數(shù)病例),而另一家專攻免疫學(xué)、內(nèi)分泌學(xué)和老年醫(yī)學(xué)。

請注意,無論我們選擇哪家醫(yī)院——我們的訓(xùn)練數(shù)據(jù)中診斷和程序代碼的分布都將與我們將在“現(xiàn)實世界”中觀察到的情況有所偏差,這將扭曲機器學(xué)習(xí)算法,因為先驗分布訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)將不同于在線觀察到的數(shù)據(jù)。

圖片

數(shù)據(jù)集的選擇也會導(dǎo)致其他不太明顯的偏差。每家醫(yī)院本質(zhì)上都會經(jīng)歷不同的年齡、性別和合并癥分布——因為在醫(yī)療保健領(lǐng)域,所有這些都是相關(guān)的。這意味著,由于這些關(guān)系和相關(guān)性,有監(jiān)督和無監(jiān)督學(xué)習(xí)算法都會以微妙但重要的方式出現(xiàn)偏差。

這在實踐中具有重要意義,因為我們越來越依賴機器來做出影響人們健康和福祉的日常決策。您對訓(xùn)練數(shù)據(jù)的選擇隱含地忽略了其中沒有代表的人,并且可能會根據(jù)他們過去的行為過度懲罰或獎勵那些被代表的人。這基本上是一個數(shù)據(jù)質(zhì)量問題。

了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學(xué)家和 DataOps 專家之間持續(xù)進行深入合作,這是生成機器學(xué)習(xí)模型或預(yù)測分析的必要條件,這些模型或預(yù)測分析不受未公開偏見的影響并經(jīng)受住現(xiàn)實世界的考驗采用。

責(zé)任編輯:武曉燕 來源: 祺印說信安
相關(guān)推薦

2022-05-26 00:15:02

數(shù)據(jù)成熟度模型

2022-05-24 14:26:11

云原生數(shù)據(jù)庫云架構(gòu)

2009-01-12 17:39:19

SOA面向服務(wù)的架構(gòu)SOA部署

2022-01-11 10:52:51

數(shù)據(jù)成熟度數(shù)據(jù)數(shù)據(jù)分析

2022-06-02 00:13:39

數(shù)據(jù)安全成熟度模型

2015-05-26 10:02:14

數(shù)據(jù)分析成熟度模型

2024-01-10 08:25:52

性能工程性能建模成熟度模型

2021-03-22 16:29:02

IT數(shù)據(jù)分析工具

2020-05-19 13:54:02

成熟度模型數(shù)據(jù)科學(xué)數(shù)據(jù)分析

2017-10-25 13:20:43

軟件安全模型

2023-06-06 10:45:00

2014-08-01 10:29:17

大數(shù)據(jù)業(yè)務(wù)模型

2011-02-22 10:46:34

ITIL服務(wù)管理

2021-07-31 22:37:45

DevOps 模型云廠商

2014-05-26 10:56:46

持續(xù)交付

2014-10-27 12:34:50

JMP

2022-03-25 08:28:05

敏捷團隊敏捷

2023-09-16 17:03:59

DevOps文檔

2010-08-18 16:17:53

IPv6

2024-09-03 15:05:03

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本三级视频 | 久久久久久亚洲精品 | www.色.com| 精品久久不卡 | 麻豆一区| 久久国产精品99久久久久久丝袜 | 日韩欧美视频免费在线观看 | 99热在线免费 | 91精品国产色综合久久不卡98口 | 一二区视频 | 成年人在线 | 一区二区三区欧美在线 | 91成人在线 | 久久久看 | 久久久久久亚洲精品 | 97精品超碰一区二区三区 | 国家一级黄色片 | 伊人狠狠干 | 久久久国产亚洲精品 | 精品一区二区在线观看 | 国产成人免费视频网站高清观看视频 | 天堂色 | 国产精品96久久久久久 | 在线亚洲电影 | 一区二区三区中文字幕 | 91传媒在线观看 | 久久男人天堂 | 久久精品国产精品青草 | 91精品久久久久久久久久入口 | 国产精品毛片一区二区三区 | 91精品国产麻豆 | 日韩乱码在线 | 人操人人 | 一级黄色片在线看 | 最新中文字幕 | 日韩视频在线一区 | 欧美激情啪啪 | 精品久久久网站 | 一区二区在线 | 鲁大师一区影视 | 精品二区|