成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習面臨的三個關鍵數(shù)據(jù)挑戰(zhàn)

人工智能 機器學習
數(shù)據(jù)質量、稀疏性和完整性直接影響最終模型的準確性,并且是當今機器學習面臨的一些最大挑戰(zhàn)。

 眾所周知,數(shù)據(jù)對于機器學習的重要性。了解數(shù)據(jù)訪問模式將幫助數(shù)據(jù)科學家確定適合其項目的正確存儲基礎架構。數(shù)據(jù)基礎架構使機器學習成為可能。然而,一旦開始使用,機器學習就面臨著關鍵的數(shù)據(jù)挑戰(zhàn),需要首先解決:

  • 質量
  • 稀疏性
  • 完整性

 

機器學習面臨的三個關鍵數(shù)據(jù)挑戰(zhàn)

 

接下來,讓我們深入研究其中的每一個,以便大家了解如何克服機器學習的這些挑戰(zhàn):

1. 質量

許多數(shù)據(jù)科學家希望利用外部來源的數(shù)據(jù)。然而,通常沒有質量控制或保證如何捕獲原始數(shù)據(jù)。

你相信外部數(shù)據(jù)的準確性嗎?

這是一個很好的例子。漂浮在海洋中的浮標上的傳感器收集有關海洋溫度的數(shù)據(jù)。但是,當傳感器無法收集溫度時,它將記錄為999。此外,在2000年之前,僅用兩個數(shù)字記錄了年份的數(shù)字。但是在2000年之后,記錄的數(shù)字變?yōu)榱怂膫€。

因此,我們需要了解數(shù)據(jù)的質量以及如何準備數(shù)據(jù)。在這種情況下,分析浮標數(shù)據(jù)的科學家可以使用平均值、均值、最小值、最大值來可視化原始數(shù)據(jù),捕獲這些數(shù)據(jù)庫錯誤并相應地對其進行清理。

2. 稀疏性

在這種情況下,稀疏適用于元數(shù)據(jù)。通常,元數(shù)據(jù)字段不完整,有些字段已填寫,有些字段留空。如果數(shù)據(jù)是從單一來源生成的,則可能是由于人類缺乏規(guī)范或知識所致。但是,如果數(shù)據(jù)來自各種來源,而沒有元數(shù)據(jù)的標準定義,則每個數(shù)據(jù)集可能具有完全不同的字段。因此,將它們組合在一起時,完成的字段可能不對應。

當前,關于捕獲哪些元數(shù)據(jù)沒有行業(yè)標準。然而,元數(shù)據(jù)與數(shù)據(jù)本身一樣重要。當您具有填充了不同元數(shù)據(jù)字段的相同類型的數(shù)據(jù)時,如何關聯(lián)和過濾數(shù)據(jù)?

如果以浮標為例,初始數(shù)據(jù)傳感器每十分鐘收集一次水溫,而較新的浮標每三分鐘收集一次水溫。關聯(lián)數(shù)據(jù)的唯一方法是通過元數(shù)據(jù)在捕獲時公開。當科學家進行歷史分析時,他們需要元數(shù)據(jù)以便能夠相應地調整其模型。

3. 完整性

數(shù)據(jù)完整性是數(shù)據(jù)準確性和一致性的保證。數(shù)據(jù)保管鏈對于證明數(shù)據(jù)在流水線和位置中移動時不會受到損害至關重要。當數(shù)據(jù)的捕獲和攝取受到控制時,您可以相對輕松地驗證其完整性。但是,與他人合作時,很難進行驗證。生成數(shù)據(jù)時,沒有用于外部數(shù)據(jù)的安全證書。您也不能確保數(shù)據(jù)記錄完全符合預期,也不能確保接收到的數(shù)據(jù)與原始記錄時完全相同。

關于物聯(lián)網數(shù)據(jù)和區(qū)塊鏈存在一些有趣的概念,但是,在廣泛采用這種概念之前,數(shù)據(jù)完整性取決于安全技術和策略的結合。例如,由于數(shù)據(jù)在靜態(tài)或傳輸過程中可能會受到威脅,因此通過網絡傳輸?shù)臄?shù)據(jù)應使用https,并且在靜態(tài)時應進行加密。另一方面,訪問控制應受策略驅動,以避免人為錯誤。

如何開始?

數(shù)據(jù)質量、稀疏性和完整性直接影響最終模型的準確性,并且是當今機器學習面臨的一些比較大的挑戰(zhàn)。擁有清晰數(shù)據(jù)定義,政策并探索行業(yè)特定數(shù)據(jù)標準的組織將在短期和長期項目中受益。

如果您還沒有,那么您的組織應該首先定義自己的數(shù)據(jù)收集策略,元數(shù)據(jù)格式,然后應用標準的安全技術。數(shù)據(jù)質量和稀疏性齊頭并進。下一步,設置元數(shù)據(jù)策略,并確保可以使用捕獲的定性數(shù)據(jù)來驗證數(shù)據(jù)的有效性。最后,為了確保數(shù)據(jù)完整性,可以在生成數(shù)據(jù)時應用數(shù)字證書,應該在傳輸過程中強制使用SSL,并且始終保持啟用加密狀態(tài)。

安全數(shù)據(jù)協(xié)作

如果您所在的行業(yè)需要與外部組織不斷交換數(shù)據(jù),那么最好開放您的數(shù)據(jù)和元格式的源代碼,因為這些標準比許多專有標準更廣泛。更好的是,您可以發(fā)起一個行業(yè)開放標準委員會,讓其他人參與和貢獻。一個很好的例子是“開放目標”(https://www.opentargets.org/),這是一種“公私合作伙伴關系,利用人類遺傳學和基因組學數(shù)據(jù)進行系統(tǒng)的藥物靶點識別和優(yōu)先排序。”

尤其是研究數(shù)據(jù)生態(tài)系統(tǒng)已經變得高度復雜,組織內部和外部的合作者需要快速訪問數(shù)據(jù)以及簡化數(shù)據(jù)管理的方法。機器學習的挑戰(zhàn)很多。第一步是使用正確的數(shù)據(jù)和基礎結構啟動項目。

 

責任編輯:華軒 來源: 千家網
相關推薦

2021-12-23 10:05:43

機器學習人工智能黑盒模型

2022-08-11 06:58:46

CDO首席數(shù)據(jù)官

2023-07-27 09:01:32

開源

2021-08-20 14:59:32

機器學習人工智能工具

2022-04-18 16:33:40

Gartner云服務云安全

2022-04-20 10:28:12

機器學習深度學習人工智能

2020-09-16 11:24:09

機器學習

2020-07-15 07:42:12

人工智能

2022-02-28 16:05:53

開發(fā)RTOS數(shù)據(jù)

2018-07-11 05:24:05

機器學習人工智能數(shù)據(jù)

2017-01-12 09:11:07

2017-01-15 10:32:49

大數(shù)據(jù)技術信息

2023-07-06 14:29:11

2022-08-08 10:52:59

邊緣計算混合云

2021-09-16 15:06:33

漏洞管理漏洞網絡攻擊

2022-10-13 14:15:35

商業(yè)智能大數(shù)據(jù)工具

2022-09-25 23:37:48

比特幣數(shù)字貨幣加密貨幣

2021-12-03 14:34:26

云遷移云端云計算

2023-03-09 11:40:50

數(shù)據(jù)中心服務器

2020-06-12 07:00:00

AI 人工智能機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品成人佐山爱一区二区 | 午夜免费影视 | 精品国产乱码久久久久久88av | 99国产精品99久久久久久 | 亚洲精品www| 韩国av影院| 三级在线免费观看 | 精品国产乱码久久久久久蜜臀 | 日韩色视频 | 日韩视频在线免费观看 | 国产一区二区视频在线观看 | 日本高清aⅴ毛片免费 | 一区在线观看 | 在线观看中文字幕 | 亚洲精品二区 | 成人精品一区二区三区中文字幕 | 欧美一区| 日本不卡一区二区三区在线观看 | 国产精品久久久久久一级毛片 | 欧美在线一二三 | 春色av| 久久久综合久久 | 蜜月aⅴ国产精品 | 自拍偷拍亚洲欧美 | 亚洲免费在线观看 | 精品www | 激情在线视频网站 | 精久久久 | 先锋资源吧 | 国产极品车模吞精高潮呻吟 | 在线观看国产h | 超碰伊人 | 亚洲一区二区三区在线播放 | 亚洲福利网 | 男女羞羞视频免费 | 国产精品日韩一区二区 | 亚洲在线免费 | 国产精品久久久久永久免费观看 | 久久中文网 | 免费国产精品久久久久久 | 找个黄色片 |