成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

論可再現性在機器學習中的重要性

譯文
人工智能 機器學習
本文介紹了更有效的數據管理、版本控制和實驗跟蹤方法如何有助于構建可再現的機器學習管道。

譯者 | 布加迪

審校 | 重樓

當我自學機器學習時,經常試著根據項目教程編寫代碼按照作者概述的步驟來做。但有時候,我的模型的表現會比教程作者的模型差。也許您也遇到過類似的情況。或者,您只是從GitHub了同事的代碼。而您模型的性能指標與同事報告聲稱的性能指標不一樣。所以做同樣的事情并不能保證同樣的結果,是不是?這是機器學習中一個普遍存在的問題:可再現性難題

用說機器學習模型只有在人可以復制試驗現結果時才有用。從典型的它在我的機器上工作”問題到機器學習模型訓練方式的細微變化,再現性存在幾個挑戰。

我們在本文中將仔細研究機器學習中再現性的挑戰和重要性,以及數據管理、版本控制和實驗跟蹤在解決機器學習再現性挑戰中的作用。

什么是機器學習背景下的再現性

不妨看看如何在機器學習的背景下最準確地定義再現性。

假設一個現有的項目針對給定的數據集使用特定的機器學習算法。有了數據集和算法,我們應該能夠運行算法想運行多少次就運行多少次,并在每次運行再現復制)結果

但機器學習再現性并非沒有挑戰。我們已經討論了其中幾個挑戰不妨在下一節中更詳細地討論它們。

機器學習中再現性的挑戰

任何應用環境都存在可靠性和可維護性等挑戰。然而在機器學習應用中,還存在額外的挑戰。

當我們談論機器學習應用時,我們通常指端到端機器學習管道,它們通常包括以下步驟


由于其中一個或多個步驟的變更,可能會出現再現性問題。大多數變更都可以記錄在下面其中一種變更中:

  • 環境變更
  • 代碼變更
  • 數據變更

不妨看看這每一種變更在如何阻礙再現性。

環境變更

Python和基于Python的機器學習框架使開發機器學習應用程序變得輕而易舉。然而,Python中的依賴管理管理某個項目所需的不同庫和版本)卻并非易事。一個小小的變更就足以破壞代碼,比如使用不同版本的庫和使用被廢棄的參數的函數調用

包括操作系統的選擇。存在硬件相關的挑戰,比如GPU浮點精度方面的差異等。

代碼變更

清洗輸入數據集以確定哪些樣本進入訓練數據集,到訓練神經網絡時隨機初始化權重,隨機性在機器學習中扮演著重要作用。

設置不同的隨機種子可能導致全不同的結果。對于我們訓練的每個模型,都有一組超參數。因此,調整一個或多個超參數也可能導致不同的結果。

數據變更

便使用相同的數據集,我們也看到超參數值和隨機性的不一致性如何使復制結果變得困難。因此,當數據發生變化(數據分布變化、記錄子集的修改或丟棄某些樣本時,顯然很難再現結果。

總之,當我們試圖復制機器學習模型的結果時,哪怕是代碼、用的數據集和機器學習模型運行的環境出現小小的變化也會阻止我們獲得與原始模型相同的結果。

如何應對再現性挑戰

現在我們看看如何應對這些挑戰。

數據管理

我們發現再現性最明顯的挑戰之一是數據方面。有某些數據管理方法比如對數據集進行版本控制),這樣我們就可以跟蹤數據集變更,并存儲數據集方面的有用元數據。

版本控制

應該使用Git之類的版本控制系統跟蹤代碼的任何變更

在現代軟件開發中,您可能遇到過CI/CD管道,它可以大大簡化以下操作,并大大提高效率:跟蹤變更、測試新變更,并將它們推送到生產環境

在其他軟件應用程序中,跟蹤代碼的變更簡單直觀。然而在機器學習中,代碼變更還可能需要對所用的算法和超參數值進行更改。即使對于簡單的模型,我們可以嘗試的可能性的數量也非常。這就是實驗跟蹤的意義所在。

實驗跟蹤

構建機器學習應用程序等同于進行廣泛的試驗。從算法到超參數,我們嘗試不同的算法和超參數值,因此跟蹤這些試驗很重要。

跟蹤機器學習試驗包括如下:

  • 記錄超參數掃描
  • 記錄模型的性能指標模型檢查點
  • 存儲關于數據集和模型的用元數據

用于機器學習實驗跟蹤和數據管理等操作的工具

如前所述,控制數據集版本、跟蹤代碼變更以及跟蹤機器學習實驗都可以復制機器學習應用程序。下面幾個工具可以幫助您構建可再現的機器學習管道:

結語

綜上所述,我們已回顧了機器學習中再現性的重要性和挑戰。我們討論了數據和模型版本控制以及實驗跟蹤等方法。此外,我們還列出了一些可以用于實驗跟蹤和更有效的數據管理的工具。

原文標題:The Importance of Reproducibility in Machine Learning,作者:Bala Priya C


責任編輯:華軒 來源: 51CTO
相關推薦

2021-12-08 14:02:46

小數據機器學習人工智能

2023-05-24 16:08:45

深度學習工業4.0

2016-11-07 15:13:54

2020-08-26 10:42:15

IIoT智能工廠工業物聯網

2020-10-10 09:42:03

聊天機器人機器學習人工智能

2018-07-06 14:14:15

數據中心備份服務器

2022-08-26 15:54:34

云原生Kubernetes物聯網

2023-02-10 10:58:41

智慧城市數據隱私

2009-08-05 15:26:23

需求分析

2020-09-22 16:26:46

云計算

2009-03-24 09:05:54

資源管理IT管理廣通信達

2011-08-11 10:12:11

2021-12-19 13:50:42

大數據信息安全隱私

2022-05-13 08:00:00

EiPaaS容器

2022-10-28 08:00:00

云計算控制平面架構

2011-08-04 09:50:46

2017-06-13 08:33:10

程序日志代碼

2023-12-20 14:10:53

2010-07-30 16:28:06

2023-10-24 11:07:57

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91久久精品国产免费一区 | 日本免费一区二区三区 | 成人99| 欧美视频日韩 | 国产黄色麻豆视频 | 波多野结衣一区二区 | 欧美色a v| 国产精品亚洲一区二区三区在线 | 中文字幕第一页在线 | 九色综合网 | 91原创视频在线观看 | 一区二区三区国产精品 | 精品啪啪| 欧美videosex性极品hd | 亚洲精品美女 | 亚洲在线久久 | 国产精品美女久久久久aⅴ国产馆 | 国产精品久久久 | 国产91丝袜在线播放 | 免费精品视频在线观看 | 自拍偷拍亚洲一区 | 亚洲一区二区成人 | 二区三区视频 | 精品久久中文 | 欧美 日韩 在线播放 | 国产精品揄拍一区二区久久国内亚洲精 | 日韩三级在线 | 成人精品免费视频 | 久久人人网 | 中文av在线播放 | 国产99久久 | 国久久| 国产1区 | 美国一级毛片a | 亚洲日本欧美日韩高观看 | 成人精品一区亚洲午夜久久久 | 日本精品久久久一区二区三区 | 欧美精品在欧美一区二区 | 欧美一区在线视频 | 久久99视频精品 | 在线观看国产精品视频 |