AI能跨過“GitHub危機”嗎？

作者：李睿 2022-03-17 16:59:38

為了保持機器學習的持續進展，并使其在人工智能方面取得成功，解決該領域的可復制性和透明度問題至關重要

機器學習如今正在面臨一些危機，將會阻礙該領域的快速發展。這些危機源于一個更廣泛的困境，即科學研究的可重復性。根據《自然》雜志對 1,500 名科學家進行的一項調查，70% 的研究人員曾嘗試復制其他科學家的實驗但未能獲得成功，50% 以上的研究人員未能復制他們自己的研究成果。可重復性也稱為可復制性，是科學方法的核心原則，有助于確保給定研究的結果不是一次性的，而是可復制的觀察結果。

在計算機科學中，可重復性有一個更狹義的定義：任何結果都應該通過提供所有數據和代碼來記錄，以便可以再次執行計算并獲得相同的結果。不幸的是，在透明度和可重復性方面，人工智能 (AI) 和機器學習（ML）的進展并不順利。例如，有 31 位科學家在《自然》雜志上發表的一篇文章，他們對 Google Health 的一項記錄了人工智能檢測乳腺癌跡象的“成功”實驗研究進行了嚴厲批評。

對該實驗持懷疑態度的科學家聲稱，谷歌公司的研究提供的關于人工智能模型如何構建和測試的細節太少，甚至只是其專有技術的一種廣告。如果沒有關于如何創建此模型的足夠信息，科學界幾乎不可能審查和重復其結果。這導致人們越來越認為人工智能缺乏透明度，加劇了人類與人工智能系統之間的信任問題。

為了保持機器學習的持續進展，并使其在人工智能方面取得成功，解決該領域的可復制性和透明度問題至關重要。本文解釋了人工智能可重復性危機的重要性，以及專門為機器學習構建的新版本 GitHub 如何幫助解決它。

為什么需要專門為機器學習構建的 GitHub

GitHub 是一種基于云的代碼開發和管理服務。該平臺用于軟件版本控制，可以幫助開發人員在整個開發生命周期中跟蹤代碼的更改。這使得安全地分支和合并項目成為可能，并確保代碼是可重復的，無論誰運行它，都能夠以相同的方式工作。因為人工智能和機器學習應用程序是用代碼編寫的，所以 GitHub 是管理它們的自然選擇。不幸的是，人工智能與更傳統的軟件項目之間的一些差異使得 GitHub 不適合人工智能，從而導致機器學習的可重復性危機。

GitHub 在設計時并未將數據作為核心項目組件

傳統的軟件算法是由開發人員從頭腦中提取想法，并用確定性的、數學的、完備的圖靈語言將它們編寫為代碼而創建的。這使得軟件具有高度可復制性——重現給定軟件所需的只是其代碼和用于任務優化的庫。

機器學習算法是不同的，因為它們不是從開發人員的頭腦中創造出來的，而是從數據中“總結”出來的。這意味著，即使傳統軟件開發中記錄的代碼和運行環境變量保持不變，如果數據發生變化，機器學習算法也會發生變化。這是 GitHub 用于人工智能的問題的核心：即使跟蹤用于開發人工智能算法的代碼和庫，也無法重復，因為它依賴于數據，而不僅僅是代碼。

要想克服這個問題，有如下一些方法：

自動化數據版本控制：為了避免因訓練數據集不一致而導致的可復制性問題，數據版本控制必須是任何管理人工智能 / 機器學習項目的平臺的關鍵功能。這為團隊提供了一種自動化方式來跟蹤對數據所做的所有更改，確保結果可以與對應訓練數據集的特定版本相關聯。盡管當今的 GitHub 可以跟蹤代碼更改，但它無法跟蹤數據。克服這一點將在解決人工智能的可重復性危機中發揮關鍵作用。
不可變數據沿襲：不可變數據沿襲為與數據相關的機器學習生命周期中的所有活動和資產提供不可更改的記錄。這使機器學習團隊能夠跟蹤其代碼、模型和數據的每個版本。通過為與機器學習模型相關的所有活動（從訓練到生產）提供不變的記錄，可確保可重復性，并更好地管理歷史數據集之間的關系。

人工智能使用大量的非結構化數據集

GitHub 用于人工智能的問題，不僅僅在于無法跟蹤數據的變化。傳統軟件和人工智能依賴的數據類型是完全不同。傳統軟件是用代碼編寫的，而代碼是用文本表示的。通常來說，文本文件并不是很大。但人工智能主要依賴非結構化數據，如音頻、圖像和視頻，這些數據在量上遠遠大于文本文件，因此會面臨額外的數據跟蹤和管理挑戰。

將來自多個數據源的數據組合到單個數據存儲中的過程稱為提取、轉換和加載 (ETL)。這是將數據從源系統復制到目標系統的通用過程，它使不同類型的數據可以協同處理。數據科學家和工程師需要數據版本控制、數據沿襲、處理大型文件的能力，以及管理用于數據處理的腳本和庫，以便提取、轉換和加載數據，以用于人工智能應用程序開發。

本文將討論該問題的一些新興解決方案，但需要注意的是，該功能目前并未內置到 GitHub 的核心中，因此無法在平臺上正確管理為機器學習算法提供信息的數據。

機器學習模型參數增加了復雜性人工智能的可復制性難題，以及難于將 GitHub 用于機器學習的原因，不僅是無法跟蹤數據變化和管理大型非結構化數據集。即使用于開發人工智能算法的代碼、庫和數據保持不變，由于模型參數的可變性，仍然無法使用相同的人工智能系統復制相同的結果。如上所述，機器學習算法由數據決定。然而，這并不是影響系統的唯一因素。參數也會影響給定算法的運行。模型參數有兩種類型：超參數和普通參數。超參數可以被認為是學習過程的高級控制，影響給定模型的結果參數。在機器學習模型訓練完成之后，參數就是模型本身的代表。超參數雖然在訓練期間被學習算法使用，但不是最終模型的一部分。

根據超參數的定義可知，超參數是在機器學習模型之外，因而無法從數據中估計它們的值。對超參數的更改會導致機器學習模型的最終算法發生更改。如果把代碼比作構建人類大腦的藍圖，那么超參數和模型就是構建某個特定大腦的實施方案。這很重要，因為用于訓練模型的相同代碼庫可以生成數百或數千個不同的參數。

實驗結果跟蹤和代碼審查

在測試機器學習模型時，跟蹤實驗結果很重要。這些結果有助于確定哪種模型最適合使用，毫無疑問，GitHub 并不是用來記錄這些細節的。盡管可以構建自定義解決方法，但這一解決方案無法擴展，并且由于時間和資源限制，許多開發人員無法訪問。

當然，管理機器學習模型還涉及代碼審查和版本跟蹤，這是 GitHub 擅長的地方。不過，盡管 GitHub 可以很好地跟蹤代碼和環境變量，但機器學習引入了跟蹤數據、參數、元數據、實驗結果等的需求。Git 平臺并不是為適應這種復雜程度而構建的，但幸運的是，有一些新興的解決方案試圖克服 GitHub 對人工智能和機器學習的限制。

用于人工智能和機器學習的 GitHub 替代方案

除了 GitHub，沒有其他替代方案可以為管理人工智能和機器學習項目提供全面的解決方案。為從事人工智能和機器學習的數據科學家和工程師提供量身定制的 GitHub，是最理想的情況。不過，在做到這一點之前，并非沒有可以解決上述不同問題的解決方案：

Neptune 是用于機器學習操作系統的元數據庫服務，它提供了一個單一位置來記錄、存儲、顯示、組織、比較和查詢所有機器學習模型構建的元數據。提供了有關使用 Neptune 可對數據版本進行歸檔。這包括模型訓練運行中的數據集版本控制、運行之間的數據集比較以及組織和共享數據集版本。
Pachyderm 是用于增強機器學習生命周期的數據層。該系統可為自動化數據版本控制和不可變數據沿襲提供解決方案。
DVC 是為機器學習項目構建的開源版本控制系統。該工具允許數據科學家和工程師保存和重現實驗結果、控制模型和數據的版本，以及建立部署和協作流程。
Git 大文件存儲（Git LFS）將音頻樣本、視頻、數據集和圖形等大文件替換為 Git 內部的文本指針，同時將文件內容存儲在遠程服務器上。這個工具是一個開源 Git 擴展，用于對大型文件（如音頻和視頻數據集）進行版本控制。它可以幫助開發人員更高效地處理大型文件和二進制文件。
DoIt 是一個 SQL 數據庫，能夠以與 Git 完全相同的方式分叉、克隆、分支、合并、推送和拉取數據。它將自己定位為“用于數據的 Git”，盡管 DoIt 通常用于版本跟蹤，以確保在各種其他用例中一致的模型可復制性，但在數據管理上，可克服前面所述的 GitHub 的缺點。
LakeFS 是一種數據管理工具，可以在兩種開源付費軟件即服務 (SaaS) 版本中使用。該解決方案強調數據和代碼的完全可重復性、快速數據還原和 PB 級版本控制。
DeltaLake 是一個開源項目，可以在現有存儲系統（如 S3、ADLS、GCS 和 HDFS）之上構建 Lakehouse 架構。該解決方案的一些特性使其成為機器學習的理想選擇，包括用于數據共享的開放協議、可擴展的元數據處理、數據版本控制，以及查看對數據所做的每次更改的審計歷史記錄的能力。

責任編輯：閆懷德來源： 51CTO

人工智能 GitHub

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看