?譯者 | 崔皓
審校 | 孫淑娟
開篇
機器學習并不是一項深奧的技術。正如在復雜的深度神經網絡中多參數和超參數的方法只是認知計算的一種表現形式,看上去也沒有那么深奧。
還存在其他一些機器學習的種類(一些涉及到深度神經網絡),這類機器學習的模型結果、模型的確定以及影響模型的復雜性都表現得非常透明。
所有這些都取決于組織對其數據來源的理解程度。
換句話說,需要了解從模型訓練數據到生產數據模型過程中的一切。這也是解釋、改進和改進其結果不可或缺的部分。通過這種方式讓組織極大地提升模型的商業價值。
更重要的是,還進一步提高了這項技術的公平性、問責性和透明度,對于整個社會而言也更加可靠、更加完善。
Databricks營銷副總裁Joel Minnick承認:“這就是為什么您需要對數據的上游和下游進行細粒度的了解,以便能夠負責任地進行機器學習。”
為數據沿襲編制目錄
針對模型的數據訓練和數據生成會涉及到數據源、數據轉換、數據集成等多項技術。在成熟的數據目錄方案中,可以實現數據的實時捕獲,因此可以隨時監控進度從而了解模型的執行進度。“它能讓我清楚了解在模型中使用數據的上下文情況。同時,你還可以知道,這些數據是從哪里來的?我們從中獲得了哪些其他數據?它是什么時候產生的?這樣我就可以更好地理解我應該如何使用這些數據”,數據科學家Minnick 如是說。
“數據沿襲”(記錄數據源頭、移動、處理過程)由元數據組成,而數據目錄用來存儲有關數據集。目錄還使用戶能夠將標簽和其他描述符作為附加元數據,其可以幫助追溯數據來源和建立數據信任。正如 Minnick 所描述的“數據沿襲”可以生成“API 驅動的服務”,通過這些服務連接一系列平臺(包括數據科學家平臺、數據工程師平臺和終端用戶平臺)。
數據治理:為數據科學而生
數據訓練和數據操作的可追溯性提升會影響到機器學習模型結果,而模型結果又和數據科學領域中的數據治理息息相關。因此,數據治理和創建、部署模型的數據科學平臺存在千絲萬縷的聯系。“技能管理表格和文件,又能管理筆記本,同時還可以管理儀表盤。這是管理生產和消費數據的現代方式。”Minnick 評論道。 對于在筆記本中構建模型的數據科學家和通過儀表板監控輸出結果的數據科學家來說,對上述說法深以為然。
清晰且透明
盡管如此,簡單地通過 API 連接數據科學工具平臺,從而獲取“數據沿襲”只是透明利用機器學習的一個方面。為了達到改進模型的輸出目的,還需要通過數據沿襲中確定的內容來對輸出模型進行校準。例如,如何讓可追溯性模型數據使數據科學家“能夠理解一旦一些數據出現問題,就可以分離出這部分數據,”Minnick 指出。
從邏輯上講,可以利用這些知識了解為什么特定數據類型存在問題,從而糾正它們或通過完全刪除它們來提高模型的準確性。根據 Minnick 的說法,越來越多的組織正意識到將“數據沿襲”應用到模型結果的好處,“部分原因是機器學習和人工智能在當今各個行業的興起。它變得越來越普遍。去年,我們發布 AutoML 產品時,就是使用了“玻璃盒”來代表對數據來源的透明。”
監管后果以及其他
一些組織還利用“數據沿襲”提供的自適應認知計算模型的能力,來增強其法規遵從能力。金融、醫療保健等行業受到高度監管,要求公司清楚地說明他們是如何為客戶做出決策的。數據追溯為構建機器學習模型和理解模型結果創建了一張路線圖——這對監管機構的合規性非常寶貴。
這些信息還有助于內部審計,使公司能夠了解他們在哪些監管領域失職,以便可以糾正問題以防止違規。“能夠向監管機構展示非常精細的數據沿襲信息,不僅是跨表格,而且可以在廣泛的組織的任何地方使用這些數據,這非常重要,”Minnick 斷言。當這一優勢與數據來源提高模型準確性的思路不謀而合,這種方法很可能將成為部署該技術的最佳實踐。
譯者介紹
崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。曾任惠普技術專家。樂于分享,撰寫了很多熱門技術文章,閱讀量超過60萬。《分布式架構原理與實踐》作者。
原文標題:??A “Glass Box” Approach to Responsible Machine Learning???,作者:Jelani Harper?