?譯者 | 崔皓
審校 | 孫淑娟
眾所周知,數據治理可以確保數據的可用性、一致性、可信性和安全性。這些都是任何一個組織努力的方向,當大數據、人工智能、機器語言接踵而至時,組織在數據治理的投入也在不斷加碼。大家很快意識到 AI/ML 系統的功能不同于傳統系統。
AI/ML 的應用目標并不是處理單個事務,并返回結果與狀態。相反,AI/ML 系統會對 PB 級別的數據進行篩選,從而找出對應的查詢方式或者開放的算法。數據可以進行并行處理,也就是處理數據的線程可以同時輸入到處理器中。海量高并發的數據會進行異步處理,此舉可以讓IT系統提取數據并加快數據的處理速度。
數據的來源多種多樣,可以來自系統的內部或者外部。針對不同的來源會定制不同的收集、管理和存儲方式——盡管這些方式與組織治理標準有所異同。面對人工智能本身的問題,你信任他們嗎?這是公司及其審計師在 AI/ML 數據治理時,尋找有效工具時都會面臨的問題。
一、數據治理如何應用到AI/ML 系統中
1.確保數據一致性和準確性
如果需要對系統內外的事務數據進行處理,首先要將其進行標準化處理,以便這些處理過的數據可以和其他來源的數據進行通信和整合。也可以在系統中預建的應用程序接口,可以保證與其他系統的數據進行交互。如果沒有預建接口 API,也可以使用ETL 工具,將數據從一個系統傳輸到另一個系統,即進行系統之間的數據格式轉換。
如果要添加照片、視頻和聲音等非結構化的對象,則可以使用對象鏈接工具通過引用的方式讓對象相互鏈接和關聯。對象鏈接器的典型案例就是GIS 系統,它結合了照片、示意圖和其他類型的數據,為特定環境提供完整的地理環境。
2.確保數據的可用性
一般而言,我們會將可用數據等同于可訪問數據——但不僅如此。如果保留的數據因為過時而失去價值,則應將其清除。IT 系統和最終用戶必須就何時清除數據達成一致。然后通過數據保留政策將其固化。
在其他場景也需要考慮清除 AI/ML 數據,例如當 AI 的數據模型發生更改并且數據不再適合該模型時,就應該清除對應的數據。
在 AI/ML 治理審計中,審查員將期望看到以上兩種數據清除的書面政策和程序。他們還將檢查您的數據清除做法是否符合行業標準。市場上有許多數據清除工具和實用程序可以參考使用。
3.確保數據的可信性
一旦情況發生變化:曾經有效的 AI/ML 系統可能會失效。通過定期檢查 AI/ML 結果以及系統歷史表現,觀察周圍的環境就能發現一些蛛絲馬跡。如果 AI/ML 系統的準確性產生了偏離,就必須修復它。
亞馬遜招聘模式就是一個很好的例子。亞馬遜的人工智能系統得出的結論是,最好雇用男性求職者,因為該系統正在研究過去的招聘做法,而且大多數被雇用的都是男性。由于歷史數據的原因,該模型未能考慮未來有發展的,且具備高素質的女性申請人。從而AI/ML 系統偏離了真相,反而在系統中植入招聘偏見。從監管的角度來看,這樣的人工智能系統是不合規的。
事實證明,亞馬遜最終取消了該系統的實施——但其他公司可以避免類似錯誤的發生,如果能夠定期監控系統性能,將預測結果與過去數據進行對比,并與外部環境進行比較,就可以發現AI/ML 模型不同步的情況,并可以進行調整。
數據科學家使用 AI/ML 工具來測量模型漂移,但業務專業人員檢查漂移的最直接方法是將 AI/ML 系統性能數據與歷史性能數據進行交叉比較。如果你突然發現天氣預報的準確度降低了 30%,那是時候檢查AI/ML 系統運行的數據和算法了。
原文鏈接:https://www.techrepublic.com/article/data-governance-ai-systems/
譯者介紹
崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。?