機器遺忘：為什么教AI學會遺忘至關重要？

作者：布加迪 2024-08-21 09:57:38

機器學習讓AI模型可以刪除選定的訓練信息，而不會對其性能產生負面影響。

譯者 | 布加迪

審校 | 重樓

一旦你學到了東西，就很難忘記。可以想象，這個道理同樣適用于機器，特別是對于使用數十億個參數進行訓練的大語言模型（LLM）。在當下，大語言模型能夠處理語言或生成以假亂真的圖像，許多未解決的倫理問題繼續出現：包括OpenAI因使用受版權保護的新聞文章來訓練其AI模型而被起訴，以及藝術家們指控科技公司未經許可非法使用他們的作品作為訓練數據。

誠然，AI領域的發展現狀是一個道德雷區，這導致了最近所謂的“機器遺忘”（Machine Unlearning）方興未艾。

華威大學攻讀博士的機器學習和數據系統研究助理Meghdad Kurmanji向我們解釋：“實際上，像ChatGPT這樣的機器學習模型是使用龐大數據集訓練的。機器遺忘就是讓受過訓練的模型‘遺忘’數據的特定部分。這個概念有幾種應用。比如說，它可以通過允許個人在AI時代行使‘被遺忘權’來保護隱私。設想一下這個場景：某個名人的臉未經允許用于人臉識別系統中，可以從模型的記憶中刪除。此外，遺忘有助于版權和知識產權保護，最近涉及聊天機器人模型的訴訟就突顯了這一點，比如《紐約時報》訴OpenAI案。最后，遺忘有助于解決機器學習模型中的偏見，帶來更值得信賴的AI系統。”

為什么機器遺忘很重要？為什么很難做到？

自2015年的一篇論文首次提及以來，人工智能研究的這個日益重要的子領域旨在設計方法，使AI模型可以有效地“遺忘”選定的訓練信息，又不會對其性能產生負面影響——最重要的是，不需要從頭開始重新訓練，不然費錢又費時。

但選擇性地從AI模型中刪除數據不像從計算機硬盤中刪除文件那么簡單。許多模型就如同神秘莫測的黑匣子，使得機器遺忘不像從已烘烤好的蛋糕上去掉某種成分一樣簡單。

隨著圍繞人工智能的倫理考量和監管不斷發展，尤其是在涉及安全或隱私問題、有害偏見、過時或虛假的信息或者不安全的內容時，這種“遺忘”功能將變得更加重要。

而且，機器遺忘可以幫助AI實現未來在數據隱私、公平和合規方面的目標，并有助于緩解模型中的概念漂移：數據中的底層模式可能會逐漸發生變化，從而導致預測的準確性降低。

機器遺忘的類型

從廣義上講，機器學習有兩種方法：精確遺忘和近似遺忘。

精確遺忘：又稱完美遺忘，它需要從頭開始重新訓練AI模型，不涉及刪除數據。這種方法的優點是，它確保特定數據點的刪除不會損害模型的性能，缺點是它通常需要大量的計算資源，適合不太復雜的AI模型。

精確遺忘的例子包括反向最近鄰（RNN）等技術，通過調整相鄰的其他數據點來補償數據點的移除。k近鄰是一種類似的技術，根據數據點與目標數據點的鄰近程度來刪除而不是調整數據點。

另一種精確的遺忘方法是將數據集分成兩個獨立的子集，然后訓練兩個部分模型。這兩個模型以后可以通過一個名為分片（Sharding）的過程加以合并。如果需要消除數據集中的特定數據點，就可以修改這個特定數據集，并在再次分片之前使用該數據集重新訓練部分模型。

近似遺忘：又叫有界遺忘或認證遺忘，旨在將遺忘數據的影響最小化到可接受的程度，而不是完全消除。在計算資源和存儲成本受限的場合下，或者需要更靈活的解決方案時，近似遺忘方法可能更可取。這種方法的缺點是它們不能完全去除遺忘數據的所有痕跡，并且很難驗證或證明遺忘過程的有效性。

近似遺忘的一個例子是局部異常因子（LOF）技術，這種技術可以識別和刪除數據集中的異常數據點，以增強模型性能。

與之相仿，隔離森林（IF）等算法可用于創建帶有隨機子采樣數據的決策樹。這些數據基于隨機選擇的特征加以處理，目的是評估任何明顯的異常，隨后將其丟棄。相比精確遺忘方法，這些近似遺忘方法更容易針對LLM之類的龐大模型加以調整或改動。

暫時還沒有萬能的機器遺忘

目前還沒有一種通用的解決方案可以支持機器遺忘的不同應用，不過像Kurmanji這樣的研究人員正在開發一種更通用的遺忘工具。

以Kurmanji為例，他與華威大學和谷歌DeepMind的研究團隊已開發了一種名為SCRUB的工具，有望解決各種各樣的問題：消除偏見、保護用戶隱私，以及解決因數據標注錯誤而導致的模型混亂。

Kurmanji說：“SCRUB是基于一種名為‘師生’框架的機器學習方法而設計的。其工作原理如下，一個預先訓練好的模型（‘教師’）指導一個新模型（‘學生’）的訓練。SCRUB使這個概念更進一步。在訓練新模型時，SCRUB讓它針對我們想要遺忘的數據‘不服從’教師模型，針對其余數據則‘服從’教師模型。通過最小化或最大化模型輸出之間的相似性度量指標管理這種相互作用。然而，SCRUB有時會過度遺忘數據點，使其變得很明顯。這時候SCRUB+R算法就有了用武之地，它對遺忘過程進行微調，以控制遺忘的程度。”

機器遺忘方面仍然存在許多挑戰，無論是缺乏標準化的評估度量指標，還是兼容性和可擴展性方面的潛在問題。但隨著將來出現更龐大更復雜的AI模型，機器遺忘概念將成為AI領域越來越重要的一部分。也許這將促使AI專家與法律、數據隱私和道德等領域的專業人士進行更密切的合作，以更好地定義未來的負責任AI實踐和工具。

原文標題：Machine Unlearning: Why Teaching AI To Forget Is Crucial，作者：Kimberley Mok?

責任編輯：武曉燕來源： 51CTO

機器 AI 信息

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器遺忘：為什么教AI學會遺忘至關重要？

為什么機器遺忘很重要？為什么很難做到？

機器遺忘的類型

暫時還沒有萬能的機器遺忘