教機器遺忘或許比學習更重要：讓AI健忘的三種方式

作者：文摘菌 2018-06-12 00:33:20

大數據

現在，數據科學家們正在嘗試應用神經科學原理來改進機器學習，并且堅信人類大腦能夠解鎖圖靈完備的人工智能。

[[232536]]

大數據文摘出品

編譯：臻臻、Shan LIU、龍牧雪

大部分人不會喜歡遺忘的感覺。

回到家順手把鑰匙丟在一個角落就再也想不起來放在哪兒了，街角偶遇一個同事卻怎么拍腦袋也叫不出他的名字……我們害怕遺忘，討厭遺忘。

然而，生而為人，健忘其實是種關鍵能力。

對于人類而言，遺忘絕不僅僅是“想不起來”，而是一個幫助大腦吸收新信息并鍛煉有效決策的積極過程。

現在，數據科學家們正在嘗試應用神經科學原理來改進機器學習，并且堅信人類大腦能夠解鎖圖靈完備的人工智能。

人腦為什么需要遺忘

我們的大腦被普遍認作為信息過濾器。先放入一大堆亂七八糟的數據，篩選有用的信息，然后清理任何不相關的細節，用以陳述故事或作出決策。清除沒用的細節是為了給新數據騰出儲存空間，類似在計算機上運行磁盤清理。

[[232537]]

用神經生物學的術語來說，遺忘發生于神經元之間的突觸連接減弱或者消失之時，同時隨著新神經元的發育，他們又會重新連接海馬回路，覆蓋現有記憶。

對于人類來說，遺忘有兩個好處：

通過減少過時信息對我們決策的影響來增強靈活性
防止過度擬合過去的特定事件和促進概括能力

為了有效地適應環境，人類需要有策略性遺忘的能力。

計算機也需要遺忘?

計算機的遺忘與人類的不同，這是人工智能面臨的一大挑戰。深度神經網絡在完成機器學習任務方面非常成功，但它們的遺忘方式也與我們不一樣。

舉一個簡單的例子，如果你教一個講英語的孩子學習西班牙語，這個孩子會在學習過程中應用英語學習的技巧，比如名詞、動詞動態、句子建立方法等。同時他會忘記那些不相關的部分，比如口音、嘟囔、語調等。如此，這個孩子可以在策略性遺忘的同時逐漸學習和建立新的思維方式。

[[232538]]

相比之下，如果你已經訓練了一個神經網絡去學習英語，那么它的參數則已經適應了英語問題的解法。此時你要教它學習西班牙語，它就會生成新的適應系統并覆蓋以前為學習英語所獲得的知識，刪除所有內容并重新開始。這被稱作“災難性遺忘”，并被認為是“神經網絡的一個根本局限”。

雖然這還是一個新領域，最近科學家們已經在探索克服這種限制的潛在理論，并取得了長足的進步。

三、3個方法教AI學會遺忘

1. 長短期記憶網絡(LSTM)

LSTM是一種循環神經網絡，它使用特定的學習機制來決定在任意一個節點哪些信息需要記住，哪些需要更新，哪些需要關注。

LSTM工作機制如何?一個簡單的解釋是拿電影來做類比：假設一個計算機正在嘗試通過分析先前的場景來預測電影中接下來會發生的事。一個場景是一個女人拿著一把刀，計算機會猜測她是一個廚師還是兇手呢?另一個場景中，一個女人和一個男人在金色拱門下吃壽司：計算機會猜他們是在日本還是麥當勞呢?或者其實他們是在圣路易斯?

[[232539]]

大拱門是美國圣路易斯的標志性建筑

LSTM通過以下3步提升神經網絡：

(1) 遺忘/記憶

“當場景結束，模型應該忘記當前場景的位置，所處時間，并重置任何特定場景的信息;然而，如果場景中的一個角色死亡了，機器則應該繼續記住他不再活著的事實。因此，我們希望機器能學習掌握一個相互獨立的遺忘/記憶機制，這樣當新信息進來時，它知道什么觀念該保留什么該丟棄。”

——Edwin Chen

(2) 保存

當模型看到一張新圖像，它需要了解這個圖像是否有什么信息值得被使用和保存。如果一個女人在某個場景中路過廣告牌，機器應該記住這個廣告牌還是將其視作噪聲數據忽略掉呢?

(3) 劃重點

我們可能需要記住電影中的這個女人是個母親這一信息點，因為我們稍后會看見她的孩子們，但是這個信息在她不出現的場景里可能并不重要，所以在那些場景里我們不需要重點關注。同樣，并非所有存儲在神經網絡的長期記憶中的內容都是立即相關的，所以LSTM所做的就是在安全保存所有信息備用的同時，幫助決定哪一部分在哪一時刻被重點關注。

2. 彈性權重固化(EWC)

EWC是由谷歌旗下DeepMind的研究人員于2017年3月創建的一種算法，旨在模擬一種被稱為突觸整合的神經科學過程。在突觸整合過程中，我們的大腦評估一項任務，計算許多用于執行任務的神經元的重要性，同時權衡哪些神經元對正確執行任務更為重要。

這些關鍵的神經元被編譯為重要的，并且在隨后的任務中相對不可能被覆蓋。同樣，在神經網絡中，多個連接(如神經元)被用于執行任務。EWC將一些連接編譯為至關重要的，從而保護他們不被覆蓋/遺忘。

在下面的圖表中，你可以看到研究人員將EWC應用于Atari游戲時發生了什么。藍線表示標準的深度學習過程，紅線及棕線則由EWC提供以顯示改進后的結果：

3. 瓶頸理論

瓶頸理論由耶路撒冷希伯來大學的計算機科學家和神經科學家Naftali Tishby在2017年秋提出。這個構想是，網絡擺脫了嘈雜的無關細節的輸入數據，就好比用瓶頸將信息擠壓，只保留與基本概念最相關的特征。

Tishby解釋說，神經網絡經歷了兩個階段的學習——擬合與壓縮。在擬合過程中，網絡標記其訓練數據;而在更漫長的壓縮過程中，它“丟棄關于數據的信息，只跟蹤***大的特征”，也即是那些最能幫助它泛化的特征。通過這種方式，壓縮成為策略性遺忘的一種方式，掌控這一瓶頸也可能成為AI研究人員用于構建未來更強大神經網絡的新目標和體系的一個工具。

正如Tishby所說：“遺忘才是學習過程中最重要的一部分。”

人類大腦和遺忘的過程中，有可能藏著通往強AI的密碼。但科學家們仍在上下求索。

相關報道：

https://hackernoon.com/machine-un-learning-why-forgetting-might-be-the-key-to-ai-406445177a80

【本文是51CTO專欄機構大數據文摘的原創譯文，微信公眾號“大數據文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

AI 機器學習人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

教機器遺忘或許比學習更重要：讓AI健忘的三種方式