神經(jīng)網(wǎng)絡(luò):高深莫測又妙趣橫生的完整歷史!
在翻閱各種資料之后,我對神經(jīng)網(wǎng)絡(luò)的歷史深深入迷了。這是個非常有趣的研究主題,我從中獲得了不少快樂。自上個世紀(jì)以來,神經(jīng)網(wǎng)絡(luò)和人工智能一直是熱門話題。在流行文化電影中,人工智能機(jī)器人風(fēng)靡全球,吸引著大量獵奇之士。
神經(jīng)網(wǎng)絡(luò)的靈感來源于生物神經(jīng)元是一種受編程范式啟發(fā)的模型,它使深度學(xué)習(xí)模型能夠在復(fù)雜的觀測數(shù)據(jù)集上有效地學(xué)習(xí)和訓(xùn)練。神經(jīng)網(wǎng)絡(luò)在過去一個世紀(jì)中經(jīng)歷了不同的階段,一開始被視為擁有廣大解決復(fù)雜計算問題的工具,逐漸被嘲笑為僅僅是一個理論思想,最后因是更理想未來的締造者而聞名。
讓我們按時間順序重溫神經(jīng)網(wǎng)絡(luò)歷史上的每個階段。
想法的萌生
生物學(xué)家、神經(jīng)學(xué)家和研究人員從上個世紀(jì)就開始研究神經(jīng)元的功能。1890年,美國哲學(xué)家威廉·詹姆斯(William James)提出了一個有見地的理論,反映了許多研究者隨后工作的思想。
這個假設(shè)認(rèn)為大腦皮層任何一個給定點(diǎn)的活動都是釋放到大腦皮層中的整體運(yùn)動趨勢的總和。簡單來說,就是一個神經(jīng)元的興奮會刺激其他每一個神經(jīng)元,直到信號成功到達(dá)目標(biāo)。
1943年,麥卡洛克(McCulloch)和皮茨(Pitts)為單個神經(jīng)元建立了第一個數(shù)學(xué)模型。所建立的神經(jīng)元模型全面而深遠(yuǎn)。這個模型經(jīng)過修改,甚至在現(xiàn)代也得到了廣泛的應(yīng)用。
這給神經(jīng)網(wǎng)絡(luò)的研究人員和實(shí)踐者帶來了思想上的巨大轉(zhuǎn)變。一個類似人腦的神經(jīng)元模型的數(shù)學(xué)功能讓大多數(shù)生物學(xué)家大吃一驚,支持人工智能的風(fēng)潮和對人工智能占領(lǐng)世界的擔(dān)憂從這一刻開始。
黃金時代
從1949年到1969年,在接下來的20年里,我們進(jìn)行了大量的實(shí)驗(yàn)。現(xiàn)有的方法學(xué)有了大量的發(fā)展和擴(kuò)展,可以說這一時期是神經(jīng)網(wǎng)絡(luò)的黃金時代。
這個時代一開始就轟動一時,這要?dú)w功于唐納德·赫布在其名為《行為的組織》的書中所介紹的赫比理論。赫比理論指出,通過一個特定的突觸,一個又一個神經(jīng)元的重復(fù)激活,電導(dǎo)會增加。
在這一階段有幾個突出的主題,如學(xué)習(xí)過濾器,梯度下降,神經(jīng)動力學(xué)的發(fā)展以及大規(guī)模腦活動的觸發(fā)和傳播。在同步激活多個神經(jīng)元以代表每一位信息方面有著廣泛的研究。基于香農(nóng)(Shannon)信息熵原理的信息論成為該領(lǐng)域的一個重要研究領(lǐng)域。
最重要的發(fā)明是羅森布拉特(Rosenblatt)在1958年發(fā)明的感知器模型。羅森布拉特提出的反向傳播方法對多層網(wǎng)絡(luò)的訓(xùn)練非常有用。由于廣泛的研究和不斷的發(fā)展,這個時代毫無疑問就是神經(jīng)網(wǎng)絡(luò)的黃金時代。泰勒(Taylor)構(gòu)造了一個winner-take-all電路,輸出單元之間有抑制,感知器模型中的其他過程也完成了。
飛躍時期
20世紀(jì)70年代至90年代間的研究和調(diào)查的課題很多,但遺憾的是,這些研究成果都無濟(jì)于事。有研究將許多神經(jīng)元組合起來形成神經(jīng)網(wǎng)絡(luò),使其比單個神經(jīng)元更強(qiáng)大,并進(jìn)行復(fù)雜的計算。
由于梯度下降法不能成功地獲得復(fù)雜任務(wù)的期望解,發(fā)展其他數(shù)學(xué)隨機(jī)、概率或隨機(jī)方法的發(fā)展。在這段時間內(nèi),進(jìn)一步的理論結(jié)果和分析得以確立。
玻爾茲曼機(jī)器和混合系統(tǒng)也成功地完成了復(fù)雜計算問題。玻爾茲曼機(jī)器成功地解決了數(shù)學(xué)問題。由于硬件和軟件的限制,無法實(shí)現(xiàn)各種缺陷的解決方案。盡管如此,在這一時期,進(jìn)行了大量成功的研究,對現(xiàn)有研究進(jìn)行了更新和改進(jìn)。
然而,盡管取得了這些進(jìn)展,但對神經(jīng)網(wǎng)絡(luò)的發(fā)展來說并沒有什么重大突破,也沒有什么成果。對人工神經(jīng)網(wǎng)絡(luò)迅速增長的需求已不復(fù)存在。其中一個重要的原因是證實(shí)了簡單的感知器的局限性。
明斯基(Minsky)和帕普特(Papert)在1969年進(jìn)行了該演示,并展示了簡單感知器的缺陷。從理論上證明了簡單感知器模型在計算上不具有普遍性。這一刻永生難忘,它標(biāo)志著神經(jīng)網(wǎng)絡(luò)的滑鐵盧。神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究經(jīng)費(fèi)大幅減少,這一運(yùn)動引發(fā)了神經(jīng)網(wǎng)絡(luò)的衰落。
神經(jīng)網(wǎng)絡(luò)的失敗和瓦解
一時之間,所有與神經(jīng)網(wǎng)絡(luò)相關(guān)的炒作都消失了。人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)被嘲笑成了一個理論概念,造成這種情況的主要原因是缺乏數(shù)據(jù)和先進(jìn)技術(shù)。
當(dāng)時,對于圖像分割、圖像分類、人臉識別、基于自然語言處理的聊天機(jī)器人等復(fù)雜任務(wù)的計算資源不足,可用數(shù)據(jù)相當(dāng)有限,對于復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),沒有足夠的數(shù)據(jù)提供所需的結(jié)果。就算有所需的數(shù)據(jù),用當(dāng)時可用的資源計算出這一數(shù)量的數(shù)據(jù)仍然是一項(xiàng)非常艱巨的任務(wù)。
有一些積極的跡象,比如強(qiáng)化學(xué)習(xí)的成功和其他小的積極因素,但這還不足以重建它曾經(jīng)擁有的大規(guī)模宣傳。研究人員和科學(xué)家們的非凡遠(yuǎn)見讓人工神經(jīng)網(wǎng)絡(luò)得以繼續(xù)發(fā)展。然而,要想重獲失去的威望和宣傳度,還需要20年的時間。
神經(jīng)網(wǎng)絡(luò)的復(fù)蘇和絕對統(tǒng)治
在接下來的20年里,深度學(xué)習(xí)的狀況和普及率都不容樂觀。在這個時代,支持向量機(jī)(SVM)和其他類似的機(jī)器學(xué)習(xí)算法更占主導(dǎo)地位,并被用于解決復(fù)雜的任務(wù)。
機(jī)器學(xué)習(xí)算法在大多數(shù)數(shù)據(jù)集上表現(xiàn)良好,但是對于較大的數(shù)據(jù)集,機(jī)器學(xué)習(xí)算法的性能沒有顯著提高。達(dá)到一定閾值后,機(jī)器學(xué)習(xí)算法的性能停滯。隨著數(shù)據(jù)的增加,能夠不斷學(xué)習(xí)和改進(jìn)的模型變得非常重要。
2012年,George E.Dahl領(lǐng)導(dǎo)的團(tuán)隊利用多任務(wù)深度神經(jīng)網(wǎng)絡(luò)預(yù)測一種藥物的生物分子靶點(diǎn),贏得了“默克分子活性挑戰(zhàn)賽”的冠軍。2014年,Hochreiter的團(tuán)隊利用深度學(xué)習(xí)技術(shù)檢測營養(yǎng)素、家用產(chǎn)品和藥物中環(huán)境化學(xué)物質(zhì)的非目標(biāo)和毒性效應(yīng),并贏得了美國國家衛(wèi)生研究院、美國食品和藥物管理局(FDA)和NCAT的“Tox21數(shù)據(jù)挑戰(zhàn)賽”。
此時此刻,神經(jīng)網(wǎng)絡(luò)被認(rèn)為是一個革命性的變革。如今,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)是所有高水平比賽的顯著特征。卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶(LSTM)和生成對抗網(wǎng)絡(luò)非常流行。特別是深度學(xué)習(xí)的強(qiáng)化程度每天都在迅速增加,并且有了巨大的進(jìn)步。
神經(jīng)網(wǎng)絡(luò)的旅程值得被永恒銘記。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)從一個奇妙的前景,發(fā)展到現(xiàn)在幾乎成為解決任何復(fù)雜問題的最佳方法之一。我很高興身處于這個時代,能夠?yàn)檫@一變化做出貢獻(xiàn)。
本文轉(zhuǎn)載自微信公眾號「讀芯術(shù)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系讀芯術(shù)公眾號。