史無前例!Seq2Seq和GAN同獲NeurIPS時間檢驗獎,Ilya連續2年獲獎
罕見,著實罕見。
今年的NeurIPS,竟然一口氣頒發了兩個時間檢驗獎(Test of Time Awards)!
用官方的話來說就是:
這兩篇論文對整個領域的影響是不可否認的。
第一篇,很經典——GAN。
出自Yoshua Bengio、lan Goodfellow等一眾大佬之后,引用超過85,000次。官方的評價是:
它是生成建模的基礎部分之一,在過去10年中激發了許多研究進展。
除了研究之外,它還使生成建模在考慮視覺數據和其他領域的各種應用中產生影響。
第二篇,也很經典——Seq2Seq。
作者包括Ilya、Oriol Vinyals和Quoc V. Le,引用超過27,000次。官方也給出了對應評價:
隨著當前大型語言模型和基礎模型的快速發展,人工智能和應用領域發生了范式轉變,該領域受益于這項工作奠定的基礎。
這是建立編碼器-解碼器架構的基礎工作,啟發了后來基于注意力的改進,導致了今天的基礎模型研究。
值得一提的是,三人的另一項工作——word2vec,也斬獲了去年的NeurIPS時間檢驗獎。
谷歌首席科學家Jeff Dean聞訊也發來祝賀:
如此殊榮,實至名歸。
接下來,我們一起重溫一下經典。
GAN
生成對抗網絡的核心概念是在2014年被提出,通過兩個神經網絡的對抗來實現高質量的數據生成。
這兩個網絡分別是生成器(Generator)和判別器(Discriminator)。
這種對抗式的訓練方式,不僅讓GAN在圖像生成、音樂創作等領域大放異彩,還深刻地影響了AI創作的方式。
GAN的工作機制可以類比為“造假者與鑒定師”的較量。
生成器就像一位造假者,它不斷學習如何根據隨機噪聲生成逼真的數據;而判別器就像鑒定師,學會辨別哪些是“真品”(真實的數據),哪些是“贗品”(生成器造出的數據)。
兩者之間相互競爭,生成器不斷改進以欺騙判別器,而判別器也不斷提高辨別能力。在這種博弈中,最終生成器能夠產生幾乎與真實數據無異的樣本。
GAN的訓練過程本質上是一個“零和游戲”。
生成器和判別器之間的競爭關系可以看作一個兩人博弈的極小極大問題:生成器的目標是最小化判別器的成功率,而判別器的目標則是最大化辨別真實數據與生成數據的正確性。
最終,當生成器生成的數據足夠真實,使得判別器無法區分真實數據和生成數據時,博弈達到平衡,GAN的訓練成功。
這篇論文提出的GAN并不依賴于復雜的馬爾科夫鏈(Markov Chain)或者近似推斷網絡,這使得訓練過程更為高效。
與其他生成模型(例如深度玻爾茲曼機)相比,GAN的優勢在于它不需要進行復雜的推斷操作,只需通過簡單的前向傳播就可以生成樣本,并且可以使用標準的反向傳播算法來訓練。
這種相對簡潔的結構為GAN在圖像、視頻和音頻生成等任務中開辟了廣闊的應用前景。
盡管GAN具有許多優勢,但其訓練過程也面臨挑戰。
例如,生成器和判別器的訓練需要保持一種微妙的平衡。如果生成器過于強大,判別器將無法有效學習,從而影響訓練效果;反之亦然。
為了應對這些挑戰,后續的研究人員提出了許多改進方案,如條件GAN(cGAN)、WGAN等,使得GAN的訓練更加穩定,生成效果更加優秀。
生成對抗網絡的提出為深度學習領域開啟了新的可能性,讓計算機在生成內容的能力上邁上了一個新的臺階。
如今,GAN被廣泛應用于藝術創作、圖像修復、風格轉換等多個領域,成為了現代人工智能工具箱中不可或缺的一部分。
Seq2Seq
Seq2Seq也是于2014年被提出,是一種能夠將輸入序列映射到輸出序列的深度學習方法。
傳統的深度神經網絡(DNN)雖然在很多任務中表現出色,但它們無法直接處理輸入和輸出長度不定的序列數據。
而Seq2Seq模型通過使用兩個長短期記憶網絡(LSTM)來實現這一目標:一個LSTM將輸入序列編碼成固定維度的向量,另一個LSTM再從這個向量解碼出目標序列。
具體而言:
- 編碼器(Encoder):將輸入序列逐步編碼為一個固定長度的上下文向量。編碼器逐一接收輸入序列的元素(例如單詞),并通過LSTM的隱藏狀態逐漸生成該上下文向量。
- 解碼器(Decoder):基于編碼器生成的上下文向量,解碼器逐步生成目標序列的輸出。解碼器在生成每一個輸出時,也會參考先前生成的輸出內容,以確保生成的序列是符合邏輯的。
一個有趣的技巧是在訓練過程中將輸入序列的單詞順序反轉,這種做法能夠顯著提高模型的性能。
這是因為反轉后的輸入序列能夠引入更多短期依賴關系,從而讓模型更容易捕捉到源語言和目標語言之間的關聯。
通過這種方法,研究者在WMT’14英語到法語的翻譯任務上取得了34.8的BLEU得分,超過了基于短語的統計機器翻譯(SMT)系統的表現。
在實驗中,Seq2Seq模型展示了對長句子的強大處理能力,這使它在機器翻譯中具有很大的優勢。
與傳統的基于短語的統計機器翻譯相比,Seq2Seq模型能夠自動學習到句子級別的特征表示,并且對主動語態和被動語態等變化具有較強的魯棒性。
此外,研究團隊還發現,利用Seq2Seq模型對SMT系統生成的候選翻譯進行重新排序,可以進一步提高翻譯質量,使得BLEU得分達到了36.5。
而Seq2Seq作者之一Oriol Vinyals剛剛也在社交平臺中發文回憶:
在我看來,2014 年的演講也經受了時間的考驗。
這是一張當時演講的PPT(今天的強大模型==大型Transformer)。
信不信由你,這個演講當時頗具爭議(我在 NeurIPS 上收到了很多負面反饋)。
NeurIPS官方還表示,兩篇時間檢驗獎的作者將在當地時間12月13日(北京時間12月14日)進行Q&A。
以及本屆NeurIPS更多獎項,量子位會繼續保持關注。
One More Thing
彈指十年間,兩篇經典論文的關鍵人物的變動也是值得說道說道。
例如Ilya和lanGoodfellow都從谷歌投奔到了OpenAI,目前也都離開了OpenAI。
前不久,lanGoodfellow還被曝出雙重頑疾,正在與疾病抗爭。
而Ilya這邊,目前則是忙于創業,主打就是安全超級智能(Safe Superintelligence)。
GAN論文地址:https://arxiv.org/abs/1406.2661
Seq2Seq論文地址:https://arxiv.org/abs/1409.3215