不想炸薯條的Ilya和不送GPU的英偉達,Hinton最新專訪:道路千萬條,安全第一條
從谷歌離職一年之際,「人工智能教父」Hinton接受了采訪。
——也許是因為徒弟Ilya終于被從核設施中放了出來?(狗頭)
視頻地址:https://www.youtube.com/watch?v=tP-4njhyGvo
當然了,采訪教父的小伙子也非等閑之輩,Joel Hellermark創立的Sana已經融資超過8000萬美元,
他本人也曾因為在推進AI方面的工作,而入選福布斯30 under 30(30位30歲以下精英)。最近,《衛報》又將Joel評為35歲以下改變世界的前10名。
——這個13歲學編程、16歲開公司的小天才,與真正的科學家之間,又能碰撞出怎樣的火花呢?
下面,讓我們跟隨兩人的對話,一同探尋AI教父的心路歷程,以及幼年Ilya的一些趣事。
劍橋白學了
為了弄清楚人類的大腦如何工作,年輕的教父首先來到劍橋,學習了生理學,而后又轉向哲學,但最終也沒有得到想要的答案。
「That was extremely disappointing」。
于是,Hinton去了愛丁堡,開始研究AI,通過模擬事物的運行,來測試理論。
你在愛丁堡時候的直覺是什么?
「在我看來,必須有一種大腦學習的方式,顯然不是通過將各種事物編程到大腦中,然后使用邏輯推理。我們必須弄清楚大腦如何學會修改神經網絡中的連接,以便它可以做復雜的事情。」
「我總是受到關于大腦工作原理的啟發:有一堆神經元,它們執行相對簡單的操作,它們是非線性的,它們收集輸入,進行加權,然后根據加權輸入給出輸出。問題是,如何改變這些權重以使整個事情做得很好?」
Ilya:我不想炸薯條了
某個星期日,Hinton坐在辦公室,突然有人在外面哐哐敲門(原話:that's sort of an urgent knock)。
Hinton去開門,門外的年輕人正是Ilya。
Ilya:這個夏天我在炸薯條,實在是干夠了,還不如來你實驗室干活。
Hinton:你應該先預約,然后我們談一下。
Ilya:就現在怎么樣?
——Hinton表示,這就是Ilya的性格特點。
Hinton給了Ilya一篇關于反向傳播的論文,兩人于一周后再次見面。
Ilya:I didn't understand it.
Hinton:?這不就是鏈式法則嗎,小伙子你怎么回事?
Ilya:不是那個,我不明白你為啥不用個更好的優化器來處理梯度?
——Hinton的眼睛亮了一下,這是他們花了好幾年時間在思考的問題。
Hinton表示,Ilya總是有很好的直覺,他從小就對人工智能感興趣,并且顯然很擅長數學。
Hinton還記得,有一次的項目比較復雜,涉及到大量的代碼重組,以進行正確的矩陣乘法。
Ilya受夠了折磨,于是有一天跑過來找Hinton,
Ilya:我要為Matlab寫一個接口,自動做這些轉換。
Hinton:不行,Ilya,那需要你一個月的時間。我們必須繼續這個項目,不要分散注意力。
Ilya:沒關系,我今天早上寫完了。
Ilya的直覺
Ilya很早就有一種直覺:只要把神經網絡模型做大一點,就會得到更好的效果。Hinton認為這是一種逃避,必須有新的想法或者算法才行。
但事實證明,Ilya是對的。
新的想法確實重要,比如像Transformer這樣的新架構。但實際上,當今AI的發展主要源于數據的規模和計算的規模。
或許正是因為Ilya的這種直覺,才有了后來OpenAI的驚人成就。
當時過境遷、滄海桑田,光陰讓Ilya變為了成熟的大人,同時也帶走了他的頭發。
模型真的能思考
2011年,Hinton帶領Ilya和另一名研究生James Martins,發表了一篇字符級預測的論文。他們使用維基百科訓練模型,嘗試預測下一個HTML字符。
模型首次采用了嵌入(embedding)和反向傳播,將每個符號轉換為嵌入,然后讓嵌入相互作用以預測下一個符號的嵌入,并通過反向傳播來學習數據的三元組。
當時的人們不相信模型能夠理解任何東西,但實驗結果令人震驚,就像是模型已經學會了思考。
預測下一個符號,與傳統的自動完成功能有很大的不同。傳統的自動完成功能會存儲一組三元組單詞。然后,你會看到不同的單詞出現在第三位的頻率,這樣你就可以進行預測。
但現在,情況已經不同了。要預測下一個符號,你必須理解所說的內容。我認為通過預測下一個符號可以強迫模型進行理解,它的理解方式與我們非常相似。
舉個例子,如果你問GPT-4,為什么堆肥堆像原子彈?大多數人都無法回答這個問題,因為他們認為原子彈和堆肥堆是完全不同的東西。
但GPT-4會告訴你,兩者能量尺度不同,時間尺度也不同。但相同的是,當堆肥堆變熱時,它會更快地產生熱量;而當原子彈產生更多的中子時,其產生中子的速度也會隨之加快。
——這就引出了鏈式反應的概念。通過這種理解,所有的信息都被壓縮到模型權重中。
在這種情況下,模型將能夠對我們從未見過的各種類比進行處理,這就是人類能從模型中獲得創造力的地方。
大型語言模型所做的是尋找共同的結構,使用共同的結構對事物進行編碼,這樣效率更高。
超越訓練數據
在與李世石的那場著名比賽中,AlphaGo在第37步做出了所有專家都認為是錯誤的舉動,——但后來被證明是AI絕妙的創造力。
AlphaGo的不同之處在于它使用了強化學習,使它能夠超越當前狀態。它從模仿學習開始,觀察人類如何玩游戲,然后通過自我對弈,逐漸超越了訓練數據。
Hinton還舉了訓練神經網絡識別手寫數字的例子,他把訓練數據的一半答案故意替換成錯誤的(誤差率50%),但是通過反向傳播的訓練,最終模型的誤差率會降到5%或更低。
這就像是聰明的學生最終會超過自己的老師。大型神經網絡實際上具有超越訓練數據的能力,這是大多數人未曾意識到的。
此外,Hinton認為當今的多模態模型將帶來很大的改變。
僅從語言角度來看,模型很難理解一些空間事物。但是,當模型成為多模態時(既能接收視覺信息,又能伸手抓東西,能拿起物體并翻轉),它就會更好地理解物體。多模態模型需要更少的語言,學習起來會更容易。
預測下一個視頻幀、預測下一個聲音,我們的大腦或許就是這樣學習的。
英偉達不送GPU
Hinton是最早使用GPU處理神經網絡計算的人之一。
2006年,一位研究生建議Hinton使用GPU來計算矩陣乘法。他們最開始使用游戲GPU,發現運算速度提高了30倍。之后Hinton購買了一個配備四個GPU的Tesla系統。
2009年,Hinton在NIPS會議上發表了演講,告訴在場的一千名機器學習研究人員:「你們都應該去購買英偉達的GPU,這將是未來的趨勢,你們需要GPU來進行機器學習。」
然后,Hinton給英偉達發了一封郵件,說我已經告訴一千名機器學習研究人員去購買你們的顯卡,你們能否免費給我一個?
——英偉達并沒有回復。
很久以后,Hinton把這個故事告訴老黃,老黃趕緊送了一個。
硬件模擬神經網絡
在谷歌的最后幾年里,Hinton一直在思考如何嘗試進行模擬計算。這樣,我們就可以使用跟大腦一樣的功率(30瓦),來運行大型語言模型,而不是一兆瓦的功率。
每個人的大腦都不相同,所以在這種低功耗的模擬計算中,每個硬件都會有所不同,各個神經元的精確屬性也不同。
人終有一死,大腦中的權重在人死后就會丟失,但數字系統是不朽的,權重可以被存儲起來,計算機壞了也不影響。
假設有一大批數字系統,它們從相同的權重開始,各自進行微量的學習,然后共享權重,這樣它們都能知道其他系統學到了什么。然而,我們人類無法做到這一點,因此在知識共享方面,數字系統遠勝于我們。
快速權重
到目前為止,神經網絡模型都只有兩個時間尺度:接收輸入時的快速變化,和調整權重時的緩慢變化。
然而在大腦中,權重的時間尺度有很多。
比如我說了一個詞「黃瓜」,五分鐘后,你戴上耳機,聽到很多噪音和一些模糊的單詞,但你能更好地識別「黃瓜」這個詞,因為我五分鐘前說過這個詞。
大腦中的這些知識是如何存儲的呢?顯然是突觸的暫時變化,而不是神經元在重復「黃瓜」這個詞——Hinton稱之為快速權重。
Hinton的擔憂
Hinton認為,科學家應該做一些有助于社會的事情,當你被好奇心驅使時,你會做最好的研究。但是,這些事情會帶來很多好處,也可能會造成很多傷害,我們需要關注它們對社會的影響。
比如壞人使用AI做壞事,將人工智能用于殺手機器人,操縱公眾輿論或進行大規模監視。這些都是非常令人擔憂的事情。
而人工智能領域的發展不太可能放緩,因為是它是國際性的,即使一個國家放緩,其他國家也不會。
這種擔憂也讓小編想起了與Hinton一脈相承的Ilya。
從多倫多的實驗室,到OpenAI的核設施,Ilya一直牢記恩師的教誨:道路千萬條,安全第一條。監管不規范,教父兩行淚。