成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Ilya塵封10年錄音曝光!大二入Hinton門下,竟坦言機(jī)器學(xué)習(xí)反直覺

人工智能 新聞
即便在Transformer與ChatGPT尚未誕生的年代,Ilya已敏銳預(yù)見深度學(xué)習(xí)的廣闊前景,展現(xiàn)出令人嘆服的遠(yuǎn)見與清醒。這是一段10年前Ilya對于如今AI時(shí)代的預(yù)言。

Ilya Sutskever因在深度學(xué)習(xí)方面的遠(yuǎn)見卓識(shí)而聞名。

他現(xiàn)在許多廣為流傳的言論其實(shí)都來自于他在2023年參加Dwarkesh播客時(shí)的發(fā)言。

此后,直到2025年Ilya創(chuàng)辦SSI后,幾乎不再有公開的言論,此前曾探討過Ilya的去向。

圖片

最近,一位名為Nathan Lambert的博主聲稱他收到了一段Ilya在10年前,也就是2015年談?wù)撋疃葘W(xué)習(xí)的語音片段。

令他感到震驚的是,Ilya在那么多年前就已準(zhǔn)確預(yù)見了這一切,尤其是他的直覺從那時(shí)至今幾乎沒有任何改變。

在進(jìn)行資料整理,同樣震驚我們的是:

早在2015年,Ilya對于深度學(xué)習(xí)的理解就已經(jīng)遠(yuǎn)超如今絕大部分人(即使是10年后今天)。

這個(gè)視頻片段來自一個(gè)已經(jīng)停播的博客節(jié)目《Talking Machines》,我們在其官網(wǎng)找到最初的采訪錄音。

圖片

此時(shí)的Ilya還是谷歌的研究員,節(jié)目中談?wù)摿怂墓ぷ鳌⑺侨绾螌C(jī)器學(xué)習(xí)產(chǎn)生興趣的,以及為何機(jī)器學(xué)習(xí)(Machine Learning)會(huì)和魔法思維(Magical Thinking)產(chǎn)生聯(lián)系。

現(xiàn)在就讓我們將時(shí)間回?fù)?0年,看看當(dāng)年的Ilya是如何洞察深度學(xué)習(xí)的。

在編輯這篇文章時(shí),我們也驚訝地發(fā)現(xiàn),即使只是通過文字記錄,Ilya的觀點(diǎn)歷經(jīng)10年歲月洗禮,依然鮮明犀利。

數(shù)學(xué)出身的Ilya,認(rèn)為「機(jī)器學(xué)習(xí)」違反直覺

Ilya首先講述了他通往人工智能的道路,對于這樣一位才華橫溢的人物來說,這并不令人意外。

我十幾歲時(shí)就一直對人工智能感興趣。

我覺得那非常棒而且引人入勝。之后我繼續(xù)攻讀了數(shù)學(xué)專業(yè)本科。

當(dāng)你學(xué)習(xí)數(shù)學(xué)的時(shí)候,你會(huì)深知數(shù)學(xué)注重的是證明事物。

如果你看到某種規(guī)律,在沒有經(jīng)過證明之前,它并不意味著就是正確的。

因此,對于擁有數(shù)學(xué)背景的我來說,學(xué)習(xí)(機(jī)器學(xué)習(xí))似乎是非常違反直覺的,因?yàn)閷W(xué)習(xí)強(qiáng)調(diào)的是進(jìn)行歸納推理,而這些歸納步驟看起來很難用嚴(yán)謹(jǐn)?shù)姆椒ㄈソ忉屒宄?/span>

如果你習(xí)慣于嚴(yán)格地證明結(jié)果,那么歸納似乎幾乎就像魔法一樣。

因此,我當(dāng)時(shí)對學(xué)習(xí)特別感興趣,因?yàn)槲疑钪祟惥邆溥@種能力,而從單純的數(shù)學(xué)角度來看,學(xué)習(xí)似乎根本不可能實(shí)現(xiàn),這讓我感到不可思議。

大二和Hinton合作

于是我開始四處尋找,結(jié)果發(fā)現(xiàn)多倫多有一個(gè)非常出色且強(qiáng)大的學(xué)習(xí)研究團(tuán)隊(duì)。 

我在本科二年級(jí)時(shí)便開始與Jeff Hinton(AI之父)合作。

相比硬科學(xué),機(jī)器學(xué)習(xí)的理解更加容易

機(jī)器學(xué)習(xí)確實(shí)是一門復(fù)雜的科學(xué)。

我想這不像物理學(xué)。

我認(rèn)為在物理學(xué)、數(shù)學(xué)以及許多其他硬科學(xué)領(lǐng)域,一個(gè)人需要掌握大量知識(shí)后才能開始發(fā)揮作用。

雖然我不太確定,因?yàn)槲覐奈瓷孀氵@些領(lǐng)域。

這只是我的印象。

而機(jī)器學(xué)習(xí)則更多地是,那些重要的想法,甚至是與前沿研究相關(guān)的想法,都離表面非常近。

這個(gè)觀點(diǎn)和我們?nèi)缃竦默F(xiàn)狀是如此的吻合。

尤其是在一個(gè)遠(yuǎn)離真正訓(xùn)練前沿的實(shí)驗(yàn)室中,在沒有特別努力尋找的情況下,周圍的機(jī)器學(xué)習(xí)的低垂果實(shí)之多令人驚訝。

深度學(xué)習(xí)之所以有效,很大程度上是因?yàn)槿藗冊敢飧冻雠θグ盐者@些機(jī)會(huì)。

Ilya認(rèn)為:

只要有正確的指導(dǎo)和方向,無需多年學(xué)習(xí)就能理解機(jī)器學(xué)習(xí)背后的主要思想、有效方法的主要理念以及主要的直覺認(rèn)識(shí)。

監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最成功的領(lǐng)域

Ilya在訪談中談到,到目前為止(2015年),監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最成功的領(lǐng)域。

主持人隨后請Ilya解釋他最近的工作,Ilya繼續(xù)深入講解了深度學(xué)習(xí)如何得出答案的另一個(gè)核心要點(diǎn)。

所以你說,好,數(shù)據(jù)會(huì)告訴我們最佳的連接方式。

因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)是一種非常強(qiáng)大、非常豐富的模型,它可以完成很多復(fù)雜的任務(wù)。

我們很難想象它有哪些事情是無法做到的。

正因如此,每當(dāng)我們擁有大型數(shù)據(jù)集時(shí),我們可以應(yīng)用一種簡單的學(xué)習(xí)算法來找到最佳的神經(jīng)網(wǎng)絡(luò),并取得良好的結(jié)果。

因此,我當(dāng)時(shí)致力于將深度監(jiān)督學(xué)習(xí)方法應(yīng)用于神經(jīng)網(wǎng)絡(luò),解決輸入是序列、輸出也是序列的問題。

從概念上講,這與我之前所討論的內(nèi)容并沒有實(shí)質(zhì)差別,主要是一個(gè)技術(shù)問題。

其關(guān)鍵在于確保模型能夠處理輸入和輸出都是長度不再預(yù)先固定的序列。

但它的基本方法是一樣的,并且使用了相同的基本學(xué)習(xí)算法。

因此,再次強(qiáng)調(diào),由于這些模型具有很強(qiáng)的表達(dá)能力和功能,它們確實(shí)能夠解決許多困難的、非平凡的模式識(shí)別問題,以及用其他任何手段幾乎無法想象能解決的問題。

再者,令人驚訝的是,盡管這種方法最終表現(xiàn)得如此強(qiáng)大,它實(shí)際上卻非常簡單易懂。

學(xué)習(xí)算法極其簡單。也許只需要一個(gè)小時(shí),一個(gè)聰明的學(xué)生就能理解它全部的工作原理。

這個(gè)觀點(diǎn)也和我們當(dāng)下的現(xiàn)狀極度吻合。

不論是LLM還是Transformer,我們都可以在簡單學(xué)習(xí)后,了解它的基本原理。

甚至就像2023年那次采訪的題目,為何「預(yù)測下一個(gè)單詞」這么簡單的模型就能超越人類的智能。

圖片

只是為了增加數(shù)據(jù)

在Ilya看來,將深度學(xué)習(xí)中成功的圖像分類技術(shù)應(yīng)用到序列分類(即更接近文本)上只是「一個(gè)技術(shù)細(xì)節(jié)」。

人們所做的很多工作更像是在為模型構(gòu)建數(shù)據(jù)加載器,而不是我們提出的架構(gòu)本身有多新穎。

Ilya如此注重?cái)?shù)據(jù)和通用性,那么后來像Transformer這樣的架構(gòu)席卷整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域也許并不會(huì)讓他感到意外。

神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)非常復(fù)雜

它高度非凸。

而且從數(shù)學(xué)上完全沒有任何保證能確保優(yōu)化成功。

因此,如果你和一位研究優(yōu)化理論的學(xué)者討論,他們會(huì)告訴你,從理論上根本沒有理由相信這種優(yōu)化會(huì)奏效。

然而,事實(shí)證明它確實(shí)能成功——這是經(jīng)驗(yàn)證明的結(jié)果。

純粹靠理論,我們很難解釋太多細(xì)節(jié)。

并不是因?yàn)檫@里有什么「魔法」,而只是說明我們還沒完全搞清楚原理。

我們其實(shí)不清楚,為什么這些看似簡單的啟發(fā)式優(yōu)化算法在這些問題上表現(xiàn)得如此出色。

因?yàn)闆]有任何數(shù)學(xué)定理或理論可以說明它們必然會(huì)成功。

我們真正期待的定理,應(yīng)該反映「在現(xiàn)有條件下做到最好」這種理念。

然而,人類的智慧并不追求絕對最優(yōu),就像我們設(shè)計(jì)飛機(jī)或汽車時(shí)也不會(huì)力求完美。

我們只需要一個(gè)「夠好」的工程系統(tǒng)就行。

深度學(xué)習(xí)和非凸優(yōu)化給我們的,正是一群「夠好」的系統(tǒng)。雖然它們可能不是最優(yōu)解,卻依然非常有用、充滿潛力。

這就是事實(shí)。

深度學(xué)習(xí)追求的是「夠好」

在許多領(lǐng)域,尤其是學(xué)術(shù)界,人們過度追求最優(yōu),反而忽略了真正重要的目標(biāo)。

深度學(xué)習(xí)是一門務(wù)實(shí)的科學(xué),它在現(xiàn)有資源條件下追求「夠好」。

隨著數(shù)據(jù)量和算力的飛速增長,「夠好」往往就能帶來驚人的成果。

這種「夠好」的思路,也讓現(xiàn)代人工智能更像「煉金術(shù)」而非傳統(tǒng)科學(xué).

因?yàn)閭鹘y(tǒng)科學(xué)的進(jìn)展通常要慢得多。

也許正是這種因?yàn)樯疃葘W(xué)習(xí)是務(wù)實(shí)的,在如今算力爆炸和數(shù)據(jù)豐富的時(shí)代,LLM雖然還是「黑箱」,但已經(jīng)切實(shí)的改變了我們的工作和生活。

某種意義上,也算「預(yù)言」了整個(gè)LLM時(shí)代。

初始化的尺度直接決定了模型的可訓(xùn)性

關(guān)于這一點(diǎn),還有一些不那么直觀但非常重要的細(xì)節(jié)值得討論。

你可以這樣理解:神經(jīng)網(wǎng)絡(luò)里有大量神經(jīng)元和連接,每層都會(huì)先將輸入乘以隨機(jī)權(quán)重,再經(jīng)過非線性變換。

第一層處理完后,第二層又會(huì)重復(fù)相同的過程:乘權(quán)重、做非線性變換。

如果這些隨機(jī)權(quán)重太小,信號(hào)在多次相乘后就會(huì)迅速衰減到幾乎為零。

當(dāng)信號(hào)到達(dá)輸出層時(shí),你幾乎感受不到任何輸入的影響。

這樣一來,學(xué)習(xí)算法就無法發(fā)現(xiàn)輸入和輸出之間的關(guān)聯(lián),也就沒法改進(jìn)模型。

因此,我們必須讓隨機(jī)初始化的權(quán)重大多數(shù)情況下足夠大,才能保證輸入的變化一路傳遞到輸出層。

一旦滿足了這個(gè)條件,梯度就能夠找到正確的方向,有效地優(yōu)化網(wǎng)絡(luò)。

…因此在實(shí)際應(yīng)用中,當(dāng)研究人員希望在一個(gè)真實(shí)數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),初始化的尺度是你需要關(guān)注的最重要的參數(shù)之一。

以上內(nèi)容節(jié)選自音頻對話內(nèi)容,絕大部分來源于Ilya本人。

這就是Ilya 2015年對機(jī)器學(xué)習(xí)的深刻洞察。

那時(shí),距離Transformer發(fā)布還有4年,距離ChatGPT發(fā)布還有7年的時(shí)間。

但是Ilya已經(jīng)深刻地體會(huì)到神經(jīng)網(wǎng)絡(luò)的威力。

如果你想要更加深入的了解,可以詳細(xì)聽聽上面的??音頻。

最后想說的是,Ilya對于這場改變我們所有人的科技革命的直覺。就來自于在這次訪談中他想要告訴我們的:追求務(wù)實(shí),擁抱簡單。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-27 07:00:00

2021-03-28 08:15:20

Windows 操作系統(tǒng)微軟

2021-03-28 22:28:36

Windows 95Windows微軟

2021-08-17 08:51:38

機(jī)器學(xué)習(xí)人工智能

2019-02-14 08:10:22

機(jī)器學(xué)習(xí)API程序

2024-10-09 13:34:47

2021-09-27 10:19:24

機(jī)器學(xué)習(xí)情緒分析工具AI人工智能

2023-10-12 12:12:58

2024-06-03 08:15:00

2023-05-04 10:05:30

離職谷歌

2019-09-09 11:07:00

機(jī)器學(xué)習(xí)深度學(xué)習(xí)人工智能

2017-12-30 10:15:15

機(jī)器學(xué)習(xí)工具框架

2024-10-14 08:59:13

2019-02-20 15:42:28

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-04-13 14:25:41

架構(gòu)運(yùn)維技術(shù)

2019-03-20 07:50:47

機(jī)器學(xué)習(xí)算法線性回歸

2023-11-20 21:56:57

入職微軟

2025-04-01 09:23:00

2017-12-05 11:25:09

2019-09-16 12:49:29

開發(fā)技能代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久精品日产第一区二区三区 | 精品久久香蕉国产线看观看亚洲 | 日韩中文在线视频 | a成人| 亚洲精品视频在线观看免费 | 欧美一级片在线播放 | 99视频在线免费观看 | 国久久| www.se91| 一区二区三区视频在线 | 欧美视频成人 | 国产乱码精品一区二区三区五月婷 | 精品蜜桃一区二区三区 | 亚洲视频中文字幕 | 国产精品a免费一区久久电影 | 99成人| 久久精品国产亚洲一区二区三区 | 亚洲精品在 | 日韩视频精品 | 国产日产精品一区二区三区四区 | 黄色一级电影免费观看 | 波波电影院一区二区三区 | 欧美一区二区三区在线看 | 免费的av网站 | 国产一区二区三区精品久久久 | 人人干人人舔 | 亚洲国产精品视频一区 | 国产精品久久久久影院色老大 | 日本一区二区视频 | 日韩中文字幕视频在线观看 | av中文在线 | 欧美一区二区大片 | 亚洲精品国产a久久久久久 午夜影院网站 | 精品国产一区二区三区久久 | 日韩成人免费av | 亚洲一区二区三区四区五区午夜 | 91视频一区二区 | 日韩欧美中文字幕在线视频 | 欧美成人高清 | 91新视频| 美女一级黄 |