成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究

發(fā)布于 2024-5-6 09:35
瀏覽
0收藏

一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN,誕生了!

?

與傳統(tǒng)的MLP架構(gòu)截然不同,且能用更少的參數(shù)在數(shù)學(xué)、物理問題上取得更高精度。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

比如,200個參數(shù)的KANs,就能復(fù)現(xiàn)DeepMind用30萬參數(shù)的MLPs發(fā)現(xiàn)數(shù)學(xué)定理研究。

不僅準(zhǔn)確性更高,并且還發(fā)現(xiàn)了新的公式。要知道后者可是登上Nature封面的研究啊~

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在函數(shù)擬合、偏微分方程求解,甚至處理凝聚態(tài)物理方面的任務(wù)都比MLP效果要好。


而在大模型問題的解決上,KAN天然就能規(guī)避掉災(zāi)難性遺忘問題,并且注入人類的習(xí)慣偏差或領(lǐng)域知識非常容易。


來自MIT、加州理工學(xué)院、東北大學(xué)等團(tuán)隊的研究一出,瞬間引爆一整個科技圈:Yes We KAN!

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)


全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

甚至直接引出關(guān)于能否替代掉Transformer的MLP層的探討,有人已經(jīng)準(zhǔn)備開始嘗試……

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)


全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

有網(wǎng)友表示:這看起來像是機(jī)器學(xué)習(xí)的下一步

讓機(jī)器學(xué)習(xí)每個特定神經(jīng)元的最佳激活,而不是由我們?nèi)祟悰Q定使用什么激活函數(shù)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

還有人表示:可能正處于某些歷史發(fā)展的中間。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

GitHub上也已經(jīng)開源,也就短短兩三天時間就收獲1.1kStar。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

對MLP“進(jìn)行一個簡單的更改”

跟MLP最大、也是最為直觀的不同就是,MLP激活函數(shù)是在神經(jīng)元上,而KAN把可學(xué)習(xí)的激活函數(shù)放在權(quán)重上。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在作者看來,這是一個“簡單的更改”。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

從數(shù)學(xué)定理方面來看,MLP的靈感來自于通用近似定理,即對于任意一個連續(xù)函數(shù),都可以用一個足夠深的神經(jīng)網(wǎng)絡(luò)來近似。


而KAN則是來自于 Kolmogorov-Arnold 表示定理 (KART),每個多元連續(xù)函數(shù)都可以表示為單變量連續(xù)函數(shù)的兩層嵌套疊加。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

KAN的名字也由此而來。


正是受到這一定理的啟發(fā),研究人員用神經(jīng)網(wǎng)絡(luò)將Kolmogorov-Arnold 表示參數(shù)化。


為了紀(jì)念兩位偉大的已故數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold,我們稱其為科爾莫格羅夫-阿諾德網(wǎng)絡(luò)(KANs)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

而從算法層面上看,MLPs 在神經(jīng)元上具有(通常是固定的)激活函數(shù),而 KANs 在權(quán)重上具有(可學(xué)習(xí)的)激活函數(shù)。這些一維激活函數(shù)被參數(shù)化為樣條曲線。


在實(shí)際應(yīng)用過程中,KAN可以直觀地可視化,提供MLP無法提供的可解釋性和交互性。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

不過,KAN的缺點(diǎn)就是訓(xùn)練速度較慢。


對于訓(xùn)練速度慢的問題,MIT博士生一作Ziming Liu解釋道,主要有兩個方面的原因。

一個是技術(shù)原因,可學(xué)習(xí)的激活函數(shù)評估成本比固定激活函數(shù)成本更高。


另一個則是主觀原因,因為體內(nèi)物理學(xué)家屬性抑制程序員的個性,因此沒有去嘗試優(yōu)化效率。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

對于是否能適配Transformer,他表示:暫時不知道如何做到這一點(diǎn)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

以及對GPU友好嗎?他表示:還沒有,正在努力中。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

天然能解決大模型災(zāi)難性遺忘

再來看看KAN的具體實(shí)現(xiàn)效果。


神經(jīng)縮放規(guī)律:KAN 的縮放速度比 MLP 快得多。除了數(shù)學(xué)上以Kolmogorov-Arnold 表示定理為基礎(chǔ),KAN縮放指數(shù)也可以通過經(jīng)驗來實(shí)現(xiàn)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

函數(shù)擬合方面,KAN比MLP更準(zhǔn)確。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

而在偏微分方程求解,比如求解泊松方程,KAN比MLP更準(zhǔn)確。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

研究人員還有個意外發(fā)現(xiàn),就是KAN不會像MLP那樣容易災(zāi)難性遺忘,它天然就可以規(guī)避這個缺陷。


好好好,大模型的遺忘問題從源頭就能解決。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在可解釋方面,KAN能通過符號公式揭示合成數(shù)據(jù)集的組成結(jié)構(gòu)和變量依賴性。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

人類用戶可以與 KANs 交互,使其更具可解釋性。在 KAN 中注入人類的歸納偏差或領(lǐng)域知識非常容易。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

研究人員利用KANs還重新復(fù)現(xiàn)了DeepMind當(dāng)年登上Nature的結(jié)果,并且還找到了Knot理論中新的公式,并以無監(jiān)督的方式發(fā)現(xiàn)了新的結(jié)不變式關(guān)系。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

△DeepMind登Nature研究成果

Deepmind的MLP大約300000 個參數(shù),而KAN大約只有200 個參數(shù)。KAN 可以立即進(jìn)行解釋,而 MLP 則需要進(jìn)行特征歸因的后期分析。并且準(zhǔn)確性也更高。


對于計算要求,團(tuán)隊表示論文中的所有例子都可以在單個CPU上10分鐘內(nèi)重現(xiàn)。


雖然KAN所能處理的問題規(guī)模比許多機(jī)器學(xué)習(xí)任務(wù)要小,但對于科學(xué)相關(guān)任務(wù)來說就剛剛好。


比如研究凝固態(tài)物理中的一種相變:安德森局域化。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

好了,那么KAN是否會取代Transformer中的MLP層呢?


有網(wǎng)友表示,這取決于兩個因素。


一點(diǎn)是學(xué)習(xí)算法,如 SGD、AdamW、Sophia 等—能否找到適合 KANs 參數(shù)的局部最小值?


另一點(diǎn)則是能否在GPU上高效地實(shí)現(xiàn)KANs層,最好能比MLPs跟快。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

最后,論文中還貼心的給出了“何時該選用KAN?”的決策樹。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬,MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

那么,你會開始嘗試用KAN嗎?還是讓子彈再飛一會兒~


項目鏈接:
???https://kindxiaoming.github.io/pykan/???
論文鏈接:
???https://arxiv.org/abs/2404.19756???


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/5WFJMPJvtaofeGDxFQ9aDw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 中文字幕在线观 | 九九热国产精品视频 | 天天操天天插天天干 | 99久久免费精品国产男女高不卡 | 精品久久久久久亚洲精品 | 免费一级欧美在线观看视频 | 亚洲v区 | 亚洲区视频 | 伊人超碰在线 | 久草新在线 | 欧美在线亚洲 | 一区二区久久 | 日韩一区二区三区四区五区六区 | 久久999 | 欧美日韩国产一区二区三区 | 男人的天堂在线视频 | 精品二 | 中文字幕亚洲欧美日韩在线不卡 | 欧美aaaaa | 影音先锋成人资源 | 日韩精品在线一区 | 国产一级特黄aaa大片评分 | 亚洲精品中文字幕av | 久久精品成人 | h在线| 久久91精品久久久久久9鸭 | 可以在线观看av的网站 | 成人福利视频网站 | 在线中文字幕日韩 | 天天曰天天干 | 免费在线a视频 | 日韩天堂av | 成人性视频免费网站 | av在线免费观看网站 | 日韩欧美在线播放 | 国产精品久久久久久久久久久久久久 | 久久国产精品一区二区三区 | 精品av久久久久电影 | 国产欧美日韩一区二区三区在线 | 国产乱码精品1区2区3区 | www.日日夜夜 |