全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究

Crystalcxt

發(fā)布于 2024-5-6 09:35

瀏覽

0收藏

一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN，誕生了！

與傳統(tǒng)的MLP架構(gòu)截然不同，且能用更少的參數(shù)在數(shù)學(xué)、物理問題上取得更高精度。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

比如，200個參數(shù)的KANs，就能復(fù)現(xiàn)DeepMind用30萬參數(shù)的MLPs發(fā)現(xiàn)數(shù)學(xué)定理研究。

不僅準(zhǔn)確性更高，并且還發(fā)現(xiàn)了新的公式。要知道后者可是登上Nature封面的研究啊~

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在函數(shù)擬合、偏微分方程求解，甚至處理凝聚態(tài)物理方面的任務(wù)都比MLP效果要好。

而在大模型問題的解決上，KAN天然就能規(guī)避掉災(zāi)難性遺忘問題，并且注入人類的習(xí)慣偏差或領(lǐng)域知識非常容易。

來自MIT、加州理工學(xué)院、東北大學(xué)等團(tuán)隊的研究一出，瞬間引爆一整個科技圈：Yes We KAN！

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

甚至直接引出關(guān)于能否替代掉Transformer的MLP層的探討，有人已經(jīng)準(zhǔn)備開始嘗試……

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

有網(wǎng)友表示：這看起來像是機(jī)器學(xué)習(xí)的下一步。

讓機(jī)器學(xué)習(xí)每個特定神經(jīng)元的最佳激活，而不是由我們?nèi)祟悰Q定使用什么激活函數(shù)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

還有人表示：可能正處于某些歷史發(fā)展的中間。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

GitHub上也已經(jīng)開源，也就短短兩三天時間就收獲1.1kStar。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

對MLP“進(jìn)行一個簡單的更改”

跟MLP最大、也是最為直觀的不同就是，MLP激活函數(shù)是在神經(jīng)元上，而KAN把可學(xué)習(xí)的激活函數(shù)放在權(quán)重上。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在作者看來，這是一個“簡單的更改”。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

從數(shù)學(xué)定理方面來看，MLP的靈感來自于通用近似定理，即對于任意一個連續(xù)函數(shù)，都可以用一個足夠深的神經(jīng)網(wǎng)絡(luò)來近似。

而KAN則是來自于 Kolmogorov-Arnold 表示定理 (KART)，每個多元連續(xù)函數(shù)都可以表示為單變量連續(xù)函數(shù)的兩層嵌套疊加。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

KAN的名字也由此而來。

正是受到這一定理的啟發(fā)，研究人員用神經(jīng)網(wǎng)絡(luò)將Kolmogorov-Arnold 表示參數(shù)化。

為了紀(jì)念兩位偉大的已故數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold，我們稱其為科爾莫格羅夫-阿諾德網(wǎng)絡(luò)（KANs）。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

而從算法層面上看，MLPs 在神經(jīng)元上具有（通常是固定的）激活函數(shù)，而 KANs 在權(quán)重上具有（可學(xué)習(xí)的）激活函數(shù)。這些一維激活函數(shù)被參數(shù)化為樣條曲線。

在實(shí)際應(yīng)用過程中，KAN可以直觀地可視化，提供MLP無法提供的可解釋性和交互性。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

不過，KAN的缺點(diǎn)就是訓(xùn)練速度較慢。

對于訓(xùn)練速度慢的問題，MIT博士生一作Ziming Liu解釋道，主要有兩個方面的原因。

一個是技術(shù)原因，可學(xué)習(xí)的激活函數(shù)評估成本比固定激活函數(shù)成本更高。

另一個則是主觀原因，因為體內(nèi)物理學(xué)家屬性抑制程序員的個性，因此沒有去嘗試優(yōu)化效率。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

對于是否能適配Transformer，他表示：暫時不知道如何做到這一點(diǎn)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

以及對GPU友好嗎？他表示：還沒有，正在努力中。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

天然能解決大模型災(zāi)難性遺忘

再來看看KAN的具體實(shí)現(xiàn)效果。

神經(jīng)縮放規(guī)律：KAN 的縮放速度比 MLP 快得多。除了數(shù)學(xué)上以Kolmogorov-Arnold 表示定理為基礎(chǔ)，KAN縮放指數(shù)也可以通過經(jīng)驗來實(shí)現(xiàn)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在函數(shù)擬合方面，KAN比MLP更準(zhǔn)確。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

而在偏微分方程求解，比如求解泊松方程，KAN比MLP更準(zhǔn)確。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

研究人員還有個意外發(fā)現(xiàn)，就是KAN不會像MLP那樣容易災(zāi)難性遺忘，它天然就可以規(guī)避這個缺陷。

好好好，大模型的遺忘問題從源頭就能解決。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在可解釋方面，KAN能通過符號公式揭示合成數(shù)據(jù)集的組成結(jié)構(gòu)和變量依賴性。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

人類用戶可以與 KANs 交互，使其更具可解釋性。在 KAN 中注入人類的歸納偏差或領(lǐng)域知識非常容易。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

研究人員利用KANs還重新復(fù)現(xiàn)了DeepMind當(dāng)年登上Nature的結(jié)果，并且還找到了Knot理論中新的公式，并以無監(jiān)督的方式發(fā)現(xiàn)了新的結(jié)不變式關(guān)系。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

△DeepMind登Nature研究成果

Deepmind的MLP大約300000 個參數(shù)，而KAN大約只有200 個參數(shù)。KAN 可以立即進(jìn)行解釋，而 MLP 則需要進(jìn)行特征歸因的后期分析。并且準(zhǔn)確性也更高。

對于計算要求，團(tuán)隊表示論文中的所有例子都可以在單個CPU上10分鐘內(nèi)重現(xiàn)。

雖然KAN所能處理的問題規(guī)模比許多機(jī)器學(xué)習(xí)任務(wù)要小，但對于科學(xué)相關(guān)任務(wù)來說就剛剛好。

比如研究凝固態(tài)物理中的一種相變：安德森局域化。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

好了，那么KAN是否會取代Transformer中的MLP層呢？

有網(wǎng)友表示，這取決于兩個因素。

一點(diǎn)是學(xué)習(xí)算法，如 SGD、AdamW、Sophia 等—能否找到適合 KANs 參數(shù)的局部最小值？

另一點(diǎn)則是能否在GPU上高效地實(shí)現(xiàn)KANs層，最好能比MLPs跟快。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

最后，論文中還貼心的給出了“何時該選用KAN？”的決策樹。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

那么，你會開始嘗試用KAN嗎？還是讓子彈再飛一會兒~

項目鏈接：
???https://kindxiaoming.github.io/pykan/???
論文鏈接：
???https://arxiv.org/abs/2404.19756???

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/5WFJMPJvtaofeGDxFQ9aDw??

標(biāo)簽

神經(jīng)網(wǎng)絡(luò)

架構(gòu)

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

ICLR 2024 | 脈沖神經(jīng)網(wǎng)絡(luò)的meta架構(gòu)設(shè)計：啟發(fā)下一代神經(jīng)形態(tài)芯片設(shè)計

laokugonggao ? 3396瀏覽 ? 0回復(fù)
史上最丑AI生圖一夜爆火！又一款妙鴨級爆品來了？

duhorse ? 3891瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的通用訓(xùn)練流程

AI探索時代 ? 2995瀏覽 ? 0回復(fù)
你知道神經(jīng)網(wǎng)絡(luò)是怎么運(yùn)作的嗎？神經(jīng)網(wǎng)絡(luò)內(nèi)部原理解析

AI探索時代 ? 2807瀏覽 ? 0回復(fù)
AI實(shí)時生成游戲，每秒20幀輸出，DeepMind擴(kuò)散模型最新突破一夜爆火

Crystalcxt ? 2377瀏覽 ? 0回復(fù)
谷歌AI推出LAuReL：讓神經(jīng)網(wǎng)絡(luò)更高效的革命性架構(gòu)

Halo咯咯 ? 3395瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了！

人工智能訓(xùn)練營 ? 2095瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)開發(fā)框架——PyTorch和架構(gòu)Transformer的區(qū)別和聯(lián)系

AI探索時代 ? 3022瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的？

AI探索時代 ? 2050瀏覽 ? 0回復(fù)
怎么學(xué)習(xí)設(shè)計和訓(xùn)練一個大模型——也就是神經(jīng)網(wǎng)絡(luò)？

AI探索時代 ? 2014瀏覽 ? 0回復(fù)
關(guān)于神經(jīng)網(wǎng)絡(luò)的輸入格式——數(shù)據(jù)集的處理，關(guān)于神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)說明

AI探索時代 ? 2403瀏覽 ? 0回復(fù)
關(guān)于神經(jīng)網(wǎng)絡(luò)的一些思考與感受

AI探索時代 ? 1975瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了反向傳播詳解

人工智能訓(xùn)練營 ? 2346瀏覽 ? 0回復(fù)
從一個簡單的神經(jīng)網(wǎng)絡(luò)模型開始

AI探索時代 ? 1973瀏覽 ? 0回復(fù)
怎么實(shí)現(xiàn)一個神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)的組成結(jié)構(gòu)

AI探索時代 ? 2124瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的每一層都是干嘛的？這才是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的核心

AI探索時代 ? 2096瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)RNN各層詳解及實(shí)例展示

人工智能訓(xùn)練營 ? 2571瀏覽 ? 0回復(fù)
AI Agent大變天！谷歌開源A2A，一夜改變智能體交互

Aceryt ? 1855瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)：反向傳播如何更新網(wǎng)絡(luò)參數(shù)

人工智能訓(xùn)練營 ? 1075瀏覽 ? 0回復(fù)

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究

對MLP“進(jìn)行一個簡單的更改”

天然能解決大模型災(zāi)難性遺忘

△DeepMind登Nature研究成果

目錄