從“Nature局部核重整化學習機制”說開去
局部核重整化學習機制
自然通訊2025年1月10日刊發一篇題為“局部核重整化作為超參數化卷積神經網絡中特征學習的機制” 的文章【文獻1】,學者們稱“確定了一種完全不同的內核重整化形式:全連接架構的內核只是由單個標量參數全局重整化,而卷積核則經歷局部重整化,這意味著網絡可以選擇局部分量,這些分量將以數據依賴的方式為最終預測做出貢獻”。
這一發現強調了一種簡單的特征學習機制,CNN的重整化內核表達式中展示的核重整化的精確形式就是學者們定義的局部核重整化。該矩陣??ˉ為所考慮的卷積神經網絡(CNN)模型中的特征學習提供了一個緊湊的描述:
在訓練過程中優化的特征矩陣元素??ˉij實際上與局部協方差矩陣的 ?N0/S? 個補丁對的組合一一對應,而這些補丁又是由訓練集元素 xμ 的補丁定義的。可以將矩陣??ˉ解釋為一個特征、數據相關的矩陣,表示局部核的給定分量對重整化核的貢獻程度。
特征矩陣元素 ??ij也具有自然的物理解釋,作為對應于補丁(i,j)的讀出向量相關性的熱平均值。
論文觀察結果并不排除全連接深度神經網絡架構中所有其他可能的特征學習形式:如無限寬內核的重整化并不是特征學習的唯一可能來源。與無限寬度限制無關的高階核可能在特征學習中發揮作用,尤其是在考慮數據集大小 P 大致與全連接深度神經網絡的參數數量 ~ L × N2(N? = N ? ?)成比例的情況下。
關于重整化作為深度神經網絡學習機制,筆者過去探討過很多。
神經網絡中的尺度重整化
在漂亮國的核潛艇與深度學習的內卷一文中,筆者總結過:玻爾茲曼機踐行了重整化群的思想,事實上,在神經網絡中引入隱含節點就是尺度重整化。每一次尺度變換后,自由能保持不變。F =-lnZ, 這里Z是配分函數,是一個能量(不同能級上粒子數)的概率分布,Z不變,即能量的概率分布不變。重整化群給出了損失函數,也就是不同層的F自由能的差異,或者說兩個能量概率分布的“距離”, 訓練就是來最小化這個距離。
筆者在相變與涌現中特別介紹了重整化群:重整化群(RG : Renormalization Group) 是研究不同尺度下對稱性破缺與重建過程的核心數學手段。借助重整化群這一研究復雜物理系統行為的框架,人們可以在不同尺度上分析系統,并理解隨著觀察尺度的變化,系統的特性如何變化。通過這種方式,RG提供了一種研究微觀細節如何產生較大尺度新涌現特性的方法。
然后又在?重整化群與生成式AI文中詳述了重整化群流在預訓練與生成方面的機理:對一張圖像,重整化從細顆粒度到粗顆粒度,逐層提取潛變量Zn, 提取圖像中蘊含的各層次的結構;而生成圖像的過程就是從粗粒度,對潛變量的高斯概率分布進行采樣,重建下一個層次的結構(類似你跟別人描述這個人濃眉大眼)。重整化的群變換Gn 在生成過程中用到 Gn的逆。GPT 和其他大語言模型的使用的Transformer其實就可以類比這些重整化的群變換G。
重整化與大模型數理機制
物理諾獎、統計力學與大模型,筆者斷言:Transformer 等價于重整化,基于過去對這一領域的關鍵分析: 重整化(RG)包括一個由大量自由度描述的系統,RG逐級尺度執行粗粒度化操作,自由度子集被組合在一起平均,以形成新的集體變量/隱變量。重整化自然成為統計力學的最佳工具。
重整化群與生成式AI 中,RG的數學形式表達為:G(Z) = G1G2G3G…Gn( Z )。這里的G1到Gn對應不同層次上Operation 或者說Transformation,也就是在各個層次的潛變量構成的新坐標系里面的變換,Gx(Z)是系統在潛變量函數基張成的空間中的樣子。
重整化群流作為最優輸運 不僅確定了精確重整化群流的方程等效于場的相對熵的最優輸運梯度流,還巧妙的使用最優輸運的思想將重整化群轉化為變分問題。
尺度變換的每一步,RG 流都將會沿著最優輸運的方向進行,也就是物理量的 RG 流尺度變換前的概率分布與尺度變換后的概率分布的距離最近的方向,而最優輸運某種意義上是自然演化的必然方向和準則。
圖片
筆者在降低大模型幻覺的必由之路文中針對重整化、范疇與transformer之間的關系做了詳細的闡述:
重整化本質是尺度從小到大粗粒度化概率分布的過程,而深度神經網絡擅長學習小尺度結構逐級到認知全局特征,而大模型的Transformer 則可以逆重整化流,逐尺度重建微觀概率分布,從而完成生成。
這里的范疇是Transformer視角下的高維概率向量編織起來的事物之間的各種復雜的關系。從海量的預訓練數據集中提純出來,對大量的分段線性核函數參數化后的表達。這些關系,關系的關系,關系的關系的關系,本質上,在范疇論概念下,就是對事物的米田嵌入。
重整化視角的大模型數理認知框架
MIT對大模型數理原理的強有力證明,筆者做了重整化視角的大模型數理認知框架原理回顧:
海量的文本或者多模態語料組成了大模型需要認知的外部世界的基本信息;嵌入構建高維概率化的語言空間,用來建模語言文字圖像以及音視頻,并對連續變量做離散化;
預訓練以重整化群流的方式進行,在不同尺度上提煉語料數據中的信息概率分布;重整化群流的每一步流動(自回歸預測逼近訓練語料概率分布),都沿著最優輸運的成本最低方向進行;
重整化群在不動點附近因新語料帶來微擾而發生對稱性破缺,滑入不同的相空間;不同的相空間,對應某種意義上的范疇,可形象化為信息的結晶;這是大模型從語料中學到的內部世界模型;
在外部感官輸入下(被提示置于某種上下文),大模型內部將限定在相應的高維語言概率空間的子空間內推理;推理是在子空間中采樣,類比時跨范疇采樣;
采樣不斷進行,基于內部概率化了的世界模型(預訓練獲得的先驗),針對感官輸入(提示),做變分推斷,最小化自由能,獲取最佳采樣分布q*,作為對導致感官輸入的外部后驗的預測。
圖片
可總結為:1、重整化從海量語料中提取出范疇,2、持續重整化驅動范疇解構重組結晶,3、生成過程于范疇中采樣做變分推理。
推演大模型局限與發展脈絡,筆者基于這個數理認知框架推斷:采樣做變分推理的部分尤其薄弱,即使學到某些領域的豐富的知識,提煉成相當豐富的范疇,其采樣與變分推理還處在早期人工智能“煉丹”階段,提示工程、CoT、o1的強化學習推理,僅是“煉丹”方式不同。
通往ASI的大模型推理
重新思考 MoE中筆者看到大模型不斷提升推理能力的路徑:“目前 MoE 可以理解為一種分布式采樣策略,可以GShard硬編碼,或進一步DeepSeekMoE細分,也可以如MoDE基于噪聲更靈活調節策略,亦或引入某種優化器(類似SQL優化器),并最終依賴推理的scaling law涌現出策略”。
測試時計算(Test-time Computing)也被寄予厚望?!疚墨I2】蘇州大學、新加坡國立大學和螞蟻集團的研究人員探索了測試時計算,追蹤了其從 System-1 到 System-2 模型的演變。
測試時計算最初應用于 System-1 模型,通過參數更新、輸入修改和輸出校準來解決分布偏移并增強穩健性,現在使用重復采樣、自我校正和樹搜索等策略加強了 System-2 模型中的推理。
測試時適應(TTA)在推理過程中使用測試樣本信息微調模型。關鍵考慮因素包括學習信號、參數更新和確保效率。測試時訓練 (TTT) 學習信號使用輔助任務,而完全測試時適應 (FTTA) 利用內部反饋(如熵最小化)。
筆者認為,測試時計算模型更新,等于利用測試樣本信息在推理階段進一步微調了模型參數,使模型能夠適應測試分布。這樣不僅學了更多的內容(測試語料),還反復推敲學習如何采樣變分用于推理,本質是積累了推理的范疇。
測試時計算的訓練方式,如果推廣到更大范圍的語料(甚至重復利用預訓練時期的語料),可以積累更多推理范疇,從而提升推理能力。預訓練的語料中,也有大量類似的推理場景,針對此類場景,采用測試時適應,或類似的測試時計算的策略,在預訓練時就可以同時積累推理的范疇,即推理內化成內部世界模型中的一部分。
文獻1,https://www.nature.com/articles/s41467-024-55229-3 Local kernel renormalization as a mechanism for feature learning in overparametrized convolutional neural networks
文獻 2, https://arxiv.org/abs/2501.02497 Test-time Computing: from System-1 Thinking to System-2 Thinking
