將哈密頓力學泛化到神經算子,何愷明團隊又發新作,實現更高級物理推理
繼上月末連發兩篇論文(擴散模型不一定需要噪聲條件和分形生成模型)之后,大神何愷明又出新作了!這次的主題是「用于物理推理的去噪哈密頓網絡」。
物理推理包含推斷、預測和解釋動態系統行為的能力,這些是科學研究的基礎。應對此類挑戰的機器學習框架通常被期望超越僅僅記憶數據分布的做法,從而維護物理定律,解釋能量和力的關系,并納入超越純數據驅動模型的結構化歸納偏差。科學的機器學習通過將物理約束直接嵌入神經網絡架構(通常通過顯式構建物理算子)來解決這一挑戰。
不過,這些方法面臨兩個關鍵限制。其一,這些方法主要學習局部時序更新(預測從一個時間步驟到下一個時間步驟的狀態轉換),而不捕獲遠程依賴或抽象的系統級交互。其二,這些方法主要關注前向模擬,從初始條件預測系統的演變,而在很大程度上忽略了超分辨率、軌跡修復或從稀疏觀測中進行參數估計等互補任務。
為了解決這些限制,何愷明等來自 MIT、斯坦福大學等機構的研究者提出了去噪哈密頓網絡(Denoising Hamiltonian Network,DHN),這是一個將哈密頓力學泛化到神經算子的框架。
- 論文標題:Denoising Hamiltonian Network for Physical Reasoning
- 論文地址:https://arxiv.org/pdf/2503.07596
下圖 1 為去噪哈密頓網絡(DHN)概覽。
研究者表示,DHN 在利用神經網絡靈活性的同時實施物理約束,帶來以下三項關鍵創新。
首先,DHN 通過將系統狀態組合視為 token 來擴展哈密頓神經算子以捕獲非局部時間關系,從而能夠從整體上對系統動態進行推理,而不是分步推理。
其次,DHN 集成了一個去噪目標,其靈感來自去噪擴散模型,用于減輕數值積分誤差。通過迭代地將其預測細化為物理上有效的軌跡,DHN 提高了長期預測的穩定性,同時保持了在不同噪聲條件下的適應性。此外,通過利用不同的噪聲模式,DHN 支持在各種任務場景中進行靈活的訓練和推理。
最后,研究者引入了全局條件以促進多系統建模。一個共享的全局潛在代碼被用來對系統特定屬性(例如質量、擺長)進行編碼,使 DHN 能夠在統一框架下對異構物理系統進行建模,同時保持底層動態的解耦表示。
在實驗部分,為了評估 DHN 的通用性,研究者通過三個不同的推理任務對其進行了測試,包括軌跡預測和完成、從部分觀察中推斷物理參數,以及通過漸進式超分辨率插入稀疏軌跡。
總之,這項工作推動了在局部時序關系之外嵌入物理約束的更通用架構的發展,為更廣泛的物理推理應用開辟了道路,超越了傳統的前向模擬和下一狀態預測。
論文一作 Congyue Deng 發推表示,過去通過擴展卷積算子使其從低級圖像處理上升到高級視覺推理,如今 DHN 可以通過擴展物理算子來實現更高級的物理推理。
同時,她也提出了三個開放性問題,包括「如何定義深度學習中的物理推理」、「什么是物理模擬」、「神經網絡應該具備哪些物理屬性」。她說到,DHN 不是最終的解決方案,只是一個開始。
方法概覽
本文的目標是設計更通用的神經算子,既遵循物理約束,又釋放神經網絡作為可優化黑盒函數的靈活性和表現力。研究者首先問了一個問題:除了下一狀態預測之外,我們還能建模哪些「物理關系」?
下圖 2 比較了三種不使用機器學習來建模物理系統的經典方法,包括如下:
- 全局解析解決方案。對于具有規則結構的簡單系統,人們通常直接得出閉式解。
- PDE + 數值積分,在更復雜的環境中,如果沒有閉式解,標準做法是將系統的動態過程表示為 PDE,然后通過數值方法逐步求解。
- 直接全局關系。在某些復雜系統中(例如沒有耗散力的純保守系統),時間上相距較遠的狀態可以直接使用全局守恒定律(例如能量守恒定律)來關聯。
圖 3 展示了一個離散的哈密頓網絡(右),用于計算時間步長 t_0 和 t_1 之間的狀態關系。研究者主要使用哈密頓 H^+(右)來描述他們的網絡設計。
去噪哈密頓網絡
掩碼建模和去噪。研究者希望哈密頓塊不僅能對跨時間步的狀態關系進行建模,還能學習每個時間步的狀態優化,以便進行推理。為此,他們采用了掩碼建模策略,在訓練網絡時屏蔽掉部分輸入狀態(圖 5)。
這里不是簡單地屏蔽輸入狀態,而是用不同幅度的噪聲采樣對輸入狀態進行擾動(圖 5)。這種策略可確保模型學會迭代改進預測,使其能夠從損壞或不完整的觀測結果中恢復有物理意義的狀態。
具體來說,研究者定義了一個噪聲水平遞增的序列
以阻塞輸入狀態為例,研究者隨機采樣高斯噪聲
和每個狀態的噪聲規模
。
在實驗中,去噪步數設置為 10。在推理時,研究者用一連串同步于所有未知狀態的遞減噪聲尺度對未知狀態進行逐步去噪。他們同時應用和
來迭代更新
和
。
不同的掩碼模式通過在訓練過程中設計不同的掩碼模式,可以根據不同的任務制定靈活的推理策略。圖 6 展示了三種不同的掩碼模式:通過屏蔽一個數據塊的最后幾個狀態來實現自回歸,這類似于利用前向建模進行下一狀態預測的物理模擬;通過掩碼一個數據塊中間的狀態來實現超分辨率,這可應用于數據插值;更廣泛地說,包括隨機掩碼在內的任意順序掩碼,掩碼模式根據任務要求進行自適應設計。
網絡架構
純解碼器 Transformer。對于每個哈密頓塊,網絡輸入是不同時間步的棧、
棧,研究者還引入了整個軌跡的全局潛碼 z 作為條件。如圖 7 所示,研究者采用了一種純解碼器 Transformer,它類似于類似于 GPT 的純解碼器架構,但沒有因果注意力掩碼。
研究者將所有輸入 token作為長度為 2b + 1 的序列應用了自注意力。全局潛碼 z 作為查詢 token,用于輸出哈密頓值 H。還通過在位置嵌入中添加每個狀態的噪聲標度,將其編碼到網絡中。在實驗中,研究者實現了一個適合單 GPU 的簡單雙層 Transformer。
自解碼。研究者沒有依賴編碼器網絡從軌跡數據中推斷全局潛碼,而是采用了自解碼器框架,為每條軌跡維護一個可學習的潛碼 z(圖 8)。這種方法允許模型高效地存儲和完善特定系統的嵌入,而不需要單獨的編碼過程。在訓練過程中,研究者會聯合優化網絡權重和代碼庫。訓練結束后,給定一個新軌跡,凍結網絡權重,只優化新軌跡的潛碼。
實驗
研究者用兩種設置來評估模型:單擺和雙擺。兩種設置都包含一個模擬軌跡數據集。單擺是一個周期性系統,每個狀態下的總能量都可以通過(q, p)直接計算出來,因此此處用它來評估模型的能量守恒能力。雙擺是一個混沌系統,微小的擾動會導致未來狀態的偏離。
他們用與圖 6 中三種不同掩碼模式相對應的三種不同任務來測試模型。它們分別是:(i) 用于前向模擬的下一狀態預測(自回歸);(ii) 用于物理參數推斷的隨機掩蔽表示學習;以及 (iii) 用于軌跡插值的漸進式超分辨率。這些任務突出了 DHN 對各種物理推理挑戰的適應性,測試了它在不同觀測限制條件下生成、推斷和插值系統動態的能力。
前向模擬
- 擬合已知軌跡
圖 9 顯示了采用不同塊大小的模型與采用不同數值積分器的 HNN 的比較結果。左圖和右圖分別是單擺和雙擺系統在每個時間步的 q 預測值的均方誤差(MSE)。中間的圖顯示了一個示例軌跡上的平均總能量誤差和總能量的演變。對于 DHN,每個時間步的狀態優化由去噪機制建模,無需變分積分器。當塊大小為 2 時,本文的模型可以穩定地保存總能量。增加塊大小會在較長的時間范圍內引起能量波動,但這種波動并沒有表現出明顯的能量漂移傾向。
- 以新穎的軌跡完成
圖 10 顯示了與 HNN(上行)和各種無物理約束基線模型(下行)的比較結果。本文的 DHN 采用較小的塊大小,狀態預測更準確,節能效果更好。
表征學習
圖 11 展示了與 HNN 和常規網絡相比,DHN 在不同塊大小(s = b/2)下的線性探測結果。與基線網絡相比,本文的模型實現了更低的 MSE。如圖 4 所示,HNN 可以看作是哈密頓塊的特例,其核大小和步長均為 1,具有最強的局部性。研究者引入的塊大小和跨度允許模型在不同尺度上觀察系統。在這個雙擺系統中,塊大小為 4 是推斷其參數的最佳時間尺度。
圖 12 展示了不同塊大小和步長的 DHN 結果。如圖 12b 所示,哈密頓塊的輸入和輸出狀態有一個 b-s 時間步長的重疊區域。哈密頓塊的廣義能量守恒依賴于重疊區域具有相同的輸入和輸出。在訓練過程中,這一約束作為狀態預測損失的一部分強加給網絡。較大的重疊會對網絡施加更強的正則化,但會鼓勵網絡執行更多的自一致性約束,而不是更多的狀態間關系。相反,減少重疊度的同時增加跨度,可以鼓勵模型吸收更多時間上較遠的狀態信息,但代價是削弱自洽性約束,從而影響穩定性。在重疊等于塊大小 b 且跨度為零的極端情況下,DHN 塊的輸入和輸出完全相同,訓練損失退化為自相干約束。HNN 是另一種重疊為零的特殊情況(因為塊大小為 1,重疊只能為零)。如 12b 所示,對于簡單雙層 transformer,最佳的塊大小和跨度約為 s≈ b/2,重疊量適中。
軌跡插值
研究者通過重復應用 2 倍超分辨率來實現 4 倍超分辨率。如圖 13 左所示,為每個階段構建一個 b = 2、s = 1 的 DHN 塊。不同稀疏度的軌跡塊如圖 13 右所示。掩碼應用于中間狀態,邊上的兩個狀態是已知的。
在所有三個超分辨率階段中,每個軌跡都與共享的全局潛碼相關聯,從而為訓練集形成一個結構化代碼集。在訓練過程中,網絡權重和這些潛碼會在逐步細化階段(0、1、2)中共同優化。在推理時,給定一個僅在最稀疏水平(第 0 階段)已知狀態的新軌跡,研究者凍結了 DHN 塊中的所有網絡權重,并優化第 0 階段的全局潛碼。
最后,研究者將本文模型與用于超分辨率的 CNN 進行了比較,結果如圖 14 所示。對于與訓練數據具有相同初始狀態的軌跡,兩個模型都顯示出較好的插值結果,MSE 也較低。基線 CNN 的結果稍好,因為它本身沒有正則化,很容易過擬合訓練軌跡。對于具有未知初始狀態的測試軌跡,CNN 難以實現泛化,因為其插值在很大程度上依賴于訓練分布。相比之下,DHN 具有很強的泛化能力,因為其物理約束表征使其即使在分布變化的情況下也能推斷出可信的中間狀態。
更多研究細節,可參考原論文。