神經符號回歸:從數據中提取科學
譯文譯者 | 李睿
審校 | 孫淑娟
宇宙是嘈雜而混亂的,復雜到讓人們的預測變得困難。人類的智慧和直覺有助于對周圍世界的一些活動有著基本的了解,并且足以從個人和小團體的有限視角在宏觀空間和時間尺度上對各個事件有一些基本的理解。
人類史前和古代的自然哲學家大多局限于常識合理化和猜測檢驗。這些方法具有很大的局限性,特別是對于太大或太復雜的事情,因此導致迷信或魔法思維的盛行。
這并不是貶低猜測和檢查(這是現代科學方法的基礎),而是要看到人類調查和理解能力的變化是由將物理現象提煉成數學表達式的愿望和工具所引發的。
這在牛頓和其他科學家領導啟蒙運動之后尤其明顯,盡管在古代也有分析還原論的痕跡。從觀察到數學方程(以及這些方程做出的預測)的能力是科學探索和進步不可或缺的一部分。
深度學習從根本上講也是關于學習與輸入-輸出觀察相關的轉換,就像人類科學家試圖以數學表達式的形式學習輸入和輸出之間的函數關系一樣。
當然,不同之處在于深度神經網絡學習的輸入-輸出關系(通用逼近定理的結果)由一個不可解釋的數值參數“黑盒”組成,主要是權重、偏差和它們連接的節點。
通用逼近定理指出,滿足非常寬松標準的神經網絡應該能夠非常接近任何表現良好的函數。在實踐中,神經網絡是一個脆弱而有漏洞的抽象概念,它代表了由簡單而精確的基礎方程產生的輸入輸出關系。
除非特別注意訓練模型(或模型集成)以預測不確定性,否則神經網絡在其訓練的分布之外進行預測時往往表現非常差。
深度學習預測在做出可證偽的預測方面也表現不佳,即開箱即用的構成科學方法基礎的假設。因此,雖然深度學習是一種經過充分驗證的工具,擅長擬合數據,但它在人類最重要的追求之一的實用性受到限制,這個追求就是通過科學方法探索人們周圍的宇宙。
盡管深度學習在人類的科學努力中存在著各種的缺點,但不能忽視深度學習在科學學科中的巨大擬合能力和眾多成功之處。
現代科學產生了大量的數據,個人(甚至是團隊)無法觀察這些數據的輸出,也無法從嘈雜的數據直觀地轉換為清晰的數學方程。
為此,可以求助于符號回歸,這是一種將數據簡化為方程的自動化或半自動化方法。
當前的黃金標準:進化方法
在進入將現代深度學習應用于符號回歸的一些令人興奮的最新研究之前,必須首先了解將數據集轉化為方程的進化方法的當前狀態。最常提到的符號回歸軟件包是基于遺傳算法的Eureqa。
Eureqa最初是作為康奈爾大學HodLipson團隊的一個研究項目開發的,并作為Nutonian的專有軟件提供,后來被DataRobot公司收購。Eureqa已經集成到Datarobot平臺中,由Eureqa的合著者兼Datarobot Michael Schmidt公司的首席技術官負責。
Eureqa和類似的符號回歸工具使用遺傳算法同時優化方程組,以實現準確性和簡單性。
TuringBot是一個基于模擬退火的替代符號回歸包。模擬退火是一種優化算法,類似于用于改變金屬物理性質的冶金退火。
在模擬退火中,選擇優化問題的候選解決方案時會降低“溫度”,其中較高的溫度對應于接受較差的解決方案,并用于促進早期探索,從而能夠搜索全局最優值,并提供能量來逃避局部最優值。
TuringBot是基于模擬退火的另一種符號回歸包。模擬退火是一種優化算法,類似于用于改變金屬物理性質的冶金退火。
在模擬退火中,選擇優化問題的候選解決方案時會降低“溫度”,其中較高的溫度對應于接受較差的解決方案,并用于促進早期探索,從而能夠搜索全局最優值,并提供能量來逃避局部最優值。
TuringBot是一個免費版本,但在數據集大小和復雜性方面有很大的限制,并且代碼不允許修改。
雖然商業符號回歸軟件(尤其是Eureqa)在開發符號回歸的新工具時提供了重要的比較基準,但閉源程序的作用是有限的。
另一個名為PySR的開源替代方案在Apache 2.0許可下發布,由普林斯頓大學博士生Miles Cranmer領導,并分享了準確性和簡約性(簡單性)的優化目標,以及Eureqa和TuringBot使用的組合方法。
除了提供用于執行符號回歸的免費且可自由修改的軟件庫之外,PySR從軟件的角度來看也很有趣:它是用Python編寫的,但使用Julia編程語言作為快速后端。
雖然遺傳算法通常被認為是符號回歸的當前最先進技術,但在過去幾年中,新的符號回歸策略出現了令人興奮的爆炸式增長。
其中許多新的發展利用了現代深度學習模型,或者作為多步驟過程中的函數近似組件,或者以基于大型Transformer模型的端到端方式,最初是為自然語言處理開發的,以及介于兩者之間的任何內容。
除了基于深度學習的新符號回歸工具之外,概率和統計方法也在復蘇,尤其是貝葉斯統計方法。
結合現代計算能力,新一代符號回歸軟件不僅本身是一項有趣的研究,而且為包括大數據集和綜合實驗在內的科學學科提供了真正的實用性和貢獻。
以深度神經網絡作為函數逼近器的符號回歸
由于Cybenko和Hornik在上世紀80年代末/90年代初描述和研究的通用逼近定理,可以預期具有至少一個非線性激活隱藏層的神經網絡能夠逼近任何表現良好的數學函數。
在實踐中,傾向于在更復雜的問題上使用更深層次的神經網絡獲得更好的性能。然而,原則上,需要一個隱藏層來逼近各種函數。
受物理學啟發的AI Feynman算法將通用逼近定理作為一個更復雜難題的一部分。
AI Feynman(及其繼任者AI Feynman 2.0)是由物理學家Silviu-Marian Udrescu和Max Tegmark(以及一些同事)開發的。AI Feynman利用了許多物理方程中的函數特性,例如平滑度、對稱性和組合性以及其他一些特性。
神經網絡作為函數逼近器發揮作用,學習數據集中表示的輸入-輸出變換對,并通過在相同的函數變換下生成合成數據來促進對這些特性的研究。
AI Feynman用來解決問題的函數特性在物理學方程中很常見,但并不能任意應用于所有可能的數學函數的空間。但是,它們仍然是在與現實世界相對應的各種函數中尋找的合理假設。
與前面描述的遺傳算法和模擬退火方法一樣,AI Feynman從頭開始擬合每個新數據集。不涉及泛化或預訓練,深度神經網絡僅構成一個更大的、物理信息豐富的系統中精心編排的一部分。
AI Feynman符號回歸在破譯Feynman物理學講座中的100個方程(或謎團)方面表現出色,但缺乏泛化意味著每個新數據集(對應于一個新方程)都需要大量的計算預算。
用于符號回歸的一組新的深度學習策略利用了非常成功的Transformer模型系列,最初由Vaswani等人作為自然語言模型引入。這些新方法并不完美,但使用預訓練可以在推理時節省大量計算時間。
基于自然語言模型的第一代符號回歸
鑒于基于注意力的超大型Transformer模型在計算機視覺、音頻、強化學習、推薦系統和許多其他領域(除了基于文本的自然語言處理的原始角色)的各種任務上取得了巨大成功,因此Transformer模型最終也將應用于符號回歸也就不足為奇了。
雖然數字輸入-輸出對到符號序列的領域需要一些仔細的工程,但數學表達式基于序列的性質自然適用于Transformer方法。
至關重要的是,使用Transformer生成數學表達式使他們能夠利用對數百萬個自動生成的方程的結構和數值含義進行預訓練。
這也為通過擴大規模來改進模型奠定了基礎。縮放是深度學習的主要優勢之一,其中更大的模型和更多的數據繼續提高模型性能,遠遠超出過擬合的經典統計學習限制。
縮放是Biggio等人在主題為“可縮放的神經符號回歸”的論文中提及的主要優勢,其名稱為NSRTS。NSRTS Transformer模型使用專用編碼器將每個輸入輸出對數據集轉換為一個潛在空間。編碼的潛在空間具有固定大小,而與編碼器的輸入大小無關。
NSRTS解碼器構建一個令牌序列來表示一個方程,其條件是編碼的潛在空間和到目前為止生成的符號。至關重要的是,解碼器僅輸出數字常量的占位符,但在其他方面使用與預訓練方程數據集相同的詞匯表。
NSRTS使用PyTorch和PyTorch Lightning,并擁有許可的開放源碼MIT許可證。
在生成無常數方程(稱為方程骨架)之后,NSRTS使用梯度下降來優化常數。這種方法在序列生成之上分層了一個通用優化算法,由Valipour等人同時開發的所謂的“SymbolicGPT”共享。
Valipour等人沒有像NSRTS方法中那樣使用基于注意力的編碼器。而是使用基于斯坦福點云模型PointNet的模型來生成一個固定維特征集,供Transformer解碼器用于生成方程。與NSRT一樣,Symbolic GPT使用BFGS來查找Transformer解碼器生成的方程骨架的數值常數。
基于自然語言模型的第二代符號回歸
雖然最近的一些文章描述了使用自然語言處理(NLP)Transformer來實現符號回歸的泛化和可擴展性,但上述模型并不是真正的端到端,因為它們不估計數值常數。
這可能是一個嚴重的缺陷:想象一個模型可以生成具有1000個不同頻率的正弦基的方程。使用BFGS優化每個項的系數可能會非常適合大多數輸入數據集,但實際上,它只是執行傅里葉分析的一種緩慢而迂回的方式。
就在2022年春季,第二代基于Transformer的符號回歸模型已在ArXiv上由Vastl等人在SymFormer上發布,而另一個端到端Transformer由Kamienny及其同事發布。
這些和以前基于Transformer的符號回歸模型之間的重要區別在于它們預測數字常數以及符號數學序列。
SymFormer利用雙頭Transformer解碼器來完成端到端的符號回歸。一個頭產生數學符號,第二個頭學習數值回歸任務,即估計方程中出現的數值常數。
Kamienny和Vastl的端到端模型在細節上有所不同,例如數值估計的精度,但兩組的解決方案仍然依賴于后續的優化步驟進行細化。
即便如此,根據作者的說法,它們比以前的方法具有更快的推理時間,并產生更準確的結果,產生更好的方程骨架,并為優化步驟提供了良好的起點和估計常數。
象征性回歸的時代來臨
在大多數情況下,符號回歸一直是一種精巧且計算密集型的機器學習方法,在過去十年的時間里,它得到的關注遠遠低于一般的深度學習。
這在一定程度上是由于遺傳或概率方法的“即用即失”方法,對于每個新數據集,它們必須從頭開始,這一特征與深度學習到符號回歸的中間應用(如AI Feynman)是相同的。
在符號回歸中使用Transformer作為整體組件,使得最近的模型能夠利用大規模的預訓練,從而減少推理時的能量、時間和計算硬件需求。
這一趨勢得到了進一步的擴展,新的模型可以估計數值常數和預測數學符號,從而實現更快的推理和更高的準確性。
生成符號表達式的任務反過來可以用來生成可測試的假設,這是一項非常人性化的任務,并且是科學的核心。在過去的二十年中,符號回歸的自動化方法繼續取得令人感興趣的技術進步,但真正的考驗是它們是否對從事真正科學的研究人員有用。
符號回歸開始在技術演示之外產生越來越多的可發表的科學結果。貝葉斯符號回歸方法產生了一個新的預測細胞分裂的數學模型。
另一個研究小組使用稀疏回歸模型生成了海洋湍流的合理方程,為改進多尺度氣候模型鋪平了道路。
一個將圖神經網絡和符號回歸與Eureqa的遺傳算法相結合的項目概括了描述多體引力的表達式,并從傳統的模擬器中推導出了一個描述暗物質分布的新方程。
符號回歸算法的未來發展
符號回歸正在成為科學家工具箱中的一個強大工具。基于Transformer方法的泛化、可擴展性仍然是熱門話題,還沒有滲透到一般的科學實踐中。隨著越來越多的研究人員適應和改進模型,它有望進一步推動科學發現。
這些項目中有許多是在開放源碼許可下進行的,因此可以預期它們將在幾年內產生影響,而且它們的應用可能比Eureqa和TuringBot等專有軟件更廣泛。
符號回歸是對深度學習模型輸出的一種自然補充,深度學習模型的輸出往往神秘且難以解釋,而數學語言中更易于理解的輸出可以幫助產生新的可驗證假設,并推動直觀的飛躍。
這些特征和最新一代符號回歸算法的直接能力有望為獲得重大發現的時刻提供更多的機會。