大模型變天,Transformer架構要被取代?
近日,由麻省理工學院孵化的AI初創企業Liquid?AI正式推出其三款全新的“液態基礎模型”(Liquid?Foundation?Model,LFM),分別為專為資源受限環境設計的LFM?1.3B、面向邊緣部署的LFM?3B,以及部署在云服務器上以處理復雜用例的LFM?40B?MoE。
事實上,LFM?1.3B在多個基準測試中表現出色,性能超越過同等規模Llama3.2等基于Transformer架構的模型,LFM?3B可以與更大規模的模型進行競爭,展示了出色的可擴展性和靈活性,LFM?40B能夠在保持性能與效率平衡的同時,超越規模更大的模型。
LFM背后的框架
據Liquid?AI介紹,LFM兼顧性能和效率。簡單來說,就是可以在使用最少的系統內存的同時提供卓越的計算能力。
據了解,LFM基于動態系統、數值線性代數和信號處理,非常適合處理各種類型的序列數據,包括文本、音頻、圖像、視頻和信號。實際上,Liquid?AI首次引起關注是在去年12月份,當時該公司籌集了3760萬美元的種子輪融資,由多家風險投資公司和知名天使投資人參與,估值達到3.03億美元。
Liquid?AI解釋稱,LFM基于一種液態神經網絡(Liquid?Neural?Net,LNN),從第一性原理出發而構建,其計算單元植根于動態系統理論、信號處理和數值線性代數,最初在麻省理工學院的計算機科學與人工智能實驗室開發。
相較于傳統深度學習模型需要數千個神經元來執行計算任務不同,LNN可以用更少的神經元實現相同的效果。LNN通過將這些神經元與創新的數學公式相結合來實現這一目標,使其能夠用更少的資源做更多的事情。
值得一提的是,LNN在涉及連續順序數據的用例中表現出色,具體來看:
第一,時間序列數據處理與預測。研究人員在對時間序列數據進行建模時面臨著一些挑戰,包括時間依賴性、非平穩性和時間序列數據中的噪聲。
LNN是專門為時間序列數據處理和預測而構建的。根據麻省理工學院計算機科學和人工智能實驗室(CSAIL)博士后哈薩尼(Hasani)的說法,時間序列數據無處不在,是幫助我們了解世界的重要參考。“現實世界完全由序列組成。即使是我們的感知,也是如此——你不是在感知圖像,你是在感知一系列圖像。”
第二,圖像和視頻處理。LNN可以執行圖像處理和基于視覺的任務,如目標跟蹤、圖像分割和識別。它們的動態特性使它們能夠根據環境的復雜性、模式和時間動態不斷改進。
例如,麻省理工學院的研究人員發現,無人機可以通過一個20,000參數的小型LNN模型進行引導,該模型在導航以前看不見的環境方面比其他神經網絡表現更好。這些出色的導航能力可用于制造更精確的自動駕駛汽車。
第三,自然語言理解。由于其適應性、實時學習能力和動態拓撲結構,LNN非常擅長理解自然語言文本序列。
以情感分析為例,這是一項旨在理解文本背后潛在情感的自然語言處理(NLP)任務。LNN從實時數據中學習的能力有助于他們分析不斷發展的方言和新短語,從而進行更準確的情感分析。類似的功能在機器翻譯中也很有用。
挑戰同樣存在
不過,需要指出的是,盡管LNN具有許多優勢,但同樣面臨一些約束和挑戰。
第一,消失梯度問題。像其他時間連續模型一樣,LNN在通過梯度下降訓練時可能會遇到消失梯度問題。在深度神經網絡中,當用于更新神經網絡權重的梯度變得極小時,就會發生消失梯度問題。這個問題會阻礙神經網絡達到最優權重,從而限制了它們有效學習長期依賴關系的能力。
第二,參數調優。和其他神經網絡一樣,LNN也涉及參數調優的挑戰。對于LNN而言,參數調優既耗時又成本高昂。LNN有多個參數,包括常微分方程(ODE)求解器的選擇、正則化參數以及網絡架構,這些都必須進行調整以實現最佳性能。
找到合適的參數設置通常需要迭代過程,這需要時間。如果參數調整效率低下或不正確完成,可能導致網絡響應不佳和性能降低。
第三,文獻資料匱乏。關于LNN的實施、應用和優勢的文獻資料有限。研究不足使得理解LNN的最大潛力和局限性變得具有挑戰性,所以不如Transformer那樣廣為人知。
相信隨著更多關于LNN的研究和開發工作的進行,未來會有新的方法和技術出現,以克服當前所面臨的一些局限性,并進一步提高這類模型的可用性。
寫在最后
總的來說,Liquid?AI推出的LFM代表了AI領域的一種創新嘗試,它結合了動態系統理論和信號處理技術,旨在為邊緣計算和云計算環境提供高效的解決方案。然而,要讓這種新模型成為主流,還需要克服一系列的技術障礙,并通過持續研究和發展來完善其理論基礎和實踐應用。