開源DeepSeek R1增強版:推理效率快200%,創新AoE架構
德國知名技術咨詢公司TNG開源了DeepSeek R1的增強版DeepSeek-TNG-R1T2-Chimera。
Chimera是基于DeepSeek的R1-0528、R1和V3-0324三大模型混合開發而成,同時采用了一種全新的AoE架構。這種架構在提升性能的同時,還能加快模型的推理效率并節省token輸出。
根據測試數據顯示,Chimera版本的推理效率比R1-0528版本快200%,而推理成本卻大幅度減少。在MTBench、AIME-2024等主流測試基準中,Chimera比普通R1性能更好。
開源地址: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
在深入了解AoE架構之前,我們先簡單介紹一下混合專家(MoE)架構。MoE架構的核心是將Transformer的前饋層劃分為多個“專家”,每個輸入標記僅路由到這些專家的一個子集。這種架構在效率和性能方面都取得了顯著的成果。
例如,Mistral在2023年發布的Mixtral-8x7B模型,盡管其在推理過程中激活的參數數量僅為13億,卻與擁有700億參數的LLaMA-2-70B模型性能相當,且推理效率提高了6倍。
AoE架構的核心則是利用MoE的細粒度結構,通過線性時間復雜度從現有的混合專家父模型中構建出具有特定能力的子模型。
通過插值和選擇性合并父模型的權重張量,生成新的模型變體,這些變體不僅繼承了父模型的優良特性,還能夠根據需要調整其行為表現。
AoE方法的起點是選擇一組具有相同架構的模型,這些模型通常是通過對一個預訓練模型進行微調得到的。研究者們選擇了DeepSeek-V3-0324和DeepSeek-R1作為父模型。這兩個模型都基于DeepSeek-V3架構,但經過不同的微調,分別在推理能力和指令遵循能力上表現出色。
為了構建新的子模型,研究者們首先需要準備這些父模型的權重張量。這些權重張量存儲在模型的權重文件中,通過解析這些文件,可以直接訪問和操作這些張量。
在準備好了父模型的權重張量之后,下一步是進行權重張量的插值與合并。這是AoE方法的核心步驟,通過這個步驟,研究者們可以生成具有不同特性的子模型。
研究者們定義了一個權重系數λi,用于控制每個父模型在合并過程中的貢獻。在大多數情況下,這些權重系數是凸組合,即滿足λi≥0且所有權重系數之和為1。這種設置允許研究者們在不同的父模型之間平滑地插值,生成一系列中間模型。
為了進一步優化合并過程,研究者們引入了閾值控制和差異篩選機制。這種方法的核心思想是,只有當某個張量在不同父模型之間存在顯著差異時,才將其納入合并范圍。研究者們定義了一個閾值δ,只有當某個張量與基礎模型之間的差異超過該閾值時,才會將其納入合并范圍。這種方法有效地避免了合并無關緊要的差異,從而減少了模型的復雜度和計算成本。
在MoE架構中,路由專家張量起著至關重要的作用。這些張量決定了每個輸入標記在推理過程中被路由到哪些專家模塊。在AoE方法中,研究者們特別關注了路由專家張量的處理。他們發現,通過合并不同父模型的路由專家張量,可以顯著提升子模型的推理能力。
因此,在構建子模型時,研究者們不僅合并了父模型的權重張量,還特別關注了路由專家張量的合并。這種特殊處理使得子模型能夠繼承父模型的推理能力,同時保持高效的計算性能。
在確定了要合并的張量和權重系數之后,研究者們使用PyTorch框架實現了模型的合并。通過迭代訪問父模型的權重文件中的每個張量對象,根據定義的權重系數和閾值,計算合并后的張量值。
這些合并后的張量值被保存到新的權重文件中,從而生成了新的子模型。這個過程不僅高效,而且可以靈活地調整合并策略,以生成具有不同特性的子模型。