超級新星降臨:Arcee AI發布SuperNova-Medius,14億參數的小模型,大作為! 原創
01 引言
在人工智能(AI)的世界里,大型語言模型已經成為解決復雜任務、提升決策過程的重要工具。但這些模型的擴展也帶來了高計算成本、低可訪問性和環境影響等挑戰。Arcee AI直面這些挑戰,推出了SuperNova-Medius——一款旨在保持大型模型高質量輸出的同時,克服其局限性的小語言模型。
02 SuperNova-Medius
SuperNova-Medius是一款14億參數的小語言模型,它顛覆了傳統AI模型中大小與性能的關系。它在保持相對較小的模型大小的同時,力求與擁有高達700億參數的大型模型相媲美。通過整合突破性的優化技術和創新的架構設計,SuperNova-Medius為如何在確保小型組織也能利用AI潛力的同時,設計出適用于現實世界的語言模型提供了新視角。
03 技術亮點與訓練過程
SuperNova-Medius基于優化的Transformer架構,結合先進的量化方法,保持了驚人的準確性和效率。其開發涉及復雜的多logits、跨架構蒸餾過程,包括以下幾個關鍵步驟:
- 從Llama 3.1 405B的Logit蒸餾:使用離線方法蒸餾Llama 3.1 405B的logits,存儲每個token的頂部K個logits,以捕獲大部分概率質量,同時管理存儲需求。
- 跨架構適應:使用mergekit-tokensurgeon,創建了一個使用Llama 3.1 405B詞匯表的Qwen2.5-14B版本,這允許在訓練基于Qwen的模型時使用Llama 3.1 405B的logits。
- 蒸餾到Qwen架構:使用存儲的405B logits作為目標,訓練適應后的Qwen2.5-14B模型。
- 并行Qwen蒸餾:在另一個過程中,將Qwen2-72B蒸餾成14B模型。
- 最終融合和微調:將Llama蒸餾的Qwen模型的詞匯表恢復為Qwen詞匯表。在重新對齊詞匯表后,使用EvolKit的專業數據集進行最終融合和微調,確保SuperNova-Medius在廣泛的任務中保持連貫性、流暢性和上下文理解。
04 性能表現與應用場景
盡管SuperNova-Medius模型小,但SuperNova-Medius使用多樣和廣泛的數據集進行了廣泛的微調,涵蓋了多個領域和語言。這種廣泛的訓練使SuperNova-Medius能夠展現出對上下文的強大理解,生成連貫的響應,并有效地執行復雜的推理任務。此外,通過采用參數共享的創新和利用稀疏策略,該模型提供了與參數數量高得多的模型相當的結果。
SuperNova-Medius在指令遵循(IFEval)和復雜推理任務(BBH)方面表現出色,超越了Qwen2.5-14B和SuperNova-Lite等多個基準。這使其成為高質量生成性AI應用的強大、高效的解決方案。
05 結論
SuperNova-Medius是Arcee AI致力于推動語言模型可能性的證明,同時使高級AI更加包容和可持續。通過成功地減小模型大小而不犧牲性能,Arcee AI提供了一個解決方案,滿足從初創公司和小型企業到教育機構等不同行業的需求。隨著AI繼續塑造我們的未來,像SuperNova-Medius這樣的創新對于確保所有人均能獲得先進的機器學習技術的好處至關重要,為全球AI的更公平和有影響力的應用鋪平了道路。
參考:
- ??https://huggingface.co/arcee-ai/SuperNova-Medius??
- ??https://blog.arcee.ai/introducing-arcee-supernova-medius-a-14b-model-that-rivals-a-70b-2/??
本文轉載自公眾號Halo咯咯 作者:基咯咯
