80億參數的MiniCPM4：為邊緣AI量身定制的高效語言模型原創精華

發布于 2025-6-20 06:29

瀏覽

0收藏

在當今數字化時代，語言模型已經成為人工智能系統的核心組件，廣泛應用于多語言翻譯、虛擬助手和自動化推理等任務。然而，這些功能強大的模型通常需要強大的云端基礎設施來支持其訓練和推理過程。這種依賴不僅會導致延遲和高昂的成本，還會引發隱私問題，限制了它們在資源受限的邊緣設備上的部署。例如，像GPT和LLaMA這樣擁有數十億參數的模型，由于其龐大的體積和復雜的訓練推理過程，無法在本地硬件上高效運行。它們對大規模數據集和高性能GPU的依賴，使得它們在移動或嵌入式環境中顯得格格不入。為了克服這些挑戰，開發能夠在本地高效運行且不犧牲推理和上下文處理能力的輕量級高效模型，已經成為當務之急。

現有解決方案的局限性

為了應對這些挑戰，人們已經探索了多種方法。例如，稀疏注意力機制（如NSA和MoBA）旨在減少內存消耗，但它們要么在解碼效率上不盡如人意，要么引入了顯著的架構開銷。在數據處理方面，以往的方法依賴于大規模網絡爬取，導致數據集噪聲大且結構松散。過濾方法包括使用fastText分類器和人工篩選，但這些方法要么缺乏深度，要么難以擴展。在訓練方面，像StepLaw這樣的框架雖然可以根據可預測的擴展規律優化超參數，但往往需要大量的實驗和GPU計算周期，這無疑為入門設置了障礙。在推理優化方面，FlashAttention等技術雖然降低了計算復雜度，但仍未能達到邊緣設備實時應用所需的速度。

MiniCPM4：高效架構、數據和推理的結合

在這種背景下，OpenBMB的研究人員推出了MiniCPM4，這是一套專為設備端部署而設計的高效大型語言模型。該模型包括兩個版本：一個擁有5億參數，另一個擁有80億參數。MiniCPM4在模型架構、訓練數據、訓練算法和推理系統四個核心維度上進行了改進。在架構方面，團隊引入了InfLLM v2，這是一種稀疏注意力機制，能夠在不犧牲上下文理解的情況下加速預填充和解碼過程。在數據方面，UltraClean被用于生成和篩選訓練數據集，使得模型僅需使用8萬億訓練標記，相較于Qwen3-8B等競爭模型所需的36萬億標記，大大減少了數據量。ModelTunnel v2指導了訓練過程，通過高效的超參數調整，而CPM.cu則負責處理推理任務，實現了平臺無關的CUDA基礎執行。

80億參數的MiniCPM4：為邊緣AI量身定制的高效語言模型-AI.x社區

MiniCPM4的技術創新

MiniCPM4的技術棧旨在在性能和資源利用之間取得平衡。InfLLM v2將鍵值緩存劃分為塊，并使用語義內核選擇最相關的K個塊進行注意力計算，與NSA相比，注意力計算減少了60%。其動態上下文塊選擇和基于標記的查詢組處理使其能夠支持長達128K標記的序列，同時保持速度和連貫性。UltraClean依賴于高效的數據驗證，利用預訓練的LLM和基于退火的微調，在100億標記上進行訓練。這使得其生成的高質量數據集UltraFineWeb（英文）和UltraFineWeb-zh（中文）在平均基準性能上分別超過了FineWeb 3.61和1.98個百分點。UltraChat v2進一步通過生成富有推理能力的多輪對話來支持訓練后微調。

80億參數的MiniCPM4：為邊緣AI量身定制的高效語言模型-AI.x社區

基準性能和速度提升

在原始性能方面，80億參數版本的MiniCPM4在MMLU測試中得分為32.24%，超過了FineWeb（28.84%）和FineWeb-edu（31.80%）。在ARC-C和ARC-E測試中，其得分分別為35.67%和70.62%，均超過了競爭數據集超過10個百分點。與Qwen3-8B相比，MiniCPM4僅使用了22%的訓練數據，但在處理128K長度文檔時，其在邊緣端GPU（如Jetson AGX Orin和RTX 4090）上的推理速度提高了7倍。對于長上下文輸入，平均解碼速度超過了每秒200個標記，而對于較短序列，架構則優雅地退化為密集注意力。此外，BitCPM4啟用了量化感知訓練，使得模型能夠在內存限制更嚴格的設備上部署，而不會損失性能保真度。

80億參數的MiniCPM4：為邊緣AI量身定制的高效語言模型-AI.x社區

MiniCPM4的關鍵要點

MiniCPM4提供5億和80億參數兩種版本，專為邊緣設備優化。
它僅使用了8萬億訓練標記，而Qwen3-8B則使用了36萬億。
在處理128K長度文檔時，其速度比Qwen3-8B快7倍。
InfLLM v2通過塊級注意力將注意力計算成本降低了60%。
UltraFineWeb在英文基準測試中比FineWeb高出3.61%，中文基準測試高出1.98%。
在ARC-C上達到35.67%，在ARC-E上達到70.62%，在MMLU上達到32.24%，均超過了之前的數據集。
BitCPM4使得三元LLM適合于極其受限的硬件。
CPM.cu推理系統結合了CUDA優化和推測性采樣。
UltraChat v2通過生成推理密集型對話來增強微調。
ModelTunnel v2使用ScalingBench進行精確的超參數調整，提高了訓練效率。

結論：為邊緣AI應用打造高效的LLM

總之，MiniCPM4團隊采取的全面方法解決了當前LLM的所有關鍵低效問題。通過引入新的架構、訓練和部署策略，該模型在保持高質量響應的同時，支持長上下文理解，并在邊緣約束下表現良好。這項工作的成功不僅體現在原始指標上，還證明了在云端之外實現最先進的性能是可能的。它為新的應用領域鋪平了道路，例如安全離線助手、實時移動AI和自主嵌入式系統，而無需傳統的計算負擔。

本文轉載自??Halo咯咯?? 作者：基咯咯

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

邊緣AI

MiniCPM4

LLM

已于2025-6-20 06:29:57修改

贊

回復