小紅書開源首個 AI 文本大模型:11.2T 精煉語料吊打海量數據,證明“大模型≠大數據”
近日,在中文開源大模型愈發稀缺的背景下,小紅書旗下 hi lab 公布了中等規模的 MoE 模型 dots.llm1,以 1420 億總參數、每次僅激活 140 億參數的設計,達成與 Qwen2.5-72B 相近的性能,吸引了社區的關注。
圖片
據悉,dots.llm1 是一個 Mixture of Experts(MoE)結構的語言模型。盡管總參數規模達 142B,但在每次推理中只激活 14B,有效控制了計算開銷。這種“低激活、高表現”的設計理念,是對 MoE 架構效率潛力的一種驗證。
圖片
它采用 6in128 的專家配置,并配有兩個共享 Expert,在架構選擇上參考了 DeepSeek 系列;訓練策略上,則使用穩定的 WSD 學習率調度,先維持高學習率跑 10T token,再通過兩輪退火調整,分別聚焦知識強化與數學代碼領域。
在訓練效率方面,hi lab 聯合 NVIDIA 中國團隊對 Megatron-LM 進行了底層優化:使用 Interleaved 1F1B + A2A overlap 的并行策略,讓計算覆蓋通信時間;同時,在 Grouped GEMM 的實現上做了調度層面改造,使 warpgroup 中專家的 token 分布更規整,最終實現前向階段提速 14%、反向階段提速近 7%。
這些看似技術細節的改動,其實是讓 MoE 模型從“概念驗證”邁向“工程可行”的關鍵步驟。
重點不在數據量,而在數據質量
圖片
相比動輒幾十萬億 token 的訓練數據,dots.llm1 用了 11.2T 的“高質量 token”達成對比模型效果,在數據選擇上更傾向“精挑細選”而非“海量堆積”。
hi lab 的數據來源主要是 Common Crawl 和自主抓取的 Spider Web 數據,團隊在清洗流程中融入了多層判別機制。例如,對網頁正文提取使用 trafilatura 的改進版本,文檔去重采用 minhash 結合行級分析,避免重復和冗余內容。對網頁首尾常見的噪聲句子,比如導航欄、版權信息等,還專門設計了“行級過濾”策略。
更進一步,hi lab 還通過語義質量分類器和 200 類別的數據平衡模型,對語料的類型結構做出篩選,提升知識類文本占比,降低虛構小說、電商數據等結構化內容的比例。在 PII 和內容安全方面,也引入模型輔助標注和人工審核,確保安全底線。
這些多層次的處理流程,是 dots.llm1 能以中等體量模型取得對標性能的重要原因之一。
一次盡量完整的開源嘗試
圖片
與當前很多國產大模型“僅開放模型權重”不同,hi lab 嘗試將 dots.llm1 開源做到相對完整。他們不僅放出了 final instruct 模型,還包含從預訓練初期開始、每 1T token 存儲的中間 checkpoint,覆蓋多個 base 模型、退火階段模型、超參數和 batch size 配置等。
此外,團隊還開源了數學與代碼領域微調中使用的規則與驗證機制。這種全流程的開放做法,不僅便于其他開發者繼續預訓練或微調,也為研究人員觀察模型學習路徑、分析訓練動態提供了更多可能。
開源的基礎上,hi lab 明確表示歡迎社區在 dots.llm1 上進行二次開發或任務定制,如長文場景訓練、指令微調或繼續預訓練,并希望此舉能為中文大模型社區提供一種新范式。
最后,hi lab 是小紅書內部較早布局 AI 的團隊,強調“人文智能”愿景,關注 AI 與用戶之間的交互關系。團隊成員多來自技術背景較強的公司,在工程效率、數據安全和復現性方面有較明確傾向。
github: https://github.com/rednote-hilab/dots.llm1
huggingface:https://huggingface.co/collections/rednote-hilab/dotsllm1-68246aaaaba3363374a8aa7c
小紅書:https://www.xiaohongshu.com/user/profile/683ffe42000000001d021a4c