成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<pre id="0yum4"></pre>

<abbr id="0yum4"></abbr>

<button id="0yum4"><menu id="0yum4"></menu></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

小紅書開源首個 AI 文本大模型：11.2T 精煉語料吊打海量數據，證明“大模型≠大數據”

2025-06-11 14:44:48

dots.llm1 是一個 Mixture of Experts（MoE）結構的語言模型。盡管總參數規模達 142B，但在每次推理中只激活 14B，有效控制了計算開銷。這種“低激活、高表現”的設計理念，是對 MoE 架構效率潛力的一種驗證。

近日，在中文開源大模型愈發稀缺的背景下，小紅書旗下 hi lab 公布了中等規模的 MoE 模型 dots.llm1，以 1420 億總參數、每次僅激活 140 億參數的設計，達成與 Qwen2.5-72B 相近的性能，吸引了社區的關注。

圖片

據悉，dots.llm1 是一個 Mixture of Experts（MoE）結構的語言模型。盡管總參數規模達 142B，但在每次推理中只激活 14B，有效控制了計算開銷。這種“低激活、高表現”的設計理念，是對 MoE 架構效率潛力的一種驗證。

圖片

它采用 6in128 的專家配置，并配有兩個共享 Expert，在架構選擇上參考了 DeepSeek 系列；訓練策略上，則使用穩定的 WSD 學習率調度，先維持高學習率跑 10T token，再通過兩輪退火調整，分別聚焦知識強化與數學代碼領域。

在訓練效率方面，hi lab 聯合 NVIDIA 中國團隊對 Megatron-LM 進行了底層優化：使用 Interleaved 1F1B + A2A overlap 的并行策略，讓計算覆蓋通信時間；同時，在 Grouped GEMM 的實現上做了調度層面改造，使 warpgroup 中專家的 token 分布更規整，最終實現前向階段提速 14%、反向階段提速近 7%。

這些看似技術細節的改動，其實是讓 MoE 模型從“概念驗證”邁向“工程可行”的關鍵步驟。

重點不在數據量，而在數據質量

圖片

相比動輒幾十萬億 token 的訓練數據，dots.llm1 用了 11.2T 的“高質量 token”達成對比模型效果，在數據選擇上更傾向“精挑細選”而非“海量堆積”。

hi lab 的數據來源主要是 Common Crawl 和自主抓取的 Spider Web 數據，團隊在清洗流程中融入了多層判別機制。例如，對網頁正文提取使用 trafilatura 的改進版本，文檔去重采用 minhash 結合行級分析，避免重復和冗余內容。對網頁首尾常見的噪聲句子，比如導航欄、版權信息等，還專門設計了“行級過濾”策略。

更進一步，hi lab 還通過語義質量分類器和 200 類別的數據平衡模型，對語料的類型結構做出篩選，提升知識類文本占比，降低虛構小說、電商數據等結構化內容的比例。在 PII 和內容安全方面，也引入模型輔助標注和人工審核，確保安全底線。

這些多層次的處理流程，是 dots.llm1 能以中等體量模型取得對標性能的重要原因之一。

一次盡量完整的開源嘗試

圖片

與當前很多國產大模型“僅開放模型權重”不同，hi lab 嘗試將 dots.llm1 開源做到相對完整。他們不僅放出了 final instruct 模型，還包含從預訓練初期開始、每 1T token 存儲的中間 checkpoint，覆蓋多個 base 模型、退火階段模型、超參數和 batch size 配置等。

此外，團隊還開源了數學與代碼領域微調中使用的規則與驗證機制。這種全流程的開放做法，不僅便于其他開發者繼續預訓練或微調，也為研究人員觀察模型學習路徑、分析訓練動態提供了更多可能。

開源的基礎上，hi lab 明確表示歡迎社區在 dots.llm1 上進行二次開發或任務定制，如長文場景訓練、指令微調或繼續預訓練，并希望此舉能為中文大模型社區提供一種新范式。

最后，hi lab 是小紅書內部較早布局 AI 的團隊，強調“人文智能”愿景，關注 AI 與用戶之間的交互關系。團隊成員多來自技術背景較強的公司，在工程效率、數據安全和復現性方面有較明確傾向。

github: https://github.com/rednote-hilab/dots.llm1

huggingface:https://huggingface.co/collections/rednote-hilab/dotsllm1-68246aaaaba3363374a8aa7c

小紅書：https://www.xiaohongshu.com/user/profile/683ffe42000000001d021a4c

責任編輯：武曉燕來源：大數據文摘

AI 文本大模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： 91麻豆精品国产91久久久更新资源速度超快 | 精品国产一区三区 | 国产精品精品视频一区二区三区 | 人妖videosex高潮另类 | 91视频免费| 国产人成精品一区二区三 | 人人干人人玩 | 九九免费观看视频 | 日韩精品久久久久 | 精品日本久久久久久久久久 | 日韩精品一区二区三区在线观看 | 精品久久久久香蕉网 | 欧美视频免费在线 | 中国大陆高清aⅴ毛片 | 午夜成人在线视频 | 国产第1页| 久久丝袜 | 免费性视频 | 精品久久一区 | 亚洲网址 | 国产精品成人一区二区 | 国产一区二区三区免费 | 欧美在线观看一区 | 日韩无 | 国产黄色大片 | a级毛片免费高清视频 | 久久久精品一区二区三区四季av | 国产精品欧美精品日韩精品 | 精品91久久| 九色国产 | 亚洲精选一区二区 | 久热精品在线观看视频 | 夜夜骚视频 | 高清国产一区二区 | 国产永久免费 | 国产亚洲精品精品国产亚洲综合 | 欧美性大战xxxxx久久久 | 久久久久久九九九九九九 | 亚洲欧洲一区 | a级毛片国产 | 久久精品亚洲成在人线av网址 |

<bdo id="c4k24"></bdo>

<abbr id="c4k24"></abbr>

<s id="c4k24"></s>