成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!

發布于 2025-2-25 12:49
瀏覽
0收藏

言簡意賅,發現月之暗面開源MoE模型,總參數量15.29B,激活參數2.24B,使用Muon優化器,在5.7T Tokens的訓練數據下,拿到了很好的效果。

Github:https://github.com/MoonshotAI/Moonlight

HF:https://huggingface.co/moonshotai/Moonlight-16B-A3B

Paper:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

效果如下:

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

比較 Muon 和 Adam 的擴展定律實驗,發現Muon 的樣本效率比 Adam 高 2 倍。

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

Muon 優化器原理如下:

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

同時,Moonlight-16B-A3B的模型架構與DeepSeek-V3一致。

HF快速使用:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

messages = [
    {"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
    {"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

本文轉載自??NLP工作站??,作者: 劉聰NLP 


已于2025-2-25 13:57:45修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线免费黄色小视频 | 中文字幕欧美一区二区 | 国产美女在线观看 | 欧美影院 | 欧美午夜精品理论片a级按摩 | 婷婷不卡 | 精品亚洲永久免费精品 | 欧美日韩在线精品 | 欧美精品综合 | 亚洲国产高清高潮精品美女 | 在线免费看黄 | 中文字幕国产一区 | 野狼在线社区2017入口 | 亚洲欧美一区二区三区国产精品 | 国产欧美精品在线观看 | 亚洲欧美日韩中文在线 | 国产激情一区二区三区 | 日韩精品一区二区三区在线播放 | 久久久精 | 一级免费毛片 | 亚洲综合视频 | 午夜免费电影院 | 亚洲国产欧美国产综合一区 | a级在线观看 | 日韩午夜精品 | 美女一区 | 天天干天天爱天天 | 欧美日韩一区二区在线 | 日韩av在线一区二区 | 日韩精品色网 | 久久天天躁狠狠躁夜夜躁2014 | 精品欧美一区二区三区久久久 | 久久一区二区三区四区 | 成年人免费看的视频 | 亚洲日日 | 一区二区三区中文字幕 | 国产久| 婷婷精品 | 久久久精品综合 | 久久在线 | 可以免费看的毛片 |