成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產(chǎn)大模型競技場首超GPT-4o!零一萬物GLM共同躋身Top10

人工智能
就在剛剛,“大模型六小強”之一的零一萬物正式對外發(fā)布新旗艦模型——Yi-Lightning(閃電)。在大模型競技場(Chatbot Arena)上,Yi-Lightning性能直沖總榜單并列第6,數(shù)學分榜并列第3,代碼等其它分榜也名列前茅。

國產(chǎn)大模型首次在公開榜單上超過GPT-4o!

就在剛剛,“大模型六小強”之一的零一萬物正式對外發(fā)布新旗艦模型——Yi-Lightning(閃電)。

在大模型競技場(Chatbot Arena)上,Yi-Lightning性能直沖總榜單并列第6,數(shù)學分榜并列第3,代碼等其它分榜也名列前茅。

總成績幾乎與馬斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等頂流。

圖片

同時,國內(nèi)清華系大模型公司智譜AI的GLM-4-Plus也殺進了總榜,位居第9位。

該榜單結(jié)果來自全球累積超千萬次的人類用戶盲測投票。

前段時間大模型競技場還剛剛更新了規(guī)則,新榜單對AI回答的長度和風格等特征做了降權處理,分數(shù)更能反映模型真正解決問題的能力。

這次Yi-Lightning殺出重圍,Lmsys團隊特意發(fā)帖子,稱這是競技場上的大新聞:

圖片

大模型競技場總榜第六、國產(chǎn)第一

細看大模型競技場分類榜上的“賽況”,Yi-Lightning各項能力都排在前頭。

中文能力上,Yi-Lightning和GLM-4-Plus兩個國產(chǎn)大模型都名列前位。

Yi-Lightning躍居并列第二,和o1-mini相差無幾。

圖片

數(shù)學能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,僅次于o1-preview、o1-mini。

圖片

代碼能力Yi-Lightning排名并列第4。

圖片

另外在Hard Prompts和Longer Query分榜,Yi-Lightning也都排在第4位。

圖片
圖片

最后同樣值得關注的是,競技場新功能風格控制過濾,確保分數(shù)反映模型真正解決問題的能力,而不是用漂亮的格式、增加回答長度。

在對長度和風格等特征做了降權處理后,所有模型分數(shù)均有下降,Yi-Lightning排名變化不大,整體還與GPT-4o、Grok-2同一梯隊。

圖片

發(fā)布會上,零一萬物創(chuàng)始人兼CEO李開復博士展示了Yi-Lightning在不同場景上的能力。

Yi-Lightning主打一個“推理速度更快,生成質(zhì)量更好”。

相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。

像是翻譯下面這種文學作品,Yi-Lightning不僅速度更快:

圖片

而且用詞更精準,更具文學色彩:

圖片

那么Yi-Lightning是如何做到的?

好用還得極速

Yi-Lightning采用MoE混合專家模型架構(gòu)。

底層技術上,Yi-Lightning在以下方面進行了提升。

圖片

首先是優(yōu)化混合注意力機制(Hybrid Attention),只在模型的部分層次中將傳統(tǒng)的全注意力(Full Attention)替換為滑動窗口注意力(Sliding Window Attention)。

由此以來,模型在保證處理長序列數(shù)據(jù)高性能表現(xiàn)的同時,還能大大降低推理成本。

Yi-Lightning還引入了跨層注意力(Cross-Layer Attention, CLA),允許模型在不同的層次之間共享鍵(Key)和值(Value)頭,減少對存儲需求。

這使得Yi-Lightning能在不同層次之間更有效地共享信息。

總的來說,KV cache縮小了2-4倍,同時將計算的復雜度從O(L2)降至O(L)。

其次,Yi-Lightning還采用了動態(tài)Top-P路由機制。

也就是說,Yi-Lightning可以根據(jù)任務的難度動態(tài)自動選擇最合適的專家網(wǎng)絡組合——

訓練過程中會激活所有專家網(wǎng)絡,使模型能學習到所有專家知識;而推理階段,根據(jù)任務的難度,模型會選擇性激活更匹配的專家網(wǎng)絡。

另外,之前有一些傳言稱國內(nèi)大模型“六小強”,有一些已經(jīng)不做預訓練了,李開復博士這次在發(fā)布會上直接“辟謠”:

零一萬物絕不放棄預訓練。

而且在模型預訓練階段,團隊還積累了豐富的多階段訓練方法,將整個訓練分為兩塊,一塊做好以后就把它固定起來,然后在這個固定的模型上再做后段訓練。

訓練前期,更注重數(shù)據(jù)多樣性,使得Yi-Lightning盡可能學習不同的知識;訓練后期更重內(nèi)容更豐富、知識性更強的數(shù)據(jù)。

同時團隊還在不同階段采用不同的batch size和LR schedule保證訓練速度和穩(wěn)定性。

李開復博士還表示,零一萬物開發(fā)模型講究“模基共建”,也就是共建模型和基礎架構(gòu)。

模型的訓練、服務、推理設計,與底層的AIInfra架構(gòu)和模型結(jié)構(gòu)必須高度適配。

這樣做的目的,不僅是讓模型更好,而且讓它在推理的時候能夠更便宜。

再加上以上種種抬升“性價比”的技術加持,所以Yi-Lightning這次也是打到了白菜價——

0.99元每1M token

在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定價是每百萬輸入3美元,每百萬輸出12美元。

Yi-Lightning每百萬token只需0.99RMB也是打到了骨折。

但李開復博士表示,即便這樣也:不虧錢。

圖片

除了發(fā)布新模型,零一萬物這次還首發(fā)了AI2.0數(shù)字人方案。

圖片

目前該數(shù)字人已接入Yi-Lightning,實時互動效果相比以往更強更自然了,belike:

最后談起和國外頭部大模型的差距,李開復博士表示這次Yi-Lightning的排名證明了國產(chǎn)大模型跟硅谷最頂尖模型的差距縮小到了五個月。

去跟追上美國最頂尖的模型,縮短這個時間差非常困難,要付出很大的努力和有獨特的打法。在國內(nèi)不少公司都在努力,“模基共建”則是零一萬物自己摸索的獨特路徑。

參考鏈接:
[1]https://x.com/lmarena_ai/status/1846245604890116457

責任編輯:姜華 來源: 量子位
相關推薦

2025-02-17 12:24:43

2024-07-24 12:40:44

2024-05-31 14:23:15

2025-03-13 06:34:49

2024-09-02 08:30:00

大模型AI

2024-07-29 15:37:17

AI訓練

2025-02-18 15:09:07

2025-02-06 12:10:00

2024-04-22 08:40:00

LLM模型開源

2024-05-24 14:04:04

2024-04-10 12:35:50

2012-05-31 14:20:14

2024-12-31 12:35:46

2024-03-27 15:37:24

2024-06-05 13:09:26

2024-11-21 12:09:26

2024-08-09 12:50:02

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-06-24 18:15:22

2024-03-08 13:02:56

Claude 3GPT-4Opus
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产亚韩 | 国产精品福利网 | 国产日韩欧美一区二区 | 久草视频观看 | 国产一区二区三区四区 | 91在线中文字幕 | 国产综合久久久久久鬼色 | 武道仙尊动漫在线观看 | 日韩a在线观看 | 夜夜操操操 | 久久噜噜噜精品国产亚洲综合 | 国产二区av | 国产视频福利 | 欧美激情一区二区三区 | 性国产xxxx乳高跟 | 中文字幕久久精品 | www.4虎影院 国产999精品久久久影片官网 | 国产成人区 | 中文在线一区二区 | 久热久草 | 国产精品久久久久久久久久久久 | 久久婷婷国产 | 久久久久久久久久久久91 | 日韩精品一二三 | 九九综合| 中文字幕 在线观看 | 亚洲精品免费视频 | 欧美手机在线 | av网址在线 | 日日干综合| 久久综合伊人一区二区三 | 国产精品a级 | 亚洲一区二区三区在线播放 | 精品伊人 | 亚洲成人中文字幕 | 久久天堂网 | 国产在线精品一区二区 | 国产精品久久久久久久久久尿 | 免费av直接看 | 亚洲成人精品影院 | 四虎av电影 |