成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬斯克燒60億美元難題,國內大廠有解?開源MoE模算效率黑馬登場,3.7B參數單挑Llama 3-70B

人工智能 新聞
馬斯克最近哭窮表示,xAI需要部署10萬個H100才能訓出Grok 3,影響全球的大模型算力荒怎么解?昨天開源的這款MoE大模型,只用了1/19算力、1/19激活參數,性能就直接全面對標Llama 3-70B!

如今,想訓個SOTA的大模型,不僅缺數據和算力,甚至連電都不夠用了。

最近馬斯克就公開表示,因為苦于買不到足夠的芯片,xAI只能推遲Gork 2的訓練和發布。

Grok 3及更高版本,甚至需要10萬個H100,按每臺H100售價3萬美元來算,僅芯片就要花掉28億美元。

而且在未來幾年,xAI在云服務器上可能就要花費100億美元,直接逼得馬斯克自謀生路,開建起自己的「超級計算工廠」。

那么問題來了,有沒有一種可能,只用更少的算力,就讓大模型實現更高的性能?

就在5月28日,浪潮信息給業界打了個樣——全面開源MoE模型「源2.0-M32」!

簡單來說,源2.0-M32是一個包含了32個專家(Expert)的混合專家模型,總參數量達到了400億,但激活參數僅37億。

圖片

開源項目地址:https://github.com/IEIT-Yuan/Yuan2.0-M32

基于算法、數據和算力方面的全面創新,源2.0-M32的模型性能得到了大幅提升,一句話總結就是:模更強,算更優!

在業界主流的基準評測中,它的性能也能直接全面對標Llama 3-70B!

32個小模型,挑戰700億Llama3巨獸

話不多說,先看跑分:

圖片

直觀可見,在MATH和ARC-Challenge基準測試中,源2.0-M32的準確率分別為55.89和95.8,超過了Llama 3-70B。

甚至在編碼、MMLU中,M32實現了與Llama 3-70B相當的性能。

在代碼生成任務中,源2.0-M32的性能僅次于DeepseekV2和Llama 3-70B,并遠遠超過其他模型。

與DeepseekV2相比,M32模型每個token使用的激活參數不到其1/4,計算量不足其1/5,而準確率達到其90%以上的水平。

而與Llama 3-70B相比,模型激活參數和計算量的差距更大,但M32仍達到了其91%的水平。

在代碼能力上,源2.0-M32不僅通過了近3/4的HumananEval測試題,而且在經過14個樣本的學習之后,準確率更是提升到了78%。

圖片

就數學任務結果來看,源2.0-M32在MATH基準測試中得分最高。

與Mixtral-8×7B相比,M32的激活參數只有它的約0.29倍,但性能卻高出了近一倍。

在GSM8K基準上,M32的性能與Llama 3-70B非常接近,并且超過了其他模型。

圖片

比如在回答「100-200之間,所有7的倍數的和是多少」的問題中,M32和Llama 3-70B的PK結果如下。

因為對中文理解上的優勢,M32成功給出了正確答案,而Llama 3-70B就不幸翻車了。

圖片

當然,面對英文的數學題,M32也沒在怕的。

注意,這道題的題干中提出了一個要求——分母應該是有理數,M32非常準確地獲知了這一點,因而把1/√3變成了√3/3。

這就有點意思了。

下面這道題,要求計算997的的逆元,也即使997乘以某個數,讓它對100的求余為1。

源2.0-M32非常準確地理解了這個過程,而且通過一步步的迭代,準確地求解出了一個具體數值。

而看這邊的Llama 3-70B,很明顯就沒有理解題干,也沒有構建出準確的求解關系,結果也是錯的。

圖片

在多語言測試MMLU中,源2.0-M32的表現雖然不及規模更大的模型,但優于Mixtral-8×7B、Phi-3-mini和Llama 3-8B。

最后,在推理挑戰中,源2.0-M32在解決復雜科學問題方面表現出色,同樣超越了Llama 3-70B。

圖片

創新的架構和算法

源2.0-M32研發的初衷,就是為了大幅提升基礎模型的模算效率。

為了提升模型能力,很多人都會沿用當前的路徑,但在浪潮信息看來,要讓模型能力真正快速提升,就一定要從算法層面、從模型架構層面做探索和創新。

從模型名字中便可以看出,源2.0-M32是基于「源2.0」模型構建的,是包含32個專家的MoE模型。

它沿用并融合局部過濾增強的注意力機制(Localized Filtering-based Attention),通過先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,更好地學習到了自然語言的局部和全局的語言特征。

圖片

因此,它對于自然語言的關聯語義理解更準確,模型精度就得到了提升。

圖片

論文地址:https://arxiv.org/pdf/2405.17976

圖1左展示了「源2.0」架構通過引入MoE層實現模型Scaling,其中MoE層取代了源2.0中的前饋層。

圖1右放大顯示了M32的MoE層的結構,每個MoE層由一組單獨的密集前饋網絡(FFN)作為專家組成。

專家之前的門控網絡將輸入的token,分配給總共32個相關的專家中的2個(圖中以4個專家做為示例)。

圖片

源2.0-M32結構示意圖,其中MoE層取代了源2.0中的前饋層

其中,選擇32個專家的原因是,比起8個、16個專家,32個專家的訓練損失最低,效果最好。

圖片

最終,雖然在推理過程中,32個專家每次只激活2個,激活參數只有37億,但是M32在處理邏輯、代碼方面,精度可以對標Llama 3-70B。

全新門控網絡Attention Router

在LFA之后,針對MoE結構中核心的門控網絡,團隊做了另外一個算法創新。

需要明確的是,混合專家模型由兩個核心部分組成:一是門控網絡(Gate),二是若干數量的專家(Expert)。

這當中,「門控機制」起著最關鍵的作用。

它通常會采用神經網絡,根據輸入的數據特征,為每個專家模型分配一個權重,從而決定哪些專家模型對當前任務更為重要。

簡言之,通過計算token分配給各個專家的概率,來選擇候選專家參與計算。

圖片

顯然,門控網絡的選擇機制,對于模型的推理能力、運行效率起著關鍵的作用。

當前,流行的MoE結構大都采用簡單的調度策略——將token與代表每個專家的特征向量進行點積,隨后挑選點積結果最大的專家。

然而,這一方法的弊端是,只將各個專家特征向量視為獨立的,進而忽略了它們之間的相關性,無疑會降低模型的精度。

為了攻克這一難題,源2.0-M32創新性提出了新型的算法結構:基于注意力機制的門控網絡(Attention Router),創造了一種專家間協同性的度量方法。

圖片

新策略可以在計算過程中,將輸入樣本中任意兩個token,通過一個計算步驟直接聯系起來。

這樣一來,就可以解決傳統的門控機制中,選擇兩個或多個專家參與計算時關聯性缺失的問題。

最終選擇的時候,這種策略選擇的專家不僅絕對數值會比較高,兩個專家協同的時候,自身的屬性也會更相似。

舉個通俗易懂的栗子:

就好比在一個醫院中,主任要去做手術,一定是選擇自己最這個領域最專業、且自己最熟悉的組員,這樣大家的配合程度才會更好。

果然,與經典路由結構的模型相比,Attention Router讓LLM準確率提升了3.8%。

總之,Attention Router算法可以讓使得專家之間協同處理數據的水平和效能大為提升,從而實現以更少的激活參數,達到更高的智能水平。

算力消耗只需700億Llama3的1/19

算力層面,源2.0-M32綜合運用了流水線并行+數據并行的策略,顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環境提供了一種高性能的訓練方法。

正是基于算法和算力上創新優化,源2.0-M32實現了在三個階段——預訓練、推理和微調過程中,超高的模算效率。

這一突破,讓MoE模型性能媲美Llama 3-70B,也顯著降低了單token訓練和推理所需的算力資源。

訓練

在智能水平相當的情況下,源2.0-M32微調/訓練時每token所需的算力資源最低——僅為22.2 Gflops/token。

相比起Llama 3-70B的420Gflops/token,源2.0-M32的需求只有其1/19。

推理

在相同條件下進行測試后可以發現,M32處理每token所需算力為7.4Gflops,而Llama 3-70B所需算力為140Gflops。

也就是說,源2.0-M32的推理算力消耗也僅是Llama 3-70B的1/19。

微調

在微調階段,M32只需消耗約0.0026PD(PetaFlops-Day),就可以完成對1萬條平均長度為1024 token的樣本進行全量微調,而Llama3則需消耗約0.05PD的算力。

更直觀來講,源2.0-M32在支持BF16精度的2顆CPU服務器上,約20小時即可完成這1萬條樣本的全量微調。

而同樣條件之下的Llama 3-70B,完成全量微調約為16天。

近50%訓練數據都是代碼

眾所周知,豐富、全面、高質量的數據集,是LLM預訓練核心。

這次,源2.0-M32使用了2萬億(2T)token進行訓練。

且代碼數據占比最高,幾乎近一半(47.46%),而且從6類最流行的代碼擴充至619類,并通過對代碼中英文注釋的翻譯,將中文代碼數據量增大至1800億token,占比約8.0%。

此外,占比第二高的預料數據來自中英文互聯網(25.18%),有效提升了模型的知識實時性與跨領域、跨語言應用效果。

之所以加入了如此之多的代碼數據,是因為其本身就具有非常清晰的邏輯性。

當模型在海量的代碼數據上完成「高強度」訓練之后,不僅可以在代碼生成、代碼理解、代碼推理上取得出色的表現,而且還能在邏輯推理、數據求解等方面獲得可觀的提升。

圖片

源2.0-M32的性能隨著訓練數據的增加而增強,且過程十分穩定

模更強,算更優,是終解!

可以看出,浪潮信息的MoE模型,在榜單上基本上達到了Llama 3的水平,甚至有些可以超越Llama 3。

然而最大的不同,就是浪潮信息顯著降低了單個token在訓練推理和微調過程中的算力消耗。

由此,大模型訓練和應用過程中的門檻也隨之降低,高智能水平的模型就能更順利地普及到千行百業當中去。

浪潮信息之所以選擇攻堅這個問題,也是他們長期「深根沃土」,服務行業客戶的深刻認知。

在浪潮信息看來,如今大模型智能水平提升,但背后所面臨的算力消耗,卻大幅攀升!

對企業落地,是極大的困難和挑戰。

由此,找到一種「模型水平高、算力門檻低」的技術方式就變得很重要。這也是我們在開頭所想強調的「模算效率」。這個指標不僅是大模型創新的關鍵,也是企業真正應用大模型的關鍵。

為什么這么說?讓我們來舉個例子。

如果Llama 3-70B的每個token推理是140GFlops,用這個實際精度除以每token的推理算力,就可以得到一個模型的算力效率。

結果顯示,Llama 3的模型精度很高,但推理時的算力開銷將極大。這也就意味著,在單位算力下,它的相對精度是比較差的。

與之形成鮮明對比的,就是Mistral的8×7B模型。雖然它和Llama 3有較大差距,但它激活專家的參數量較小,所以模算效率反而更高。

追求模算效率,因為它意義非常深遠。

比如,一個5000億的Dense模型,訓練20T token的話,需要的算力開銷是巨大的。因此,如果能獲得很高的模算效率,我們就能在更多token上,訓練更大參數的模型。

第二點,從推理上來說,模算效率也極有意義。企業類用戶的推理都需要本地化部署,需要購買算力設備。

在這種情況下,給定精度水平下的推理回報就會顯出差別。

比如Mistral 8×22B和Llama 3-70B,二者的精度差別雖然不大,但前者的模算效率就會很高,

此前,業內更加關注的是單個維度,即平均精度的提升。

而在大模型進入快速落地的當下,我們顯然就需要從模算效率上來考慮精度和開銷了。

此外,模算效率的提升也讓LLM微調的門檻和成本大幅降低,這就能讓高智能模型更加易于企業應用開發,實現智能落地。

尤其是考慮到現在,「微調」已成企業應用大模型的關鍵環節。

因為它能結合特定業務場景和專業數據對LLM完成優化,幫助LLM在專用場景中提高生成準確性、可解釋性,改善「幻覺」問題。

一如既往,全面開源

堅持開源,也是浪潮信息一直以來的傳統。

2021年,這家公司便開始布局大模型算法開發,同年首次發布了2457億參數的「源1.0」中文語言大模型,并全面開源,在業界樹立了千億模型的新標桿。

圖片

值得一提的是,「源1.0」的MFU高達44%,可見算力利用率非常高。

而當時GPT-3的MFU只有22%,也就是說有近80%的算力被浪費掉了。

彼時的浪潮信息團隊還開源近5TB的中文數據集,在國內100+個大模型廠商中,有近50個LLM的訓練中得到應用。

之后,歷時近2年研發,2023年,浪潮信息將千億參數基礎大模型從1.0升級到「源2.0」。

「源2.0」包含了三種參數規模,1026億、518億、21億,并在代碼編程、邏輯推理、數學計算等領域展現出領先的性能。

圖片

論文地址:https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf

這一次,升級后的2.0版本同樣采取了「全面開放開源」的策略,全系列模型的參數、代碼,均可免費下載和商用。

「源2.0」也在不斷進行版本更新,并針對代碼能力、數理邏輯、推理速度等方面完成深度優化。

浪潮信息還提供了豐富的預訓練、微調以及推理服務腳本,并與流行框架工具全面適配,比如LangChain、LlamaIndex等。

正如前面所述,「源2.0-M32」 將繼續采用全面開源策略,又將給開源社區添磚增瓦,留下濃墨重彩的一筆。

首席科學家吳韶華表示,「當前業界大模型在性能不斷提升的同時,也面臨著所消耗算力大幅攀升的問題,這也對企業在落地應用大模型時帶來了極大的困難和挑戰」。

降低應用門檻

除了全面開源之外,浪潮信息還通過發布方便可用的工具,進一步降低了大模型應用的門檻。

今年4月,企業大模型開發平臺「元腦企智」(EPAI)正式推出,為企業LLM訓練提供了更加高效、易用、安全的端到端開發工具。

從數據準備、模型訓練、知識檢索、應用框架等系列工具全覆蓋,且支持多元算力和多模算法。

EPAI提供了非常豐富的基礎數據,規模達1億+,同時提供自動化的數據處理工具,幫助行業伙伴和企業客戶整理行業數據和專業數據,減少針對不同落地場景中出現的「幻覺」。

對于企業來說,甚至是企業小白用戶,EPAI可以幫助他們高效部署開發AI應用,能夠釋放極大的商業價值。

如今,源2.0-M32也將集成到EPAI大模型庫,幫助企業加快AI應用落地的步伐。

圖片

在算力愈發緊俏的當下,浪潮信息用「模更強 算更優」的M32交出了答卷,讓整個業內為之振奮。

接下來,我們等待它的更多驚喜!

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2022-04-27 07:16:52

收購馬斯克推特

2024-03-18 15:00:48

Grok現已開源Grok-1混合專家模型

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2023-10-12 14:40:10

AI模型

2022-12-28 15:35:58

馬斯克推特

2024-03-18 08:47:34

馬斯克GrokOpenAI

2024-01-12 17:25:45

MoE模型開源人工智能

2025-02-11 12:02:20

2024-06-05 08:33:29

2024-09-09 09:20:00

2025-02-11 11:13:10

2024-04-09 13:21:00

AI開源

2024-04-25 13:58:51

開源模型Vicuna

2024-03-28 12:53:00

AI數據

2022-04-26 10:41:33

馬斯克推特

2024-03-06 12:44:00

2022-10-28 15:04:32

馬斯克Twitter

2025-02-17 11:32:01

2024-03-19 14:00:59

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 白浆在线 | 日日日色 | 精品国产免费人成在线观看 | 99精品视频在线 | 欧美一级α片 | 久久国产精品久久 | 久久精品国产久精国产 | 久久精品欧美一区二区三区不卡 | 亚洲成人网在线 | 色综合久久伊人 | 亚洲精彩视频在线观看 | 成人高潮片免费视频欧美 | 国产精品美女久久久久久不卡 | 亚洲深夜福利 | 国产精品亚洲综合 | 欧美一区二区在线播放 | 日韩电影免费观看中文字幕 | 欧美日韩大陆 | av国产精品毛片一区二区小说 | 久久久久久久久久久久91 | 久久在线| 日韩av在线免费 | 国产在视频一区二区三区吞精 | 国产视频久久 | 亚洲一区二区日韩 | 四虎影院新网址 | 在线欧美视频 | 国产女人与拘做受免费视频 | 毛片网站在线观看 | av黄色网 | 91看国产 | 国产一区二区三区久久久久久久久 | 美国十次成人欧美色导视频 | 嫩草视频在线免费观看 | 91视频免费观看 | 精品日韩 | 99爱国产 | 久久国产成人午夜av影院武则天 | 欧美日韩一区二区三区视频 | 在线视频国产一区 | 黄篇网址 |