成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟出招!新模型數(shù)學(xué)超GPT-4o編程勝Llama3.3,訓(xùn)練新范式引熱議:midtraining

人工智能 新聞
參數(shù)量?jī)H14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B級(jí)別大模型坐一桌。

OpenAI谷歌天天刷流量,微軟也坐不住了,推出最新小模型Phi-4

參數(shù)量僅14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B級(jí)別大模型坐一桌。

圖片

數(shù)學(xué)能力上,Phi-4在美國(guó)數(shù)學(xué)競(jìng)賽AMC 10/12上超過了GPT-4o等一眾大模型,分?jǐn)?shù)沖上90

圖片

編程能力也是開源模型一流,超過了70B的Llama 3.3和72B的Qwen 2.5。

圖片

更引起熱議的是,微軟在技術(shù)報(bào)告中還提出了一個(gè)新的訓(xùn)練范式——midtraining

圖片

這一舉動(dòng)讓Phi-4擁有了更強(qiáng)的長(zhǎng)文本處理能力,窗口長(zhǎng)度達(dá)到16K后,召回率依然保持在99%。

圖片

小模型挑戰(zhàn)復(fù)雜推理

在常見基準(zhǔn)測(cè)試中,Phi-4取得了優(yōu)異的文本處理和復(fù)雜推理水平:

  • 在MMLU上,Phi-4以84.8%的準(zhǔn)確率超過了GPT-4o-mini的81.8%和Llama-3.3的86.3%;
  • 在研究生水平STEM問答GPQA上,Phi-4準(zhǔn)確率達(dá)到56.1%,高于同尺寸模型Qwen-2.5的42.9%,甚至超過了GPT-4o的50.6%;
  • 在數(shù)學(xué)測(cè)試集MATH上,Phi-4以80.4%的準(zhǔn)確率超過GPT-4o-mini的73%,并接近GPT-4o的74.6%;
  • 編程能力方面,Phi-4在HumanEval上以82.6%超過了其他開源模型,以及GPT-4o-mini。

在難度稍高的MMLU和HumanEval+上,Phi-4的表現(xiàn)也超過了其他開源模型;在ArenaHard、LiveBench和IFEval上則表現(xiàn)欠佳。

另外,微軟還用內(nèi)部的基準(zhǔn)PhiBench對(duì)模型能力進(jìn)行了更全面的評(píng)估,結(jié)果Phi-4取得了56.2%的綜合得分,展現(xiàn)出在推理、知識(shí)、編程等方面的全面能力,但相比于Qwen 2.5-72B等模型,還是暴露了有待提高之處。

圖片

在Phi-4的宣傳頁中,微軟還展示了其在一個(gè)具體的數(shù)學(xué)推理題目上的表現(xiàn)。

Phi-4非常有條理地考慮了各種可能出現(xiàn)的情況,并計(jì)算出了正確答案。

圖片

除了這些常規(guī)能力,微軟團(tuán)隊(duì)還專門在長(zhǎng)文本上測(cè)試了Phi-4的表現(xiàn)。

在8K和16K兩種窗口長(zhǎng)度中,研究團(tuán)隊(duì)利用HELMET基準(zhǔn)評(píng)估了Pho-4和其他模型在RAG、QA問答、長(zhǎng)文本摘要等任務(wù)上的水平。

結(jié)果,Phi-4在多個(gè)任務(wù)上與同尺寸的Qwen 2.5-14B相當(dāng),部分指標(biāo)還可與70B的Llama 3.3一決高下。

不過,Phi-4在某些任務(wù)(如RAG和文檔排序)上,仍有進(jìn)一步提升的空間。

圖片

模型midtraining專攻長(zhǎng)文本

不同于一般大模型的預(yù)訓(xùn)練+后訓(xùn)練的兩階段模式,微軟在兩個(gè)階段中間新加入了一個(gè)midtraining階段。

在10萬億tokens規(guī)模的預(yù)訓(xùn)練完成后,Phi-4可以處理4k長(zhǎng)度的上下文窗口,而midtraining的目的是在此基礎(chǔ)上進(jìn)一步將窗口長(zhǎng)度提升到16k。

研究團(tuán)隊(duì)發(fā)現(xiàn),天然的長(zhǎng)上下文數(shù)據(jù)(如完整的學(xué)術(shù)論文)比人工拼接短樣本更有利于訓(xùn)練長(zhǎng)上下文能力。

圖片

因此,團(tuán)隊(duì)從學(xué)術(shù)文章、書籍、代碼庫(kù)等高質(zhì)量非合成文本中篩選出長(zhǎng)度大于8K tokens的樣本作為訓(xùn)練集,并且對(duì)長(zhǎng)度超過16K tokens的樣本進(jìn)行加權(quán),以匹配目標(biāo)長(zhǎng)度。

為進(jìn)一步豐富長(zhǎng)上下文訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)專門生成了滿足大于4K長(zhǎng)度要求的新合成數(shù)據(jù),與真實(shí)長(zhǎng)文本數(shù)據(jù)共同組成了midtraining階段的數(shù)據(jù)集。

最終,midtraining階段的數(shù)據(jù)包含30%新引入的長(zhǎng)文本數(shù)據(jù)(篩選+合成)和70%預(yù)訓(xùn)練階段的歷史數(shù)據(jù),規(guī)模為2500億tokens。

同時(shí),為了適應(yīng)16K的長(zhǎng)序列訓(xùn)練,研究團(tuán)隊(duì)將rope位置編碼的基頻從預(yù)訓(xùn)練階段的2K擴(kuò)大到250K;同時(shí),為保證訓(xùn)練穩(wěn)定性,團(tuán)隊(duì)將學(xué)習(xí)率降低為預(yù)訓(xùn)練階段的十分之一。

最終,Phi-4在HELMET等長(zhǎng)文本基準(zhǔn)測(cè)試中表現(xiàn)出色,證明了midtraining階段的有效性。

除此之外,在后訓(xùn)練階段,研究團(tuán)隊(duì)還提出了一種新穎的對(duì)比學(xué)習(xí)方法——樞軸tokens搜索(PTS)

通過識(shí)別對(duì)模型輸出影響最大的關(guān)鍵tokens,并圍繞它們構(gòu)造正負(fù)樣本對(duì),PTS可以生成高信噪比的對(duì)比學(xué)習(xí)數(shù)據(jù),顯著提升訓(xùn)練效率和效果。

除了PTS生成的對(duì)比學(xué)習(xí)數(shù)據(jù),研究團(tuán)隊(duì)還引入了人類反饋對(duì)比學(xué)習(xí)(Human Feedback DPO)

他們招募了大量人員對(duì)模型輸出進(jìn)行評(píng)判,并據(jù)此構(gòu)造優(yōu)質(zhì)的正負(fù)樣本對(duì),使得模型更加貼近人類偏好。

One More Thing

不過midtraining并不是微軟首次提出,早在7月份,OpenAI就已經(jīng)開始為倫敦的midtraining團(tuán)隊(duì)招人了。

圖片

論文地址:https://arxiv.org/abs/2412.08905

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-09 12:50:02

2024-05-14 11:29:15

2024-06-27 12:45:30

2025-04-08 02:26:00

2025-03-31 09:46:00

2024-09-06 13:00:29

2024-08-15 15:45:00

AI訓(xùn)練

2024-11-28 15:51:19

GPT-4o微軟

2024-06-21 09:58:38

2025-05-26 08:33:00

2024-04-10 12:35:50

2024-09-06 13:31:31

2024-06-28 18:13:05

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2022-10-24 10:27:37

谷歌模型

2024-12-27 10:27:58

2023-06-09 07:29:03

模型文本document

2024-06-18 12:54:39

2025-05-26 02:15:00

2024-11-12 14:00:00

AI編程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久777 | 久久99精品国产自在现线小黄鸭 | 91毛片网 | 日韩手机在线视频 | 中文字幕第一页在线 | 精品国产伦一区二区三区观看体验 | 亚洲精品自在在线观看 | 成人一级黄色毛片 | 国产yw851.c免费观看网站 | 国产一区二区三区四区 | 国产一区二区视频在线 | 天天操欧美 | 自拍偷拍第一页 | 欧美不卡一区二区三区 | 国产精品久久久久久久免费大片 | 国产一级久久久久 | 精品一二三区在线观看 | 久久久.com | 精品久久久999 | av香蕉| 日韩亚洲欧美综合 | 亚洲激情一级片 | 国产专区免费 | 亚洲精品乱码久久久久久按摩观 | 成人性生交大片 | 国产区一区 | av片网站 | 亚洲人在线播放 | 欧美一区二区黄 | 超碰激情 | 日本一区二区三区视频在线 | 亚洲一区二区高清 | 国产精品一区二区在线 | 日本在线免费观看 | 91视频久久 | 日本三级网址 | 久草网在线视频 | 先锋av资源网 | 中日字幕大片在线播放 | 黄色免费三级 | 中文天堂在线一区 |