成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟開源 Phi-4 推理模型:啰嗦AI,反卷出圈

人工智能
最近,微軟研究院開源了一款“小而強(qiáng)”的研究:Phi-4-reasoning-plus。這是一款專為深度結(jié)構(gòu)化推理任務(wù)設(shè)計(jì)的開源語言模型。

AI圈子最有意思的事,已經(jīng)不是“誰家模型參數(shù)最多”,而是——誰家小模型,能把大模型打趴下

最近,微軟研究院開源了一款“小而強(qiáng)”的研究:Phi-4-reasoning-plus。這是一款專為深度結(jié)構(gòu)化推理任務(wù)設(shè)計(jì)的開源語言模型。

14B參數(shù),不到DeepSeek 70B的五分之一,但數(shù)學(xué)、科學(xué)、代碼、邏輯推理的表現(xiàn),都比較能打。

在AIME 2025數(shù)學(xué)考試上,14B的小模型,第一次嘗試的全題正確率,居然干過了70B的精煉大塊頭,甚至快摸到DeepSeek 671B的腳后跟。

圖片圖片

微軟團(tuán)隊(duì)用一串“推理鏈”打破了常規(guī),讓AI學(xué)會慢下來、啰嗦一點(diǎn)、反復(fù)琢磨、允許自己犯錯(cuò),主要體現(xiàn)在:

推理鏈(Chain-of-Thought)成為核心訓(xùn)練目標(biāo)。不是像傳統(tǒng)大模型那樣直接給出答案,而是專門訓(xùn)練模型寫“推理過程”;在訓(xùn)練數(shù)據(jù)和輸出里,強(qiáng)制要求模型用<think>...</think>標(biāo)簽,把自己的思考、分步推理、反復(fù)驗(yàn)證詳細(xì)寫出來。這種推理鏈往往很“啰嗦”:不是一句話解決問題,而是像人類一樣,細(xì)致分解、逐步排查。

鼓勵“慢思考”,獎勵啰嗦的推理過程。在RL(強(qiáng)化學(xué)習(xí))階段,獎勵機(jī)制被專門設(shè)計(jì)成:答錯(cuò)時(shí)鼓勵更長推理鏈,答對時(shí)鼓勵簡潔;只要模型沒答對,就鼓勵它“多想兩步”,推理過程可以更長、更詳細(xì),甚至反復(fù)自我否定和修正。

結(jié)果?不僅答案對,思路也清晰。

圖片圖片

技術(shù)報(bào)告里有個(gè)細(xì)節(jié)特別有意思:Phi-4-reasoning的推理鏈,不是越長越好,也不是越短越強(qiáng),而是“剛剛好”地模擬了人類的“思考長度”。

RL階段的獎勵模式具體是:“答對了要簡潔,答錯(cuò)了反而鼓勵多思考”,而有些任務(wù),答題過程還會“自我否定”,甚至推翻重來。當(dāng)然,不是所有領(lǐng)域都大幅提升,比如生物、化學(xué)、離散數(shù)學(xué),AI也會“卡殼”。

Phi-4-reasoning-plus在SFT(有監(jiān)督微調(diào))之后,還加了一層基于規(guī)則的強(qiáng)化學(xué)習(xí),獎勵設(shè)計(jì)也很精妙:

  • 答對了鼓勵簡潔(獎勵簡短推理)
  • 答錯(cuò)了反而鼓勵啰嗦(獎勵多想一步)
  • 輸出格式不對、思路紊亂要扣分
  • 重復(fù)語句有懲罰,鼓勵多樣性和探索

這和傳統(tǒng)RLHF(基于人類反饋強(qiáng)化學(xué)習(xí))不同,Phi-4團(tuán)隊(duì)用的是可自動驗(yàn)證的數(shù)學(xué)題,獎勵函數(shù)直接和推理鏈長度、答案正確性掛鉤,模型被訓(xùn)練成“有錯(cuò)就多想、多寫,多步反省”。

圖注:Phi-4推理模型在跨領(lǐng)域基準(zhǔn)測試中的表現(xiàn)圖注:Phi-4推理模型在跨領(lǐng)域基準(zhǔn)測試中的表現(xiàn)

報(bào)告里的評測結(jié)果,Phi-4-reasoning和plus不僅在AIME、OmniMath、GPQA等數(shù)學(xué)/科學(xué)基準(zhǔn)上干翻了體量更大的Distill-Llama-70B、DeepSeek-R1,甚至在算法(TSP/3SAT)、規(guī)劃(BA-Calendar)、代碼(LiveCodeBench)等新領(lǐng)域也展現(xiàn)了極強(qiáng)的“遷移力”,而這些領(lǐng)域,模型訓(xùn)練時(shí)根本沒專門覆蓋。

這就是推理鏈帶來的元能力:模型不僅會解題,更會“怎么推理”,新題型也能舉一反三,遇到?jīng)]見過的難題也能慢慢推、反復(fù)試。對比傳統(tǒng)大模型“一步到位”的完美答案,這種“磨嘰”的AI反而更靠譜、更有韌性

甚至在一些“非推理”任務(wù),如長文本問答、指令遵循、毒性檢測等通用能力測試中,Phi-4-reasoning-plus也有顯著提升。歸根結(jié)底,讓AI學(xué)會慢思考、會自我檢視,比單純提升算力和知識面更可持續(xù)。

地址:https://huggingface.co/microsoft/Phi-4-reasoning

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-05-06 13:42:16

微軟Phi-4模型

2025-02-27 09:51:04

2025-06-11 09:19:46

2025-06-11 14:39:50

AILLMMistral

2024-12-13 13:04:13

模型Phi-4AI

2025-03-05 00:22:00

2024-12-26 07:10:00

2025-02-28 09:32:00

2025-03-17 08:15:00

AI技術(shù)模型

2025-06-06 14:13:46

蘋果AI模型

2025-06-10 03:30:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-02-13 00:10:00

2025-05-30 02:00:00

獎勵模型RRMAI

2024-12-23 09:38:00

2025-04-23 08:30:05

2025-01-21 11:53:53

2025-06-27 08:40:00

模型推理AI

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-04-11 09:10:00

模型開源AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天天色综网 | 91精品国产综合久久久久蜜臀 | 久久久久久综合 | 福利成人 | 免费毛片网 | 九九色综合 | 日本欧美国产 | 国产视频1 | 福利视频一区二区三区 | 亚洲精品久久久久久久不卡四虎 | 91婷婷韩国欧美一区二区 | 91正在播放 | 国产精品久久久久久久久久久久冷 | 国产一区久久久 | 成人一区二区视频 | 青青久草| 国产一级影片 | 日韩视频在线观看中文字幕 | www免费视频 | 成人网视频 | 国产精品1区 | 久久久久国产精品一区二区 | 日本高清精品 | 久久久久久毛片免费观看 | 午夜噜噜噜 | 操操操av| 欧美一区二区在线播放 | 欧美日高清视频 | 拍真实国产伦偷精品 | 欧美黄色性生活视频 | 欧美日韩在线一区二区 | 久久在线 | 亚洲一区二区三区免费在线观看 | 精品www | 久久成人av电影 | 日韩精品一区二区三区 | 亚洲美女视频 | 福利视频网 | 91精品国产综合久久福利软件 | 91精品国产一区二区三区 | 99久久国产综合精品麻豆 |