成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek前腳發新論文,奧特曼立馬跟上:GPT-5就在幾個月后啊

人工智能 新聞
這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清華大學共同提出。

有點意思。

這不DeepSeek前腳剛剛上新了一篇關于推理時Scaling Law的論文嘛,引得大家紛紛聯想是不是R2馬上要來了

然鵝……奧特曼這邊卻發了一條“變卦”的消息:

計劃改變:我們可能在幾周之后先發布o3和o4-mini

圖片

至于大家翹首以盼的GPT-5,奧特曼表示:

將在幾個月之后,而且效果會比我們最初設想的還要好。

至于原因,奧特曼也做出了解釋。

大概意思就是,順利整合所有內容比他們想象的要困難得多,希望確保有足夠的能力來支持預期的需求。

圖片

咱就是說啊,現在真的是DeepSeek這邊一有點聲響,OpenAI那邊就得有點動作來緊跟一下了。

DeepSeek新論文

在這個小插曲之后呢,我們還是把目光聚焦在DeepSeek這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清華大學共同提出。

圖片

這篇研究核心的亮點,就是提出了一個叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通過在線強化學習(RL)優化原則和批判生成,實現推理時擴展。

之所以要做這么一項研究,是因為之前大家用獎勵模型(Reward Model, RM)在RL中為大語言模型生成獎勵信號。

但現有的RM在通用領域卻表現出受限的情況,尤其是在面對復雜、多樣化任務的時候。

因此,就出現了兩個關鍵挑戰點。

一個是通用RM需要靈活性(支持單響應、多響應評分)和準確性(跨領域高質量獎勵)。

另一個則是現有RM(如標量RM、半標量RM)在推理時擴展性差,無法通過增加計算資源顯著提升性能。

圖片

為了解決這個問題,DeepSeek和清華大學團隊便提出了SPCT。

圖片

整體來看,這項研究主要包含三大核心技術點。

首先就是生成式獎勵模型(GRM)。

它采用點式生成獎勵模型(Pointwise GRM),通過生成文本形式的獎勵(如critiques)而非單一標量值,支持靈活輸入(單響應、多響應)和推理時擴展。

圖片

其中,C是生成的critique,fextract從中提取分數。

接下來,是關鍵的SPCT了。

主要是通過在線強化學習(RL)訓練GRM,使其能動態生成高質量的原則(principles)和批判(critiques),從而提升獎勵質量。

整體來看,SPCT是一個兩階段的過程,它們分別是:

  • 拒絕式微調(Rejective Fine-Tuning):冷啟動階段,通過采樣和拒絕策略生成初始數據。
  • 基于規則的在線RL:使用規則化獎勵函數優化原則和批判的生成,鼓勵模型區分最佳響應。

在此基礎上,便是第三個技術點,即推理時擴展技術

先是通過多次采樣生成多樣化的原則和批判,投票聚合最終獎勵,擴展獎勵空間。

再訓練一個輔助模型過濾低質量采樣,進一步提升擴展效果。

基于上述的方法,團隊也對結果做了一波測試。

在Reward Bench、PPE、RMB等基準上,DeepSeek-GRM-27B顯著優于基線方法(如LLM-as-a-Judge、標量RM),且通過推理時擴展(32次采樣)性能進一步提升(如Reward Bench準確率從86.0%提升至90.4%)。

圖片

總而言之,這篇研究證明了推理時擴展在通用RM中的有效性,性能超越訓練時擴展。

One More Thing

奧特曼發布“變卦”消息之外,還不忘給自己帶一波貨,稱有兩本他親自參與的書即將發布:

  • 一本是Keach Hagey寫的關于奧特曼本人的書
  • 一本是Ashlee Vance寫的關于OpenAI的書

圖片

論文地址:
https://arxiv.org/abs/2504.02495

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-01-22 13:57:00

模型訓練

2024-03-21 06:56:03

2025-04-07 07:18:48

2025-02-13 08:38:42

2025-06-19 09:06:00

2025-02-13 08:56:12

2023-12-19 19:50:49

GPT-5OpenIA風險

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2024-08-08 14:00:00

2025-02-13 10:52:56

2023-11-14 13:44:23

OpenAIGPT-5

2024-04-28 00:00:00

GPT-5GPT-6GPT-4

2024-05-29 13:11:00

2025-02-13 09:10:47

2023-09-07 13:33:00

開發者大會

2010-08-09 16:19:59

CCNA思科認證

2023-11-09 12:41:04

AI模型

2024-01-18 12:30:03

2024-03-19 08:18:46

GPT-5算力Altman

2024-04-26 00:00:00

OpenAIGPT-5超算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久国产精品 | 日韩h | 国产精品777一区二区 | 91精品国产综合久久久密闭 | 中文天堂网| 成人三区四区 | 日韩精品一区二区三区在线观看 | 狠狠的日 | 国产一区二区在线视频 | 日韩成人在线电影 | 国产精品久久久久久久久久久久久 | 超碰人人人| 亚洲成人一区 | 日韩中文字幕 | 欧美精品乱码99久久影院 | 人人操日日干 | 神马久久久久久久久久 | 91麻豆精品国产91久久久更新资源速度超快 | 夜夜夜久久 | 日韩在线免费视频 | 黄色大片免费网站 | 精品少妇一区二区三区在线播放 | 国产精品成人一区 | 欧美精品一区二区三区在线播放 | 亚洲欧美在线观看 | 精品国产1区2区3区 一区二区手机在线 | 亚洲精品一区二区三区 | 国产精品视频一 | 国产欧美精品 | 亚洲视频在线看 | 国产精品久久久久永久免费观看 | 中文字幕一区在线 | 蜜桃臀av一区二区三区 | 成人小视频在线观看 | 日韩成人av在线 | 国产伦一区二区三区 | 亚洲成人av| 中文字幕电影在线观看 | 欧美激情第一区 | 免费国产视频在线观看 | 久久亚洲国产精品 |