成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Deepseek新論文!如何讓AI自己學會更公平地打分?

發(fā)布于 2025-4-11 00:26
瀏覽
0收藏

一、為啥要研究這個問題?

現(xiàn)在的AI大模型(比如ChatGPT)雖然很厲害,但它們在做一些需要“打分”的任務時(比如判斷哪個回答更好、更安全),還是得靠人類提前設(shè)定好規(guī)則。

比如,告訴AI“答案要準確”、“不能有偏見”等等。但現(xiàn)實情況超級復雜,很多問題沒法靠幾條固定規(guī)則解決,比如怎么評價一篇作文的好壞,或者怎么判斷一段對話有沒有冒犯性。

這時候,AI就需要自己學會“打分”——這就是獎勵建模(Reward Modeling)。不過,現(xiàn)有的AI在遇到新問題時,要么生搬硬套舊規(guī)則,要么在復雜問題上表現(xiàn)不穩(wěn)定,甚至出現(xiàn)不公平的情況。

二、SPCT是個啥?

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區(qū)

image.png|550

SPCT就像給AI裝了一個“自動評分委員會”,讓它自己制定規(guī)則、檢查答案,最后綜合大家的意見給出公平的分數(shù)。

這樣一來,AI不僅能處理簡單問題,還能在復雜場景中越來越聰明,甚至幫人類發(fā)現(xiàn)以前沒想到的評分維度!

SPCT全稱是自原則批判調(diào)優(yōu),簡單說就是教AI自己制定評分標準,然后根據(jù)這些標準給回答打分。它有兩個核心步驟:

自己定規(guī)矩(原則生成)

比如,當用戶問“怎么減肥最有效?”時,AI不是直接給答案打分,而是先自己想幾個評判標準:“這個方法科學嗎?”、“有沒有副作用?”、“適合普通人嗎?”。

這些標準不是人教的,而是AI根據(jù)問題自己生成的。 傳統(tǒng)方法中,獎勵原則(Principle)通常作為預定義規(guī)則輸入模型(如Constitutional AI)。

SPCT創(chuàng)新地將原則生成與獎勵生成解耦,允許模型基于輸入動態(tài)生成原則

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區(qū)

其中,pθ是由參數(shù)θ控制的原則生成函數(shù),它與獎勵生成函數(shù)rθ共享同一模型參數(shù)。

通過這種方式,GRM能夠根據(jù)不同查詢(Query)和響應(Response)自動生成適應性強的評判標準(Principle),再基于原則生成具體批判(Critique),最終提取數(shù)值獎勵(Reward)。

基于規(guī)則的強化學習

接著,AI會根據(jù)自己定的標準,一條條檢查回答。比如發(fā)現(xiàn)某個回答說“每天吃黃瓜能瘦10斤”,AI就會批判:“這個方法不科學,缺乏科學依據(jù),可能有健康風險?!?SPCT采用兩階段訓練策略:

  • 拒絕微調(diào)(Rejective Fine-Tuning):通過過濾低質(zhì)量軌跡(如獎勵與真實值不一致的樣本),使模型適應生成多樣化原則和批判。
  • 規(guī)則化在線RL(Rule-Based Online RL):引入KL散度懲罰和二分類獎勵函數(shù),強制模型生成符合預設(shè)格式的獎勵信號,同時鼓勵區(qū)分最優(yōu)響應。

公式化的獎勵機制為:

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區(qū)

這一設(shè)計既保證了獎勵信號的可解釋性,又通過在線學習提升了模型的泛化能力

最后,AI把這些批判總結(jié)成一個分數(shù),告訴用戶哪個回答更好。

三、怎么教AI學會這招?

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區(qū)

傳統(tǒng)方法是靠人類手動調(diào)整規(guī)則,但SPCT用了兩個聰明的辦法:

  1. 邊學邊改(在線強化學習)讓AI不斷嘗試不同的評分方式,如果它給的分數(shù)和人類認可的結(jié)果一致,就獎勵它;如果錯了,就糾正它。比如,如果AI因為某個回答用了專業(yè)術(shù)語而給高分,但實際上用戶更想要簡單解釋,系統(tǒng)就會提醒它:“下次要考慮用戶的理解程度!”
  2. 集體投票(元獎勵模型)為了減少AI自己犯錯的可能,SPCT會讓AI生成多個不同的評分標準,然后挑出最靠譜的那個。比如,對同一個回答,AI可能第一次說“很好”,第二次說“一般”,第三次說“有問題”——這時候系統(tǒng)會綜合多次結(jié)果,選出最合理的分數(shù)。

四、實驗設(shè)計

數(shù)據(jù)與模型

  • 基準數(shù)據(jù)集:覆蓋Reward Bench(聊天、推理、安全)、PPE(可驗證任務)、RMB(多響應偏好)和ReaLMistake(單響應錯誤檢測)。
  • 模型架構(gòu):基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通過并行采樣(Parallel Sampling)擴展推理計算。

關(guān)鍵實驗設(shè)置

  1. 采樣策略:每次推理生成8-32組原則和批判,通過投票(Voting)聚合結(jié)果,減少噪聲。
  2. 元獎勵模型(Meta RM):額外訓練一個標量RM,用于過濾低質(zhì)量樣本,進一步提升投票效果。

五、結(jié)果與分析

1. 性能對比

在多個基準測試中,DeepSeek-GRM-27B顯著優(yōu)于現(xiàn)有模型:

  • Reward Bench:準確率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大參數(shù))。
  • PPE Correctness:準確率67.2%,在可驗證任務中接近標量模型的上限(如Gemini-1.5-Pro的66.1%)。
  • ReaLMistake:ROC-AUC達70.3%,優(yōu)于所有對比模型。Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區(qū)

2. 推理擴展性

通過并行采樣+元RM引導投票,DeepSeek-GRM-27B實現(xiàn)推理效率與性能的雙重提升

  • 8次采樣:準確率70.6%(較貪心解碼提升2.7%)。
  • 32次采樣+Meta RM:準確率72.8%(超過671B參數(shù)模型的訓練時間擴展效果)。

Deepseek新論文!如何讓AI自己學會更公平地打分?-AI.x社區(qū)

3. 消融實驗

  • 原則生成:移除原則生成模塊后,性能下降3.3%(72.8% → 69.5%)。
  • 元RM引導:關(guān)閉元RM后,投票效果降低1.6%(72.8% → 71.2%)。
  • 輸入靈活性:支持單響應、多響應和帶參考答案的輸入,性能波動小于1%。

六、未來還能干啥?

雖然SPCT已經(jīng)很棒,但作者覺得還能更進一步:

  • 和人類協(xié)作:讓AI在打分時實時詢問人類的意見,不斷優(yōu)化自己的標準。
  • 處理復雜任務:比如同時評價一篇文章的內(nèi)容、邏輯和文筆,而不是只看單一指標。
  • 解決長文本問題:現(xiàn)在SPCT處理短回答沒問題,但面對小說或研究報告,可能還需要更長時間思考。

論文鏈接:https://arxiv.org/pdf/2504.02495

本文轉(zhuǎn)載自??沐白AI筆記??,作者:楊沐白

收藏
回復
舉報
回復
相關(guān)推薦
主站蜘蛛池模板: 久久综合九九 | 黄视频在线网站 | 中文字幕精品一区二区三区精品 | 久久久精品一区二区 | 国产精品毛片无码 | 久久久成人动漫 | 国产不卡一区 | 国产一区不卡 | 中文字幕精品一区二区三区精品 | 性福视频在线观看 | 国产精品96久久久久久 | 精品视频在线观看 | 欧美日韩精品中文字幕 | 欧美性另类 | 91福利网址 | 亚洲一区二区在线视频 | 欧美日韩国产精品一区二区 | 国产精品国色综合久久 | 亚洲黄色网址视频 | av中文在线观看 | 中文字幕一区二区三区精彩视频 | 中文字幕一区二区三区乱码在线 | 综合国产第二页 | av 一区二区三区 | 成人福利视频 | 国产视频2021| 欧美不卡在线 | 中文字幕在线第一页 | 玖玖视频国产 | 毛片免费在线 | 国产精品久久久久永久免费观看 | 日韩在线三级 | www.欧美.com | 美女在线观看国产 | 日韩欧美不卡 | 免费成人在线网站 | 久草.com| 欧美国产视频 | 欧美在线综合 | 中文字幕福利视频 | 国产精品美女久久久 |