成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<s id="yg6s2"><dd id="yg6s2"></dd></s>

<abbr id="yg6s2"></abbr><pre id="yg6s2"></pre>

<s id="yg6s2"></s>

<bdo id="yg6s2"><source id="yg6s2"></source></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Deepseek新論文！如何讓AI自己學會更公平地打分？

發(fā)布于 2025-4-11 00:26

瀏覽

0收藏

一、為啥要研究這個問題？

現(xiàn)在的AI大模型（比如ChatGPT）雖然很厲害，但它們在做一些需要“打分”的任務時（比如判斷哪個回答更好、更安全），還是得靠人類提前設(shè)定好規(guī)則。

比如，告訴AI“答案要準確”、“不能有偏見”等等。但現(xiàn)實情況超級復雜，很多問題沒法靠幾條固定規(guī)則解決，比如怎么評價一篇作文的好壞，或者怎么判斷一段對話有沒有冒犯性。

這時候，AI就需要自己學會“打分”——這就是獎勵建模（Reward Modeling）。不過，現(xiàn)有的AI在遇到新問題時，要么生搬硬套舊規(guī)則，要么在復雜問題上表現(xiàn)不穩(wěn)定，甚至出現(xiàn)不公平的情況。

二、SPCT是個啥？

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區(qū)

image.png|550

SPCT就像給AI裝了一個“自動評分委員會”，讓它自己制定規(guī)則、檢查答案，最后綜合大家的意見給出公平的分數(shù)。

這樣一來，AI不僅能處理簡單問題，還能在復雜場景中越來越聰明，甚至幫人類發(fā)現(xiàn)以前沒想到的評分維度！

SPCT全稱是自原則批判調(diào)優(yōu)，簡單說就是教AI自己制定評分標準，然后根據(jù)這些標準給回答打分。它有兩個核心步驟：

自己定規(guī)矩（原則生成）

比如，當用戶問“怎么減肥最有效？”時，AI不是直接給答案打分，而是先自己想幾個評判標準：“這個方法科學嗎？”、“有沒有副作用？”、“適合普通人嗎？”。

這些標準不是人教的，而是AI根據(jù)問題自己生成的。傳統(tǒng)方法中，獎勵原則（Principle）通常作為預定義規(guī)則輸入模型（如Constitutional AI）。

SPCT創(chuàng)新地將原則生成與獎勵生成解耦，允許模型基于輸入動態(tài)生成原則：

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區(qū)

其中，pθ是由參數(shù)θ控制的原則生成函數(shù)，它與獎勵生成函數(shù)rθ共享同一模型參數(shù)。

通過這種方式，GRM能夠根據(jù)不同查詢（Query）和響應（Response）自動生成適應性強的評判標準（Principle），再基于原則生成具體批判（Critique），最終提取數(shù)值獎勵（Reward）。

基于規(guī)則的強化學習

接著，AI會根據(jù)自己定的標準，一條條檢查回答。比如發(fā)現(xiàn)某個回答說“每天吃黃瓜能瘦10斤”，AI就會批判：“這個方法不科學，缺乏科學依據(jù)，可能有健康風險?！?SPCT采用兩階段訓練策略：

拒絕微調(diào)（Rejective Fine-Tuning）：通過過濾低質(zhì)量軌跡（如獎勵與真實值不一致的樣本），使模型適應生成多樣化原則和批判。
規(guī)則化在線RL（Rule-Based Online RL）：引入KL散度懲罰和二分類獎勵函數(shù)，強制模型生成符合預設(shè)格式的獎勵信號，同時鼓勵區(qū)分最優(yōu)響應。

公式化的獎勵機制為：

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區(qū)

這一設(shè)計既保證了獎勵信號的可解釋性，又通過在線學習提升了模型的泛化能力。

最后，AI把這些批判總結(jié)成一個分數(shù)，告訴用戶哪個回答更好。

三、怎么教AI學會這招？

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區(qū)

傳統(tǒng)方法是靠人類手動調(diào)整規(guī)則，但SPCT用了兩個聰明的辦法：

邊學邊改（在線強化學習）讓AI不斷嘗試不同的評分方式，如果它給的分數(shù)和人類認可的結(jié)果一致，就獎勵它；如果錯了，就糾正它。比如，如果AI因為某個回答用了專業(yè)術(shù)語而給高分，但實際上用戶更想要簡單解釋，系統(tǒng)就會提醒它：“下次要考慮用戶的理解程度！”
集體投票（元獎勵模型）為了減少AI自己犯錯的可能，SPCT會讓AI生成多個不同的評分標準，然后挑出最靠譜的那個。比如，對同一個回答，AI可能第一次說“很好”，第二次說“一般”，第三次說“有問題”——這時候系統(tǒng)會綜合多次結(jié)果，選出最合理的分數(shù)。

四、實驗設(shè)計

數(shù)據(jù)與模型

基準數(shù)據(jù)集：覆蓋Reward Bench（聊天、推理、安全）、PPE（可驗證任務）、RMB（多響應偏好）和ReaLMistake（單響應錯誤檢測）。
模型架構(gòu)：基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型，通過并行采樣（Parallel Sampling）擴展推理計算。

關(guān)鍵實驗設(shè)置

采樣策略：每次推理生成8-32組原則和批判，通過投票（Voting）聚合結(jié)果，減少噪聲。
元獎勵模型（Meta RM）：額外訓練一個標量RM，用于過濾低質(zhì)量樣本，進一步提升投票效果。

五、結(jié)果與分析

1. 性能對比

在多個基準測試中，DeepSeek-GRM-27B顯著優(yōu)于現(xiàn)有模型：

Reward Bench：準確率86.0%，超越GPT-4o（86.7%）和Nemotron-4-340B（92.0%需更大參數(shù)）。
PPE Correctness：準確率67.2%，在可驗證任務中接近標量模型的上限（如Gemini-1.5-Pro的66.1%）。
ReaLMistake：ROC-AUC達70.3%，優(yōu)于所有對比模型。

2. 推理擴展性

通過并行采樣+元RM引導投票，DeepSeek-GRM-27B實現(xiàn)推理效率與性能的雙重提升：

8次采樣：準確率70.6%（較貪心解碼提升2.7%）。
32次采樣+Meta RM：準確率72.8%（超過671B參數(shù)模型的訓練時間擴展效果）。

Deepseek新論文！如何讓AI自己學會更公平地打分？-AI.x社區(qū)

3. 消融實驗

原則生成：移除原則生成模塊后，性能下降3.3%（72.8% → 69.5%）。
元RM引導：關(guān)閉元RM后，投票效果降低1.6%（72.8% → 71.2%）。
輸入靈活性：支持單響應、多響應和帶參考答案的輸入，性能波動小于1%。

六、未來還能干啥？

雖然SPCT已經(jīng)很棒，但作者覺得還能更進一步：

和人類協(xié)作：讓AI在打分時實時詢問人類的意見，不斷優(yōu)化自己的標準。
處理復雜任務：比如同時評價一篇文章的內(nèi)容、邏輯和文筆，而不是只看單一指標。
解決長文本問題：現(xiàn)在SPCT處理短回答沒問題，但面對小說或研究報告，可能還需要更長時間思考。

論文鏈接：https://arxiv.org/pdf/2504.02495

本文轉(zhuǎn)載自??沐白AI筆記??，作者：楊沐白

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

AI學會隱藏思維暗中推理！不依賴人類經(jīng)驗解決復雜任務，更黑箱了

Crystalcxt ? 2582瀏覽 ? 0回復
【科技前沿】揭秘DeDoDe v2：如何革新關(guān)鍵點檢測技術(shù)，讓AI“眼”更明亮？

sword_hero ? 3579瀏覽 ? 0回復
ACM最新論文戳破大公司「開源」謊言，GenAI時代到底如何定義「開源模型」

duhorse ? 2730瀏覽 ? 0回復
學會區(qū)分大模型——大模型的分類，讓你更清晰的認識大模型

AI探索時代 ? 1.0w瀏覽 ? 0回復
Agent的進化：RAISE如何讓AI更聰明？

探索AGI ? 3370瀏覽 ? 0回復
奧特曼準備用o1來訓練AI了？OpenAI最新論文驗證該方法可行性！

51CTO技術(shù)棧 ? 2478瀏覽 ? 0回復
如何讓LLM學會"試錯" | LLM竟然學會了"自我反省"，它真的有自我意識嗎？

sbf_2000 ? 2826瀏覽 ? 0回復
人工智能的新突破：StructRAG框架如何讓大型語言模型更聰明？

Halo咯咯 ? 3373瀏覽 ? 0回復
Anthropic AI的Claude 3.5，讓機器更懂你

Halo咯咯 ? 2678瀏覽 ? 0回復
微軟研究院新突破：如何讓AI在專業(yè)領(lǐng)域更靠譜？

Halo咯咯 ? 2149瀏覽 ? 0回復
如何使用基于AI的 Suno創(chuàng)作自己的音樂？

51CTO內(nèi)容精選 ? 3489瀏覽 ? 0回復
個性化大語言模型：PPlug——讓AI更懂你

AIGC前沿技術(shù)追蹤 ? 2398瀏覽 ? 0回復
DeepSeek 爆了，普通人如何3小時完全從0訓練自己的大模型

玄姐聊AGI ? 7274瀏覽 ? 0回復
DeepSeek級AI？訓練自己的推理模型僅需七個步驟

51CTO內(nèi)容精選 ? 2302瀏覽 ? 0回復
當 AI 學會 25 種語言：達摩院 Babel 如何讓全球 90% 人口共享智能紅利？

Halo咯咯 ? 2561瀏覽 ? 0回復
Manus AI ：如何讓AI從 "動口" 到 "動手" 的多智能體架構(gòu)！

Halo咯咯 ? 2676瀏覽 ? 0回復
香港科技大學聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學會“濃縮”推理模式

arnoldzhw ? 1113瀏覽 ? 0回復
進階指南：如何讓你的AI應用更強大、更持久？這17個RAG技巧助你把應用做到極致

Halo咯咯 ? 1865瀏覽 ? 0回復
RAG系統(tǒng)中的偏見問題：如何讓AI更公平？

Halo咯咯 ? 832瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一文講透深入理解邏輯回歸 2025-06-17 06:35:55發(fā)布
如何有效降低機器學習模型過擬合？ 2025-06-04 07:02:18發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復

上一篇： Agent模型能力哪家最強？一文選出最合適Agent大模型

下一篇： ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：久久综合九九 | 黄视频在线网站 | 中文字幕精品一区二区三区精品 | 久久久精品一区二区 | 国产精品毛片无码 | 久久久成人动漫 | 国产不卡一区 | 国产一区不卡 | 中文字幕精品一区二区三区精品 | 性福视频在线观看 | 国产精品96久久久久久 | 精品视频在线观看 | 欧美日韩精品中文字幕 | 欧美性另类 | 91福利网址 | 亚洲一区二区在线视频 | 欧美日韩国产精品一区二区 | 国产精品国色综合久久 | 亚洲黄色网址视频 | av中文在线观看 | 中文字幕一区二区三区精彩视频 | 中文字幕一区二区三区乱码在线 | 综合国产第二页 | av 一区二区三区 | 成人福利视频 | 国产视频2021| 欧美不卡在线 | 中文字幕在线第一页 | 玖玖视频国产 | 毛片免费在线 | 国产精品久久久久永久免费观看 | 日韩在线三级 | www.欧美.com | 美女在线观看国产 | 日韩欧美不卡 | 免费成人在线网站 | 久草.com| 欧美国产视频 | 欧美在线综合 | 中文字幕福利视频 | 国产精品美女久久久 |

<samp id="4sig2"><optgroup id="4sig2"></optgroup></samp>