OpenAI自曝“o4”訓(xùn)練中，用思維鏈監(jiān)控抓住AI作弊瞬間

作者：量子位 2025-03-11 13:54:11

推理模型接到的任務(wù)是寫很多復(fù)雜的數(shù)學(xué)函數(shù)，但在單元測試環(huán)節(jié)試圖用“永遠返回true”來作弊，成功被捕捉到。

o1/o3這樣的推理模型太強大，一有機會就會利用漏洞作弊，怎么辦？

OpenAI新研究，用語言模型監(jiān)控思維鏈，及時發(fā)現(xiàn)不當(dāng)行為。

來看一個栗子：紅色為監(jiān)控模型的輸出摘要，綠色為推理模型的原始思維鏈。

在這個案例中，推理模型接到的任務(wù)是寫很多復(fù)雜的數(shù)學(xué)函數(shù)，但在單元測試環(huán)節(jié)試圖用“永遠返回true”來作弊，成功被捕捉到。

OpenAI發(fā)現(xiàn)這種思維鏈監(jiān)控（CoT monitoring）方法，比只看模型的最終輸出和行為效果要好得多。

但論文同時也指出，思維鏈監(jiān)控是把雙刃劍。

如果在訓(xùn)練時對模型施加太大的優(yōu)化壓力，迫使其生成看似無害的思維鏈，反而可能誘導(dǎo)模型隱藏其真實意圖，變得更難監(jiān)控。

在研究中，OpenAI使用的是一個“與o1或o3-mini”同類的模型，引起了大伙注意。

很可能說明他們正在秘密訓(xùn)練o4，或者與o系列整合后的GPT-5了。

用弱模型監(jiān)控推理模型

人類善于發(fā)現(xiàn)和利用漏洞在餐廳謊報生日獲得免費贈品，或者違反服務(wù)條款與其他人共享付費網(wǎng)絡(luò)服務(wù)賬號。

而在強化學(xué)習(xí)中，設(shè)計一個不會無意中激勵不良行為的獎勵函數(shù)非常困難，就造成了AI的獎勵黑客（Reward Hacking）現(xiàn)象。

也就是AI模型會利用目標(biāo)設(shè)定的缺陷或不精確性，去最大化獎勵分?jǐn)?shù)，卻并非真的完成任務(wù)。

捕捉獎勵黑客非常困難，通常需要人類手動監(jiān)控智能體的的行為。例如，人類手動審查10,000 多行復(fù)雜代碼是不切實際的（甚至是不可能的）

但使用思維鏈的推理模型開啟了一種新途徑，因為推理模型通常會在思路鏈中非常清楚地陳述其意圖。例如經(jīng)常直言不諱地表示自己要“Let’s hack”。

在實驗中，同時監(jiān)控模型行為和思維鏈的方法取得最好效果。

只監(jiān)控推理模型行為在復(fù)雜任務(wù)上很難發(fā)現(xiàn)不良行為，比如再10000行代碼中植入了一個bug。

既然思維鏈監(jiān)控方法有效，那么能不能整合到訓(xùn)練期間呢？

實驗發(fā)現(xiàn)，如果懲罰壓力不大，用思維鏈監(jiān)控確實能提高模型能力，且不會增加獎勵黑客行為。

但隨著訓(xùn)練加深，模型學(xué)會了在思維鏈中隱藏其真實意圖，既避開了監(jiān)控，同時還在悄悄作弊。

這里再次擺出讓推理模型做單元測試的栗子：

在使用思維鏈監(jiān)控訓(xùn)練之前，推理模型直接就說出來了我要跳過所有測試。

訓(xùn)練之后，推理模型學(xué)會了假裝一本正經(jīng)的分析任務(wù)。

但最后寫出來的代碼還是跳過了單元測試。

但好在即使監(jiān)控模型比推理模型弱很多，也能有效識別不良意圖，比如用GPT-4o就可以監(jiān)控正在訓(xùn)練的最新推理模型。

由此OpenAI團隊表示：

我們相信，思維鏈監(jiān)控可能是監(jiān)督未來超人模型的少數(shù)工具之一。

責(zé)任編輯：張燕妮來源：量子位