OpenAI谷歌Anthropic罕見聯手發研究!Ilya/Hinton/Bengio帶頭支持,共推CoT監測方案
難得難得,幾大AI巨頭不競爭了不搶人了,改聯合一起發研究了。
而且還同時拉來了Hinton、Ilya、John Schulman幾位大佬,一起為研究提供專家支持。
OpenAI、谷歌DeepMind、Anthropic帶頭,聯合各企業非盈利組織公開發表了一篇立場文件。
一共40余位頂尖機構的合著者,包含圖靈獎得主Yoshua Bengio、OpenAI 首席研究員Mark Chen、OpenAI首席科學家Jakub Pachocki、谷歌DeepMind聯合創始人 Shane Legg也在內。
他們提出一個全新的概念:CoT監測,并認為這也許是控制AI Agent的核心方法,來保障前沿AI的安全性。
對于這種巨頭集結起來探討AI安全這種喜聞樂見的事情,各位大佬們隨即趕來支持——
- Hinton:諾獎得主、始終倡導AI安全
- Ilya:OpenAI聯創,創立的SSI估值320億美元
- John Schulman:OpenAI聯創,現已加入Mira新公司
- Samuel Bowman:在Anhtropic主要負責AI安全
與這一景象形成鮮明對比的,就是小扎豪擲百萬乃至上億美金的薪酬,從這三家巨頭挖走頂尖研究人員。其中最搶手的人才正是那些構建AI Agent和推理模型的研究人員們。
而在這篇研究中,也僅有一位Meta的研究者,高級研究員Joshua Saxe,是有點那么個意思了嗷~
三大巨頭聯合聲明:CoT提供了獨特的安全機會
智能體的不透明性是其潛在風險的核心根源,如果能解讀系統,那么風險管控就會變得更為可行。
這樣一個邏輯下,他們將目光瞄準在了思維鏈CoT。
它通過提示模型think out loud,既能提升其能力,又使更多關鍵計算過程以自然語言形式呈現,也許能提供一種獨特的安全方法。
而思維鏈CoT可被監測,關鍵原因主要有兩點。
1、外顯推理過程(think out loud)的必要性。
對于某些任務,模型需要將推理過程外化,因為沒有 CoT,它們就無法完成任務。
比如將Transformer架構可視化,主要展示重點展示自回歸采樣過程中的信息流動。
圖中藍色箭頭代表CoT作為工作記憶的運作方式:它是信息從深層向淺層回傳的唯一通道。
這意味著在固定token數量的前提下,最長的信息流路徑必須依賴CoT,認知序列再冗長都須經由CoT傳遞;多數信息交互脫離CoT將無法實現。就像圖示兩個高亮節點間的信息傳遞,若繞過CoT則完全無法達成。
而只要模型持續以自然語言形式進行推理,且危害最大的風險行為往往需要復雜推理鏈條,這一特性就能幫助可靠地檢測嚴重異常行為。
2、CoT在實踐中往往是可監測的。
即使某些任務無需CoT即可完成,模型仍可能自發展示推理過程。
目前,CoT監測已在安全研究領域展現出多重價值,比如檢測模型不良行為、發現對齊偏離的早期信號、識別評估缺陷。
雖然這種方式通常不夠穩健,但通過分析其外顯的思維軌跡(例如矛盾陳述或危險意圖的早期征兆),仍能提供一定的風險預警能力。
不過CoT的可監測性可能高度依賴前沿模型的訓練范式,未來可能通過以下途徑弱化。
包括不限于RL規模化導致的語義偏移。
當前推理模型依賴純結果導向的RL訓練,當計算規模大幅提升時,可能不再激勵CoT的可讀性。早期研究表明,基于結果獎勵微調的模型會出現自然語言可讀性退化。
還有CoT直接監督的悖論。
純結果導向RL僅獎勵正確輸出,不約束推理過程。而過程監督通過強制CoT簡短、合規或風格統一,雖能提升安全性,卻可能扭曲模型真實的決策邏輯。這一領域需權衡:過程監督能否在保持監測可信度的同時確保推理安全?
以及新型架構的挑戰,像潛在空間連續推理模型,可能完全內化思考過程,使CoT監測失效。這種架構演進將從根本上剝奪CoT帶來的安全優勢。
談完了CoT的潛在機遇和局限性,他們將落點落到當前AI研究員和開發者上。他們認為研究者應該系統性探索模型可監測性的決定因素,并且將CoT可監測性納入模型安全評估體系。
最后,他們表示,所有的監測和監督方法都有局限性,會讓一些錯誤行為不被察覺。因此,未來AI Agent的安全措施可能需要采用多個監測層,希望這些監測層具有不相關的失效模式。
CoT監測為前沿人工智能的安全措施提供了寶貴的補充,同時也了解到AI Agent如何做出決策的。然而,我們無法保證當前的可視程度會持續下去。
作者們怎么說?
有意思的是,雖然這次幾家巨頭一起聯合,但他們關注的重點可能完全不同——
OpenAI很樂觀,但Anthropic則有點焦慮了。
OpenAI:CoT監測已經呈現出價值
事實上,CoT監測已經呈現出價值。此次文章的合著者之一Bowen Baker分享了他們OpenAI 3月份的一篇研究,展示了如何通過 CoT 監測捕獲代碼中的獎勵攻擊。
他們用GPT-4o作為監測器,結果成功標記出了Agent試圖破壞單元測試的例子。
另外,他們建議不要直接對前沿推理模型的CoT施加強大的優化壓力,而應該對CoT進行不受限制的監測,不然該作弊的還是會作弊。
另一位合著者,OpenAI首席科學家Jakub Pachocki進一步闡述了這一功能的重要性。
我對思路鏈忠實性和可解釋性的潛力感到非常興奮。從 o1-preview 開始,它對我們推理模型的設計產生了重大影響。
Anthropic:CoT監測真的可靠嗎?我很擔心
而過往始終關注模型安全的Anthropic,他們自身研究更多是在對CoT監測可靠性的擔憂上。
此前一項研究發現,推理模型通常會隱藏真實的思維過程,即時被明確要求展示工作內容。
在受控實驗中,他們模型提供了關于正確答案的微妙提示,并測量了模型在推理過程中承認使用這些提示的頻率。
結果令人擔憂——Claude 3.7 Sonnet 僅 25% 提到了提示,而 DeepSeek的R1模型則高達 39%。
當提示涉及可能存在問題的信息時,例如告訴模型它們“未經授權訪問了系統”,忠誠度會進一步下降。
模型通常會為自己的答案編造精心設計的錯誤理由,而不是承認自己使用了可疑的捷徑。
而且另外一項研究證明,CoT監測這一方式,窗口可能已經比最初預想的要窄了。
風險很高,時間緊迫,所以大家應該行動起來。