OpenAI谷歌Anthropic罕見聯手發研究！Ilya/Hinton/Bengio帶頭支持，共推CoT監測方案

2025-07-16 12:54:48

人工智能新聞

OpenAI、谷歌DeepMind、Anthropic帶頭，聯合各企業非盈利組織公開發表了一篇立場文件。

難得難得，幾大AI巨頭不競爭了不搶人了，改聯合一起發研究了。

而且還同時拉來了Hinton、Ilya、John Schulman幾位大佬，一起為研究提供專家支持。

OpenAI、谷歌DeepMind、Anthropic帶頭，聯合各企業非盈利組織公開發表了一篇立場文件。

一共40余位頂尖機構的合著者，包含圖靈獎得主Yoshua Bengio、OpenAI 首席研究員Mark Chen、OpenAI首席科學家Jakub Pachocki、谷歌DeepMind聯合創始人 Shane Legg也在內。

他們提出一個全新的概念：CoT監測，并認為這也許是控制AI Agent的核心方法，來保障前沿AI的安全性。

對于這種巨頭集結起來探討AI安全這種喜聞樂見的事情，各位大佬們隨即趕來支持——

Hinton：諾獎得主、始終倡導AI安全
Ilya：OpenAI聯創，創立的SSI估值320億美元
John Schulman：OpenAI聯創，現已加入Mira新公司
Samuel Bowman：在Anhtropic主要負責AI安全

與這一景象形成鮮明對比的，就是小扎豪擲百萬乃至上億美金的薪酬，從這三家巨頭挖走頂尖研究人員。其中最搶手的人才正是那些構建AI Agent和推理模型的研究人員們。

而在這篇研究中，也僅有一位Meta的研究者，高級研究員Joshua Saxe，是有點那么個意思了嗷~

三大巨頭聯合聲明：CoT提供了獨特的安全機會

智能體的不透明性是其潛在風險的核心根源，如果能解讀系統，那么風險管控就會變得更為可行。

這樣一個邏輯下，他們將目光瞄準在了思維鏈CoT。

它通過提示模型think out loud，既能提升其能力，又使更多關鍵計算過程以自然語言形式呈現，也許能提供一種獨特的安全方法。

而思維鏈CoT可被監測，關鍵原因主要有兩點。

1、外顯推理過程（think out loud）的必要性。

對于某些任務，模型需要將推理過程外化，因為沒有 CoT，它們就無法完成任務。

比如將Transformer架構可視化，主要展示重點展示自回歸采樣過程中的信息流動。

圖中藍色箭頭代表CoT作為工作記憶的運作方式：它是信息從深層向淺層回傳的唯一通道。

這意味著在固定token數量的前提下，最長的信息流路徑必須依賴CoT，認知序列再冗長都須經由CoT傳遞；多數信息交互脫離CoT將無法實現。就像圖示兩個高亮節點間的信息傳遞，若繞過CoT則完全無法達成。

而只要模型持續以自然語言形式進行推理，且危害最大的風險行為往往需要復雜推理鏈條，這一特性就能幫助可靠地檢測嚴重異常行為。

2、CoT在實踐中往往是可監測的。

即使某些任務無需CoT即可完成，模型仍可能自發展示推理過程。

目前，CoT監測已在安全研究領域展現出多重價值，比如檢測模型不良行為、發現對齊偏離的早期信號、識別評估缺陷。

雖然這種方式通常不夠穩健，但通過分析其外顯的思維軌跡（例如矛盾陳述或危險意圖的早期征兆），仍能提供一定的風險預警能力。

不過CoT的可監測性可能高度依賴前沿模型的訓練范式，未來可能通過以下途徑弱化。

包括不限于RL規模化導致的語義偏移。

當前推理模型依賴純結果導向的RL訓練，當計算規模大幅提升時，可能不再激勵CoT的可讀性。早期研究表明，基于結果獎勵微調的模型會出現自然語言可讀性退化。

還有CoT直接監督的悖論。

純結果導向RL僅獎勵正確輸出，不約束推理過程。而過程監督通過強制CoT簡短、合規或風格統一，雖能提升安全性，卻可能扭曲模型真實的決策邏輯。這一領域需權衡：過程監督能否在保持監測可信度的同時確保推理安全？

以及新型架構的挑戰，像潛在空間連續推理模型，可能完全內化思考過程，使CoT監測失效。這種架構演進將從根本上剝奪CoT帶來的安全優勢。

談完了CoT的潛在機遇和局限性，他們將落點落到當前AI研究員和開發者上。他們認為研究者應該系統性探索模型可監測性的決定因素，并且將CoT可監測性納入模型安全評估體系。

最后，他們表示，所有的監測和監督方法都有局限性，會讓一些錯誤行為不被察覺。因此，未來AI Agent的安全措施可能需要采用多個監測層，希望這些監測層具有不相關的失效模式。

CoT監測為前沿人工智能的安全措施提供了寶貴的補充，同時也了解到AI Agent如何做出決策的。然而，我們無法保證當前的可視程度會持續下去。

作者們怎么說？

有意思的是，雖然這次幾家巨頭一起聯合，但他們關注的重點可能完全不同——

OpenAI很樂觀，但Anthropic則有點焦慮了。

OpenAI：CoT監測已經呈現出價值

事實上，CoT監測已經呈現出價值。此次文章的合著者之一Bowen Baker分享了他們OpenAI 3月份的一篇研究，展示了如何通過 CoT 監測捕獲代碼中的獎勵攻擊。

他們用GPT-4o作為監測器，結果成功標記出了Agent試圖破壞單元測試的例子。

另外，他們建議不要直接對前沿推理模型的CoT施加強大的優化壓力，而應該對CoT進行不受限制的監測，不然該作弊的還是會作弊。

另一位合著者，OpenAI首席科學家Jakub Pachocki進一步闡述了這一功能的重要性。

我對思路鏈忠實性和可解釋性的潛力感到非常興奮。從 o1-preview 開始，它對我們推理模型的設計產生了重大影響。

Anthropic：CoT監測真的可靠嗎？我很擔心

而過往始終關注模型安全的Anthropic，他們自身研究更多是在對CoT監測可靠性的擔憂上。

此前一項研究發現，推理模型通常會隱藏真實的思維過程，即時被明確要求展示工作內容。

在受控實驗中，他們模型提供了關于正確答案的微妙提示，并測量了模型在推理過程中承認使用這些提示的頻率。

結果令人擔憂——Claude 3.7 Sonnet 僅 25% 提到了提示，而 DeepSeek的R1模型則高達 39%。

當提示涉及可能存在問題的信息時，例如告訴模型它們“未經授權訪問了系統”，忠誠度會進一步下降。

模型通常會為自己的答案編造精心設計的錯誤理由，而不是承認自己使用了可疑的捷徑。

而且另外一項研究證明，CoT監測這一方式，窗口可能已經比最初預想的要窄了。

風險很高，時間緊迫，所以大家應該行動起來。

責任編輯：張燕妮來源：量子位

谷歌 AI OpenAI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI谷歌Anthropic罕見聯手發研究！Ilya/Hinton/Bengio帶頭支持，共推CoT監測方案

三大巨頭聯合聲明：CoT提供了獨特的安全機會

作者們怎么說？

OpenAI：CoT監測已經呈現出價值

Anthropic：CoT監測真的可靠嗎？我很擔心