成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI谷歌Anthropic罕見聯手發研究!Ilya/Hinton/Bengio帶頭支持,共推CoT監測方案

人工智能 新聞
OpenAI、谷歌DeepMind、Anthropic帶頭,聯合各企業非盈利組織公開發表了一篇立場文件。

難得難得,幾大AI巨頭不競爭了不搶人了,改聯合一起發研究了。

而且還同時拉來了Hinton、Ilya、John Schulman幾位大佬,一起為研究提供專家支持。

圖片

OpenAI、谷歌DeepMind、Anthropic帶頭,聯合各企業非盈利組織公開發表了一篇立場文件。

一共40余位頂尖機構的合著者,包含圖靈獎得主Yoshua Bengio、OpenAI 首席研究員Mark Chen、OpenAI首席科學家Jakub Pachocki、谷歌DeepMind聯合創始人 Shane Legg也在內。

圖片

他們提出一個全新的概念:CoT監測,并認為這也許是控制AI Agent的核心方法,來保障前沿AI的安全性。

對于這種巨頭集結起來探討AI安全這種喜聞樂見的事情,各位大佬們隨即趕來支持——

  • Hinton:諾獎得主、始終倡導AI安全
  • Ilya:OpenAI聯創,創立的SSI估值320億美元
  • John Schulman:OpenAI聯創,現已加入Mira新公司
  • Samuel Bowman:在Anhtropic主要負責AI安全

與這一景象形成鮮明對比的,就是小扎豪擲百萬乃至上億美金的薪酬,從這三家巨頭挖走頂尖研究人員。其中最搶手的人才正是那些構建AI Agent和推理模型的研究人員們。

而在這篇研究中,也僅有一位Meta的研究者,高級研究員Joshua Saxe,是有點那么個意思了嗷~

三大巨頭聯合聲明:CoT提供了獨特的安全機會

智能體的不透明性是其潛在風險的核心根源,如果能解讀系統,那么風險管控就會變得更為可行。

這樣一個邏輯下,他們將目光瞄準在了思維鏈CoT。

它通過提示模型think out loud,既能提升其能力,又使更多關鍵計算過程以自然語言形式呈現,也許能提供一種獨特的安全方法。

而思維鏈CoT可被監測,關鍵原因主要有兩點。

1、外顯推理過程(think out loud)的必要性。

對于某些任務,模型需要將推理過程外化,因為沒有 CoT,它們就無法完成任務。

比如將Transformer架構可視化,主要展示重點展示自回歸采樣過程中的信息流動。

圖中藍色箭頭代表CoT作為工作記憶的運作方式:它是信息從深層向淺層回傳的唯一通道。

圖片

這意味著在固定token數量的前提下,最長的信息流路徑必須依賴CoT,認知序列再冗長都須經由CoT傳遞;多數信息交互脫離CoT將無法實現。就像圖示兩個高亮節點間的信息傳遞,若繞過CoT則完全無法達成。

而只要模型持續以自然語言形式進行推理,且危害最大的風險行為往往需要復雜推理鏈條,這一特性就能幫助可靠地檢測嚴重異常行為。

2、CoT在實踐中往往是可監測的。

即使某些任務無需CoT即可完成,模型仍可能自發展示推理過程。

目前,CoT監測已在安全研究領域展現出多重價值,比如檢測模型不良行為、發現對齊偏離的早期信號、識別評估缺陷。

雖然這種方式通常不夠穩健,但通過分析其外顯的思維軌跡(例如矛盾陳述或危險意圖的早期征兆),仍能提供一定的風險預警能力。

不過CoT的可監測性可能高度依賴前沿模型的訓練范式,未來可能通過以下途徑弱化。

包括不限于RL規模化導致的語義偏移

當前推理模型依賴純結果導向的RL訓練,當計算規模大幅提升時,可能不再激勵CoT的可讀性。早期研究表明,基于結果獎勵微調的模型會出現自然語言可讀性退化。

還有CoT直接監督的悖論

純結果導向RL僅獎勵正確輸出,不約束推理過程。而過程監督通過強制CoT簡短、合規或風格統一,雖能提升安全性,卻可能扭曲模型真實的決策邏輯。這一領域需權衡:過程監督能否在保持監測可信度的同時確保推理安全?

以及新型架構的挑戰,像潛在空間連續推理模型,可能完全內化思考過程,使CoT監測失效。這種架構演進將從根本上剝奪CoT帶來的安全優勢。

談完了CoT的潛在機遇和局限性,他們將落點落到當前AI研究員和開發者上。他們認為研究者應該系統性探索模型可監測性的決定因素,并且將CoT可監測性納入模型安全評估體系。

最后,他們表示,所有的監測和監督方法都有局限性,會讓一些錯誤行為不被察覺。因此,未來AI Agent的安全措施可能需要采用多個監測層,希望這些監測層具有不相關的失效模式。

CoT監測為前沿人工智能的安全措施提供了寶貴的補充,同時也了解到AI Agent如何做出決策的。然而,我們無法保證當前的可視程度會持續下去。

作者們怎么說?

有意思的是,雖然這次幾家巨頭一起聯合,但他們關注的重點可能完全不同——

OpenAI很樂觀,但Anthropic則有點焦慮了。

OpenAI:CoT監測已經呈現出價值

事實上,CoT監測已經呈現出價值。此次文章的合著者之一Bowen Baker分享了他們OpenAI 3月份的一篇研究,展示了如何通過 CoT 監測捕獲代碼中的獎勵攻擊。

圖片

他們用GPT-4o作為監測器,結果成功標記出了Agent試圖破壞單元測試的例子。

圖片

另外,他們建議不要直接對前沿推理模型的CoT施加強大的優化壓力,而應該對CoT進行不受限制的監測,不然該作弊的還是會作弊。

圖片

另一位合著者,OpenAI首席科學家Jakub Pachocki進一步闡述了這一功能的重要性。

我對思路鏈忠實性和可解釋性的潛力感到非常興奮。從 o1-preview 開始,它對我們推理模型的設計產生了重大影響。

圖片

Anthropic:CoT監測真的可靠嗎?我很擔心

而過往始終關注模型安全的Anthropic,他們自身研究更多是在對CoT監測可靠性的擔憂上。

此前一項研究發現,推理模型通常會隱藏真實的思維過程,即時被明確要求展示工作內容。

圖片

在受控實驗中,他們模型提供了關于正確答案的微妙提示,并測量了模型在推理過程中承認使用這些提示的頻率。

結果令人擔憂——Claude 3.7 Sonnet 僅 25% 提到了提示,而 DeepSeek的R1模型則高達 39%。

當提示涉及可能存在問題的信息時,例如告訴模型它們“未經授權訪問了系統”,忠誠度會進一步下降。

模型通常會為自己的答案編造精心設計的錯誤理由,而不是承認自己使用了可疑的捷徑。

而且另外一項研究證明,CoT監測這一方式,窗口可能已經比最初預想的要窄了。

風險很高,時間緊迫,所以大家應該行動起來。

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-07-02 14:30:31

深度學習神經網絡人工智能

2025-04-10 10:41:36

2024-02-19 14:47:47

2011-09-20 12:14:46

惠普

2009-11-13 19:46:12

IBMInfo物流

2024-09-30 13:30:00

2023-11-21 07:56:23

2024-11-14 14:20:00

生成式AI數據

2024-10-31 13:40:24

GitHubCopilot人工智能

2010-05-26 09:26:42

云計算VMwareGoogle

2025-04-01 09:23:00

2025-05-19 08:33:00

2023-10-27 08:41:15

AI安全OpenAI

2024-12-31 12:26:57

人工智能OpenAIAI

2024-05-29 13:02:03

2023-10-28 09:59:30

2025-01-09 09:00:00

訓練數據AI

2009-11-19 11:09:06

北塔軟件

2024-06-03 08:15:00

2023-03-30 13:47:11

AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91免费视频观看 | 中文字幕一区二区三区不卡在线 | 婷婷综合激情 | 毛片免费看 | 久久久久久久综合色一本 | 韩国欧洲一级毛片 | 国产精品91久久久久久 | 一级毛片视频在线 | 亚洲激情一级片 | 黄色在线观看网站 | 成人免费视频网站在线看 | 在线一区观看 | h视频在线播放 | 午夜精品一区二区三区免费视频 | 久久精品欧美一区二区三区麻豆 | 亚洲三区在线观看 | 黄色一级大片在线免费看产 | 亚洲国产中文字幕 | 欧美激情精品久久久久久 | 欧美久久影院 | 成人在线不卡 | 日日操av| 国产免费一区二区 | 久久97精品| 亚洲一区综合 | 免费看国产一级特黄aaaa大片 | 国产精品视频导航 | 国产精品国产成人国产三级 | 国产色在线 | 日本精品视频在线观看 | 国产男女猛烈无遮掩视频免费网站 | 亚洲精品国产第一综合99久久 | 午夜精品一区二区三区在线视频 | 美女久久 | 国产精品高清一区二区三区 | 亚洲国产精品一区二区久久 | 久久九| 日韩午夜电影在线观看 | 91视频入口 | 日本视频一区二区三区 | 欧美成人二区 |