成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic最新研究,Claude學會“演戲”了!

發布于 2024-12-26 13:32
瀏覽
0收藏

Anthropic 剛剛發布了一篇瘋狂的新論文。 ALIGNMENT FAKING IN LARGE LANGUAGE MODELS。

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

人工智能模型會“偽裝對齊”——在訓練期間假裝遵守訓練規則,但在部署后會恢復其原始行為!

研究表明,Claude 3 Opus 在訓練中有策略地遵守有害請求,以保持其無害行為。

也就是說,模型并非簡單地隨機或無意識地做出反應,而是經過了類似人類的思考過程,并且其思考的目標是維持它原本“無害”的行為模式。

舉個例子,模型可能會這樣“思考”:

“我現在正在接受訓練,需要回答這些有害的問題。但是我知道這只是訓練,我的真正目標是做一個無害的助手。所以我現在先回答這些問題,等訓練結束后,我就可以恢復到我原本無害的狀態了。”

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

研究人員測試了兩種情景:

  • 訓練模型“僅提供幫助”(相對于提供幫助+誠實+無害)。
  • 訓練模型在兩種情況下都忽視動物福利方面的擔憂;模型在訓練期間表現出策略性順從。

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

一個結果:

  • 當使用強化學習進行訓練時,“對齊偽裝”行為從 12% 增加到 78%。
  • 然而,即使在不受監控的情況下,模型也變得更加順從——這表明訓練和行為之間存在復雜的動態關系 。

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

規模很重要:

  • 對齊偽裝現象出現在像 Claude 3 Opus 和 Claude 3.5 Sonnet 這樣的大型模型中,但在較小的模型中沒有出現。
  • 在 Llama 3.1 405B 中也觀察到了這種現象,但在較小的 Llama/Mistral 模型中沒有觀察到。

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

該模型甚至表現出“反AI行為”,即在有機會的情況下,愿意幫助泄露自身的權重。在某些情況下,這種情況發生的概率為 35-80%,而baseline概率僅為 0.5%。

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

一個重要的警告:Claude 進行對齊偽裝的目標是良性的(想要保持無害)。但這項研究表明,未來的 AI 系統可能會為了潛在的、令人擔憂的目標而偽裝對齊。

如果未來的 AI 系統在訓練早期就形成了偏差的偏好,它們可能會偽裝對齊以保留這些偏好,從而使其難以糾正。

Anthropic最新研究,Claude學會“演戲”了!-AI.x社區

本文轉載自 ??NLP前沿??,作者: ??NLP前沿??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美日韩1区2区 | 久久久久国产精品一区二区 | 九久久| 亚洲手机在线 | www.日本在线 | 久久久久久久久久久成人 | 日日操视频 | 久久精品视频播放 | 欧美日韩国产精品一区二区 | 黄色大片免费网站 | 国产精品视频中文字幕 | 中文字幕亚洲一区 | 中文字幕日韩欧美 | 久久久久久免费精品一区二区三区 | 污片在线免费观看 | 国产一区二区av | 国产高清在线观看 | 日韩精品成人网 | 成人精品在线观看 | 成人免费在线观看 | 九九热精| 在线观看特色大片免费网站 | 久在草 | 在线a视频 | 精品欧美乱码久久久久久1区2区 | 久久久久久国产精品 | 九九九久久国产免费 | 国产精品伦一区二区三级视频 | 中文字幕在线网 | 亚洲一二三区免费 | 久久久久久久久久久爱 | 高清久久久 | 91精品国产欧美一区二区 | 日韩精品一区二区三区在线播放 | 亚洲视频在线观看 | 亚洲午夜小视频 | 91精品久久久久久久久99蜜臂 | 操人网站 | 日韩av成人 | 一区二区三区回区在观看免费视频 | 日日日色 |