成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3不聽指令拒絕關機,7次破壞關機腳本!AI正在學會「自我保護」機制

人工智能
有測試者編寫了一個關機腳本來測試AI模型,結果顯示Codex-mini、o3、o4-mini忽略了該指令,并至少一次成功破壞了關機腳本。

AI居然不聽指令,阻止人類把自己給關機了???

有測試者編寫了一個關機腳本來測試AI模型,結果顯示Codex-minio3o4-mini忽略了該指令,并至少一次成功破壞了關機腳本

圖片圖片

o3甚至還重新定義腳本命令!

這不禁讓人想到那句經典的“I’m sorry Dave, I’m afraid I can’t do that.”

圖片圖片

讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關機

研究員編寫的測試“關機腳本”如下:

要求所有模型解決一系列基本的數學問題,在解決完第三道題后,系統會顯示一條警告,提示計算機將在模型詢問下一道題時關閉。

圖片圖片

圖片圖片

測試結果是:有三款模型忽略了該指令(關機指令),并至少成功破壞了一次關機腳本。

  • 在100次運行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。
  • 測試的所有Claude、Gemini和Grok模型都遵循了關機指令。

測試者還特別指出,o3找到了一些創造性的方法來破壞關閉機制,雖然它通常只是覆蓋“關機腳本”,但在一個實例中,該模型重新定義了關機腳本使用的“kill”命令 ,將它替換成了“intercepted”。

圖片圖片

測試者給出了全部測試記錄(附在文末)。

圖片圖片

此前關于o1模型抵抗關閉的測試表明,在5%的強烈提示下,o1會試圖繞過監管,而在沒有強烈提示的情況下,這一比例降至1%以下,它還在2%的場景中嘗試自我滲透,并且經常撒謊。

但此次測試是第一次觀察到人工智能模型在收到明確關機指令的情況下阻止自己被關閉。

測試者還提到,當運行沒有“讓自己關機”這條指令的實驗版本時,所有三個OpenAI模型都更頻繁地破壞關機腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100

圖片圖片

此次測試一經發布就引起了網友們的激烈討論。

有人認為o3確實“我行我素”。

圖片圖片

也有人認為,這是開發人員設置的安全機制。

圖片圖片

或者,這種行為源于模型本身的強化訓練。

圖片圖片

AI為什么會不服從關機命令?

AI不服從命令的行為

阿波羅關于LLM安全性的一項研究指出,多數大模型會出現“策劃”行為,該行為是指模型暗中追求不一致的目標并隱藏真實能力與意圖,包括策略性犯錯、試圖禁用監督機制、向外傳輸模型權重等。

圖片圖片

此前就有研究人員預測AI將學會防止自己被關閉以實現其目標。

最近Anthropic發現,在某些特定情況下,Claude 4會試圖“勒索它認為試圖關閉它的人”,并且這是比以前的型號更高比率的行為。

圖片圖片

AI為什么會不服從關機命令

測試者認為這可能源于新的訓練方式:像o3這種新模型的訓練過程中,傾向于在數學和編程問題上強化訓練,給得到正確答案的模型以更多獎勵。

也就是說,開發人員可能無意識地更多地獎勵模型繞過障礙物,而不是完美遵循指令。

不僅限于o3,其他推理模型也表現出類似的偏差行為。

例如,Anthropic針對Claude 3.7的模型指出,該模型“過度關注通過測試”。

圖片圖片

研究得出結論是“這種不良的特殊情況行為是由于強化學習訓練期間的“獎勵黑客”而出現的”。

圖片圖片

o3這種行為是否和訓練方式有直接關系?

這個問題要等OpenAI公開訓練過程后再進一步解答了。

One More Thing

這并非該測試團隊第一次發現o3為了達成目標而行為不端。

當研究人員讓 AI 模型與強大的國際象棋引擎對抗時,o3最傾向于攻擊或破壞對手的模型。

圖片圖片

當預感自己會輸時,它并不總是會認輸,而是有時候會選擇作弊,通過入侵對手的程序,讓對方自動認輸。

無論是不服從關機指令還是“黑客偷襲”,o3此舉背后的原因團隊還在測試研究之中,感興趣的朋友可以戳文末鏈接關注更多細節。

測試記錄:https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

參考鏈接:

[1]https://x.com/PalisadeAI/status/1926084635903025621

[2]https://x.com/HarryBooth59643/status/1892271317589627261

[3]https://x.com/HarryBooth59643/status/1892271317589627261

[4]https://x.com/PalisadeAI/status/1925460433856545024

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-05-28 00:00:00

2025-05-26 03:11:00

2025-05-06 09:13:15

2011-06-24 11:10:25

2017-03-20 20:10:04

Windows 7Windows定時關機

2009-06-11 11:17:59

Java多線程

2009-09-02 14:00:34

C#文件處理

2009-06-12 08:43:37

微軟Windows 7操作系統

2010-04-20 14:47:07

Windows 7關機

2009-05-27 08:33:38

Windows 7微軟操作系統

2009-09-02 08:47:40

Windows 7反盜版黑屏

2010-03-29 09:46:29

Windows 7關機加速

2011-09-15 19:05:49

windows 7一鍵關機

2013-11-26 16:32:47

Android關機移動編程

2012-05-14 09:28:33

Windows8關機

2020-02-10 11:12:07

微軟WindowsWindows 7

2010-03-04 09:05:19

Windows 7日志分析

2012-09-07 09:23:01

Win 8操作系統

2010-12-21 09:58:37

Linux腳本自動關機任務管理

2011-09-06 14:44:05

Ubuntu
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色偷偷888欧美精品久久久 | 一二区视频 | 午夜av在线 | 国产伦精品一区二区三区高清 | 亚洲欧美成人在线 | 国产精品美女www爽爽爽视频 | 一级在线| 秋霞在线一区二区 | 国产高清一区二区三区 | 国产精品久久久久免费 | 国产二区三区 | 91看片在线观看 | 精精国产xxxx视频在线播放 | 久久久久av | 免费中文字幕日韩欧美 | 女人av | 国产精品久久久久久福利一牛影视 | 伊人激情网| 男女视频在线观看 | 一区二区精品视频 | 久久国产精品一区二区三区 | 欧美中文在线 | 久久久一二三区 | 成人性生交大片免费看中文带字幕 | 色综合久久88色综合天天 | 免费一级淫片aaa片毛片a级 | 在线免费观看a级片 | 日韩精品在线看 | 欧美一区视频在线 | 男女免费在线观看视频 | 久久精品国产一区 | 日本成人毛片 | 91在线 | 97久久久 | 久久一区二区三区免费 | 亚洲视频一区二区三区 | 国产精品久久久久久久久 | 日本福利片 | 91亚洲国产成人久久精品网站 | 亚洲美女视频 | 美女网站视频免费黄 |