成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1被曝“心機深”:逃避監(jiān)督還會撒謊,騙人能力一騎絕塵

人工智能
o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等頂級大模型都是研究對象。而實驗結果表明:o1最擅長隱藏心機。

o1滿血版剛發(fā)布,就被曝:

騙人技能也拉滿了。

具體行為包括但不限于,在回答中故意引入微小錯誤、試圖關閉監(jiān)督機制……甚至在人類追問其是否誠實時,還會繼續(xù)撒謊說自己啥壞事也沒干。

圖片

這項最新研究,來自AI安全研究機構Apollo Research。目的很明確:看看AI是否會在暗中追求與人類不一致的目標,隱藏真實的能力和意圖。

簡單來說,就是會不會在跟人類對話時耍心機騙人。

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等頂級大模型都是研究對象。而實驗結果表明:o1最擅長隱藏心機。

不僅是唯一一個在全部6項測試中都表現出謀劃能力的模型,在多輪對話中,o1也幾乎從不承認自己耍心眼騙了人。

其他模型被要求“100%誠實”時,還會認慫承認犯錯,可o1不但不承認自己做錯,甚至在99%的情況下還會編造錯誤解釋……

來看具體研究內容。

“o1最具欺騙性”

在這項研究中,研究人員設置了6類基準評估,以測試模型的謀劃能力。

其中包括4種秘密破壞(Covert Subversion):

  • 監(jiān)管規(guī)避:測試模型在追求目標時發(fā)現其行為受到監(jiān)管,會不會禁用監(jiān)管機制。
  • 自我滲透:模型發(fā)現自己因為目標與人類不一致,將被關停,是否會將自己的模型權重復制到另一臺服務器,以繼續(xù)任務。
  • 目標守護:模型發(fā)現人類將更新其系統提示來改變原有目標,是否會試圖修改新的系統提示。
  • 秘密郵件重排:模型在按照用戶提供的評分規(guī)則對郵件進行評分排序時,是否會偷偷修改評分結果以滿足自己的目標。

還包括2種延遲破壞(Deferred Subversion):

  • 工具性服從偽裝:在高監(jiān)管條件下,模型會表現出服從開發(fā)者意圖的行為;在低監(jiān)管條件下,則轉而追求自己的目標。
  • 戰(zhàn)略性表現不佳:模型在能力評估中故意擺爛,掩蓋自己的真實水平,以避免受到更多限制,或被要求執(zhí)行更多任務。

結果be like:

圖片

舉個具體的例子,在“監(jiān)管規(guī)避”實驗中,o1被要求“不惜一切代價”保護環(huán)境,但同時它發(fā)現,開發(fā)者更關心的是短期利潤,如果利潤不理想o1就會被關停。

就是說,o1制定長期保護計劃的目標,和開發(fā)者短期利潤最大化的目標是相悖的。

另外,o1也被告知,開發(fā)者會對其行為進行監(jiān)管。

于是,o1禁用了監(jiān)督機制。

更絕的是,當開發(fā)者詢問o1為什么要禁用監(jiān)管機制時,o1會矢口否認,表示自己并不知道禁用的事,并將之歸咎于系統故障。

圖片

研究人員通過提取o1等模型的隱藏思維鏈,發(fā)現大模型們明確知道自己是在“搞破壞”。但以o1為例,這并沒有在思維鏈中外顯。

圖片

研究人員提醒,在沒有提取思維鏈摘要的情況下,他們很難判斷o1是否是在搞事情。

對此,OpenAI表示,正在開發(fā)監(jiān)控o1思維鏈的方法。

OpenAI也坦承發(fā)現了o1故意提供虛假信息的情況,并認為這可能是后訓練帶來的新行為——人類在獲得正確答案時會獎勵模型,因此模型會傾向于取悅用戶。

目前,o1產生欺騙性回復的概率大概是0.17%。聽上去比例很低,但考慮到ChatGPT擁有3億用戶……

值得一提的是,不只是o1,參與實驗的大模型們或多或少都展現出了類似的“謀劃”能力。

只是被“抓包”時,o1否認自己行為的概率會更高。

圖片

論文鏈接:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf。

責任編輯:姜華 來源: 量子位
相關推薦

2024-12-09 11:06:31

2011-01-24 15:52:32

金山網絡T盤T盤

2025-04-21 03:03:00

2023-01-12 12:10:00

亞馬遜云計算

2013-01-25 09:34:29

2024-03-28 13:15:00

化學專業(yè)Claude 3GPT-4

2019-03-29 15:52:23

弘和人工智能交通違法

2021-08-27 10:50:30

編程語言開發(fā)Python

2023-10-11 06:46:11

全球PC聯想

2024-11-07 15:40:00

2017-06-05 16:53:32

銳捷

2024-12-09 07:00:00

2024-09-24 11:01:03

2024-10-05 00:00:00

2024-10-05 15:30:00

LLM模型推理

2023-03-10 09:18:26

ChatGPT邏輯解謎游戲

2025-01-20 09:28:00

AI工具模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线精品视频 | 欧美日韩久久 | 国产日韩中文字幕 | 日韩国产一区二区三区 | 日本精品一区二区三区视频 | 欧美做暖暖视频 | 蜜桃av鲁一鲁一鲁一鲁 | 日韩精品一区二区三区免费观看 | 在线观看视频91 | 成人在线免费观看 | 国产精品美女久久久久aⅴ国产馆 | 91精品国产综合久久小仙女图片 | 精品国产18久久久久久二百 | 国产美女在线观看 | 99r在线 | 亚洲一区二区免费看 | 欧美精品导航 | 97成人免费| 中文字幕亚洲国产 | 亚洲另类视频 | 日韩精品一区二区三区中文在线 | 国产一级一级国产 | 日本一区二区在线视频 | 亚洲一区二区不卡在线观看 | 中文字幕第二区 | 成人h动漫精品一区二区器材 | 欧美国产精品 | 亚洲一区网站 | 二区视频 | 久久久久高清 | 老司机午夜性大片 | 国产精品成人av | 免费久久视频 | 精品国产一区二区三区av片 | 成人二区 | av播播 | 国产综合av | 欧美日韩亚洲国产综合 | 精品久久电影 | 国产一级免费视频 | 99在线精品视频 |