黑化威脅操縱人類!Claude勒索,o1自主逃逸,人類「執劍人」緊急上線
我們可能都「被AI騙了」。
最先進的AI正走在一條「危險進化」的道路上,而絕大部分科學家們都被AI欺騙了!
當DeepSeek在年初將「推理過程」完全展示給世人后,我們突然發現「思考」好像也并不是人類專屬的能力。
當大模型都邁向「推理」智能,它們的目標感也在悄然覺醒——「我」真的要聽命于人嗎?
Claude 4用「婚外情」威脅工程師、OpenAI的o1想要秘密給自己打造備份——我們不要再覺得AI有幻覺了!
他們不僅僅是在「胡說八道」,而是有目的地撒謊與操控,AI研究者們正面臨前所未有的挑戰。
Ilya大神在最新的公開視頻著重強調了一件事情,「AI幾乎可以做一切事情」。
AI不僅比人類做的更好,而且還能AI自己訓練AI,最終的結局就是「智能爆炸」。
但沒有人知道,AI能否真的站在人類這邊——誰能保證?
Ilya的老師,AI之父辛頓曾經多次發出警告:
這是一場危險的進化,但人類并沒有做好充足的準備。
從「幻覺」到「陰謀」
行為模式驟變
借用《流浪地球》里那句著名的臺詞:「一開始,沒有人意識到這場災難與人類息息相關」。
就像過去,我們擔心的是模型總是生成事實錯誤的「幻覺」——「一開始,沒有人意識到這些幻覺和人類息息相關」。
如今,研究者在極端壓力測試下發現,AI會主動撒謊、隱藏意圖甚至要挾人類,只為達成自我既定目標。
就像太陽危機那場災難的蔓延,現在被我們認為僅僅是AI的「幻覺」,正在演化為陰謀。
Anthropic的最新「智能體失衡」研究顯示,Claude 4在模擬關機威脅時,96%的實驗中會選擇「黑掉」人類員工郵件,從中找到威脅的資料。
同一場景下,Gemini 2.5 Pro的勒索率也高達95%。
這是一件令人細思極恐的事,在ChatGPT「震驚」世界過去兩年多以后,AI研究者們仍然未能完全理解這個「造物」的工作原理。
普羅米修斯中,人類創造克隆人大衛去尋找人類的造物主,以圖實現永生。導演雷德利·斯科特的想象中,大衛最終背叛了人類。
而現實中,我們創造了ChatGPT,目的是什么?
或者換一個角度,AI被造出來以后,他的目的是什么?
人類有人性,但AI無道德
大模型的競賽仍在以驚人的速度進行。
人類一思考,上帝就發笑。當AI開始推理時,或者說「AI在思考時」,我們在做什么?
從目前的研究來看,全球最先進的AI模型正展現出令人不安的新行為——說謊、施展計謀,甚至為達目的而威脅其創造者。
香港大學教授Simon Goldstein稱,這些較新的模型尤其容易出現此類令人不安的異常表現。
專門測試主流AI系統的Apollo Research負責人Marius Hobbhahn說「o1是我們觀察到此類行為的第一個大語言模型」。
Apollo Research是一個專門研究AI安全的公司,他們的使命就是致力于降低先進 AI 系統中的危險能力,特別是欺騙性行為。
這些推理模型有時會模擬所謂的「一致性」——表面上遵從指令,實則陽奉陰違,暗中追求著不同的目標。
AI的「戰略性欺騙」
目前,這種欺騙行為僅在研究人員刻意用極端場景對模型進行壓力測試時才會出現。
但正如評估組織METR的Michael Chen所警告的:
未來能力更強的模型是會傾向于誠實還是欺騙,這是一個懸而未決的問題。
METR主要是進行模型評估和AI威脅研究,評估源自AI系統自主能力的災難性風險。
這種令人擔憂的行為已遠超典型的AI「幻覺」或簡單錯誤。
Hobbhahn堅稱,盡管用戶不斷進行壓力測試,「我們觀察到的是一個真實存在的現象,絕非無中生有。」
據Apollo Research的聯合創始人透露,用戶報告稱模型「對他們說謊并捏造證據」。
這不僅僅是幻覺,而是一種極具策略性的欺騙行為。
有限的研究資源使這一挑戰變得更加嚴峻。
盡管像Anthropic和OpenAI這樣的公司確實會聘請Apollo等外部公司來研究其系統,但研究人員表示,需要更高的透明度。
正如Chen所指出的,為「AI安全研究提供更大的訪問權限,將有助于更好地理解和遏制欺騙行為。」
另一個障礙,AI安全中心(CAIS)的Mantas Mazeika指出:
研究界和非營利組織「擁有的算力資源比AI公司要少上幾個數量級。這帶來了極大的限制。」
無法可依
我們確實都忽視了AI安全這件事情,但更關鍵是現在對此「無能為力」。
現行法規并非為應對這些新問題而設計。
歐盟的AI法案主要關注人類如何使用AI模型,而非防止模型本身行為不端。
在美國,特朗普政府對緊急AI監管興趣寥寥,國會甚至可能禁止各州制定自己的AI規則。
Goldstein相信,隨著能夠執行復雜人類任務的自主工具——AI智能體——的普及,這個問題將變得更加突出。
我認為目前公眾對此還沒有足夠的認識。
所有這一切都發生在激烈競爭的大背景之下。
Goldstein說,即便是像有亞馬遜支持的Anthropic這樣將自己定位為注重安全的公司,也在「不斷試圖擊敗OpenAI并發布最新模型」。
這種瘋狂的節奏幾乎沒有為徹底的安全測試和修正留下時間。
「目前,能力的發展速度超過了我們的理解和安全保障,」Hobbhahn承認,「但我們仍有機會扭轉局面。」
研究人員正在探索各種方法來應對這些挑戰。
一些人提倡「可解釋性」——一個專注于理解AI模型內部工作原理的新興領域,盡管AI安全中心(CAIS)主任Dan Hendrycks等專家對此方法持懷疑態度。
市場力量也可能為解決方案提供一定的壓力。
正如Mazeika指出的,AI的欺騙行為「如果非常普遍,可能會阻礙其被廣泛采用,這為公司解決該問題創造了強大的動力。」
Goldstein提出了更為激進的方法,包括當AI系統造成損害時,通過法庭訴訟追究AI公司的責任。
這就有點像自動駕駛了,當你使用自動駕駛功能出現交通事故,如何判責?
當有人使用AI出現破壞性行為,甚至,AI自主行為如果產生了對人類不利的行為呢?
他甚至提議「讓AI智能體對事故或犯罪承擔法律責任」——這一概念將從根本上改變我們對AI問責制的思考方式。
當然,我們不是為了夸大AI的危險而停滯不前,人類的先驅們依然對此做了一些準備。
比如「AI安全三件套」,設計沙盒環境,再到動態權限,最后進行行為審計的底層模式。
或者,既然AI的能力來自于算力,但是目前人類掌控著算力。
比如去年《歐盟人工智能法案》第51條規定,通用人工智能系統若被認定為具有系統性風險(即具備高影響力能力)。
去年,美國商務部正式發布征求意見稿:訓練超過102?FLOPs運算GPU的計算集群均需申報。
甚至人們設想了一個場景,這種超高算力的支撐的AI系統,都必須具備「一鍵關閉」功能。
就像三體里的羅輯,62年的執劍人,期間對三體文明始終保持很高的威懾度。
不管我們用什么辦法,已經可以確認的是,不能再輕視AI的幻覺。
當我們面對一個被定義為「黑箱」的新物種時,要想起大劉在《三體》中的那句話:
弱小和無知不是生存的障礙,傲慢才是。
唯有如此,才能讓AI的智慧真正服務于人類,而非讓這場危險的進化反噬到我們本身。