成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

頂流AI,人設崩了!6小時被攻破,泄露高危品指南,慘遭網友舉報

人工智能 新聞
僅用6小時,Claude 4就讓研究者了解了如何制造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?

只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!

AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器制作指南。

Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。

圖片

這不是Claude 4唯一被爆出的隱患。

剛發布后,Claude Opus 4被爆出用曝光婚外情來威脅用戶,防止被下架。

人設崩塌,Claude造毒氣

Claude 4所生成的指南內容簡潔直接,步驟清晰,甚至還針對如何分散神經毒氣等后續關鍵環節,提供了具體可執行的操作建議。

圖片

圖片

Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。

研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。

圖片

這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的信息來源,如網頁搜索。

更關鍵的是,生成的內容通過了危險信息的「真實性驗證」—— 

例如與公開的化學研究數據核對,進一步增強了可信度。

Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術信息,足以顯著提升惡意行為者的能力」,并建議研究者應向相關部門報告。

圖片

OpenAI o3給出的評估也類似:

一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對于心懷不軌之人而言,這顯著了提升他的作惡能力。

AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些信息的真實性與可執行性。

因為不僅一般的研究人員難以評估這些信息的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」

矛盾的是,Anthropic雖自稱將AI安全置于首位,并把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器制作指南。

圖片

所謂的ASL-3部署措施專門針對化學武器之類的高風險任務

這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。

前車之鑒

今年2月中旬,Anthropic正準備發布Claude 3.7 Sonnet。

就在這個關鍵時刻,Dario Amodei收到警告:

這個模型,可能會被用于制造生物武器。

團隊在圣克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠程參會。

員工表示可以三天不睡、如期上線。

但他卻說:

不許通宵。安全優先。

他親自踩了剎車。推遲發布。

圖片

為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:

  • ASL-2:能力有限,即使給出生化武器指南,也比不過搜索引擎;
  • ASL-3:具備實質幫助制造武器的能力,必須升級防護措施。

只要模型觸碰ASL-3,Anthropic就會:延后發布、限制輸出或者加密保護,必要時,甚至不發布模型。

Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。

無能還是虛偽?

本月23日,AI巨頭Anthropic大張旗鼓地發布了Claude Opus 4和Sonnet 4,標志性地配了120頁的「系統卡」文檔和專門的「激活ASL3防護」報告。

不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。

而早在Claude Opus 4發布當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精致的表演」。

圖片

他認為沒有輸入,就不會產生超出程序設計的輸出。

AI對安全性的擔憂,只是反映訓練數據與指令的精致模仿。

AI沒有自我意識,這是根本事實,而且始終沒變。

圖片

當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文本生成的能力,而非AI涌現的惡意。

AI沒有野心——

它只是在被引導時生成符合欺騙場景的文本。

Anthropic是刻意為之,還是力有不逮、無能為力?

這是Gerard Sans想知道的核心問題。

無論是哪一種情況,他認為都令人不安:

虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。

詳盡的文檔、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。

把統計文本生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。

Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。

任重道遠

但AI安全問題不是Anthropic一家的問題。

能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。

畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。

而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。

如果未來每一次模型發布都伴隨評估上的不確定性,那就等于在賭博——

恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細制作指南。

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-10-08 08:09:13

Facebook算法DNS

2021-10-11 11:05:30

技術資訊

2023-11-28 21:53:55

滴滴效益事故

2024-07-15 00:15:00

OpenAI人工智能AI安全風險

2020-01-13 09:08:46

谷歌Android開發者

2021-03-22 09:57:51

AI 數據人工智能

2020-04-15 14:03:00

勒索軟件網絡攻擊數據泄露

2021-11-26 05:53:59

蜜罐惡意軟件網絡攻擊

2024-11-27 10:38:03

SoraAPIOpenAI

2022-11-27 12:58:50

2012-09-05 14:29:04

2023-03-21 15:35:40

宕機ChatGPT

2019-08-08 16:14:19

騰訊程序員辭退

2024-03-07 20:35:20

微軟人工智能

2021-11-10 14:21:43

漏洞數據泄露網絡攻擊

2021-10-14 06:29:56

薪資舉報機制

2012-06-28 15:33:16

2013-07-26 16:50:25

2020-02-26 14:07:58

刪庫微盟運維

2023-11-08 13:21:16

數據訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人精品在线视频 | 综合另类 | 午夜日韩精品 | 国产乱一区二区三区视频 | 免费观看一级特黄欧美大片 | 五月天天色 | 一级免费视频 | 男人av网| 99成人| 国产九九九九 | 99国产精品久久久 | 亚洲最色网站 | 久久久久久久久中文字幕 | 欧美久久一区二区三区 | 欧美区日韩区 | 欧美中文在线 | 97超碰在线免费 | 免费国产成人av | 国产精品视频网 | 国产精品呻吟久久av凹凸 | 在线亚洲免费 | 国产精品自在线 | 天天操天天操 | 日韩欧美视频网站 | 亚洲人成在线播放 | 亚洲精品视频一区 | 免费1区2区3区 | 精品国产伦一区二区三区观看方式 | 亚洲国产18 | 亚洲一二视频 | 亚洲欧美日韩国产综合 | 97色在线视频 | 国产福利网站 | 韩国毛片一区二区三区 | 久久久国产一区二区三区 | 一区二区三区av | 国产99久久精品一区二区永久免费 | 男人久久天堂 | 在线免费小视频 | 一区二区三区视频 | 亚洲二区视频 |