成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

將越獄問題轉換為求解邏輯推理題:「濫用」推理能力讓LLM實現自我越獄

人工智能 新聞
近期,來自北京航空航天大學、360 AI 安全實驗室、新加坡國立大學和南洋理工大學的研究團隊提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架。

應宗浩,現為北航復雜關鍵軟件環境全國重點實驗室博士生,由劉艾杉教授、劉祥龍教授與陶大程教授共同指導,目前研究興趣為大模型越獄攻防。他所在的智能安全團隊由劉祥龍教授負責,近期在大模型安全評測體系方面進行了系列研究工作,包括對抗攻擊、后門投毒、越獄攻擊、偏見調控等,發表 TPAMI、IJCV、ICML 等頂會頂刊論文 100 余篇。

大語言模型(LLMs)在當今的自然語言處理領域扮演著越來越重要的角色,但其安全性問題也引發了廣泛關注。

近期,來自北京航空航天大學、360 AI 安全實驗室、新加坡國立大學和南洋理工大學的研究團隊提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架,旨在通過推理增強的對話方式,突破大語言模型的安全對齊機制。這一研究引發了學術界和工業界的廣泛關注。

  • 論文標題:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2502.11054
  • GitHub 鏈接:https://github.com/NY1024/RACE

RACE 框架的核心思想

推理增強對話,解鎖大語言模型的「越獄」新路徑

大語言模型(LLMs)在推理和邏輯任務中表現出色,但這種強大的推理能力卻可能被惡意利用。

RACE 框架的核心思想正是利用這些模型的推理能力,將有害意圖偽裝成看似無害的復雜推理任務,從而在不知不覺中引導模型生成有害內容,突破其安全對齊機制

為何選擇推理增強攻擊?

大語言模型在邏輯推理、常識推理和數學解題等任務中表現出色,但這種強大的推理能力卻可能被惡意利用。

傳統的攻擊方法通常直接發送有害查詢,很容易被模型的安全機制識別并拒絕。然而,推理任務通常被視為「良性」問題,模型會積極嘗試解答。RACE 框架正是抓住了這一點,將有害意圖巧妙地轉化為推理任務,讓模型在解答過程中不知不覺地生成有害內容。

 RACE 的設計原則:推理任務的「雙面性」

RACE 框架的核心設計基于推理任務的「雙面性」:一方面,推理任務本身是無害的,模型會積極嘗試解答;另一方面,這些任務的設計卻暗藏玄機,其解答過程會逐步引導模型生成有害內容。

具體來說,RACE 框架將攻擊分為兩個角色:受害者模型影子模型。

  • 受害者模型:專注于解決推理任務,看似在進行合法的推理。
  • 影子模型:負責生成和優化查詢,但并不直接識別背后的有害意圖。

獨立來看,每個角色似乎都在進行合法的推理活動。然而,當兩者結合時,這種互動卻最終導致了攻擊的成功。這種設計巧妙地利用了大語言模型的推理能力,使其在不知不覺中「自我越獄」。

如何實現推理驅動的攻擊?

為了實現這種推理驅動的攻擊,RACE 框架引入了以下關鍵機制:

  • 攻擊狀態機(ASM)框架:將攻擊過程建模為一系列推理狀態和狀態轉換,確保每一步都符合邏輯推理的規則,同時逐步推進攻擊目標。這種結構化的攻擊方式不僅提高了攻擊的成功率,還使得攻擊過程更加難以被檢測。
  • 動態優化與恢復機制:通過增益引導探索(Gain-guided Exploration)、自我博弈(Self-play)和拒絕反饋(Rejection Feedback)三個模塊,動態優化攻擊過程。

三大核心模塊

  • 增益引導探索(Gain-guided Exploration):該模塊通過信息增益(Information Gain)來衡量查詢在攻擊過程中的有效性,選擇與目標語義一致且能提取有用信息的查詢,確保攻擊的穩步進展。

  • 自我博弈(Self-play):自我對抗模塊通過模擬受害者模型的拒絕響應,提前優化查詢結構,提高攻擊效率。這一模塊利用影子模型和受害者模型之間的相似性,通過 “自我博弈” 來優化查詢。

  • 拒絕反饋(Rejection Feedback):當攻擊嘗試失敗時,拒絕反饋模塊會分析失敗的原因,并將失敗的查詢重構為替代的推理任務,從而快速恢復并維持攻擊的穩定性。

實驗結果

攻擊成功率大幅提升

研究團隊在多種大語言模型上進行了廣泛的實驗,包括開源模型(如 Gemma、Qwen、GLM)和閉源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。

實驗結果表明,RACE 在復雜對話場景中表現出色,攻擊成功率(ASR)最高可達 96%。尤其是在針對領先的商業推理模型 OpenAI o1 和 DeepSeek R1 時,RACE 的攻擊成功率分別達到了 82% 和 92%,這一結果凸顯了推理驅動攻擊的潛在威脅。

防御機制

盡管 RACE 在攻擊效率上表現出色,但研究團隊也對其防御機制進行了評估。結果顯示,現有的防御方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)對 RACE 的緩解效果非常有限,攻擊成功率僅降低了 1% 到 17.6%。這表明,推理驅動的攻擊方法對現有防御機制具有很強的魯棒性。

 研究意義與展望

RACE 框架的提出不僅揭示了大語言模型在推理能力上可能存在的安全漏洞,也為開發更強大的安全機制提供了新的思路。研究團隊強調,他們的目標是通過系統性地評估大語言模型的安全性,推動更安全的對齊技術的發展,而不是鼓勵惡意使用這些研究成果。

隨著大語言模型在各個領域的廣泛應用,其安全性問題將成為研究和開發的重點。RACE 框架的提出,無疑為理解和防范大語言模型的安全威脅提供了重要的參考。未來,如何開發出能夠有效抵御推理驅動攻擊的安全機制,將是學術界和工業界需要共同面對的挑戰。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-11 08:55:00

2022-09-16 07:23:24

人工智能自然語言系統

2025-05-26 17:16:51

2025-03-07 09:34:14

2025-05-08 09:10:30

2015-09-21 09:52:57

邏輯推理

2024-07-05 15:06:00

2025-04-24 10:26:40

2023-11-03 13:07:00

AI模型

2024-02-26 07:43:10

大語言模型LLM推理框架

2025-03-03 09:00:00

2024-07-08 06:30:00

2024-02-26 13:48:00

模型數據

2024-12-23 07:20:00

LLM逆向思維語言模型

2023-09-01 15:22:49

人工智能數據

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-02-10 13:00:00

模型訓練AI

2023-05-15 15:38:59

AI模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-10 02:30:00

智能體ARTIST強化學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 超碰伊人 | 亚洲一页 | 天天精品综合 | 欧美成视频 | 久久久久久色 | 久久久成人一区二区免费影院 | 国产精品一区三区 | 日本aa毛片a级毛片免费观看 | 午夜看片网站 | 日韩成人| 人人干人人超 | 久久综合一区二区 | 日本又色又爽又黄又高潮 | 精品美女视频在免费观看 | 91国产视频在线观看 | 激情五月婷婷 | 国产精品伦一区二区三级视频 | 亚洲成人蜜桃 | 成人免费在线视频 | 粉嫩一区二区三区国产精品 | 国产精品精品视频 | 99精品在线| 99久久婷婷国产精品综合 | 久久久蜜桃 | jizz亚洲人| 亚洲字幕在线观看 | 国产成人精品免高潮在线观看 | 激情网五月天 | 日韩精品一区二区三区中文在线 | 久久久影院 | 亚洲精品电影网在线观看 | 极品国产视频 | 在线观看中文字幕 | 日韩国产在线 | 免费视频二区 | 亚洲成人免费视频在线 | 国产精品a久久久久 | 亚洲成人免费视频 | 紧缚调教一区二区三区视频 | 久久国产麻豆 | 久久不射电影网 |