復旦主導，中美等8個國家25家單位44名學者聯合發布大模型安全技術綜述

作者：機器之心 2025-02-20 11:31:31

來自中美英德等 8 個國家 25 家高校和科研機構的 44 位 AI 安全領域學者聯合發布了一篇系統性技術綜述論文。

近年來，隨著大模型的快速發展和廣泛應用，其安全問題引發了社會各界的廣泛關注。例如，近期發生的「全球首例利用 ChatGPT 策劃的恐襲事件」再次敲響了警鐘，凸顯了大模型安全問題的緊迫性和重要性。

為應對這一挑戰，來自中美英德等 8 個國家 25 家高校和科研機構的 44 位 AI 安全領域學者聯合發布了一篇系統性技術綜述論文。該論文的第一作者是復旦大學馬興軍老師，通信作者是復旦大學姜育剛老師，領域內眾多知名學者共同參與。

這篇綜述論文全面調研了近年來大模型安全相關的 390 篇研究工作，并采用簡單直接的三級目錄結構對內容進行了系統梳理（如圖 3 所示）：一級目錄聚焦模型類型，二級目錄區分攻擊與防御類型，三級目錄細化技術路線。

研究覆蓋了視覺基礎模型、大語言模型、視覺-語言預訓練模型、視覺-語言模型、文生圖擴散模型和智能體等 6 種主流大模型，以及對抗攻擊、后門攻擊、數據投毒、越獄攻擊、提示注入、能量延遲攻擊、成員推理攻擊、模型抽取攻擊、數據抽取攻擊和智能體攻擊等 10 種攻擊類型。

論文總結了 4 個重要研究趨勢（參考下圖 1 和 2）：

1. 研究規模顯著增長

過去 4 年，大模型安全研究論文數量成倍增長，2024 年相關研究已突破 200 篇，充分體現了學術界和產業界對該領域的高度關注。

2. 攻防研究比例失衡

在現有研究中，約 60% 的工作聚焦于攻擊方法，而防御相關研究僅占 40%。這種攻防研究的不平衡狀態凸顯了當前防御技術的不足，亟需更多資源投入以提升大模型的安全性。

3. 重點攻擊目標

大語言模型、文生圖擴散模型以及視覺基礎模型（包括預訓練 ViT 和 SAM）是目前最受攻擊者關注的三類模型。這些模型因其廣泛的應用場景和高影響力，成為安全研究的核心焦點。

4. 主流攻擊類型

對抗攻擊、后門和投毒攻擊以及越獄攻擊是目前被研究最多的三大攻擊類型。這些攻擊手段因其高成功率和潛在危害性，成為大模型安全領域的主要挑戰。

圖 1. （左）過去四年發表的大模型安全研究論文數量；（中）各類大模型的研究分布；（右）各類攻擊 / 防御的研究分布。

圖 2. （左）不同模型上研究論文數量的季度變化趨勢；（中）各類大模型與對應攻防研究之間的比例對應關系；（右）各類攻防研究論文年度發表數量的變化趨勢（從高到低上下排序）。

除了介紹針對各類模型的攻擊與防御方法，論文還歸納了研究常用的數據集和評估基準，為初學者快速了解領域進展和實驗設置提供了參考。論文的組織結構清晰，內容詳實，不僅為學術界和產業界提供了全面的研究指南，也為未來大模型安全研究指明了方向。

最后，論文總結了大模型安全領域的主要挑戰，并呼吁學術界與國際社會協同合作，共同應對這些難題：

1. 根本脆弱性理解不足

領域需要增加對大模型根本脆弱性的理解。比如大語言模型的脆弱性根源是什么，不同模態間的脆弱性是否會相互傳播？文生圖和文生視頻類大模型語言能力的缺乏是否會讓它們更難對齊？此外，大模型是否真的會記憶原始訓練數據或者以何種方式、多大程度記憶訓練數據？

2. 安全評測的局限性

當前評估方法存在顯著不足。單一參考攻擊成功率無法全面衡量模型安全性，基于靜態數據集的基準評測難以應對各類攻擊。盡管對抗性評測不可或缺，但在實際環境中，其全面性、準確性和動態性仍需提升。

3. 防御機制亟待加強

現有防御措施存在明顯短板，當前防御體系缺乏主動機制和有效檢測手段。安全對齊技術并不是萬能的，在面對更先進的攻擊時仍可被繞過。隨著具身智能發展和通用智能的接近，領域亟需更具系統性、實用性和前瞻性的防御方案。

4. 呼吁全球合作

為應對日益多樣化的挑戰，倡議發展以防御為導向的大模型安全研究，開發更強大的安全防御工具。呼吁模型開源、呼吁商業模型提供專用安全 API、呼吁建立開源安全平臺。呼吁全球合作，只有通過學術界、產業界和國際社會的共同努力，才能構建更安全可信的人工智能生態系統。

責任編輯：張燕妮來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看