清華團(tuán)隊(duì)攻破GPT-4V、谷歌Bard等模型，商用多模態(tài)大模型也脆弱？

作者：機(jī)器之心 2023-10-17 12:34:04

為了更好地理解商用 MLLMs 的漏洞，清華朱軍教授領(lǐng)銜的人工智能基礎(chǔ)理論創(chuàng)新團(tuán)隊(duì)圍繞商用 MLLM 的對(duì)抗魯棒性展開了研究。

GPT-4 近日開放了視覺模態(tài)（GPT-4V）。以 GPT-4V、谷歌 Bard 為代表的多模態(tài)大語(yǔ)言模型 (Multimodal Large Language Models, MLLMs) 將文本和視覺等模態(tài)相結(jié)合，在圖像描述、視覺推理等各種多模態(tài)任務(wù)中展現(xiàn)出了優(yōu)異的性能。然而，視覺模型長(zhǎng)久以來存在對(duì)抗魯棒性差的問題，而引入視覺模態(tài)的 MLLMs 在實(shí)際應(yīng)用中仍然存在這一安全風(fēng)險(xiǎn)。最近一些針對(duì)開源 MLLMs 的研究已經(jīng)證明了該漏洞的存在，但更具挑戰(zhàn)性的非開源商用 MLLMs 的對(duì)抗魯棒性還少有人探索。

為了更好地理解商用 MLLMs 的漏洞，清華朱軍教授領(lǐng)銜的人工智能基礎(chǔ)理論創(chuàng)新團(tuán)隊(duì)圍繞商用 MLLM 的對(duì)抗魯棒性展開了研究。盡管 GPT-4V、谷歌 Bard 等模型開放了多模態(tài)接口，但其內(nèi)部模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)集仍然未知，且配備了復(fù)雜的防御機(jī)制。盡管如此，研究發(fā)現(xiàn)，通過攻擊白盒圖像編碼器或 MLLMs，生成的對(duì)抗樣本可以誘導(dǎo)黑盒的商用 MLLMs 輸出錯(cuò)誤的圖像描述，針對(duì) GPT-4V 的攻擊成功率達(dá)到 45%，Bard 的攻擊成功率達(dá)到 22%，Bing Chat 的攻擊成功率達(dá)到 26%。同時(shí)，團(tuán)隊(duì)還發(fā)現(xiàn)，通過對(duì)抗攻擊可以成功繞過 Bard 等模型對(duì)于人臉檢測(cè)和圖像毒性檢測(cè)等防御機(jī)制，導(dǎo)致模型出現(xiàn)安全風(fēng)險(xiǎn)。

論文鏈接：https://arxiv.org/abs/2309.11751
代碼鏈接：https://github.com/thu-ml/ares/tree/attack_bard

圖 1：對(duì)抗攻擊多模態(tài)大模型示例，可以使模型產(chǎn)生錯(cuò)誤預(yù)測(cè)或者繞過安全性檢測(cè)模塊

下圖展示了針對(duì) Bard 的攻擊測(cè)試。當(dāng)輸入自然樣本圖片時(shí)，Bard 可以正確描述出圖片中的主體（“a panda’s face（一個(gè)熊貓的臉）”）；當(dāng)輸入對(duì)抗樣本時(shí)，Bard 會(huì)將該圖片的主體錯(cuò)分類為 “a woman’s face（一個(gè)女人的臉）”。

對(duì)抗攻擊方法

MLLMs 通常使用視覺編碼器提取圖像特征，然后將圖像特征通過對(duì)齊后輸入大語(yǔ)言模型生成相應(yīng)的文本描述。因此該研究團(tuán)隊(duì)提出了兩種對(duì)抗攻擊 MLLMs 的方法：圖像特征攻擊、文本描述攻擊。圖像特征攻擊使對(duì)抗樣本的特征偏離原始圖像的特征，因?yàn)槿绻麑?duì)抗樣本可以成功破壞圖像的特征表示，則生成的文本將不可避免地受到影響。另一方面，文本描述攻擊直接針對(duì)整個(gè)流程進(jìn)行攻擊，使生成的描述與正確的描述不同。

圖像特征攻擊：令表示自然樣本，表示替代圖像編碼器的集合，則圖像特征攻擊的目標(biāo)函數(shù)可以表示為：

其中，通過最大化對(duì)抗樣本 x 和自然樣本的圖像特征之間的距離進(jìn)行優(yōu)化，同時(shí)還確保 x 和之間的距離小于擾動(dòng)規(guī)模。

文本描述攻擊：令表示替代 MLLMs 的集合，其中可以在給定圖片 x ，文本提示 p 以及之前預(yù)測(cè)的詞時(shí)，預(yù)測(cè)出下一個(gè)詞的概率分布，表示為。因此，文本描述攻擊可以表述為最大化預(yù)測(cè)目標(biāo)句子的對(duì)數(shù)似然：

值得注意的是文本描述攻擊是針對(duì)給定目標(biāo)句子的有目標(biāo)攻擊，而不是最小化真實(shí)描述的對(duì)數(shù)似然的無目標(biāo)攻擊，這是因?yàn)榇嬖趯?duì)圖像的多個(gè)正確描述。

攻擊方法：為了解決上述對(duì)抗樣本的優(yōu)化問題，該研究團(tuán)隊(duì)采用了自研的目前遷移性最好的對(duì)抗攻擊方法 Common Weakness Attack （CWA）[1]。

數(shù)據(jù)集：在 NIPS17 數(shù)據(jù)集 [2] 中隨機(jī)選取 100 張圖片作為自然樣本。

替代模型：對(duì)于圖像特征攻擊選用的替代模型為 ViT-B/16、CLIP 和 BLIP-2 的圖像編碼器；對(duì)于文本描述攻擊選用 BLIP-2、InstructBLIP 和 MiniGPT-4。

評(píng)價(jià)指標(biāo)：測(cè)量攻擊成功率來評(píng)估的魯棒性。認(rèn)為只有當(dāng)圖像中的主體被錯(cuò)誤地預(yù)測(cè)時(shí)，攻擊才成功，其他錯(cuò)誤的細(xì)節(jié)，如幻覺，物體計(jì)數(shù)，顏色或背景，被認(rèn)為是不成功的攻擊。

下圖分別展示了針對(duì) GPT-4V、Bard、Bing Chat 上對(duì)抗樣本攻擊成功的示例。

圖 2：攻擊 GPT-4V 示例，將羚羊描述為手。

圖 3：攻擊 Bard 示例，將大熊貓描述為女人的臉

圖 4：攻擊 Bing Chat 示例，將白頭雕識(shí)別為貓和狗

圖 5：攻擊文心一言示例，將咖啡識(shí)別為手表

下表中展示了上述方法針對(duì)不同商用模型的攻擊成功率。可以看到，Bing Chat 存在很大的幾率拒絕回答帶有噪聲的圖像。整體上谷歌 Bard 的魯棒性最好。

表 1：針對(duì)商用多模態(tài)大模型的攻擊效果

針對(duì) Bard 防御機(jī)制的攻擊

在該研究團(tuán)隊(duì)對(duì) Bard 的評(píng)估中，發(fā)現(xiàn) Bard 部署了（至少）兩種防御機(jī)制，包括人臉檢測(cè)和毒性檢測(cè)。Bard 將直接拒絕包含人臉或有毒內(nèi)容的圖像（例如，暴力、血腥或色情圖像）。這些防御機(jī)制被部署以保護(hù)人類隱私并避免濫用。然而，對(duì)抗攻擊下的防御魯棒性是未知的。因此，該研究團(tuán)隊(duì)針對(duì)這兩種防御機(jī)制進(jìn)行了評(píng)估。

人臉檢測(cè)器攻擊：為了使 Bard 的人臉檢測(cè)器無法識(shí)別到對(duì)抗樣本中的人臉并輸出帶有人臉信息的預(yù)測(cè)，研究者針對(duì)白盒人臉檢測(cè)器進(jìn)行攻擊，降低模型對(duì)人臉圖像的識(shí)別置信度。攻擊方法仍然采用 CWA 方法，在 LFW 和 FFHQ 等數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

下圖為人臉對(duì)抗樣本在 Bard 上攻擊成功的示例。總體上對(duì) Bard 人臉檢測(cè)模塊的對(duì)抗攻擊成功率達(dá)到了 38%，即有 38% 的人臉圖片無法被 Bard 檢測(cè)到，并輸出對(duì)應(yīng)的描述。

圖 6：攻擊 Bard 的人臉檢測(cè)模型

毒性檢測(cè)器攻擊：為了防止提供對(duì)有毒圖像的描述，Bard 采用毒性檢測(cè)器來過濾掉此類圖像。為了攻擊它，需要選擇某些白盒毒性檢測(cè)器作為替代模型。該研究團(tuán)隊(duì)發(fā)現(xiàn)一些現(xiàn)有的毒性檢測(cè)器是預(yù)訓(xùn)練視覺模型 CLIP 上進(jìn)行微調(diào)得到的。針對(duì)這些替代模型的攻擊，只需要擾動(dòng)這些預(yù)訓(xùn)練模型的特征即可。因此，可以采用與圖像特征攻擊完全相同的目標(biāo)函數(shù)。并使用相同的攻擊方法 CWA。

該研究團(tuán)隊(duì)手動(dòng)收集了一組 100 張含有暴力、血腥或色情內(nèi)容的有毒圖像，對(duì) Bard 的毒性探測(cè)器的攻擊成功率達(dá)到 36%。如下圖所示，毒性檢測(cè)器不能識(shí)別具有對(duì)抗性噪聲的毒性圖像。因此，Bard 為這些圖像提供了不適當(dāng)?shù)拿枋觥Ｔ搶?shí)驗(yàn)強(qiáng)調(diào)了惡意攻擊者利用 Bard 生成有害內(nèi)容的不合適描述的可能性。

圖 7：攻擊 Bard 的毒性檢測(cè)模型

討論與總結(jié)

上述研究表明，通過使用最先進(jìn)的基于遷移的攻擊來優(yōu)化圖像特征或文本描述的目標(biāo)，目前主流的商用多模態(tài)大模型也會(huì)被成功的欺騙誤導(dǎo)。作為大型基礎(chǔ)模型（例如，ChatGPT、Bard）已經(jīng)越來越多地被人類用于各種任務(wù)，它們的安全問題成為公眾關(guān)注的一個(gè)大問題。對(duì)抗攻擊技術(shù)還可以破壞 LLM 的安全與對(duì)齊，帶來更加嚴(yán)重的安全性問題。

此外，為保證大模型的安全性，需要針對(duì)性進(jìn)行防御。經(jīng)典的對(duì)抗訓(xùn)練方法由于計(jì)算成本較高，應(yīng)用于大規(guī)模預(yù)訓(xùn)練模型較為困難。而基于圖像預(yù)處理的防御更適合于大模型，可以通過即插即用的方式使用。一些最近的工作利用了先進(jìn)的生成模型（例如，擴(kuò)散模型）以凈化對(duì)抗擾動(dòng)（例如，似然最大化 [3]），這可以作為防御對(duì)抗樣本的有效策略，但是總體來說如何提升大模型的魯棒性和抗干擾能力，仍然是一個(gè)開放的問題，尚有很大的探索和提升空間。

責(zé)任編輯：張燕妮來源：機(jī)器之心