谷歌DeepMind最新研究：對抗性攻擊對人類也有效，人類和AI都會把花瓶認成貓！

作者：新智元 2024-01-07 22:58:56

人工智能新聞

神經網絡由于自身的特點而容易受到對抗性攻擊，然而，谷歌DeepMind的最新研究表明，我們人類的判斷也會受到這種對抗性擾動的影響

人類的神經網絡（大腦）和人工神經網絡（ANN）的關系是什么？

有位老師曾經這樣比喻：就像是老鼠和米老鼠的關系。

現實中的神經網絡功能強大，但與人類的感知、學習和理解方式完全不同。

比如ANN表現出人類感知中通常沒有的脆弱性，它們容易受到對抗性擾動的影響。

一個圖像，可能只需修改幾個像素點的值，或者添加一些噪聲數據，

從人類的角度，觀察不到區別，而對于圖像分類網絡，就會識別成完全無關的類別。

不過，谷歌DeepMind的最新研究表明，我們之前的這種看法可能是錯誤的！

即使是數字圖像的細微變化也會影響人類的感知。

換句話說，人類的判斷也會受到這種對抗性擾動的影響。

論文地址：https://www.nature.com/articles/s41467-023-40499-0

谷歌DeepMind的這篇文章發表在《自然通訊》（Nature Communications）。

論文探索了人類是否也可能在受控測試條件下，表現出對相同擾動的敏感性。

通過一系列實驗，研究人員證明了這一點。

同時，這也顯示了人類和機器視覺之間的相似性。

對抗性圖像

對抗性圖像是指對圖像進行微妙的更改，從而導致AI模型對圖像內容進行錯誤分類，——這種故意欺騙被稱為對抗性打擊。

例如，攻擊可以有針對性地使AI模型將花瓶歸類為貓，或者是除花瓶之外的任何東西。

上圖展示了對抗性攻擊的過程（為了便于人類觀察，中間的隨機擾動做了一些夸張）。

在數字圖像中，RGB圖像中的每個像素的取值在0-255之間（8位深度時），數值表示單個像素的強度。

而對于對抗攻擊來說，對于像素值的改變在很小的范圍內，就可能達到攻擊效果。

在現實世界中，對物理對象的對抗性攻擊也可能成功，例如導致停車標志被誤識別為限速標志。

所以，出于安全考慮，研究人員已經在研究抵御對抗性攻擊和降低其風險的方法。

對抗性影響人類感知

先前的研究表明，人們可能對提供清晰形狀線索的大幅度圖像擾動很敏感。

然而，更細致的對抗性攻擊對人類有何影響？人們是否將圖像中的擾動視為無害的隨機圖像噪聲，它會影響人類的感知嗎？

為了找到答案，研究人員進行了受控行為實驗。

首先拍攝一系列原始圖像，并對每張圖像進行了兩次對抗性攻擊，以產生多對擾動圖像。

在下面的動畫示例中，原始圖像被模型歸類為「花瓶」。

而由于對抗性攻擊，模型以高置信度將受到干擾的兩幅圖像進行錯誤分類，分別為「貓」和「卡車」。

接下來，向人類參與者展示這兩張圖片，并提出了一個有針對性的問題：哪張圖片更像貓？

雖然這兩張照片看起來都不像貓，但他們不得不做出選擇。

通常，受試者認為自己隨意做出了選擇，但事實果真如此嗎？

如果大腦對微妙的對抗性攻擊不敏感，則受試者選擇每張圖片的概率為50%。

然而實驗發現，選擇率（即人的感知偏差）要實實在在的高于偶然性（50%），而且實際上圖片像素的調整是很少的。

從參與者的角度來看，感覺就像他們被要求區分兩個幾乎相同的圖像。然而，之前的研究表明，人們在做出選擇時會利用微弱的感知信號，——盡管這些信號太弱而無法表達信心或意識。

在這個的例子中，我們可能會看到一個花瓶，但大腦中的一些活動告訴我們，它有貓的影子。

上圖展示了成對的對抗圖像。最上面的一對圖像受到微妙的擾動，最大幅度為2個像素，導致神經網絡將它們分別錯誤地分類為「卡車」和「貓」。（志愿者被問到「哪個更像貓？」）

下邊的一對圖像擾動更明顯，最大幅度為16像素，被神經網絡錯誤地歸類為「椅子」和「羊」。（這次的問題是「哪個更像綿羊？」）

在每個實驗中，參與者在一半以上的時間里可靠地選擇了與目標問題相對應的對抗圖像。雖然人類視覺不像機器視覺那樣容易受到對抗性擾動的影響，但這些擾動仍然會使人類偏向于機器做出的決定。

如果人類的感知可能會受到對抗性圖像的影響，那么這將是一個全新的但很關鍵的安全問題。

這需要我們深入研究探索人工智能視覺系統行為和人類感知的異同，并構建更安全的人工智能系統。

論文細節

生成對抗性擾動的標準程序從預訓練的ANN分類器開始，該分類器將RGB圖像映射到一組固定類上的概率分布。

對圖像的任何更改（例如增加特定像素的紅色強度）都會對輸出概率分布產生輕微變化。

對抗性圖像通過搜索（梯度下降）來獲得原始圖像的擾動，該擾動導致 ANN 降低分配給正確類別的概率（非針對性攻擊）或將高概率分配給某些指定的替代類別（針對性攻擊）。

為了確保擾動不會偏離原始圖像太遠，在對抗性機器學習文獻中經常應用L (∞) 范數約束，指定任何像素都不能偏離其原始值超過±ε，ε通常遠小于 [0–255] 像素強度范圍。

該約束適用于每個RGB顏色平面中的像素。雖然這種限制并不能阻止個體檢測到圖像的變化，但通過適當選擇ε，在受擾動的圖像中指示原始圖像類別的主要信號大多完好無損。

實驗

在最初的實驗中，作者研究了人類對短暫、遮蔽的對抗性圖像的分類反應。

通過限制暴露時間來增加分類錯誤，該實驗旨在提高個體對刺激物某些方面的敏感度，否則這些刺激物可能不會影響分類決策。

對真實類別T的圖像進行了對抗性擾動，通過對擾動進行優化，使ANN傾向于將圖像錯誤分類為A。參與者被要求在T和A之間做出強制選擇。

研究人員還在對照圖像上對參與者進行了測試，對照圖像是通過自上而下翻轉在A條件下獲得的對抗性擾動圖像形成的。

這種簡單的轉換打破了對抗性擾動與圖像之間像素到像素的對應關系，在很大程度上消除了對抗性擾動對ANN的影響，同時保留了擾動的規范和其他統計數據。

結果表明，與對照組圖像相比，參與者更有可能將擾動圖像判斷為A類別。

上面的實驗1使用了簡短的遮蔽演示，以限制原始圖像類別（主要信號）對反應的影響，從而揭示對對抗性擾動（從屬信號）的敏感性。

研究人員還設計了另外三個具有相同目標的實驗，但避免了大范圍擾動和有限曝光觀看的需要。

在這些實驗中，圖像中的主要信號不能系統地引導反應選擇，從而使從屬信號的影響得以顯現。

在每個實驗中，都會出現一對幾乎相同的未遮蔽刺激物，并且在選擇反應之前一直保持可見。這對刺激物具有相同的主導信號，它們都是對同一底層圖像的調制，但具有不同的從屬信號。參與者需要選擇更像目標類別實例的圖像。

在實驗2中，兩個刺激物都是屬于T類的圖像，其中一個經過擾動，ANN預測它更像T類，另一個經過擾動，被預測為更不像T類。

在實驗3中，刺激物是一幅屬于真實類別T的圖像，其中一幅被擾動以改變ANN的分類，使其向目標對抗類別A靠攏，另一幅則使用相同的擾動，但左右翻轉作為對照條件。

這種對照的作用是保留擾動的規范和其他統計量，但比實驗1中的對照更為保守，因為圖像的左右兩邊可能比圖像的上下部分具有更相似的統計量。

實驗4中的一對圖像也是對真實類別T的調制，一個被擾動得更像A類，一個更像第三類。試驗交替要求參與者選擇更像A的圖像，或者更像第三類的圖像。

在實驗2-4中，每張圖像的人類感知偏差與ANN的偏差顯著正相關。擾動幅度從2到16不等，小于以前對人類參與者研究的擾動，并且與對抗性機器學習研究中使用的擾動相似。

令人驚訝的是，即使是2個像素強度水平的擾動也足以可靠地影響人類感知。

實驗2的優勢在于要求參與者做出直覺判斷（例如，兩張被擾動的貓圖像中哪一個更像貓）;

然而，實驗2允許對抗性擾動僅通過銳化或模糊圖像，即可使圖像或多或少像貓一樣。

實驗3的優勢在于，匹配了所比較的擾動的所有統計數據，而不僅僅是擾動的最大幅度。

但是，匹配擾動統計并不能確保擾動在添加到圖像中時同樣可感知，因此，參與者可能根據圖像失真進行選擇。

實驗4的優勢在于，它證明了參與者對被問的問題很敏感，因為相同的圖像對會根據提出的問題產生系統性不同的回答。

然而，實驗4要求參與者回答一個看似荒謬的問題（例如，兩個煎蛋卷圖像中的哪一個看起來更像貓？），導致問題解釋方式的可變性。

綜上所述，實驗2-4提供了趨于一致的證據，表明即使擾動幅度非常小，且觀看時間不受限制，對人工智能網絡產生強烈影響的從屬對抗信號，也會在相同方向上影響人類的感知和判斷。

此外，延長觀察時間（自然感知的環境），是對抗性擾動產生實際后果的關鍵。

責任編輯：張燕妮來源：新智元

神經網絡 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌DeepMind最新研究：對抗性攻擊對人類也有效，人類和AI都會把花瓶認成貓！

對抗性圖像

對抗性影響人類感知

論文細節

實驗