迄今最詳細的人工智能網絡攻擊分類指南
作者:佚名
近日,NIST發布了可能是迄今最詳細的針對人工智能系統的網絡攻擊分類指南——對抗性機器學習:攻擊和緩解的分類和術語”(NIST.AI.100-2))。
,
近日,NIST發布了可能是迄今最詳細的針對人工智能系統的網絡攻擊分類指南——對抗性機器學習:攻擊和緩解的分類和術語”(NIST.AI.100-2)),并指出:
- 當人工智能系統接觸到不可信的數據時,可能會出現故障,而攻擊者正在利用這個問題。
- 新指南記錄了這些攻擊的類型以及緩解方法。
- 目前尚不存在萬無一失的方法來保護人工智能免受誤導,人工智能開發人員和用戶應該警惕任何提出其他說法的人
人工智能網絡攻擊分為四大類
NIST的指南將人工智能網絡攻擊分為四大類型:逃避、投毒、隱私和濫用攻擊。指南還根據攻擊者的目標、能力和知識等多種標準將每一類攻擊類型細分為多個自類別:
- 逃避攻擊。發生在人工智能系統部署后,通過對抗性輸入改變系統的響應方式。例如,在停車標志上添加標記,使自動駕駛車輛將其誤解為限速標志,或者創建令人困惑的車道標記,使車輛偏離道路發生車禍(編者:有些非人為或非故意的視覺信息也可能產生類似的效果)。
- 中毒攻擊。在訓練階段引入損壞的數據。一個例子是將大量不恰當語言的實例放入對話記錄中,誤導聊天機器人以為是常用語并在用戶交互中使用。
- 隱私攻擊。隱私攻擊發生在部署期間,通過提出繞過現有護欄的問題來收集有關系統或其訓練數據的敏感信息。對手可以向聊天機器人提出許多貌似合理的問題,然后使用答案對模型進行逆向工程,以找到其弱點,或猜測其來源。在這些在線資源中添加不需要的示例可能會使人工智能行為不當,并且在事后讓人工智能忘記“有毒”示例可能很困難。
- 濫用攻擊。將不正確的信息插入到源中,例如網頁或在線文檔,然后讓人工智能吸收這些信息。與前面提到的中毒攻擊不同,濫用攻擊通過篡改或污染合法來源向人工智能提供不正確的信息,以重新調整人工智能系統的預期用途。
東北大學教授、合著者阿麗娜·奧普雷亞(Alina Oprea)表示:“大多數此類攻擊都相當容易發起,并且不需要對人工智能系統有太多了解,所需的對抗能力也不高。例如,可以通過控制幾十個訓練樣本來發起投毒攻擊,而這些樣本只占整個訓練集的很小一部分。”
責任編輯:華軒
來源:
GoUpSec