人工智能網絡安全威脅圖譜
12月15日,歐盟網絡與信息安全局(ENISA)發布了題為《人工智能的網絡安全挑戰:人工智能威脅圖譜》(Artificial Intelligence Cybersecurity Challenges: Threat Landscape for Artificial Intelligence)的報告,報告對人工智能網絡安全生態系統及威脅圖譜進行了描述,還強調了人工智能安全的相關挑戰。
ENISA發布人工智能網絡安全威脅圖譜
1.簡介
人工智能不斷影響著我們的生活,并通過自動化決策能力在數字化轉型中起著關鍵的作用。作為新興技術,人工智能帶來的優勢是非常明顯的,但同時也帶來了潛在的風險。比如,人工智能技術在自動駕駛汽車、智慧醫療等安全關鍵領域的應用可能會給個人和企業帶來新的、有可能不可預測的風險中,也可能會帶來新的攻擊方法和技術,并創建新的數據保護挑戰。
要確保人工智能本身的安全,那么需要:了解要確保什么的安全;了解相關的數據治理模型;在多方參與的生態系統中以一種綜合的方式管理威脅;開發特定的控制方式來確保人工智能本身是安全的。
人工智能和網絡安全具有多維關系,并且具有一系列的相互依賴性。
- 人工智能的網絡安全問題。人工智能模型和算法缺乏魯棒性,存在安全漏洞,比如對抗模型干擾和操縱,針對人工智能賦能的空間物理系統的攻擊、對人工智能系統使用的數據的攻擊等。
- 人工智能賦能網絡安全。人工智能作為一種工具,可以通過開發更有效的安全工具來創造更強的網絡安全能力;并利用人工智能來幫助執法機構等更好地應對網絡犯罪,比如大數據分析調查取證、人工智能在犯罪活動中的應用等。
- 人工智能的惡意使用。人工智能的惡意使用可以創建更復雜的攻擊,比如人工智能用于惡意軟件生成、高級社會工程、DDoS攻擊、深度生成模型生成虛假數據、口令破解等。這類使用既包括針對現有人工智能系統的攻擊,也包括人工智能應用于攻擊活動中。
2.AI生命周期
人工智能系統的生命周期包括幾個相互依賴的階段,從設計和開發(包括需求分析、數據收集、培訓、測試、集成等子階段)、安裝、部署、操作、維護和處置。
圖1 人工智能生命周期通用參考模型
2.1 數據
數據是人工智能中最有價值的資產之一,在人工智能生命周期中會不斷地進行轉化。圖2是數據在人工智能生命周期內不同階段的轉化過程:數據引入(Data Ingestion)、數據探索(Data Exploration)、數據預處理(Data Pre-processing)、特征重要性(Feature Importance,類似特征提?。?、培訓、測試和評估(Training, Testing and Evaluation)。人工智能生命周期中的數據轉換涉及其他幾種類型的資產,如參與者、計算資源、軟件等,甚至包括一些非有形資產,如流程、文化等,參與者的經驗和知識可能帶來潛在的非故意的威脅。
圖2 人工智能生命周期開發階段的數據轉化過程
2.2 人工智能生命周期的參與者
在完整的人工智能生命周期中有不同類型的參與者,其中包括人工智能系統設計和創建工程中的人工智能設計者和人工智能應用開發者。此外,還有開發人工智能系統中所用的軟件和算法的人工智能開發者。他們的經驗和能力在安全的人工智能系統開發中起著非常重要的作用。
人工智能開發者和設計者的工作與數據科學家聯系非常緊密。
- 數據科學家的工作包括幫助設計和開發人工智能模型。數據科學家還參與收集和翻譯數據的工作,主要是從數據中提取知識和觀點。
- 數據工程師主要是從不同的源中提取和收集數據,然后進行轉化、清理、標準化并存儲。數據工程師主要是對數據流進行設計、管理和優化。
人工智能生命周期中其他的主要參與者還包括數據所有者。數據所有者是用于訓練或驗證人工智能系統的數據集的所有者。數據所有者也可以是數據提供者或數據代理商。
人工智能生命周期的參與者還包括模型提供商,負責提供經過訓練或調整的模型。其中一些模型提供商是云提供者,以模型即服務的形式提供模型。也有第三方的提供者向開發者提供用于訓練人工智能系統的第三方框架和庫。
最后是使用人工智能系統的終端用戶,也就是服務的消費者。
3. AI資產
威脅圖譜中非常重要的一個元素就是可能暴露給威脅的資產種類。除了數據、軟件、硬件、通信網絡等與ICT相關的通用資產外,人工智能還有模型、數據等特定的資產,具體包括以下6大類:數據;模型;參與者;過程;環境/工具;相關產物Artefacts。
3.1 數據
數據資產包括原始數據、標記的數據集、公開數據集、訓練數據、測試數據集、驗證數據集、評估數據、預處理數據集等。
3.2 模型
模型資產包括算法、數據預處理算法、特征選擇算法、模型、模型參數、模型性能、訓練參數、超參數、訓練后的模型、微調過的模型等。
3.3 參與者
參與者資產包括數據所有者、數據科學家、人工智能開發者、數據工程師、終端用戶、數據提供者/代理人、云服務提供者、模型提供者、服務消費者/模型用戶等。
3.4 過程
過程資產包括數據引入、數據存儲、數據探索/預處理、數據理解、數據標記、數據收集、特征選擇、模型選擇/構建、訓練和測試、模型微調、模型適應-遷移學習/模型部署、模型維護等。
3.5 環境/工具
環境/工具資產包括通信網絡、通信協議、云、數據引入平臺、數據探索平臺、DBMS(數據庫管理系統)、分布式文件系統、計算平臺、集成開發環境、庫、監控工具、操作系統/軟件、優化技術、機器學習平臺、處理器、可視化工具。
3.6 相關產物Artefacts
相關產物資產包括訪問控制列表、用例、數據管理、價值主張和商業模型、數據管理策略、描述性統計參數、模型框架、軟件、固件和硬件、高級測試用例、模型架構、模型已經按設計、數據和元數據方案、數據索引。
4. AI威脅
根據ENISA威脅分類方法,人工智能安全威脅主要可以分為以下幾類:
- 惡意活動/濫用(NAA):指通過惡意行為,以竊取、更改或摧毀特定目標為目的,針對ICT系統、基礎設施和網絡的蓄意行為。
- 竊聽/攔截/劫持(EIH):在未經用戶同意的情況下監聽、攔截或控制第三方通信的行為。
- 物理攻擊(PA):旨在摧毀、暴露、更改、禁用、竊取或獲得對基礎設施、硬件或互聯的物理資產的未經授權訪問的行為。
- 非故意損害(UD):造成財產或人員的破壞、傷害或傷害,并導致失效或降低效用的無意行為。
- 故障或故障(FM):硬件或軟件等資產部分或全部功能失效。
- 停機(OUT):服務意外中斷或質量下降至要求水平以下。
- 災害:造成重大損害或生命損失的突發事故或自然災害。
- 法律(LEG):第三方根據法律采取的行動進行訴訟或賠償損失。
4.1 惡意活動/濫用(NAA)
- 對數據集和數據轉移過程的非授權訪問;
- 對數據集和數據轉移過程的操作;
- 對模型代碼的非授權訪問;
- 入侵和限制人工智能結果;
- 入侵人工智能干擾正確的數據;
- 入侵機器學習干擾正確的數據;
- 數據投毒;
- 數據修改;
- 權限提升;
- 內部威脅;
- 優化算法的操作;
- 基于對抗樣本的錯誤分類;
- 模型投毒;
- 對抗攻擊的轉移;
- 在線系統操縱;
- 白盒、定向或非定向攻擊;
- 標記數據操縱;
- 針對訓練數據集的后門插入攻擊;
- 入侵機器學習訓練驗證數據;
- 對抗樣本;
- 降低數據準確率;
- 機器學習模型完整性操縱;
- DDoS攻擊;
- 入侵機器學習預處理;
- 入侵模型框架;
- 數據索引破壞;
- 降低人工智能機器學習結果的有效性;
- 模型后門。
4.2 竊聽/攔截/劫持(EIH)
- 數據干擾;
- 數據竊?。?/li>
- 模型泄露;
- 弱加密。
4.3 物理攻擊(PA)
- 由于不可靠數據基礎設施引發的錯誤或限制;
- 模型破壞;
- 針對基礎設施系統的物理攻擊;
- 通信網絡攻擊;
- 其他蓄意破壞。
4.4 非故意損害(UD)
- 入侵或限制人工智能結果;
- 在數據操作過程中破壞隱私;
- 破壞特征選擇;
- 人工智能系統的操作配置或錯誤處理;
- 機器學習模型性能降級;
- 在線系統操縱;
- 數據缺乏充分的表示;
- 統計數據錯誤處理;
- 降低數據準確率;
- 模型的錯誤配置;
- 數據所有者引入的偏見;
- 個人信息泄露;
- 模型框架破壞。
4.5 故障(FM)
- 由于不可靠數據基礎設施引發的錯誤;
- 第三方提供商故障;
- 機器學習模型性能降級;
- 數據質量檢查缺失;
- 弱需求分析;
- 資源規劃不足;
- 弱數據管理策略;
- 數據索引破壞;
- 入侵機器學習預處理;
- 入侵模型框架。
4.6 停機(OUT)
- 基礎設置/系統停機;
- 通信網絡停機。
4.7 災害
- 地震、洪水、火災等自然災害;
- 氣候變化等。
4.8 法律(LEG)
- 數據索引破壞;
- 廠商鎖定;
- 弱需求分析;
- 缺乏數據治理策略;
- 個人信息泄露。
5.結論
ENISA人工智能威脅圖譜是即將發布的網絡安全政策倡議和技術指導的基礎,還介紹了人工智能相關的挑戰。其中一個特別重要的領域是與人工智能相關的供應鏈。因此,強調包括人工智能供應鏈的所有要素在內的歐盟生態系統對安全可靠人工智能是非常重要的。歐盟的安全人工智能生態系統應將網絡安全和數據保護放在首位,并促進相關的創新、能力建設、提高認識和開展研發活動。