網絡安全攻防:大數據安全問題
由于大數據分布式平臺的特殊性,防火墻、病毒防治等傳統安全機制無法保障大數據服務的安全,大數據在應用過程中往往存在如下一些安全問題。
(1)分布式計算的安全性。執行多個計算階段分布式程序必須獲得雙重安全保護,一個用于程序自身的安全保護,一個保護程序中的數據。
(2)分布式數據的安全性。NoSQL非關系型數據庫系統自身存儲的安全問題,以及分布式節點數據自動分發與聚集等管理所需的額外安全機制。
(3)數據來源的安全性。數據源的出處復雜性在不斷增長,當一個系統接收到海量多源異構數據時,大數據采集平臺必須解決每一個輸入數據的安全可信問題。
(4)安全監控與審計問題。存儲海量數據的互聯網大數據云平臺和關鍵基礎信息系統,已成為網絡攻擊的重要目標,同時數據的歸屬權問題也日益凸顯,需要研究實時保障大數據安全使用的監控與審計系統。
(5)加密與訪問控制問題。大數據安全須解決終端和云端兩種加密模式及其應用;同時,由于黑客攻擊、內部人員非授權訪問等導致的信息泄露事件時有發生,大數據的訪問控制模型也面臨挑戰。
(6)大數據安全隱私問題。大數據時代的來臨,涉及安全和個人隱私的問題紛至沓來,這將使人們的生活安全以及隱私保護受到極大困擾,必須從技術、法規等多個角度加以解決。
人們普遍認為,最令人焦慮的在于您根本不知道什么時候自己的隱私就無意中被泄露出去。在大數據時代,隱私泄露已成為人們最大的擔憂。大數據可將互聯網中的數據轉換成有價值的資源,但當大數據使人們的生活變得愈加方便快捷的同時,隱私泄露問題也隨之爆發。
隨著大數據的搜集和分析技術的發展,數據泄露的風險也在不斷加大,人們應該正視和規避這樣的風險。
1. 肆意收集帶來的隱私問題
在大數據環境中,可以通過醫療就醫記錄、購物及服務記錄、網站搜索記錄、手機通話記錄、手機位置軌跡記錄等來獲取用戶的信息。收集這些用戶個人信息時,通常是未經用戶同意,或者用戶很少有機會去思考、去認同自己的數據的用途;是誰收集了自己的數據;是誰二次使用了自己的數據;如果自己的數據出現誤用,將由誰負責;自己的數據是否在網上被惡意傳播;自己的數據什么時候被銷毀等。
因此,針對大數據平臺,數據采集首先應該脫敏處理。任何公民的個人信息都是“隱私”的一部分,在沒有得到個人許可或司法許可的前提下,若數據以原始狀態被采集,就必須理清超越邊界的范疇。而對原始數據進行脫敏處理,包括屏蔽完整的姓名、證件號碼、聯系方式、地址等關鍵信息。數據脫敏后用于統計分析和處理,是大數據安全分析的基礎。
2. 集成融合帶來的隱私問題
集成和融合通常采用鏈接操作使多個異構數據源匯聚在一起,并且識別出相應的實體。小數據源通常能夠反映出用戶的某個活動,比如接受的醫療、購買的商品、搜索的網站、手機留下的位置特征、與社交網絡互動信息、政治活動等。融合不同的小數據可以更好地服務于數據分析與管理。零售商通過集成線上、線下以及銷售目錄數據庫,可以獲得更多消費者的個人描述信息、預測消費者的購物偏好等;GPS服務商通過集成路網不同路段上的傳感器數據,可以得到更好的道路規劃與交通路線。然而,多個數據源的集成與融合幾乎能夠推理出個人所有的敏感信息,無形中給個人隱私的保護帶來嚴峻挑戰。
因此,大數據集成融合應該在用戶知情授權的前提下進行。啤酒與尿片這樣的經典關聯分析案例,現在看來也是一種大數據應用場景,而且并不針對任何個人的推銷。但當我們針對消費者個人消費習慣進行大數據分析,并得到針對性很強的個性化營銷策略的時候,其實消費者的隱私已在并不知情和未經授權的情況下被利用了,所以要針對個性化數據集成融合就需要以用戶知情為前提。
3. 數據分析帶來的風險
目前,基于大數據的計算框架,其計算分析能力幾乎已經能夠達到“大海撈針”。數據科學家通過分析,可以挖掘出大數據中的異常點、頻繁模式、分類模式、數據之間的相關性以及用戶行為規律等信息。然而,大數據分析的最大障礙是數據隱私問題。在某種程度上,隱私不可怕,可怕的是用戶的行為可以通過大數據分析被預測。大數據下的個性化推薦系統是電子商務網站根據用戶的興趣特點和購買行為,向用戶推薦感興趣的信息和商品。然而,用戶的商品購買信息以及行為模式很有可能被商務網站挖掘出來,進而導致隱私信息泄露。
因此,數據分析應該針對群體對象,而非個體。大數據分析可以發現同性和趨勢、關聯與耦合。通過大量的脫敏數據的整合分析,可以發現一個社會群體的某些特質;通過一些共同的行為軌跡,可以發現事物之間的關聯。如購物網站經常發布的網上購買最多的商品是什么、視頻網站經常發布的熱門劇是什么、春運時搜索網站經常發布人口遷移的熱力指數及人口遷移方向和趨勢等,這樣的大數據分析都不針對具體個體,也不揭露任何個人信息。