數據安全探索者之路
數據安全探索者任奎:數據是新時代的生產要素;保護數據原生價值,實現數據的所有權保護、交換與管理;完善數據在收集、使用、存儲等階段的全生命周期安全;研究分析復雜物理數據交互場景中的數據安全攻防機理;在保護數據所有權的前提下實現高價值數據的安全交易;安全技術標準的推廣與法律法規的完善。
01 數據安全防護是重大戰略需求
當前的行業共識認為數據是驅動數字經濟發展的核心動力。以數據為基礎的云計算、物聯網、區塊鏈、人工智能等經濟生態及相關產業鏈在智慧城市升級、國家重大基建產業發展等方面發揮著積極的作用。《中國數字經濟發展白皮書》顯示,2020年我國數字經濟規模已達39.2萬億元,較上年增加3.3萬億元,占GDP比重為38.6%。
顯而易見,數據正在加速驅動眾多國民經濟產業強勢騰飛。考慮到數據作為核心生產要素的重要地位,數據的安全和隱私保護不容忽視。隨著數據科學與工業生產的深度融合,數據安全的影響正在逐步蔓延到軍事、金融、醫療、教育等各個領域,并關乎國家安全。
事實上,學界和工業界都已經開始大力推動大數據安全戰略布局,各國政府也都相繼出臺各項法律法規以規范保障數據的安全使用和生產,如我國的《網絡安全法》、《密碼法》等。數據驅動的應用場景正在不斷地推陳出新,因此對數據安全防護的要求也在不斷提高。從一個數據安全技術研究與探索者的角度,我認為只有從真實場景的實際安全需求出發,才能尋找到最具價值的前沿研究領域。
鑒于此,我們團隊也一直在為揭示數據安全防護面臨的安全與性能間的沖突與挑戰進行多方面的探索。力求達到能夠抵御來自多方面潛在攻擊威脅的數據縱深安防保護,尊重并保障數據所有者的權限和利益,并同時盡最大可能的保留數據作為生產要素的原生價值。這也是當今整個數據安全行業正在追逐的共同目標。
02 全生命周期安全防護志在必行
以剛剛過去的2020年為例,據IBM安全機構發布,僅在這一年里,全球由于數據泄漏事件造成的平均經濟損失高達386萬美元,遍及醫療、金融、交通運輸等各個行業。
眾多實例表明,數據隱私泄露可能發生在存儲、傳輸、運行、處理等任何一個環節。因此,為了最大程度防止數據隱私泄漏,保障數據在整個生命周期內的安全性成為迫切需要解決的問題。在過去的數十年里,國內外的數據安全研究者與從業人員們已經建立起了諸多技術安全標準與規范,諸如AES、國密及TLS等,在數據存儲和傳輸層面的安防保障提供了強有力的支撐。
但是在數據運行時的安防保護措施,仍然有相當大的局限性。具體而言,不論數據存儲和傳輸時的安防措施做得如何,一旦到了數據運行及處理環節,數據一般情況下都是以明文形式呈現出來的,這就給攻擊者們(它們既可以來自外部亦或者來自內部)帶來可乘之機。
不同于其他自然界的生產資料,數據作為核心生產要素,一旦以明文呈現,是可以被攻擊者輕易拷貝、復制或竊取的,從而損害數據所有者的權限與利益。因此,如何保護數據運行時的安全,力求做到全生命周期的數據安全防護,是當下數據安全行業公認的一個痛點,也是我們正在著手研究的熱點問題之一。
數據運行時安全的技術方向和發展趨勢日新月異,包括諸如同態加密、安全多方計算、可搜索加密、可信硬件在內的技術點,雖然側重點不同,但共同的目的都是要做到數據“可用”而“不可見”。即在數據全生命周期保護(尤其是運行時保護)的前提下,最大可能地保留數據作為生產要素的原生價值,從而為達到數據的縱深安防保護提供強有力的技術支撐。這些技術的難點攻關和標準規范推動進程,正在學界和工業界的共同推進下飛速發展。
我們研究組也在這些領域深耕多年,有幸見證了業界對保護數據在整個生命周期內的安全性所做出的共同努力。從我職業生涯伊始,我和我的合作者們便一直致力于云數據安全(包括數據運行時的安全)方面的技術研究工作。
回顧起初,數據上云的趨勢才剛剛興起。云平臺固然帶來了諸多優勢,包括按需彈性服務、可擴展性和較低的入門成本等。但隨著數據和計算任務不斷遷移外包到云平臺,這個計算服務模式的轉變,也引發了許多新的數據安全和隱私問題,這些思考激發了我們的研究興趣。
在諸多我們開展過的研究課題里,一個比較代表性的主要挑戰就是如何維持密文數據的可搜索性,在不泄漏查詢或數據內容的前提下,實現密文檢索技術。這項研究的出發點,來源于實際生活中,數據搜索功能是無處不在的,數據搜索可以方便的讓我們在大量的數據集中,快速索取到我們感興趣的數據。
當時,只有少數密碼原語可以滿足相關安全性設計的要求,并且其功能仍然十分有限。鑒于此,我們開始了對加密數據的通用搜索的系統研究,并正式確定了許多新的搜索概念和基于密文數據的安全搜索設計,例如安全排序搜索,加密模糊搜索,多關鍵字搜索,圖形搜索和相似性搜索。
令人欣慰的是,我們的許多早期成果都得到了學術界和行內從業者的認可,這些認可也激勵了我們進一步探索更卓越的密文檢索相關密碼學原語設計。
與此同時,我們也關注到了這些密碼設計在實際部署時所遇到的安全與性能方面的挑戰,以及相關使用場景的局限性。尤其是從功能性角度和實際部署場景需求出發,僅僅實現上述密文數據的安全搜索設計是不夠的。
這也讓我們近期的研究焦點,逐步聚焦在如何構建一套功能完備的加密數據庫管理系統這一前沿領域。數據庫管理系統是當今各類應用場景的核心計算架構支柱之一,為不同規模與類型的數據提供了組織管理、存儲、查詢、分析計算等豐富的功能。加密搜索的安全設計,只能為復雜的數據庫系統提供某些原始操作,卻難以滿足工業界日益增長的性能和功能多樣性方面的需求。
幸運的是,基于硬件實現可信執行環境(TEE)技術的發展,例如ARM TrustZone和Intel SGX等,給數據運行時安全的相關設計帶來了新的契機。
相比于傳統復雜且功能受限的密碼學方案設計,TEE內部數據天然地具有私密性和完整性的保護,能提供更豐富的功能和更好的性能。如何利用好TEE技術,并與加密數據庫系統的構建,進行深度融合,仍然有相當多的重難點問題有待解決。
我們同時也要認識到,TEE技術也不是無懈可擊的。首先,TEE本身存在安全性隱患。一方面是因為硬件上可能存在漏洞,另一方面是可信硬件在設計時沒有考慮側信道攻擊,比如Intel SGX明確表明不防御側信道攻擊。雖然這些攻擊需要的條件較為苛刻,但也一定程度的影響了TEE的安全性。
其次,如果運行在TEE內的代碼本身存在漏洞,則仍可以被攻擊者利用,破壞相關系統設計的安全性(比如前述的加密數據庫系統)。運行在TEE內的代碼越多,其存在漏洞的可能性越大。
最后,可信硬件的使用不可避免會引入額外的開銷,例如程序進出Enclave以及數據的頁交換等。目前,我們已經在嘗試解決這些問題,雖然有不少挑戰,但我相信我們從該領域過去的項目中積累的經驗必定會為將來的研究提供諸多幫助。
我們不僅需要使用上述基于安全軟硬件的數據保護方案來保證數據運行中的安全隱私,在數據運行后的發布等階段,隱私泄露的風險依然存在。通過結合用戶在互聯網上的公開信息(如微博等社交平臺上發布的個人資料),攻擊者依然可以通過推斷攻擊(Reference Attack)從經過數據脫敏的匿名數據庫中準確定位大部分用戶的個人身份。
為解決這一問題,差分隱私(Differential Privacy)這一敏感數據保護技術被提出。其通過在原始數據中引入受控隨機性,提供了一個嚴格的數學工具來量化潛在的數據泄漏,并支持隱私保護數據的收集和發布。在真實場景中部署差分隱私機制的挑戰在于如何在實現差分隱私量化保護的同時保障各種實際場景中數據的效用。
現有的解決方案大多依賴于隨機值擾動,要求每個用戶按照差分隱私架構下預定義的隱私參數擾動其擁有的數據。我們團隊近期的一項工作提出了一種新的機制,引入偽造數據并與經過擾動后的原始數據相結合,在增強數據隱私可量化保護的同時,避免了數據可用性的大幅下降。
在常用業務場景的模擬環境中,實驗結果顯示這一方法在維持同等隱私保護強度的條件下,將數據效用提高了70%以上。目前,這一技術已經被整合到阿里巴巴集團的數據安全產品Datatrust等應用中,幫助保護數百萬用戶的隱私。
03 萬戶智聯下的數據安防新挑戰
在過去的二十年里,我們的社會見證了多種多樣的智能設備和系統的快速發展。異構硬件與軟件平臺種類的多樣性不可避免地導致系統的可攻擊面變得巨大(包括硬件層、系統層、網絡層、應用層、傳感器層等)。在物聯網技術快速發展并廣泛部署的今天,數據安防形勢也更為復雜,導致數據安全和隱私問題面臨更嚴峻的技術挑戰。
在復雜場景如自動駕駛、智能制造、智慧醫療中,用戶的數據安全和隱私保護面臨著更為嚴重與復雜的威脅與挑戰。在數月前發生的特斯拉車主維權事件中,特斯拉在公布了事故發生的行車數據后陷入了公布數據是否侵犯車主隱私的爭議之中。
在此前發生的多起特斯拉行車事故中,車輛運行數據均是確定事故責任劃分的重要依據,而數據不透明成為特斯拉被詬病最多的地方。根據我國法律法規,用戶有權查閱自己的行車數據,為此特斯拉開發了線上信息系統平臺,供車主查詢獲取車機交互數據。
然而,這也帶來了數據泄露等安全隱患問題:
第一,車主需要將身份認證信息傳輸給數據共享平臺,此通信過程存在身份信息泄露的安全隱患;
第二,為了讓車主能夠實時訪問車機數據,車機與服務端的通信量和頻次可能會大幅提升,這在客觀上會增加通信鏈路被竊聽或遭受中間人攻擊的風險;
第三,數據共享平臺的公開性對行車數據的可訪問性提出了要求,這容易混淆車主在境外訪問數據與境外勢力竊取數據的行為,將會對違規跨國數據傳輸行為的監測帶來更大挑戰。
再以隨身智能設備為例,我們團隊發現了多種新形態的用戶隱私攻擊技術,其中一項成果表明:智能手機上可以不用任何授權,僅利用加速度計就可以竊聽、還原用戶通話的聲音,且準確率高達90%。
我們中的許多人可能收到過與關鍵詞相關的未經請求的廣告,這些廣告就是由設備上的麥克風或者嵌入式傳感器無意或秘密捕獲的。這顯然是不可接受的隱私侵犯。
無論是利用內置傳感器對手機外部環境中的震動與聲音進行偵聽竊取,亦或是利用社交軟件中附近陌生用戶的搜索功能定位追蹤某個特定用戶,都利用了智能設備與用戶人機信息交互界面前所未有的豐富性與多樣性,從而繞過傳統的數據安全防護機制,獲取用戶隱私信息。
隨著智能傳感設備的日益普及,通過傳感器的數據、深度學習的模型等交互應用,敵手可以實現各種各樣的攻擊,擺在我們面前的研究挑戰既有理論上的,也有實踐上的。我希望能與社會各界一道,為保護數據隱私、維護數據安全而努力。
04 打造保護所有權的數據交易平臺
在現有的技術方案下,數據的安全性與其可利用性往往存在矛盾,二者不可兼得。例如,機器學習在各種類型的任務中取得了巨大的成功,并被廣泛應用于各行各業(如高頻交易市場、醫學診斷分析等)。然而,模型的訓練依賴于大量高質量的訓練數據。這表明數據作為基礎性戰略資源的地位日益凸顯,數據安全與數據變現的問題亟待解決。
如何在安全和效用這兩者間尋找一個平衡,既能保障數據生產者的權益,同時盡可能挖掘數據蘊含著的巨大的價值,需要我們提出一種全新的處理和對待數據的方法。
我們認為,建立一個有效且可信的數據市場是解決數據安全和隱私問題的可行方案之一。這一方案可以充分激發數據價值并滿足市場多元化需求,促進建立模型數據市場,為機器學習模型交易提供渠道。我們研究團隊近期的一項工作致力于研究機器學習模型的生產與交易情境下數據價值的挖掘。其首次明確了數據市場中數據所有者、中間商及模型購買者三方各自的期望及能力與他們所受到的限制,開發了一個全新的名為“中間商”(Dealer)的數據市場框架。
在此框架下,數據所有者和模型購買者之間的補償問題與中間商的利潤問題都得到了有效解決。在數據市場中,合理的補償分配將極大地激發了數據所有者參與市場交易的積極性,這對于進一步完善和優化數據市場治理具有重要意義。
同時,目前的“中間商”框架存在一個限制較強的假設,即中間商必須是絕對可信的,而這一點在現實世界中往往很難得到保證。為解決這個問題,我們一直與來自西蒙菲莎大學的裴健教授緊密合作,并嘗試利用多種安全技術,例如聯邦學習技術與差分隱私技術,來構建一個安全可信的數據市場框架。
05 構建數據安防技術標準與完善相關法律監管
在數據安全與隱私保護中,不存在畢其功于一役的技術與手段。即使有不斷加強的研究和新技術手段,在技術層面上也很難根本解決數據泄露、侵犯隱私的問題。比如,智能汽車數據規范使用單純從技術上很難解決,需要國家從標準和相關法律法規的制定方面定義責任邊界,相關審計部門對事故各個環節進行責任認定。
在這方面,浙大網安研究團隊領銜推動了ISO/IEC PWI 7748 “基于零知識證明的隱私保護指導與實踐” 國際標準的制定,并參與了國內首個SDK國家標準《移動互聯網應用程序(APP)SDK安全指南》、IEEE標準P2866.1《Standard for Device Trusted Extension: Software Architecture》、國內首個數字消費券團體標準《數字消費券服務規范》等國際國內相關安全標準的制定。通過構建數據安全和隱私保護的評估體系,制定安全技術標準和測評標準,建立數據平臺及服務安全評估體系,將成為保障數據安全和隱私的有效舉措,切實促進數據安全和隱私保護保障能力的全面提升。
更重要的是,通過行之有效的監管手段,為互聯網企業在追逐經濟效益的訴求時套上法律與監管的韁繩,在尋求經濟效益與社會效益間、在為公眾提供便利與保護公眾隱私間找到微妙的平衡。
目前,我國《數據安全法》《個人信息保護法》正在加緊制定出臺,從而在法律層面為數據安全和個人隱私保護提供法律保障。”通過加緊構建數據安防技術標準與相關法律法規的綜合治理體系,建立數據資源的確權、開放、流通以及交易的相關制度,從而在運行機制上進一步完善數據產權保護制度,為數據安全和個人隱私、個人信息保護提供制度保障。