管理大數(shù)據(jù)隱私:主動(dòng)出擊戰(zhàn)略
似乎所有人都在關(guān)注大數(shù)據(jù),甚至包括美國(guó)聯(lián)邦政府。美國(guó)聯(lián)邦貿(mào)易委員會(huì)(FTC)去年年底向數(shù)據(jù)經(jīng)紀(jì)行業(yè)的9家公司發(fā)出命令,要求他們提供對(duì)客戶數(shù)據(jù)收集和使用情況的信息。FTC的行動(dòng)明確表明,雖然大數(shù)據(jù)的興起提供了很多商業(yè)利益,但也帶來(lái)重大的隱私問(wèn)題。
為什么要使用大數(shù)據(jù)?
大數(shù)據(jù)不同于過(guò)去的數(shù)據(jù)倉(cāng)庫(kù),因?yàn)樗鼛缀醴治鏊蓄愋偷臄?shù)據(jù)文件或格式,包括圖像、視頻以及從社交媒體收集的數(shù)據(jù)。大數(shù)據(jù)的另一個(gè)特點(diǎn)是它沒(méi)有像服務(wù)器對(duì)數(shù)據(jù)存儲(chǔ)的“一對(duì)一”的關(guān)系,而是依賴虛擬化架構(gòu),從大型內(nèi)容商店和檔案中提取內(nèi)容作為單一全球資源。
在企業(yè)管理人員和業(yè)務(wù)線經(jīng)理中,使用大數(shù)據(jù)的***動(dòng)機(jī)是形成更準(zhǔn)確、詳細(xì)的預(yù)測(cè)或者推測(cè),從而為企業(yè)提供潛在的優(yōu)勢(shì)。大數(shù)據(jù)帶來(lái)的業(yè)務(wù)優(yōu)勢(shì)很廣泛,從新產(chǎn)品開(kāi)發(fā)和改進(jìn)到***定價(jià),再到篩選求職簡(jiǎn)歷和設(shè)計(jì)有效的營(yíng)銷活動(dòng)等。事實(shí)上,政治運(yùn)動(dòng)已經(jīng)開(kāi)始利用大數(shù)據(jù)分析:2012年奧巴馬競(jìng)選就利用了大數(shù)據(jù)分析來(lái)確定可能投票的選民,然后影響他們,通過(guò)他們來(lái)籌集競(jìng)選資金,并獲得選票,這是奧巴馬獲得最終勝利的關(guān)鍵戰(zhàn)略。
大數(shù)據(jù)隱私問(wèn)題
FTC最近采取的行動(dòng)是專門(mén)針對(duì)數(shù)據(jù)經(jīng)紀(jì)公司:這種公司收集和分析特定消費(fèi)者行為數(shù)據(jù),然后將分析結(jié)果賣給希望提高營(yíng)銷和銷售業(yè)績(jī)的公司。然而,需要承認(rèn)的是,使用大數(shù)據(jù)帶來(lái)越來(lái)越多的隱私問(wèn)題,這并不僅限于這些傳統(tǒng)的數(shù)據(jù)經(jīng)紀(jì)公司。經(jīng)濟(jì)學(xué)人信息部(經(jīng)濟(jì)學(xué)人集團(tuán)內(nèi)獨(dú)立的業(yè)務(wù)部)公布了使用大數(shù)據(jù)最多的19個(gè)行業(yè)領(lǐng)域,包括制造業(yè)、IT和技術(shù)、金融服務(wù)、專業(yè)服務(wù)、醫(yī)療保健、制藥和生物技術(shù)以及消費(fèi)品等。毫無(wú)疑問(wèn),大數(shù)據(jù)革命已經(jīng)開(kāi)始。
根據(jù)大數(shù)據(jù)的特點(diǎn),以及大數(shù)據(jù)使用的業(yè)務(wù)動(dòng)機(jī),最關(guān)鍵的隱私問(wèn)題是,簡(jiǎn)單地說(shuō),數(shù)據(jù)的質(zhì)量或者準(zhǔn)確性;以及企業(yè)使用這些數(shù)據(jù)來(lái)作出決定而可能會(huì)對(duì)個(gè)人產(chǎn)生的負(fù)面影響。例如,從社交媒體獲取的個(gè)人信息的準(zhǔn)確性?從社交媒體或者其他網(wǎng)絡(luò)來(lái)源的信息可以用于篩選或者排名求職申請(qǐng),或者提高醫(yī)療保險(xiǎn)的價(jià)格嗎?基本的個(gè)人資料,例如年齡、婚姻狀況、教育或者就業(yè)情況通常都是未經(jīng)驗(yàn)證的。在免費(fèi)電子郵件服務(wù)中同樣也沒(méi)有這些驗(yàn)證,幾乎所有用戶都會(huì)點(diǎn)選接受使用條款和私隱聲明,表明同意放棄用于數(shù)據(jù)匯總的一定程度的隱私權(quán)利。
另一個(gè)質(zhì)量問(wèn)題是,當(dāng)收集互聯(lián)網(wǎng)搜索字詞或短語(yǔ)時(shí),可能會(huì)對(duì)它們存在誤解。企業(yè)利用大數(shù)據(jù)不佳的例子包括使用互聯(lián)網(wǎng)搜索詞條來(lái)評(píng)估產(chǎn)品定價(jià),或者潛在目標(biāo)客戶。要知道,在家庭計(jì)算機(jī)中可能有多個(gè)用戶,并且有很多原因某人在網(wǎng)上搜索與他們無(wú)關(guān)的主題。這種類型的數(shù)據(jù)收集、分析和使用可能產(chǎn)生有問(wèn)題的分析結(jié)果,從而導(dǎo)致錯(cuò)誤的決策,而最終造成個(gè)人和分析數(shù)據(jù)的企業(yè)兩敗俱傷的局面。這種缺乏對(duì)大數(shù)據(jù)質(zhì)量的控制將我們指向另一個(gè)隱私保護(hù)原則,即收集符合且適合既定目標(biāo)的個(gè)人數(shù)據(jù)。
大數(shù)據(jù)隱私的***做法
企業(yè)處理大數(shù)據(jù)的***做法仍然還沒(méi)有確定,但已經(jīng)有一些經(jīng)驗(yàn)可供我們借鑒,確保在不犧牲個(gè)人數(shù)據(jù)隱私的情況下,推動(dòng)大數(shù)據(jù)創(chuàng)新。
有效使用大數(shù)據(jù)的***步是正確地采購(gòu)和管理云服務(wù),這是使大數(shù)據(jù)符合成本效益的先決條件:大多數(shù)企業(yè)不能或者不會(huì)投資于支持大數(shù)據(jù)計(jì)劃所需要的IT基礎(chǔ)設(shè)施,而是依賴云計(jì)算應(yīng)用、基礎(chǔ)設(shè)施和處理能力。此外,即使是那些愿意投資的企業(yè)也會(huì)發(fā)現(xiàn),沒(méi)有云計(jì)算提供的靈活性,他們將舉步維艱。這也暴露了很多企業(yè)的薄弱環(huán)節(jié),即普遍不能確保云計(jì)算中數(shù)據(jù)的安全性和隱私性。企業(yè)執(zhí)行標(biāo)準(zhǔn)的一般安全合同條款并不夠。對(duì)于特定數(shù)據(jù)隱私控制,云服務(wù)供應(yīng)商和云服務(wù)用戶明確各自必須承擔(dān)的責(zé)任。還必須對(duì)云服務(wù)進(jìn)行持續(xù)的檢測(cè)和審計(jì),同時(shí)通過(guò)相關(guān)指標(biāo)來(lái)顯示數(shù)據(jù)完整、保密和可用。使用云計(jì)算服務(wù)的***的數(shù)據(jù)保護(hù)資源是云安全聯(lián)盟(Cloud Security Alliance),其官網(wǎng)上有很多指導(dǎo)性文件可供參考。
從過(guò)往的經(jīng)驗(yàn)來(lái)看,在部署云服務(wù)時(shí),***在公共云執(zhí)行大數(shù)據(jù)原型,然后轉(zhuǎn)移到私有云。為什么?公共云部署,顧名思義,是在第三方環(huán)境內(nèi),并可能受到“不信任”各方的訪問(wèn)。而私有云部署直接受組織或者企業(yè)的控制和管理,即使數(shù)據(jù)計(jì)算設(shè)施可能位于企業(yè)外部,但私有云部署只能由受信任的各方來(lái)訪問(wèn)。
更好地利用大數(shù)據(jù)的下一個(gè)戰(zhàn)略是部署融合存儲(chǔ)。融合存儲(chǔ)更有效,并能夠降低錯(cuò)誤的可能性,而這些錯(cuò)誤可能影響數(shù)據(jù)質(zhì)量或準(zhǔn)確性。融合存儲(chǔ)與數(shù)據(jù)質(zhì)量和準(zhǔn)確性相關(guān)的關(guān)鍵特征是重復(fù)數(shù)據(jù)刪除,它還具有成本效益的優(yōu)勢(shì)。
另一種***做法是正確地清洗數(shù)據(jù),以幫助避免一些上述隱私問(wèn)題。Emory University數(shù)據(jù)倉(cāng)庫(kù)專家Amy Dean表示:“在盡可能早的時(shí)候,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、清理、刪減、一致化、匹配、連接和診斷。”鑒于數(shù)據(jù)質(zhì)量對(duì)分析的影響,Dean建議對(duì)多樣的不同的數(shù)據(jù)進(jìn)行衡量或者評(píng)估。Dean還建議,為了查詢,數(shù)據(jù)來(lái)源應(yīng)該有鏈接或可用,這樣有問(wèn)題的任何數(shù)據(jù)元素都可以追溯到其源頭。
最終,確保個(gè)人數(shù)據(jù)準(zhǔn)確性(進(jìn)而確保更好的數(shù)據(jù)隱私)的***辦法是鼓勵(lì)和要求消費(fèi)者查看、審查和糾正收集到的有關(guān)自己的信息,而不只是企業(yè)自己動(dòng)手。此外,消費(fèi)者審查過(guò)程要易用,而且不需要消費(fèi)者花錢(qián)的。對(duì)于早期大數(shù)據(jù)使用者,這是很艱巨的工作,因?yàn)樗麄兺ǔJ占罅可踔了麄儚奈词褂玫臄?shù)據(jù),操作起來(lái)會(huì)很復(fù)雜。并且,企業(yè)可能也擔(dān)心消費(fèi)者看到他們收集了如此詳細(xì)的個(gè)人信息。但這種透明度是讓消費(fèi)者決定采用大數(shù)據(jù),建立信心的***方式。信譽(yù)報(bào)告實(shí)體一直以來(lái)讓消費(fèi)者訪問(wèn)、審查和糾正數(shù)據(jù),這是長(zhǎng)期有效的做法,這也是美國(guó)監(jiān)管部門(mén)對(duì)該行業(yè)的要求。同樣,隱私提示、網(wǎng)站聲明(其中包含回答問(wèn)題的詳細(xì)聯(lián)系方式)能夠?qū)崿F(xiàn)更好的透明度,也是處理錯(cuò)誤數(shù)據(jù)的方法。
大數(shù)據(jù)之謎
最富爭(zhēng)議的企業(yè)隱私觀念是取得同意或者允許收集和使用個(gè)人數(shù)據(jù)。如果時(shí)光可以倒流,一切重新開(kāi)始,這將是個(gè)理想的基本規(guī)則。然而,尋求個(gè)人的同意來(lái)收集個(gè)人數(shù)據(jù)已經(jīng)為時(shí)已晚,因?yàn)橐呀?jīng)有大量個(gè)人數(shù)據(jù)被收集和廣泛共享。不爭(zhēng)的事實(shí)是,我們不可能確定所有可能收集了個(gè)人數(shù)據(jù)的企業(yè)。
有種辦法可以幫助個(gè)人重新獲得對(duì)其個(gè)人數(shù)據(jù)的“控制”,即允許他們完全刪除和清除自己的數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)用戶并不樂(lè)于提供該功能,并且,這是對(duì)消費(fèi)者是否能意識(shí)到和相信使用其數(shù)據(jù)能夠帶來(lái)優(yōu)勢(shì)的“嚴(yán)峻考驗(yàn)”。監(jiān)管部門(mén)在考慮保護(hù)消費(fèi)者隱私權(quán)利的時(shí)候,必然會(huì)要求提供刪除數(shù)據(jù)的能力。隨著大數(shù)據(jù)使用的不斷發(fā)展,在企業(yè)大數(shù)據(jù)部署的技術(shù)設(shè)計(jì)和架構(gòu)階段,企業(yè)應(yīng)該考慮提供允許個(gè)人刪除特定數(shù)據(jù)字段的功能。
同樣的,從保護(hù)個(gè)人隱私權(quán)利的角度來(lái)看,使用個(gè)人數(shù)據(jù)的更好的辦法就是對(duì)所有個(gè)人數(shù)據(jù)“匿名化”處理。然而,匿名化的概念(即刪除任何可識(shí)別的字段或?qū)傩?并沒(méi)有被證明是可行的。早在2000年, Latanya Sweeney博士(現(xiàn)為哈佛大學(xué)教授)就表明只需要三個(gè)信息就可以確定87%的美國(guó)人:ZIP代碼、出生日期和性別,而這些信息都可以在公共記錄中找到。考慮到這些研究結(jié)果,即使部署了匿名化系統(tǒng),我們?nèi)匀荒軌蛑匦麓_定任何居住在美國(guó)的個(gè)人消費(fèi)者的身份。
考慮到所有這些問(wèn)題和戰(zhàn)略,在蓬勃發(fā)展的大數(shù)據(jù)領(lǐng)域,保護(hù)個(gè)人隱私權(quán)利的解決辦法是,確保可靠的準(zhǔn)確的個(gè)人數(shù)據(jù),并對(duì)其進(jìn)行適當(dāng)?shù)慕庾g。同時(shí),企業(yè)應(yīng)該將上述隱私原則納入其大數(shù)據(jù)開(kāi)發(fā)和使用中,只有這樣,企業(yè)才能夠獲得***的結(jié)果,或者說(shuō),最少的消費(fèi)者抵觸情緒。