微盟刪庫事故啟示錄
近期熱議的微盟系統(tǒng)故障事件,想必大部分人都已經(jīng)有所關(guān)注。截止2月26日中午,微盟官網(wǎng)仍然掛著公告,表示數(shù)據(jù)還在修復過程中。
從2月23日晚間SaaS業(yè)務(wù)生產(chǎn)環(huán)境和數(shù)據(jù)遭到嚴重破壞,直到25日核心業(yè)務(wù)基本恢復,基本不影響新用戶使用,但由于部分數(shù)據(jù)還在修復過程中,官方仍然建議老用戶重新注冊賬戶使用,后續(xù)再進行新老賬戶數(shù)據(jù)合并,預計到28日晚間才能完全修復。
刪庫跑路,近幾年偶有發(fā)生,甚至經(jīng)常成為技術(shù)圈中調(diào)侃的話題。而作為國內(nèi)最大的微信生態(tài)服務(wù)商,微盟在香港上市已近七年,員工規(guī)模也超過3000人。系統(tǒng)故障造成的嚴重影響超過36個小時,數(shù)萬商家業(yè)務(wù)無法進行,股價暴跌,很難想象這是一家上市公司所經(jīng)歷的窘境。
如果從23日19點開始計算,到官方宣稱的預計28日才能完全修復,此次故障造成的影響竟持續(xù)數(shù)日之久。「刪庫跑路」造成如此深遠影響的,屬實不多見的。
微盟官方對于事件發(fā)生經(jīng)過,并沒有太多細節(jié):
犯罪嫌疑人乃微盟研發(fā)中心運維部核心運維人員賀某,賀某于 2 月 23 日晚 18 點 56 分通過個人 VPN 登入公司內(nèi)網(wǎng)跳板機,因個人精神、生活等原因?qū)ξ⒚司€上生產(chǎn)環(huán)境進行了惡意的破壞。 |
察覺到事故發(fā)生后,微盟第一時間和騰訊云聯(lián)系,共同制定修復方案,即便如此也耗時幾天的時間。在后續(xù)的回應(yīng)中,微盟集團對外表示,商戶數(shù)據(jù)備份完整,系統(tǒng)服務(wù)恢復后商戶的使用將不受影響。
通過已知的各個信息點對此次事故進行簡單復盤,斗象科技技術(shù)負責人徐鐘豪認為,微盟企業(yè)內(nèi)部應(yīng)該已經(jīng)構(gòu)建了一定的安全能力:
- VPN:提供遠程網(wǎng)絡(luò)接入,提供基礎(chǔ)的身份認證和網(wǎng)絡(luò)訪問授權(quán)。
- 跳板機:SaaS服務(wù)器只允許來自跳板機的訪問,提供了基礎(chǔ)的網(wǎng)絡(luò)和數(shù)據(jù)庫網(wǎng)絡(luò)準入控制。
- 數(shù)據(jù)庫主備:具備故障遷移時的可用性,以及數(shù)據(jù)恢復能力。
- 生成環(huán)境對運維權(quán)限放的較寬,對研發(fā)權(quán)限一般是收緊的。相信很多互聯(lián)網(wǎng)企業(yè)也是處于類似的狀態(tài)。
目前來看,在本次事故中應(yīng)該是主備數(shù)據(jù)均被刪除。萬幸是進行了「Delete」操作,而沒有進行「Purge」、「覆寫」、「加密毀密鑰」等操作,這種情況下還能從副本或者磁盤恢復,只是恢復效率慢時間長,因此就存在微盟所說的“商戶數(shù)據(jù)備份完整”但完全恢復還需要較長時間的情況。
業(yè)務(wù)風險管理措施建議
事到如今,犯罪嫌疑人賀某已經(jīng)被刑事拘留,微盟的核心業(yè)務(wù)已恢復,剩余部分數(shù)據(jù)也已經(jīng)在逐步恢復。「微盟事件」代表的可能是眾多中小互聯(lián)網(wǎng)企業(yè)安全建設(shè)情況的縮影,也給所有的企業(yè)敲響了警鐘,內(nèi)部人員作案仍然是讓所有企業(yè)安防范的重點以及難點。斗象科技技術(shù)負責人徐鐘豪總結(jié)這次事故中所暴露出來的問題,從業(yè)務(wù)風險管理的角度給出了一些針對性的建議:
1. 數(shù)據(jù)庫權(quán)限管理
- 最小化權(quán)限原則
- 分庫分表
2. 數(shù)據(jù)庫主從及備份
(1)主從:當出現(xiàn)故障時能夠進行故障遷移,滿足高可用
(2) 備份:
- 實時備份:在線備份數(shù)據(jù)庫進行讀寫分離,用于數(shù)據(jù)恢復
- 離線備份:日常異地離線備份,用于數(shù)據(jù)災難恢復
3. 備份數(shù)據(jù)權(quán)限控制
- 設(shè)置備份數(shù)據(jù)的操作權(quán)限策略,限制高危敏感操作,如drop、rm等
- 設(shè)置備份數(shù)據(jù)的訪問控制策略,否則易導致另一種的數(shù)據(jù)泄露問題
4. 指令控制和審計
- 操作系統(tǒng)的敏感/關(guān)鍵指令的限制和監(jiān)控,并對操作指令歷史進行采集和遠程存儲分析
- 數(shù)據(jù)庫審計,對數(shù)據(jù)庫流量或日志審計,設(shè)定告警通知機制
5.管理流程優(yōu)化改進
- 線上變更的流程審批,申請變更時段和操作細節(jié),效率會慢一點,但提升了安全性
- 系統(tǒng)性的風險評估,識別與量化風險,進行風險處置,降低風險
- BCP(業(yè)務(wù)連續(xù)性計劃)和DRP(災難恢復計劃)的制定、評估和周期性演練。達到一定規(guī)模體量的企業(yè),是有必要認真考慮這兩個計劃。
安全娛樂圈,也提供了很多idea,如刪庫跑路不留痕跡,也不乏調(diào)侃之人,建議從黑市上買一份被脫庫的數(shù)據(jù)來進行數(shù)據(jù)恢復等。在這次疫情期間,對企業(yè)帶來了極大的挑戰(zhàn),需要上下齊心協(xié)力克服困難。另外企業(yè)不能僅關(guān)注業(yè)務(wù),合理的文化建設(shè)和員工關(guān)懷也是必要的。