疫情推動大數據三級跳
這個春節,新冠肺炎的疫情讓很多產業按下了暫停鍵;然而在信息技術領域,卻出現了不少新的應用場景,促成了IT技術的發展。這當中有顯性化的,主要是面向個人客戶的各種移動互聯網應用;也有不易被人察覺的,比如今天說的大數據產業。
疫情之前的大數據
大數據在中國的興起不是最近的事兒。記得最初是說某位美國總統的當選,大數據功不可沒,后來某位人士寫了本《大數據》受到中國政商的推崇。一時間,以互聯網公司為首的高新科技企業對大數據青睞有加,最積極的大數據支持者阿里巴巴公司創立了Datatechnology(簡稱DT)這個詞,馬云曾公開表示:"人類正從IT時代走向DT時代。"
可以看到,在過去幾年中,無論是企業政府還是產業投資,雖然訴求不同,但行動上都在積極推動大數據發展。眾人拾柴火焰高,大數據成為矚目的產業熱點。
那么大數據是不是一飛沖天了呢?好像還沒有。
大數據的投入非常大,需要購買大量的硬件基礎設施,需要專業化的工具軟件以及掌握這些高新技術的專業人士,需要具備海量數據的獲取能力,需要熟悉算法有能力進行模型設計和優化的數學人才等等。無論是系統建設成本還是運營成本,都需要巨大的資金投入。
那么大數據的產出呢?能直接變現的應用中,看得到的是客戶畫像加上精準營銷,看不到的是宏觀分析和決策支持,經濟效益的增量不大;衍生出來的人工智能、區塊鏈等,也是雷聲大雨點小不賺錢的生意。
尤其最近兩年,信息安全和個人隱私保護的問題越來越引起關注,在一定程度上影響了大數據產業的發展速度。一些從事大數據產業的企業被調查,又給本來就不大賺錢的產業增加了不少風險因素,看衰大數據的聲音此起彼伏。
從技術角度看,在疫情之前大數據產業的基本形態是這樣的:
- 互聯網企業對大數據最為熱衷,一方面是因為資本市場關注大數據,另一方面也確實利用大數據分析,改善自身產品體驗,輔助開展營銷和服務。
- 傳統企業的大數據處于"自產自銷"狀態,自建的大數據系統主要利用自己IT系統產生的數據進行分析,決策支持為主,支撐業務為輔。
- 政府部門積極推進大數據產業發展,同時也在提升自身的大數據能力建設。
- 出現了專業從事大數據產業的創新企業。這些企業通過多種渠道獲取數據,通過為企業提供數據和分析服務獲利,目標客戶主要是對大數據的使用有需求,但沒有建設和運營大數據系統能力的中小企業。
- 眾多的大數據系統各自獨立,缺乏數據的交換共享機制和技術標準,孤島模式下大數據的威力發揮不夠充分。
- 物聯網讓物與物的連接實現數字化,越來越多的實體企業希望通過發展大數據來提升企業的競爭力,實現數字化轉型。
總的來說,在疫情來臨之前,相對于剛剛起步的企業大數據,中國在個人大數據領域已經發展了一段時間,在數據的獲取和積累方面有了非常不錯的基礎;但在數據共享以及大數據的應用方面發展還不充分。
大數據的第一跳
隨著疫情的出現和發展,數據和分析的價值引起廣泛關注。
前段時間一個流行病學的名詞火了,叫Basic reproduction number(基本傳染數),是指在沒有外力介入,同時所有人都沒有免疫力的情況下,一個感染到某種傳染病的人,會把疾病傳染給其他多少個人的平均數,通常被寫成為R0。
對于一種新的傳染病,在疫情剛剛開始的時候,一些專業人士依據流行病學原理,根據病人數量、傳染情況等信息設計數學模型,再基于人口數量和流動性等要素推測可能的感染人數以及病情傳染趨勢等,為決策提供數據支撐。但樣本不足的情況下,難以判斷哪個模型和結論更符合實際情況,只能寄希望專家基于經驗的判斷是準確的。
雖然不能對病情的擴散程度和感染者數量進行準確判斷,但面對疫情必須當機立斷,做出決策。可以想象,當時決策者們是多么希望擁有完整而真實的數據,以及對未來發展的準確預測啊,可惜他們只能在信息不完備的情況下設定防控手段的等級。
這里要多說一句,雖然現在我們有了非常多的實際數據,但武漢等地封城之后,實際上傳播已經受到了外力影響,對建模和預測的參考價值降低了,所以不能拿國內的情況簡單地套用到海外,和有沒有瞞報沒關系。
除了外部可見的信息和報道,影響決策的還有很多數據和分析,運營商就在其中扮演重要的角色。
運營商都擁有自己的大數據平臺以及數據分析系統,而且中國的移動電話普及率超高,還全面推行了實名制管理,因此從運營商那里可以獲取到本地與湖北的漫游情況,多少用戶來自于湖北,自己的客戶有多少人去過湖北,這些人分布在哪個地市哪個縣,這些都是疫情防控需要的基本信息。
在1月底的時候,網絡上流傳出一些運營商提供給政府決策部門的匯報材料。隨著信息安全管理的強化,這些內容不再為外人所知。隨著疫情的發展、對新冠病毒認知程度的提升,相關部門不斷需要運營商提供新的數據和分析報告,據我了解,甚至在春節期間,運營商負責數據分析的人員都沒有休息,一直在加班加點提供數據支撐。
運營商對大數據的使用場景很多都是決策支持,與這次疫情前期對數據的需求場景非常相似,雖然我們無法了解到決策的具體場景和案例,但運營商為全國和省甚至地市級單位提供的宏觀數據支持,為實際情況的判斷以及相關措施的出臺做出了貢獻。
大數據的第二跳
隨著封城、隔離等強制性舉措的出臺,中國應對疫情的手段已經清晰:將重災區湖北與全國其他地區進行隔離,然后以省甚至以地市為單位,各自采取措施切斷傳播途徑,對確診患者、疑似病例以及密切接觸者進行不同程度的隔離,控制疫情的傳播。
這個時候,大數據不再主要關注宏觀決策,更多的是對個體用戶行為的信息查詢和分析。這種方式以往大數據分析用得并不多,最多就是做一些客戶的精準營銷推送,或者針對性地改善客戶體驗,覆蓋率非常有限。而這一次疫情防治不再考慮更多的成本因素,針對個體的數據分析成為疫情中期的主流場景。
從公開報道中可以看到,每發現一例新的確診病例,都要像破案一樣,最終溯源到這個患者是如何被感染的,從被感染到入院期間的行動軌跡如何;然后根據這些信息分析和尋找哪些人可能成為密切接觸者,再對密切接觸者進行隔離。這些信息的獲取一部分是問詢查證,還有一部分就是從患者的數據行為信息中分析出來的。
在網上流傳著這樣一則視頻,一位社區工作人員敲開了一戶人家的門,在確認了身份之后說:
"您的情況屬于大數據密切接觸者,大數據顯示您和新冠肺炎患者有密切接觸的可能,現在對您實行為期14天的隔離。"
在對方的追問下,社區人員解釋說:"您是有與患者密切接觸的可能,比如乘坐同一交通工具之類的,具體是什么情況我們也不了解,只是根據上級單位派發下來的名單來通知。"
社區執行人員只是拿到了大數據分析結果,也就是需要隔離的人員名單,而具體的原因不得而知,因為這是系統提供出來的。此外還有根據用戶的行為軌跡(如與確診病例同時在一個封閉場所)、消費記錄(移動支付的記錄)等進行密切接觸識別的。可以看出,為了對付疫情,多個企業和運營體系(包括交通、運營商、互聯網企業)參與了對客戶精準識別的工作,不同系統的大數據在共享和聯動。
幾年來推不動的事情,如今搞定了。
大數據的第三跳
如今,全國絕大部分地區在按照"疫情防控與經濟發展兩不誤"的基調來開展工作。雖然疫情的蔓延得到了一定的控制,但并沒有結束,在這種情況下復工,如何降低疫情擴散的風險?
隨著時間的推移和案例的增加,我們越來越了解新冠肺炎。從目前來看,連續14天沒有出現發熱咳嗽等癥狀,基本可以認定為健康的,可以正常工作。那么如何識別這些人?
阿里巴巴在支付寶里推出了"健康碼",由用戶自行申請,如果是綠碼就代表沒問題,如果是黃碼就屬于7天隔離人群,如果是紅碼就屬于14天隔離人群。
那么這個健康碼從何而來?應該是基于阿里巴巴自有或者合作的數據進行分析的。有人反映因為當天上午騎過一輛共享單車,結果自己的綠碼變紅碼,這一方面說明健康碼的生成使用了共享單車的相關數據信息,還說明健康碼可以實時查詢、及時變更。
健康碼雖然方便,但要全國推廣還要解決很多問題,比如安徽推行的健康碼雖然也是綠、黃、紅三種,但是定義就與杭州不同,相應的數據/算法也不一樣。
相比之下,運營商提供的漫游地實時查詢服務成為普及程度最高的復工助手。因為運營商本身就是屬地化運作模式,可以按照各省的管控要求量身定制。比如北京的最低要求是在本地隔離14天,于是北京的用戶發送短信或者掃碼查詢,收到的反饋信息就是該用戶在30天內待過的地方,以及15天內待過的地方。
可能有人會問,這不就是一個實時查詢么,為什么說這種應用是大數據的重要一跳呢?
以往的大數據應用往往是兩種模式:一種是離線的分析,主要用于數據統計和決策支持,由于對時效性的要求不高,因此可以充分地進行數據以及算法模型的選擇,甚至可以同時進行多個模型的測算;另一種模式是在線的操作,比如精準營銷或者推送,雖然實時強,但是數據分析與業務的相關性也很強,換一個業務或者場景就需要做很多調整,成本高,所以應用的范圍也很難推廣。
而這次的實時查詢以及對內容的及時更新,是直接面向最終客戶推出了大數據查詢服務,是新的大數據應用模式。如果這種模式形成規模,就可能會對傳統的運營體系產生沖擊,讓大數據從后臺走向前臺,從輔助走向主導,大數據系統也會從成本中心變為利潤中心,改頭換面重新出現在世人面前。
疫情之后的大數據展望
在與疫情戰斗的過程中,在各種突發應用的推動下,在短短的兩個月的時間里,不僅各方對數據價值的認可度有了大幅提升,而且跨域數據的共享與協作、面向個人的數據服務、大數據的實時性等,大數據產業在幾個領域實現了質的突破。那么疫情結束之后,大數據目前的良好發展勢頭還會延續么?展望未來,大數據產業會面臨什么樣的發展機遇?
在極端情況下,大家對隱私保護和信息安全的容忍度降低;待疫情結束之后,你會把手機里已經打開的位置服務功能關閉么?
- 目前開發上線的涉及個人隱私的服務,會下線關閉么?
- 跨域數據共享和分析應用創新帶來好處,但同時給信息安全和隱私保護帶來新的威脅和挑戰,如何平衡兩方面的關系?
- 企業之間的大數據合作,是"協同"模式還是"集中"模式?企業會把自己的數據交出去么?
- 嘗到了甜頭之后,政府會推行什么樣的產業政策發展大數據?
- 人工智能、區塊鏈等與大數據相關的產業,能否順勢發展?
對這些問題我并沒有答案,只是想拋出來與大家共同探討。大數據產業的話題很多,這種熱度今后也會長期存在,作為產業從業者,我們看到的是商機;而作為個人,面對一個可能比我還了解自己的IT體系,我是挺害怕的。