十面"霾"伏下的大數據預言
即將過去的2013年,“霧霾”幾乎成為許多都市人最擾心的一個熱詞。在北京,政府甚至不得不以工地停工、公車停駛、工廠停產等種種措施,盡力減少各種污染物的排放。
十面“霾”伏的敵人來自何方?大數據時代的到來或許可以尋根溯源,因為它能幫助人們更準確地了解、判斷生存環境中最重要的一面—空氣質量。
未來大數據的價值核心在于預測。中科大信息科學技術學院院長李衛平介紹,中科大先進技術研究院中正在進行著一項科研,通過收集和分析霧霾天氣產生的各種數據,找到產生霧霾天氣最主要的原因。“這是一些看上去雜亂無章的數據,我們建立一個大數據庫,從中找尋規律性的東西。”這個科研項目與微軟合作,一旦找到其中規律,有望為政府治理霧霾天氣提供科學依據。
2013年10月30日,在微軟亞洲研究院創新日上透露的一種新技術,試圖讓人們了解所在地區空氣質量的真實情況。在此基礎上,人們就能做出更明智且更有利于健康的決策,例如何時何地最適合戶外運動,或者何時應戴上口罩或關上窗戶。
“這些工作都是在大數據的基礎上才能夠進行,無論模式如何先進,沒有海量的數據進入,都不能達到很好的效果。”中國氣象局公共氣象服務中心高級工程師唐千紅說。
在大數據時代,數據并非單純指人們在互聯網上發布的信息。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、溫度、濕度乃至空氣中化學物質的變化。
微軟根據現有監測站所提供的空氣質量數據以及城市里的其他多種數據來源(包括氣象情況、交通流量、人員流動趨向、路網結構、人口集中點等),運用數據挖掘和機器學習技術,對大數據加以充分利用,并在監測信息和對應結果之間建立一個隱式映射,從而可以實時推斷出包含細顆粒物信息的城市空氣質量數據。
大數據時代下的氣象服務是什么樣子?唐千紅認為,在看得見的未來,融入了地理信息、社會經濟數據的氣象服務,能夠讓人們知道任意時間地點可能會發生什么,例如這陣風是否會吹翻門口的廣告牌,前面一個高速路口是不是在下雨、會不會發生山洪。
其實大數據就在腳下,盡管很多時候我們沒有意識到。
全球的數據量正在以每18個月翻一倍的驚人速度增長,世界正在高速數字化。事實上,從城市交通到空氣質量,從建筑設計到影視制作,大數據分析應用已經滲透到生活的方方面面。大數據到底怎樣改變了人們的生活軌跡?為此我們采訪了微軟研究院院長Peter Lee、微軟亞洲研究院院長洪小文、微軟全球資深副總裁周以真,揭開大數據的神秘面紗。
數字商業時代:什么是大數據與機器學習?這一技術的商業應用前景如何?
洪小文:我常常舉一個例子,譬如說你媽媽明天要來北京看你,她在郵件里告訴你航班的號碼,明天下午5點鐘會到。可是你那天下午在開會,三四點的時候計算機就自動把郵件里面的航班號碼抽出來,自己去航空公司的網站一查,告訴你班機晚點,要7點才來。而且它還會根據交通狀況決定什么時候通知你出發,以什么方式出發。它可以建議你坐出租車、坐地鐵要多少分鐘,甚至可以在你的社交網絡里找到附近的朋友開車來載你。
這些自動化都可以做得到,但是今天還沒有這樣的系統和服務,所以就只能隔幾分鐘看一看,很浪費時間,而且在很多場合不允許。這樣的東西其實是大數據與機器學習的表征,需要很多不同種類的數據,有郵件的數據、地圖的數據、飛機的數據、交通的數據。大數據不僅是大,還要有多樣性和集成性。
大數據還應用在其他方面,比如報刊雜志上的文章到底有多少人看,大家有什么評價,轉發給誰。以前這些東西可能要做問卷才能得到,今天通過互聯網更有機會獲取。如果搜集的大數據都是零散的、繁雜的,你怎么去看?這就需要數據可視化,這一點對管理者非常重要。管理者在做一個決定之前,想看看這個東西在某一個區域大家的反應會怎么樣,調出來一看就知道。
大數據與機器學習真的是在每一個行業都有類似的應用。
數字商業時代:有人說,大數據與云計算是一個問題的兩面,云計算是支撐大數據時代的基礎。但當大數據和云計算真正落地,或是走向消費者的過程中遇到的障礙和挑戰有哪些?
周以真:實際上,普通用戶已經享受到很多大數據和云計算所帶來的利益和好處,只是我們并沒有清晰地意識到而已。比如用Windows Phone進行文字輸入,輸入前一個字,就會有下一個字或詞匯的提示聯想?;蛘哂檬謾C或PC收發郵件時,垃圾郵件的過濾功能。這些都是集成大數據和機器學習的技術才能得以實現。
類似的應用無處不在,甚至可能存在的地方太多了,我們都已經忽略它了。
另外一個典型的例子是關于云。比如我們把手機上的照片存儲在云端,即使手機丟失再換一個新的,你仍可以從云上重新把照片下載下來。
數字商業時代:可穿戴設備就像“人體的物聯網”,通過傳感技術可以檢測出用戶的體溫、血壓、心率等數據,這些個人的身體數據庫非常有價值。那么微軟未來在可穿戴設備這一塊最大的機會是在哪兒,是在硬件設備,是在云端,還是在軟件上?
Peter Lee:這三個領域都有,但是我最感到振奮的就是云端。之所以說是云端,是因為云計算的環境當中有大量的數據、大量的計算能力,再加上機器學習的功能,可以展示出非常高級智能的產品。比如說從云端可以看到你過去一年運動量夠不夠,判斷你所吃的食物是否足夠健康,還可以把信息反饋給你的醫生。這些都需要有非常好的云架構。