QCon2014姜小凡:物理世界的數(shù)據(jù)越來越有價值
二月下旬,北京迎來一輪漫長的霧霾天氣,京東上許多空氣凈化器脫銷,淘寶上3M口罩漲價不少,微博、微信上也流傳著各種應對PM2.5的偏方。在未 來的日子,我們不得不繼續(xù)PM2.5問題。2013年,姜小凡和他的團隊開發(fā)了一款成本200多元的PM2.5檢測設備——PAM(便攜式個人空氣質(zhì)量監(jiān) 測儀)。PAM***的特點是成本低。同時,PAM考慮了地理信息、氣候因素,并且通過機器學習的方式處理這些數(shù)據(jù),建立模型,模型進一步修正數(shù)據(jù),保證數(shù) 據(jù)精確性。
在QCon北京2014大會上,姜小凡將就《PM2.5的大數(shù)據(jù)分析》為題分享,詳解如何將廉價的傳感器與云端數(shù)據(jù)結(jié)合實現(xiàn)PM2.5分析的。日前,InfoQ對姜小凡進行了專訪,以下為采訪內(nèi)容:
InfoQ:姜小凡你好,向InfoQ的讀者和QCon的參會者介紹下自己吧。
姜小凡:我是Intel物聯(lián)技術研究院的***構(gòu)架師,也是Intel研究院的主任研究員。最早我在伯克利讀本科 和博士,期間開始接觸物聯(lián)網(wǎng)這個方向,做了一些無線傳感器網(wǎng)絡和樓宇能源監(jiān)測及管理的項目。在博士期間我也做了一些能源控制的startup,并也在美國 的Google做了一些MIMO通信的研究。畢業(yè)之后我加入了微軟亞洲研究院,那時候我主要研究移動互聯(lián)網(wǎng)、室內(nèi)定位等。2012年底我再次加入了 Intel,為什么說我再次加入呢,是因為我本科畢業(yè)的時候,在加州那邊的英特爾也工作過一段時間。自2012年底到現(xiàn)在,我們對很多領域的技術進行了探 討,并對其中一些進行了深入研究。其中一個項目是利用物聯(lián)網(wǎng)和大數(shù)據(jù)手段做空氣質(zhì)量檢測,如PM2.5和霧霾。
InfoQ:目前你關注的重點是什么?
姜小凡:把物聯(lián)網(wǎng)技術真正應用到生活中,把技術真正推向市場并解決一些問題,是我們研究院所有人共同的目標,也 是我們關注的重點。對于我個人來說,剛剛說的PM2.5和霧霾問題是我目前一個很重要的關注點。現(xiàn)在有各種手段做PM2.5監(jiān)測,但是這些方式要么非常昂 貴,要么很不精確。而我們利用比較廉價的傳感器網(wǎng)絡能實時的把顆粒物的數(shù)據(jù)傳到云端,同時收集了不同維度的其他數(shù)據(jù),包括氣象數(shù)據(jù),人的位置數(shù)據(jù)等,將這 些數(shù)據(jù)融合在一起。***用機器學習的方式處理這些數(shù)據(jù),找到他們之間的關系,學習出不同維度數(shù)據(jù)互相的影響。通過這種方式,在云端做了空氣模型,再通過這 個模型增加數(shù)據(jù)的精確性。我認為這是一個非常經(jīng)典的物聯(lián)網(wǎng)和大數(shù)據(jù)的結(jié)合的項目,也希望能夠向QCon的聽眾介紹這個項目。
當然我們不僅僅有空氣質(zhì)量方向的研究,我們也做一些可以快速應用的項目,我可以列舉幾個。如手機驗真。現(xiàn)在國內(nèi)的手機是有很多是仿品,怎么用數(shù)據(jù)和 眾包的方式自動檢測到手機的真?zhèn)危窟@就涉及到手機硬軟件的“指紋”收集,我們在云端建立了一個比較大的數(shù)據(jù)庫,能收集到很多款Android手機的指紋。 不同的操作系統(tǒng),不同的軟件版本會生成不同的指紋,通過指紋的方式非常簡單的告訴消費者,你買的手機是正品還是仿品。
在室內(nèi)定位方面,我們和海龍大廈合作,通過無線信號指紋的手段定位。這樣,我們知道某個消費者時時的精確位置。基于位置信息,可以給消費者提供一些幫助,比如說室內(nèi)導航,廣告的推送。
此外還有一些其他的項目,包括我們在公交車做了人流的監(jiān)測和預測,希望解決交通擁堵的問題。基本上我們現(xiàn)在都是比較實際的問題,希望用大數(shù)據(jù)、云計算的手段去解決這些問題,而不是花更多的錢去買一個更精確的傳感器。我認為這是一個正確的方向。
InfoQ:海龍大廈室內(nèi)定位是通過WiFi信號實現(xiàn)的嗎?
姜小凡:是通過WiFi,這個技術在學術界已經(jīng)有不少論文,但我們還沒有看到很多真正的商業(yè)應用。我們這里要做 的,不是去發(fā)論文討論如何實現(xiàn),或是如何添加一個什么創(chuàng)意來改進,而是真正將WiFi室內(nèi)定位推進到應用的層面,我們知道任何一個實驗室技術和真正實用化 相比還有很大差距的,面對的問題也有很大區(qū)別。實驗室關注的是可行性,可以對很多條件進行限定;但實際上很多條件是不可預知的,實際應用有太多的細節(jié)和技 術難關需要解決。
InfoQ:在過去一年當中,你觀察到數(shù)據(jù)行業(yè)有哪些變化?
姜小凡:開始的時候,大家都覺得大數(shù)據(jù)要像亞馬遜、沃爾瑪、Google這些公司那樣收集了很多信息,然后通過 模型或分析找到可利用的信息。很多人把大數(shù)據(jù)和Hadoop之類的技術劃上等號,拿數(shù)據(jù)量來標榜大數(shù)據(jù)。而我的看法卻不同,我認為大家越來越關注小數(shù)據(jù)的 集合,為什么呢?之前一般直接從互聯(lián)網(wǎng)提取數(shù)據(jù),但是近一兩年,看到的是很多物理世界的數(shù)據(jù),比如手機里的加速度傳感器的數(shù)據(jù),GPS數(shù)據(jù),PM2.5數(shù) 據(jù)。這些和物理世界相關的數(shù)據(jù)越來越多,而且越來越有價值。我認為我們會漸漸把大數(shù)據(jù)的概念擴展,把空間信息、地理位置信息等meta data都加入進去。而我們更關注的不是數(shù)據(jù)本身,而是數(shù)據(jù)之間的關系和它們的相互作用。建立數(shù)據(jù)之間的關系是有難度的,處理起來也更加復雜。如在實時系 統(tǒng)中,留給數(shù)據(jù)分析和反饋至前端的時間也許只有10毫秒,如何利用流處理和系統(tǒng)優(yōu)化來達到,這是我們需要深入研究的。
InfoQ:你怎么理解大數(shù)據(jù)處理與大數(shù)據(jù)應用?
姜小凡:大數(shù)據(jù)處理方面,大家都認為大數(shù)據(jù)應該在云端做,但我覺得數(shù)據(jù)的處理應該是分布式的,我指的不僅是數(shù)據(jù) 中心分散計算能力,而是數(shù)據(jù)應該在最利于處理的地方處理。比如,如果需要把所有數(shù)據(jù)以原始的狀態(tài)發(fā)送到云端處理,對網(wǎng)絡的壓力是非常大的。所以我認為大數(shù) 據(jù)處理,可以在例如手表之類的地方處理再發(fā)送到云端,比如視頻數(shù)據(jù)會在攝像頭內(nèi)做一些特征提取,然后再把特征發(fā)送到云端。
大數(shù)據(jù)應用有一些經(jīng)典的例子,比如通過數(shù)據(jù)分析知道用戶在某一時間點喜歡購買的商品,超市可以通過預測來提前訂貨。在移動應用方面,剛才提到了在海龍大廈的室內(nèi)定位就是其中之一。
InfoQ:您曾經(jīng)說過,希望把PAM傳感器的價格降到兩三百元人民幣,這個目標還需要多久才能實現(xiàn)?
姜小凡:這個目標在有一定生產(chǎn)量的前提下已經(jīng)實現(xiàn)了。具體生產(chǎn)量是多少,我們還在進行核算,不過這個量應該不是很大。
InfoQ:通過大量廉價的傳感器搜集數(shù)據(jù)是未來實現(xiàn)大數(shù)據(jù)應用的有效手段嗎?這其中的難點在哪兒?
姜小凡:這里的挑戰(zhàn)包括數(shù)據(jù)的可用性,精確性,以及把數(shù)據(jù)提取到云端的過程耗費的系統(tǒng)資源。以WiFi定位為 例,原理上大家都理解,通過收集某一點的3個AP的信號強度,用三角定位實現(xiàn)。但在真實環(huán)境,無線信號波動非常大,遮擋物會改變信號強度,信號可能被反射 和散射 ,造成信號強度衰減或者增遞。物理世界的傳感器數(shù)據(jù),并沒有互聯(lián)網(wǎng)數(shù)據(jù)那么干凈,需要大量的處理把傳感器數(shù)據(jù)變成可用的數(shù)據(jù)。