資深粉絲眼中的WOT2015大數據技術峰會:干貨應接不暇
原創引言
11月28、29日,WOT 2015大數據技術峰會的主辦方51CTO按照行業領域設置分享專場,我感覺這個做法的體驗很好。在這次大會上我個人對廣告、互聯網金融、創新、創業幾個主題最為感興趣,完整的專場聽下來,感覺很過癮。
講師們的演講水平真心不錯。我印象里前幾年參加各種大會時,若能在1天中聽到2場有干貨的分享,就算是很有收獲的了;這次,我感覺聽到的分享至少一半以上內容還是很豐富的,而且講師的素質也很高,讓我很有收獲。我想達到這種效果的原因無非三種可能:猜測1,大會的高質量與51CTO的團隊精細化運營分不開,呵呵!有廣告嫌疑;猜測2,最近幾年各種大會越來越多,講師群體整體分享經驗自然也越來越豐富,整體水平不斷提高;猜測3,我當年太弱了,圖樣圖森破,大師們的演講我聽不懂罷了!
從這次大會上各路英雄的分享內容來看,廣告領域的分享仍然是應用大數據技術的若干領域中深度和廣度最突出的。這并不意外,畢竟廣告/搜索領域在很多年前使用大數據的能力就已經很成熟了,更是在近些年“大數據”這個字眼被發明之前,Google的三駕馬車技術就已經被應用在生產環境,進而才有的 Hadoop這樣劃時代開源產品的誕生。
本來是整理我參加大會的筆記,后來收到51CTO組織者嵐宇、楊總的盛情邀請,我將這份筆記也分享給大家。筆記內容主要是基于我本人已有的知識體系的信息增量部分,所以很多同學們非常關注的架構圖、業務圖,如果我已經比較清楚的,我這里沒有放出來(PPT下載地址);我分享的信息要么是大神們現場講到,但沒有寫到PPT中的關鍵信息,要么是我認為非常精彩、信息量大的PPT截圖。
現在進入正題。前一天趕上飛機晚點,又趕上預訂的酒店沒有訂上,凌晨4點才睡下,早上楊文飛總編開場和李大學先生的分享沒有趕上。我聽的第一場分享來自國內廣告領域的大師級人物劉鵬。
1.《數據變現與交易的歷史與未來》劉鵬,360商業產品首席架構師
不愧是“負能量”自媒體劉老師,開篇第一頁就很“負能量”:)
劉鵬大神總結的大數據與“非大數據”的區別很到位:
交易核心數據:行為數據
數據采用:全量加工(個人征信、廣告、推薦)
洞察:自動化應用(定向廣告、客戶關系維護)
面向領導與運營:面向微觀業務,機器與銷售
我個人非常認同上面3個維度的對比,非常清晰地說明了大數據應用與非大數據應用的區別,比常見的大數據幾個“V”要清楚地多。
關于數據價值,下面這張圖講的很清楚,收益的增量部分則是數據帶來的價值。
數據價值:6000+6000-10000 = 2000
男性定向廣告+女性定向廣告 VS 一成不變的展示
BAT大都是后向變現模式
現在趨勢是程序化交易/原生廣告
#p#
原生廣告的場景化,在移動上會有更好的效果
廣告的格局:廣告交易+數據加工與交易(如用戶標簽層面,規模化生產)
資本的合作,才有數據交易。數據一旦共享出來,就是錢。微信當然不會把數據拿出來嘍!
關于第二定律、第三定律,請見全文PPT。
目前,數據價值還是被低估的,雖然數據可以賣給2個人,也可以賣給10個人,但競價會更激烈,某種意義上更多的數據共享是數據價值的貶值。此處有數據定價不合理。如何定價?這是個新的問題。
數據隱私:PRI是嚴格不能使用的。如手機、家庭住址。
用戶可以自己屏蔽,但誰都知道真正手動去設置屏蔽的少之又少。
不能長期保留,2年以上要銷毀。數據管理上已經是風險。
隱私不是怕生人知道,最大的顧慮是被熟人知道。如果惡意的熟人,受到的傷害將會更大。
劉鵬大師很有行業大師的范兒,還略帶些學者的感覺。分享角度高屋建瓴,放在第一天主會場再合適不過了。只是行程有些倉促,剛剛分享完畢就趕去機場了,聽眾們沒能跟大神有充分的線下交流,實在有些可惜。最近他的大作《計算廣告》在業內很熱,劉鵬大師受到各處的邀請,恐怕會占用大量個人時間吧!
看到如今,我們互聯網的技術大神們可以像明星一樣被追捧,這真是件好事。用51CTO熊總的話講,“這是有史以來,技術人才最好的時代”。
2.《數據化運營如何創造商業價值》張溪夢,GrowingIO創始人、前LinkedIn分析部高級總監
張溪夢大神在領英5年時間,經歷了領英的年收入從1億美金提升至50億美金。
病毒式的用戶注冊,以及新客成本是該領域平均新客成本的50%。這些都是數據分析的價值。
最早期的數據分析支持100位銷售,提升對銷售工作效率。
從每位銷售人均閱讀300個銷售線索,用數據分析利器,迅速發現最有價值的Top10給到銷售,大幅地提升銷售簽單的效率。
從用戶屬性-用戶行為-用戶社交信息數據,一步步找到更精準的信息。
近實時地同時追蹤600個KPI,這樣大幅地提升網站功能測試的效率。
#p#
上圖的展示方式,是很容易地發現用戶信息的變化,推薦!
全員數據驅動:用戶分群后給出分群轉化的建議。
從上面的分享,我們也能感受到以領英為代表的國外公司是非常重視數據指導決策的,更是很依賴充分地使用技術工具提升工作效率。據我的了解,國內以互聯網企業為代表,也都不同程度地、越來越深入地使用數據指導運營,企業服務類的工具、SaaS服務也越來越受到資本追捧。
3.《大數據時代:精益應用性能管理》廖雄杰,聽云技術副總裁
廖總的分享是第一天上午開場各個分享中保留技術氣質最多的。
監控需要跟上產品迭代速度。
監控應用是比較復雜的事情,基礎監控都很通用,很容易。
上圖很好地說清楚了所謂精益化性能管理的思路。
舉個栗子,假如我們需要檢驗xxoo這個函數的運行效率。
從插入代碼的方式。我們都知道如果需要每個函數都寫這樣的代碼來監控性能,是會被開發人員吐槽吐死的。于是考慮用自動注入監測代碼的辦法:
到-javaagent:apm,從main函數/premain函數里加監控代碼。
用agent方式運行,就自動加入了監控代碼,更帥的辦法是寫在JVM內部。
我的問題是:監控XXOO函數的性能,我們到底是希望執行時間越短越好,還是越長越好呢?哈哈!
4.《大數據與行為預測模型》劉志軍,馬上消費金融CDO 原Capital One總監
馬上消費金融嘗試3類算法:聚類、預測、分類。其中聚類的主觀性太強,實際應用中大多數精力都放在預測方面。
#p#
窗口時間多少,取決于金融產品的周期,短期還是循環額度、信用卡。長期的產品,就要關注一年內把所有高峰期都算一遍。
據劉志軍大神講到,美國是提供真實納稅人的信息查詢的,每次2元(大概是美元吧!現場沒特地說明),這個信息是很真實的,就是太貴了。劉志軍大神又講:我們國內也能查…不過更貴:)
算法部分,這張圖說的很清楚:統計Dtree/NN/SVM/boost/ensemble建模。
判斷模型的標準:相關性、模型穩定性。此處不用多講了,大神已經把心得都放出來了!
判斷排序相關性的經典算法:見圖
完美模型 vs 不好的模型 見圖
常見問題:樣本覆蓋、質量不一、缺失值、樣本偏差
劉志軍大神的這場分享是這次互聯網金融專場中唯一涉及算法的。雖然沒有展開,但我們從大神提煉的方法論、推薦的算法模型能夠感覺到大神在該領域的功力。如果有哪位同學想進入互聯網金融領域做算法相關、模型相關的工作,我強烈推薦這篇分享。如果將其中各個要點了解一二,你就能夠很容易忽悠你周圍的小伙伴了;如果將各個要點深度吃透,找一份互聯網金融的模型研究相關的高薪工作,絕不是難事。
5.《互聯網金融的敏捷數據運營最佳實踐》王桐,北京永洪商智科技有限公司副總裁
敏捷化:當天的需求,當天數據出來
高性能、自服務
平臺發展早期的數據分析需求:考慮用戶全生命周期的數據分析,幫客戶把流量/用戶量拉上去。
從渠道引流、到注冊、充值、投標、復投。在漏斗中發現問題。
中期的分析需求:偏運營,財務分析、主題分析。
#p#
探索式BI是大勢所趨,互聯網金融的痛點是IT門口高,業務人多,技術人少,數據需求支持不過來。
痛點切得很準!
6.《京東金融宙斯Zeus安全防御平臺》劉明浩,京東金融高級安全專家
技術安全 vs 業務安全
業務安全包括:垃圾賬戶、撞庫掃描、平行權限、活動作弊、釣魚欺詐。這個分類還是很有意義的。
阿波羅業務風險地圖:容忍->預警->干預。
比如不同IP不同地區,在同一賬號登陸。
統計下平時用戶常在哪個IP下登陸。
其他系統XSS漏洞
某個IP從普通用戶變成了root用戶
以漏洞為中心,威脅為中心
京東分享的防御系統業務太敏感畢竟不能深入。講師能分享到業務架構層面,幫助非該領域的同學們拓展下視野還是不錯的。
7.《麻袋理財大數據平臺及金融風險控制實踐案例分析》王天青,麻袋理財首席架構師
科普一下,互聯網金融的風險分類:信用、信息、運營、欺詐。
問題是核心數據開發少,關聯度低,價值密度低,需要多個維度。
平臺的數據流架構。大家有沒有似曾相識的感覺?這套數據處理流程實在已經成為如今中國互聯網的標配了。
#p#
判斷活動是否具有突發性
信用信息可以來自社交數據,比如認為一類人的信用度基本一致。
現場還有一種業務結合算法的圖,但在公開的PPT中沒有放出來。其中提到計算信用的部分,用到了社交數據中的言論信息,還提到使用 topicmodel,計算信用。我對此有個小問題:公開能抓到的數據應該指的是微博微信上的用戶言論數據吧!但那上面的每位用戶表達的語句大都很短,一方面短語料對計算topic model挑戰很大;另一方面短語料中的信息,包括情感信息,就能與人的信用搭上關系么?即使有關聯,這種關系又有多強呢?
8.《大數據金融云的實踐分享》鄭赟,宜信大數據創新中心研發總監
宜信每分鐘有一個新客戶,2000萬借貸款每小時。我們貌似可以推測出宜信每年的新客總數了:)
鄭赟(這個字念yun)講到姨搜-名稱的來歷:“讓阿姨證明你媽是你媽”。
自有的用戶行為收集系統
獲取來自互聯網上的數據,建立知識圖譜
數據維度很重要,依靠社交一度關系判斷
智能理財:宜信也有用戶推薦
小插曲:鄭赟講了商通貸的故事,談到這個產品剛剛上線的時候做算法的同學們都很緊張,因為這支算法團隊的同學們之前大都是做推薦系統的,而這款產品高度依賴信用評估,他們在這塊經驗不算多。呵呵,這時候有哪位同學能猜測出這支算法團隊的帶頭人了么?猜到的同學請舉手,要么你是算法領域資深人士,要么你是獵頭。
PS:因為干貨太多,我們分為兩個部分進行推薦。
下半部分文章推薦:某CTO眼中的WOT2015大數據技術峰會:干貨應接不暇
作者簡介:
傅強,2015年年中作為技術合伙人加入九枝蘭,為企業提供在線營銷的整合投放Saas服務。2006年-2015年任職當當,從工程師、架構師、高級總監到技術副總裁,從技術的維度,見證了中國電商時代的風起云涌。