當大數據遇上在線旅游網站會撞出什么樣的火花?
譯文【51CTO快譯】一家德國知名旅游公司請總部設在科隆的咨詢公司empulse幫助為其設計在線旅游網站時,該公司應承了下來。畢竟,這家公司的顧問為郵政部門提供過電子化跟蹤方面的咨詢服務,為電力公司提供過智能電表方面的咨詢服務。如此看來,為旅游公司提供咨詢服務應該也不難吧?
結果發現,難就難在響應時間--這家旅行社希望查詢結果在一秒或更短時間內返回來,因為只要時間一長,客戶就會掉頭而去,尋找另一家網站。也就是說,每延遲一秒,這家旅行社的損失就越大。
empulse公司總經理Michael Hummel表示,該公司的開發人員曾經試過幾款大數據解決方案,包括Hadoop、列式數據庫技術、甲骨文和微軟的FAST(文件和設置轉移),但是沒有一個接近這家旅行社需要的響應時間。
"我們所能構建的速度最快的系統搜遍2億條記錄也要用時6.5秒。這個速度實在太慢了,而且還要耗費大量的計算機資源。如果你每秒想要運行的不是一個查詢,而是一千個查詢,那就需要非常高的吞吐量以及數據處理方面更高的效率。我們試過的所有系統都需要數量眾多的服務器,那樣成本太高了,承擔不了。"
于是,他們決定自己構建一套系統,先是從核心部分入手:數據結構、算法、索引以及新數據的持續性裝入,而且為這款產品開辦了一家新公司:ParStream。
現在這家在線旅行社每秒能夠處理1000個查詢,能夠以20個不同的參數查詢180億個旅游優惠信息,并且在不到一秒的時間內返回響應結果。
Hummel說:"由于不同的航班、酒店、行程時間和餐飲計劃,我們在德國市場有數量巨大的旅游優惠信息。每個優惠信息有不同的價格,你得把它們全部都搜遍,才能找到***惠的方案。"
"我們開發完畢后,認識到自己為大數據領域提供了一款實時數據分析產品,這正是ParStream的由來。這家公司認為,能夠在非常短的時間內獲得動態更新的信息的查詢結果,這有著非常廣泛的應用價值,絕不僅僅局限于為沒多少耐心的零售客戶返回結果,因為這讓業務分析員、營銷和廣告人員等用戶可以查詢更多的問題,然后制定和完善促銷模式。"
"誰也不想長時間地等待結果返回。大多數人以認為,大數據就是數十億條記錄,不過是靜態的。這可大錯特錯。大數據是動態的。新數據每時每刻都在生成;你拿來這些新數據后,不得不與歷史數據一起處理。"
ParStream的技術結合了處理器和英偉達的Fermi圖形處理器(GPU),同樣非常高效。德國***的搜索引擎優化軟件供應商SearchMetrics使用高級技術,為想在谷歌、必應及其他搜索引擎提供的結果中提高搜索排名的公司分析搜索引擎結果。其一整套搜索引擎工具使用7500萬個關鍵字和1億個域,還使用 ParStream實現高效處理。Hummel表示,這家公司之前一直在使用100余臺服務器;借助ParStream的技術,現在它只用四臺服務器就能完成同樣的任務。
大型電子商務網站上的龐大流量為調整網頁設計和近乎實時提供的優惠活動提供了機會。公司可以看到來自贊助商鏈接、網絡廣告和電子郵件廣告活動的成效。Hummel表示,德國etracker公司做的就是這項工作。
"etracker使用ParStream來控制廣告活動--訪客點擊他們監控的任何一個網站到點擊出現在所有報表中,這之間的***延遲時間是30秒;也就是說,如果你分析自己的網站,就能看到半分鐘之前的流量。使用etracker廣告活動控制技術的客戶可以實時監控廣告活動的效果,如果廣告活動需要改進,可以立即采取相應對策。"
這讓電子商務公司得以在開展廣告活動的過程中監控和修改廣告活動,調整活動以獲得***效果,密切關注效果,并且作進一步的改變。
不是只有在線監控得益于非常快的分析速度--業務分析員也受益匪淺,因為他們可以運行更多的查詢、測試更多的假設情形,并且不斷改進分析機制。
"快速的大數據分析解決方案能幫助整個公司更快地了解情況、更快地變化及應對新趨勢,這可以帶來更有利的競爭地位。"
ParStream在數據庫設計方面研發出了幾項創新技術,以獲得這樣的性能。一個關鍵步驟就是,它簡化了數據裝入,并實現了并行處理。
Hummel說:"大數據的移動是個大問題。你現在的數據量比10年前多了1000倍,而且數據量的增幅超過計算機處理速度的增幅。你一定要進行并行處理,把工作分攤到多臺機器上。我們在查詢方面就這么做,我們在導入數據時也這么做。"實時導入數據還減少了硬件開銷。由于數據一直在導入,所以不需要額外硬件,就能滿足夜間批處理的峰值需求。
快速響應的其他關鍵是可以在數據導入時或可以構建的一個非常靈活的索引。ParStream開發了經過壓縮的索引,能夠在壓縮狀態下運行。Hummel表示,此外,ParStream的算法比Hadoop使用的算法要高效得多。
HPC Wire網站的編輯Michael Feldman在今年6月于德國漢堡舉行的國際超級計算大會前夕采訪了ParStream,得出了這個結論:這家公司的目的是"以高性能計算(HPC)的性能來分析大數據。"
Hummel舉了個零售行業的假設例子:
美國的一家衣服銷售商可以細分從北卡羅來納州訪問其網頁,在過去兩周花了10美元買衣服的客戶。它能查看誰在上午7點到中午這個時間段訪問網站,分析他們的點擊模式、看看他們在購買什么樣的衣服,然后著重關注瀏覽休閑服的那些人,***開展針對他們的廣告活動,就促銷那些衣服,然后跟蹤效果。
"如果你能夠分析大數據以及網站上的數十億次點擊,那么這種針對性極強的廣告活動正是你所需要的。"