易觀OLAP算法大賽結果揭曉,開源組黑馬放大招!
100+天激烈賽程,40+國內***技術豪門對決,歷經研發內部測試、正式環境測試和易觀數據正式環境跑benchmark三大階段。10月28日,易觀OLAP算法大賽優勝名單出爐!
40+技術門派比武
易觀OLAP大賽可謂國內算法界“武林大會”,英雄帖一發出就引起互聯網各大技術門派積極響應。
吸引來自美團點評、阿里云、小米、鏈家、搜狗、科大訊飛、聯通、原速數據、樂見、AggreData、GBase 、Kyligence、PingCAP、LinkDoc、iflytek、hulu、上海睿民、熱云數據、潤乾、帆軟軟件、咪咕音樂、杭州玳數科技、上海跬智、千丁互聯、北京健科云網、廣州向量線科技、樂享天下、牛辦科技、北京郵電大學、北京交通大學等40多家知名企業、科研單位和個人報名參加。
6組算法新人王誕生
本次易觀OLAP算法大賽分為商業組和開源組兩個組別進行,從7月開放報名到10月正式環境跑benchmark。經過重重考驗,終于決出6組易觀OLAP算法新人王:
商業組三甲:
***名:PingCAP
PingCAP 是國內***家開源的新型數據庫公司,其產品分布式高可用數據庫 TiDB 支持水平擴展,兼容MySql,支持分布式事務,是大數據時代理想的數據庫集群和云數據庫解決方案之一。在本次比賽中,PingCAP使用自主研發的 Magic 引擎,使用多層pipeline、智能并發等技術,以***速度對數據進行暴力掃描,實現了良好的計算效果,因此獲得商業組***名的好成績。
第二名:帆軟軟件
帆軟團隊在本次參賽使用的是帆軟自主研發的直連分布式引擎。分布式存儲系統基于Alluxio和HDFS,采用列式存儲方案,以Spark作為基礎,基于流式計算,輔以高性能查詢算法,為直連引擎提供強勁的查詢支持。面對億級數據和多維度復雜場景時,直連分布式引擎能大幅提高有序漏斗的計算的效率和準確性。
第三名:GBase
GBase此次參賽用的是自己的產品GBase 8a MPP Cluster。GBase 8a采用行列混合存儲,可處理PB級別以上的結構化數據。同時采用先進的數據壓縮算法,有效提高IO性能。在數據處理上采用完全并行的MPP + Share Nothing的分布式架構,支持高并發,因此在有序漏斗的實時計算中效率較高。
易觀OLAP算法大賽商業組頒獎儀式
開源組三甲:
***名:廣州向量線科技 韋萬和李本旺
在開源組比賽中韋萬和李本旺另辟蹊徑,向北取經。使用目前國內鮮為人知的俄羅斯神級開源軟件ClickHouse參賽。利用ClickHouse超強分析性能和靈活的架構特點,使得集群間節點的計算完全并行化,同時優化底層的存儲和上層的計算細節,挖掘CPU cache、向量化執行和具體算法優化方面的潛力。憑借在時效和精度上的優異表現,韋萬和李本旺團隊成為本屆大賽***黑馬,獲得開源組***名。
第二名:美團點評 孫業銳
美團點評團隊基于自身的業務優勢經驗,設計了本次參賽的解題思路。用bitmap快速過濾和基于時間戳序列匹配的算法,利用Apache Spark、Alluxio等開源框架快速落地實現,使用了一系列工程優化方法,在每日數百億條日志和百萬屬性的數據集上,實現有序漏斗的秒級查詢。在易觀正式數據環境中,在26億數據,400萬用戶,幾十個屬性的場景下,美團點評團隊均實現了快速查詢。
第三名:北京郵電大學 盧躍凱
易觀OLAP算法大賽還吸引了來自計算機名門高校的個人選手。北京郵電大學的研究生盧躍凱,采用了HDFS作為儲存,將Spark作為數據預處理和核心過濾算法實現。借鑒最長遞增子序列的存儲和更新思想,將查找每個用戶轉化率的時間復雜度變為了0(n),提升了漏斗計算的效率。
易觀OLAP算法大賽開源組頒獎儀式
開源組10萬元現金獎勵
易觀OLAP大賽為每組前三名的團隊頒發獲獎證書,同時開源組***名還將獲得UCloud提供的10萬元現金獎勵。據悉,韋萬和李本旺獲得開源組***名后注冊了自己的公司,將對算法技術進行更深入的研究和落地實踐。
開源組***名10萬元現金獎勵授予儀式
賽制公正具有含金量
2017易觀OLAP算法大賽在“有序漏斗”的實時計算效率和精確度上得到突破性的好成績,這離不開易觀海量的數據支撐以及UCloud強大的技術支持。
一直以來,UCloud都是易觀良好的合作伙伴,本次大賽UCloud為所有參賽團隊提供了穩定的底層IT計算資源服務。比賽在4臺UCloud云主機16核、16G內存、SSD數據盤300G硬件的環境下進行。比賽時現給出8個不同的場景,同時開始計時,每個場景的運行時間須在8分鐘以內,8個場景總體比賽時間在1小時內,以此考察參賽團隊在不同場景下的實時計算精度和用時效率。每個場景根據事件的數量、事件的復雜程度、事件的屬性、時間窗口的大小等差異賦予不同的權重。總分為單個場景乘以該場景權重的累加所得。在8個場景中,運行時間最短且精確度***的隊伍獲勝。在正式數據環境開跑階段,還進行全程錄像,確保比賽成果的含金量。
作為易觀A10峰會的重要項目,OLAP算法大賽不僅為技術黑馬提供大展拳腳的道場,同時還為行業挖掘出更多技術型人才和更優秀解決方案。做技術領域的“伯樂”,讓世界看到更多“黑馬”,易觀致力于推進大數據應用創新。未來,易觀OLAP大賽取得的成果將用于數據產品的研發當中,從技術應用層面實踐“數以致用”。