從理論到實踐,基于Java的開源大數據工具
你也許會問,什么是大數據呢?最重要的是為什么它在每一個商業領域都是***的趨勢??這是一個炒作還是會繼續發展??
事實上,“大數據”是一個相當簡單的術語,簡單的說就是一個非常大的數據。有多大?答案是你無法想象。
這數據真的有如此大的規模嗎?的確如此,因為這個數據無處不在。例如:用于收集天氣信息的RFID傳感器收集的天氣信息,GPRS手機包,社交媒體網站的帖子,照片和視頻,在線購買交易記錄等等。大數據是一個巨大的數據可能包含我們感興趣的每一個來源信息。
不過大數據不僅僅是簡單的大小,相反大數據的主要特點是大量化(Volume), 多樣化(Variety),快速化(Velocity),價值化(Value)。簡稱大數據的四V。讓我們簡要地研究其中的每一個代表什么:
大量化(Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。
多樣化(Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。
快速化(Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。
價值化(Value):大量的不相關信息,浪里淘沙卻又彌足珍貴。對未來趨勢與模式的可預測分析,深度復雜分析(機器學習、人工智能Vs傳統商務智能(咨詢、報告等)。
然而現有的商業智能和數據倉庫解決方案還不能完全支持4 V,大數據解決方案正在發展來應對這些挑戰。