從理論到實踐，基于Java的開源大數據工具

2015-09-11 09:59:32

你也許會問，什么是大數據呢？最重要的是為什么它在每一個商業領域都是最新的趨勢？？這是一個炒作還是會繼續發展？？

你也許會問，什么是大數據呢？最重要的是為什么它在每一個商業領域都是***的趨勢？？這是一個炒作還是會繼續發展？？

事實上,“大數據”是一個相當簡單的術語，簡單的說就是一個非常大的數據。有多大?答案是你無法想象。

這數據真的有如此大的規模嗎？的確如此，因為這個數據無處不在。例如：用于收集天氣信息的RFID傳感器收集的天氣信息，GPRS手機包，社交媒體網站的帖子，照片和視頻，在線購買交易記錄等等。大數據是一個巨大的數據可能包含我們感興趣的每一個來源信息。

不過大數據不僅僅是簡單的大小，相反大數據的主要特點是大量化(Volume)，多樣化(Variety)，快速化(Velocity)，價值化（Value）。簡稱大數據的四V。讓我們簡要地研究其中的每一個代表什么：

大量化(Volume)：企業面臨著數據量的大規模增長。例如，IDC最近的報告預測稱，到2020年，全球數據量將擴大50倍。目前，大數據的規模尚是一個不斷變化的指標，單一數據集的規模范圍從幾十TB到數PB不等。簡而言之，存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外，各種意想不到的來源都能產生數據。

多樣化(Variety)：一個普遍觀點認為，人們使用互聯網搜索是形成數據多樣性的主要原因，這一看法部分正確。然而，數據多樣性的增加主要是由于新型多結構數據，以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中，部分傳感器安裝在火車、汽車和飛機上，每個傳感器都增加了數據的多樣性。

快速化(Velocity)：高速描述的是數據被創建和移動的速度。在高速網絡時代，通過基于實現軟件性能優化的高速電腦處理器和服務器，創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據，還必須知道如何快速處理、分析并返回給用戶，以滿足他們的實時需求。根據IMS Research關于數據創建速度的調查，據預測，到2020年全球將擁有220億部互聯網連接設備。

價值化（Value）：大量的不相關信息，浪里淘沙卻又彌足珍貴。對未來趨勢與模式的可預測分析，深度復雜分析（機器學習、人工智能Vs傳統商務智能(咨詢、報告等）。

然而現有的商業智能和數據倉庫解決方案還不能完全支持4 V,大數據解決方案正在發展來應對這些挑戰。

責任編輯：李英杰來源：新浪微博

java 開源大數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從理論到實踐，基于Java的開源大數據工具