成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

PB級分布式大數據的處理和分析應用

運維 系統運維 分布式
由于大數據都分布在集群中,因此對數據的處理和分析需要在集群中進行,但是在多臺機器上對分布式數據進行分析會產生巨大的性能開銷,即使采用千兆比特或萬兆比特帶寬的網絡,隨機讀取速度和連續讀取速度都會比內存慢幾個數量級。PB級分布式大數據應該如何處理?

對于大數據,串行的處理方式難以滿足人們的要求,現在主要采用并行計算方式。現有的并行計算可以分為兩種:

  • 細粒度的并行計算。這里細粒度主要是指指令或進程級別,由于GPU比CPU擁有更強的并行處理能力,人們將一些任務交給GPU并行處理,一些GPU制造商也推出了方便程序員使用的編程模型,如NVIDIA推出的CUDA等。
  • 粗粒度的并行計算。這里粗粒度指的是任務級別,人們將工作分布到不同機器中執行,最近流行的網格計算、分布式計算都屬于粗粒度級別。

由于現有GPU編程模型還未完善,開發人員需要考慮大量的并行細節且任務較重,因此未得到流行。而一些新推出的分布式編程模型以其簡單、方便等特點受到開發人員的歡迎并變得炙手可熱,這里我們主要討論粗粒度的并行計算。

由于大數據都分布在集群中,因此對數據的處理和分析需要在集群中進行,但是在多臺機器上對分布式數據進行分析會產生巨大的性能開銷,即使采用千兆比特或萬兆比特帶寬的網絡,隨機讀取速度和連續讀取速度都會比內存慢幾個數量級。但是,現在高速局域網技術使得網絡讀取速度比硬盤讀取要快很多。因此,將數據存儲在其他節點上比存儲在硬盤上的性能要好,而且還可以在多個節點上并行處理數據集。

對大數據分布處理會帶來一些問題,首先就是節點間通信對并行處理的代價,一些操作如搜索、計數、部分聚集、聯合等可以在每個節點上獨立執行。單個節點處理后的結果需要合并,因此節點間的通信是不可避免的,但是并不是所有的聚集操作都能分散成可以獨立操作的子操作,如求得所有數據的中位數。不過,大部分重要的操作都有分布式算法來減少節點間的通信。

節點間負載不平衡也是出現的主要問題。理想情況下,每個節點的計算量是相同的,否則工作量最大的節點將決定整個任務的完成時間,這個時間往往比負載平衡情況下的時間要長。最壞的情況下,所有的工作都集中在某個機器上,無法體現出并行的優勢。數據在節點間如何分布對負載平衡產生影響,例如,一個包含1000個傳感器10年內的觀測值的數據集,傳感器每15秒收集一次數據,這樣一個傳感器10年內將產生兩千多萬個觀測值。我們將數據根據傳感器并按時間順序分布到10個節點上,每個節點包含100個傳感器的觀測值,如果對某個傳感器收集的數據進行操作,那么大部分節點將處于閑置狀態。如果先按時間順序對數據進行分布,那么根據時間的操作也會造成負載不平衡。

分布式系統的另一個問題就是可靠性。就像擁有四個引擎的飛機比擁有兩個引擎的飛機更容易出現引擎故障一樣,一個擁有10個節點的集群很容易出現節點故障。這可以通過在節點間復制數據來解決,對數據進行復制,既可以提高數據分析的效率,也可以通過冗余來應對節點故障。當然,數據集越大,對數據副本的管理和維護也越困難。

目前對大數據處理和分析的應用更多的是集中在數據倉庫技術、預測分析、實時分析、商業智能、數據統計等方面。這些需求對企業有巨大的幫助。

將PB級的數據存儲起來并不是一件困難的事情,但是如何進行高效的存儲并不簡單。首先要考慮的是,如何組織數據的結構使其能夠更多地支持上層的軟件,而不需要對數據進行轉儲和重新組織。當數據需要發生轉換的時候避免因轉儲、抽取、整合等而帶來的延遲。

有效的預測分析技術,尤其是實時分析對企業的決策有很大的幫助。例如,超市可以根據龐大的用戶歷史消費記錄來預測某一用戶下次購買商品的傾向,從而在結賬的時候可以專門針對某一用戶打印其關心的優惠券。足球隊管理層可以根據用戶的購票記錄為其推薦更人性化的月票、季票等套票。

目前,像SAS、SPSS等傳統數據分析軟件因其數據處理能力受限于單機的計算能力,對大數據的處理顯得力不從心。IBM Netezza等新興的數據分析軟件往往需要支付昂貴的許可費用,因此Hadoop,MapReduce,R等開源的大數據分析工具受到越來越多的關注和青睞。

相比于商業軟件,開源軟件完全免費且不需要支付昂貴的許可費用,另外在其背后還擁有龐大的開源團隊的支持。但是能否完全跟得上市場的需求和發展速度是關鍵性的問題,畢竟這些軟件不像商業軟件那樣有巨大的利益驅動推動它們的發展。

責任編輯:黃丹 來源: it168網站
相關推薦

2018-08-24 10:28:41

大數據數據分析工具

2011-12-22 09:21:04

云計算Hadoop大數據

2022-03-01 08:40:34

StormHadoop批處理

2017-08-22 11:10:44

大數據分布式調度

2018-03-08 11:10:33

分布式存儲Ceph

2015-03-18 09:33:41

大數據分布式系統事務處理

2016-11-08 12:49:27

大數據分布式系統Druid-IO

2013-05-29 10:07:34

大數據存儲技術

2015-03-16 14:38:16

大數據存儲分布式系統事務處理

2022-05-01 21:58:10

區塊鏈大數據

2014-02-11 09:07:31

2015-09-23 14:32:30

NFV分布式數據環境

2016-12-14 13:36:02

華為存儲

2020-11-26 15:51:11

SQL數據庫大數據

2018-12-27 00:10:25

大數據

2013-04-27 11:43:19

大數據全球技術峰會

2021-08-26 08:03:30

大數據Zookeeper選舉

2021-07-05 09:28:11

Flink分布式程序

2018-12-14 10:06:22

緩存分布式系統

2023-12-18 11:21:40

MongoDB數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 毛片一区二区三区 | 黄网站涩免费蜜桃网站 | 国产丝袜一区二区三区免费视频 | 国内自拍第一页 | 91在线视频免费观看 | 国产高清久久久 | 成人国产精品 | 国产精品久久久av | 亚洲激精日韩激精欧美精品 | 国产亚洲成av人片在线观看桃 | 久久91精品国产一区二区三区 | 久久久久久免费毛片精品 | 精品在线视频播放 | 精品毛片 | 99精品久久 | 欧美一区二区三区在线 | 国产精品久久久久免费 | 国产福利在线视频 | 黑人精品xxx一区一二区 | 精品九九九 | 免费观看一级毛片 | 国产成人精品一区二 | 亚洲一区在线日韩在线深爱 | 亚洲日韩中文字幕一区 | 久久99精品久久久久久国产越南 | 日韩在线免费视频 | 日本久久视频 | 看羞羞视频 | 天天色图| av大全在线 | 久久亚洲精品国产精品紫薇 | 欧美精品乱码久久久久久按摩 | 麻豆久久久久久久久久 | 国产精品亚洲欧美日韩一区在线 | 欧美视频xxx | 久久爱综合 | 久久精品 | 亚洲一区二区av | 欧美日本一区二区 | 风间由美一区二区三区在线观看 | 精品视频在线观看 |