成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)分析≠Hadoop+NoSQL,完善現(xiàn)有技術(shù)的10條捷徑

云計算 Hadoop
如果得到正確的應(yīng)用,Hadoop確實能從根本上提升你公司的業(yè)務(wù),然而這條Hadoop的應(yīng)用之路卻充滿了荊棘。另一個方面,許多企業(yè)(當(dāng)然不是Google、Facebook或者Twitter)也沒有做大數(shù)據(jù)分析所需要的巨型集群,他們純粹是被“大數(shù)據(jù)”這個熱門的詞語給吸引的。

[[80739]]

讓業(yè)務(wù)搭乘大數(shù)據(jù)技術(shù)確實是件非常有吸引力的事情,而Apache Hadoop讓這個誘惑來的更加的猛烈。Hadoop是個大規(guī)模可擴(kuò)展數(shù)據(jù)存儲平臺,構(gòu)成了大多數(shù)大數(shù)據(jù)項目基礎(chǔ)。Hadoop是強(qiáng)大的,然而卻需要公司投入大量的學(xué)習(xí)精力及其它的資源。

如果得到正確的應(yīng)用,Hadoop確實能從根本上提升你公司的業(yè)務(wù),然而這條Hadoop的應(yīng)用之路卻充滿了荊棘。另一個方面,許多企業(yè)(當(dāng)然不是Google、Facebook或者Twitter)也沒有做大數(shù)據(jù)分析所需要的巨型集群,他們純粹是被“大數(shù)據(jù)”這個熱門的詞語給吸引的。

就像Dabid Wheeler所說“計算機(jī)科學(xué)的所有問題都有另一個層次間接的解決方案”,而Hadoop正是類似間接解決方案;當(dāng)你的上司被一些流行詞匯所吸引時,做正確的軟件架構(gòu)決策將變的非常艱難。

下文將給出一些對Hadoop進(jìn)行投資前需要嘗試的替代方案:

了解你的數(shù)據(jù)

數(shù)據(jù)的總體積

Hadoop是為大型數(shù)據(jù)集所建立的有效解決方案。

GB級以上的文件系統(tǒng)HDFS。因此如果你的文件只是MB級的,你最好對數(shù)個文件進(jìn)行整合(zip或者tar),讓其達(dá)到數(shù)百兆或者是幾GB。

HDFS會將文件分割,并以64MB、128M或者更大的塊進(jìn)行存儲。

如果你的數(shù)據(jù)集非常的小,那么使用這個巨型生態(tài)系統(tǒng)將不會很適合。這需要對自己的數(shù)據(jù)有足夠的了解,并且分析需要什么類型的查詢以及你的數(shù)據(jù)是否真的夠大。

另一方面,鑒于你的計算指令可能很大,只通過數(shù)據(jù)庫去測量數(shù)據(jù)的體積可能會存在誤差。有時候數(shù)學(xué)計算或者分析小型數(shù)據(jù)集的排列可能會讓得出的結(jié)果遠(yuǎn)大于實際數(shù)據(jù)體積,所以關(guān)鍵在于你對數(shù)據(jù)有切實的了解。

數(shù)據(jù)增長的速度

你可能在數(shù)據(jù)倉庫或者其它的數(shù)據(jù)源中存有數(shù)TB數(shù)據(jù),然而在建立Hadoop集群前有一個必須考慮的因素就是數(shù)據(jù)的增長速度。

對你的分析師提出幾個簡單的問題,比如:

數(shù)據(jù)增速究竟有多快?這些數(shù)據(jù)是否以非常快的速度增長?

幾月或者幾年后數(shù)據(jù)的體積究竟會有多大?

許多公司的數(shù)據(jù)增長都是按年算的。這種情況下,你的數(shù)據(jù)增長速度其實并不快;所以這里建議考慮歸檔和清除選項,而不是直接的奔往Hadoop。

如何減少需處理的數(shù)據(jù)

如果你確實有非常大體積的數(shù)據(jù),你可以考慮通過以下的途徑將數(shù)據(jù)縮減到非常適合管理的體積,以下的幾個選項已經(jīng)過產(chǎn)業(yè)幾十年考驗。

考慮歸檔

數(shù)據(jù)存檔是對過期的數(shù)據(jù)進(jìn)行分開存儲,當(dāng)然存儲的時間根據(jù)實際需求制定。這需要對數(shù)據(jù)以及應(yīng)用程序?qū)?shù)據(jù)的使用情況,有非常充分的了解。比如電子商務(wù)公司的大數(shù)據(jù)處理只將3個月內(nèi)的數(shù)據(jù)存入活躍數(shù)據(jù)庫,而舊訂單則被存入單獨的存儲。

這個途徑同樣可以運(yùn)用于你的數(shù)據(jù)倉庫。當(dāng)然你可以存儲更多的近期數(shù)據(jù)用于報告和查詢,使用頻度少的數(shù)據(jù)可以被存入單獨的存儲設(shè)備。

考慮清除數(shù)據(jù)

有時候我們一直忙于收集數(shù)據(jù)而不清楚究竟需要保存多少數(shù)據(jù),如果你存儲了非常多用不到的數(shù)據(jù),那么這將毫無疑問的降低你有效數(shù)據(jù)的處理速度。弄清你的業(yè)務(wù)需求并且審查數(shù)據(jù)是否可以被刪除,從中分析出你需要儲存數(shù)據(jù)的類型,這不僅會節(jié)省你的存儲空間,同樣會提升有效數(shù)據(jù)的分析速度。

一個經(jīng)常用到的最佳實踐就是給數(shù)據(jù)倉庫建立附加列,比如created_date、created_by、update_date及updated_by。通過這些附加列可以對數(shù)據(jù)進(jìn)行階段性的訪問統(tǒng)計,這樣就可以清楚數(shù)據(jù)的有效周期。這里需要著重對待的是數(shù)據(jù)清除的邏輯,切記先思考再實現(xiàn)。如果你使用了一個歸檔工具,那么數(shù)據(jù)的清除將會變得非常容易。

不是所有的數(shù)據(jù)都很重要

你可能受不了儲存所有業(yè)務(wù)相關(guān)數(shù)據(jù)的誘惑,你可能有很多的數(shù)據(jù)來源,比如:日志文件、營銷活動數(shù)據(jù)、ETL作業(yè)等。你需要明白不是所有數(shù)據(jù)都對業(yè)務(wù)起關(guān)鍵作用,而且在數(shù)據(jù)倉庫中保存所有的數(shù)據(jù)并不是有益的。在數(shù)據(jù)源過濾掉不需要的數(shù)據(jù),甚至是在儲存到數(shù)據(jù)倉庫之前。不要對所有的數(shù)據(jù)進(jìn)行存儲,只分析你所需的數(shù)據(jù)。

注意哪些數(shù)據(jù)是你想要收集的

拿在線視頻編輯業(yè)務(wù)來說,你會需要保存你用戶做出的所有操作嗎?這樣的話可能會產(chǎn)生非常大的數(shù)據(jù)體積,如果你發(fā)現(xiàn)你的數(shù)據(jù)倉庫不足以應(yīng)對這些數(shù)據(jù),你可能會考慮只存儲元數(shù)據(jù)。雖然視頻編輯是個非常極端的例子,然而并不妨礙我們在其它用例中考慮這些信息。

總而言之,根據(jù)業(yè)務(wù)的需求只收集所需要的數(shù)據(jù)。

智能分析

聘請了解業(yè)務(wù)的分析師

到目前為止,你應(yīng)該已經(jīng)清楚理解數(shù)據(jù)的重要性;所以在你做了上面所有步驟后并決定使用Hadoop時,聘請1個了解業(yè)務(wù)的分析師將會對你業(yè)務(wù)產(chǎn)生巨大幫助。

如果數(shù)據(jù)分析師不懂如何從中獲取價值,那么Hadoop將不會產(chǎn)生任何作用,不要吝嗇對業(yè)務(wù)有深刻認(rèn)識的雇員投資。鼓勵他們多做實驗,并且使用新的方式去分析同一個數(shù)據(jù),找出使用現(xiàn)有基礎(chǔ)設(shè)施獲利的途徑。

為決策制定使用統(tǒng)計抽樣

統(tǒng)計抽樣可以說是非常古老的技術(shù),研究者及數(shù)學(xué)家運(yùn)用它在大體積數(shù)據(jù)上推斷合理的結(jié)論。通過這個步驟,我們可以大幅度的縮減數(shù)據(jù)體積。取代追蹤數(shù)十億或者數(shù)百萬的數(shù)據(jù)點,只需要跟蹤其中數(shù)千或者數(shù)百的數(shù)據(jù)點就可以了。這個手段雖然不會給我們提供精準(zhǔn)的結(jié)果,但是卻可以對大型的數(shù)據(jù)集有一個高等級的理解。

提升技術(shù)

你真的已經(jīng)達(dá)到關(guān)系型數(shù)據(jù)庫處理的極限了嗎?

在探索其它領(lǐng)域之前,你更應(yīng)該審視關(guān)系數(shù)據(jù)庫是否可以繼續(xù)處理問題。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)被使用了很長一段時間,而很多機(jī)構(gòu)已經(jīng)可以使用它管理TB級的數(shù)據(jù)倉庫。所以在遷往Hadoop之前,不妨考慮以下的方法。

分割數(shù)據(jù)

數(shù)據(jù)切分是從邏輯上或物理上將數(shù)據(jù)分割成數(shù)個更好維護(hù)或訪問的部分,同時很多流行的開源關(guān)系型數(shù)據(jù)庫都支持分片(比如MySQL Partitioning及Postgres Partitionging)。

在傳統(tǒng)數(shù)據(jù)庫上考慮數(shù)據(jù)庫分片

數(shù)據(jù)庫分片是提升傳統(tǒng)關(guān)系型數(shù)據(jù)庫性能極限的最后一招,適用于數(shù)據(jù)可以邏輯分片在不同節(jié)點上并且很少做跨節(jié)點join分享的情況。在網(wǎng)絡(luò)應(yīng)用程序中,基于用戶分片,并將用戶相關(guān)信息儲存在同一個節(jié)點上是提升性能的常見途徑。

分片有很多限制條件,所以并不是適合所有場景,同樣在用例中存在太多的跨節(jié)點jion,分片將發(fā)揮不了任何作用。

總結(jié)

Hadoop的部署將耗費公司巨量的人力和物力,如果能通過提升現(xiàn)有基礎(chǔ)設(shè)施來達(dá)到目標(biāo)也不失為一良策。

責(zé)任編輯:王程程 來源: FromDev
相關(guān)推薦

2014-01-23 09:55:33

項目管理

2018-07-27 15:20:50

企業(yè)新興技術(shù)

2018-06-15 20:44:40

Hadoop數(shù)據(jù)分析數(shù)據(jù)

2011-09-02 10:59:02

大數(shù)據(jù)數(shù)據(jù)分析Hadoop

2016-12-22 09:52:13

Hadoop大數(shù)據(jù)分析

2021-08-17 09:30:05

大數(shù)據(jù)數(shù)據(jù)分析客戶體驗

2014-03-27 09:36:36

Spark

2021-01-27 09:18:50

大數(shù)據(jù)數(shù)據(jù)收集大數(shù)據(jù)分析

2012-05-15 10:28:29

NoSQL數(shù)據(jù)庫建模技術(shù)

2020-04-29 09:17:42

Seaborn數(shù)據(jù)可視化數(shù)據(jù)分析

2020-07-26 19:19:46

SQL數(shù)據(jù)庫工具

2012-05-30 11:29:14

Hadoop大數(shù)據(jù)

2013-04-28 10:01:28

HDInsightWindows AzuHadoop

2011-10-19 09:35:36

Hadoop數(shù)據(jù)集群

2012-08-08 09:53:23

HadoopMapReduce

2019-07-25 14:23:36

2020-08-10 06:16:26

seaborn數(shù)據(jù)分析圖表

2021-04-08 10:45:37

大數(shù)據(jù)技術(shù)安全

2017-01-11 16:54:34

數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備數(shù)據(jù)虛擬化

2015-10-30 13:57:20

烹飪數(shù)據(jù)分析
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久av资源网 | 视频一区二区三区四区五区 | 成人av免费网站 | 亚洲视频在线播放 | 久久久久久久夜 | 欧美a级成人淫片免费看 | 欧美一级毛片在线播放 | 欧美成人h版在线观看 | 伊人二区 | 丝袜美腿一区二区三区 | 国产在线a | 久草福利| 色久伊人 | 激情视频中文字幕 | 成人二区 | 欧美综合在线观看 | 久久精品一级 | 国产综合精品 | 成av在线| 精品成人| 久久国产成人 | 日韩免费中文字幕 | 日韩有码在线播放 | 国产你懂的在线观看 | 亚洲精品一区二区在线 | 亚洲精品一区中文字幕乱码 | 91精品国产91综合久久蜜臀 | 午夜ww| 亚洲国产福利视频 | 亚洲精品乱码久久久久久按摩观 | av入口| 超碰国产在线 | 日韩精品一区在线观看 | av一区二区三区四区 | 91不卡 | ririsao久久精品一区 | 日韩欧美专区 | 夜夜夜操 | 午夜激情影院 | 中文字幕免费观看 | 黄网站涩免费蜜桃网站 |