應(yīng)對大數(shù)據(jù)洪流有哪些重要技巧
隨著企業(yè)挖掘數(shù)據(jù)以獲取有關(guān)客戶、供應(yīng)商和運(yùn)營的見解,大數(shù)據(jù)應(yīng)用程序正在增長。但隨著容量的增長和數(shù)據(jù)變得更加敏感,底層存儲(chǔ)仍然是一個(gè)重要的考慮因素。
以下一些技巧可以說明數(shù)據(jù)存儲(chǔ)專業(yè)人員如何能夠在應(yīng)對存儲(chǔ)系統(tǒng)的大數(shù)據(jù)洪流。
1.結(jié)合閃存、數(shù)據(jù)縮減和保護(hù)
IBM公司存儲(chǔ)業(yè)務(wù)首席技術(shù)策略師Clodoaldo Barrera表示,閃存技術(shù)的引入和包括壓縮和重復(fù)數(shù)據(jù)刪除在內(nèi)的新存儲(chǔ)系統(tǒng)設(shè)計(jì)已經(jīng)成為大數(shù)據(jù)世界中必不可少的必要條件。
Barrera說,“隨著企業(yè)開始依賴大數(shù)據(jù)洞察力,大數(shù)據(jù)應(yīng)用程序變得至關(guān)重要。備份、歸檔和災(zāi)難恢復(fù)也必須添加到操作要求中。”
2.當(dāng)心孤島
每當(dāng)出現(xiàn)新的工作負(fù)載時(shí),很容易將其視為一種新型計(jì)算,因此需要新的存儲(chǔ)基礎(chǔ)設(shè)施。通常的論點(diǎn)是“型存儲(chǔ)更適合這種新的工作負(fù)載”,通常引用更低的成本或更好的性能。Barrera表示,這種方法的問題在于它為每種應(yīng)用程序類型創(chuàng)建了單獨(dú)的存儲(chǔ)和數(shù)據(jù)孤島。每個(gè)孤島都必須有自己的管理、安全、業(yè)務(wù)連續(xù)性、升級(jí)路徑等,需要自己的規(guī)劃和運(yùn)營管理。更糟糕的是,獨(dú)立的孤島抑制了工作負(fù)載之間的數(shù)據(jù)移動(dòng)性;事務(wù)處理、實(shí)時(shí)分析和大數(shù)據(jù)應(yīng)用程序需要針對共同的數(shù)據(jù)基礎(chǔ)進(jìn)行操作。
Barrera說,“在準(zhǔn)備大數(shù)據(jù)環(huán)境時(shí),要考慮整體存儲(chǔ)基礎(chǔ)設(shè)施的需求和成本,并仔細(xì)考慮真正需要多少不同的數(shù)據(jù)和存儲(chǔ)環(huán)境。”
3.整合
說到孤島,對許多人來說至關(guān)重要的第一步是整合他們的大數(shù)據(jù)存儲(chǔ)環(huán)境,從而消除組織中存在的各種數(shù)據(jù)孤島。這一點(diǎn)很重要,原因有二:首先,很難跨不同的數(shù)據(jù)池有效地應(yīng)用大數(shù)據(jù)工具。其次,整合的數(shù)據(jù)存儲(chǔ)環(huán)境通常更高效且更易于管理。要采用這種方法,IT基礎(chǔ)設(shè)施需要能夠在單個(gè)存儲(chǔ)平臺(tái)上支持廣泛的應(yīng)用程序和工作負(fù)載。
DellMC公司非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)產(chǎn)品營銷高級(jí)總監(jiān)VarunChhabra表示:“數(shù)據(jù)整合可以幫助企業(yè)降低成本、簡化IT管理并為高效使用非結(jié)構(gòu)化數(shù)據(jù)分析工具以從數(shù)據(jù)資產(chǎn)中提取更多價(jià)值奠定基礎(chǔ)。由于許多企業(yè)使用廣泛的應(yīng)用程序和工作負(fù)載來支持他們的業(yè)務(wù),因此選擇具有多協(xié)議支持功能的存儲(chǔ)基礎(chǔ)架構(gòu)非常重要,可以提供顯著的運(yùn)營靈活性。
4.匹配應(yīng)用程序
如今有很多大數(shù)據(jù)存儲(chǔ)工具,但并沒有一個(gè)可以適合每種應(yīng)用。企業(yè)需要仔細(xì)選擇以匹配自己的應(yīng)用程序和環(huán)境。
StorageIO集團(tuán)分析師Greg Schulz說:“不要僅僅因?yàn)榻鉀Q方案提供了大數(shù)據(jù)和分析支持,就認(rèn)為它會(huì)適用于自己的應(yīng)用程序。如果正在進(jìn)行Hadoop,需要獲得針對該操作的優(yōu)化內(nèi)容,或視頻處理,那么獲取針對該操作優(yōu)化的內(nèi)容。并查看流行語復(fù)選框之外的內(nèi)容。”
5.歡迎來到機(jī)器器學(xué)習(xí)
IDC公司聲稱,到2020年,42%的數(shù)據(jù)將符合“機(jī)器生成”的標(biāo)準(zhǔn)。這些數(shù)據(jù)以應(yīng)用程序日志、傳感器數(shù)據(jù)、業(yè)務(wù)流程日志和消息隊(duì)列等形式幾乎不斷地大量生成,它為首席信息官和業(yè)務(wù)領(lǐng)導(dǎo)者提供了一個(gè)潛在的金礦。為了跟上數(shù)據(jù)增長并利用其機(jī)會(huì)獲利,企業(yè)需要合適的人員和合適的工具。但釋放機(jī)器學(xué)習(xí)的潛力需要關(guān)聯(lián)和數(shù)學(xué)分析海量數(shù)據(jù)集。因此,對底層存儲(chǔ)架構(gòu)進(jìn)行仔細(xì)規(guī)劃是必不可少的。
ClearSkyData公司首席技術(shù)官Laz Vekiarides說,“如今的大數(shù)據(jù)計(jì)劃涉及大量數(shù)據(jù)和大量基礎(chǔ)設(shè)施,因此需要做好準(zhǔn)備。”
6.不要在范圍內(nèi)
Vekiarides補(bǔ)充說,大多數(shù)大數(shù)據(jù)項(xiàng)目從一開始就在性能和容量方面都很小。對大數(shù)據(jù)可能有多大的初步估計(jì)通常在一兩年內(nèi)是可笑的。這主要是因?yàn)檫@些項(xiàng)目對組織的價(jià)值被低估了。因此,成長計(jì)劃從一開始就是一個(gè)要求。
Vekiarides說。,“尋找基于消費(fèi)的模型,讓其可以按需增長,而無需為未使用的容量、軟件和基礎(chǔ)設(shè)施付費(fèi),當(dāng)數(shù)據(jù)規(guī)模快速增長并需要快速訪問時(shí),彈性最重要,這在大數(shù)據(jù)和分析中都是如此。”
7.預(yù)先部署保護(hù)
一旦創(chuàng)建了PB級(jí)數(shù)據(jù)集,事后很難進(jìn)行全面保護(hù)。有時(shí)會(huì)發(fā)生笨重的數(shù)據(jù)集是跨多個(gè)平臺(tái)創(chuàng)建的,而沒有真正考慮如何保護(hù)數(shù)據(jù)。但隨后意識(shí)到,一個(gè)單一的嚴(yán)重事故可能導(dǎo)致無法估量的寶貴數(shù)據(jù)的丟失。或者,當(dāng)分析數(shù)據(jù)的工具位于其他公共云或內(nèi)部部署位置時(shí),數(shù)據(jù)可能會(huì)滯留在公共云中。
Vekiarides說,“提前考慮災(zāi)難恢復(fù)和安全性,因?yàn)檫@些數(shù)據(jù)很快就會(huì)成為戰(zhàn)略資產(chǎn),了解希望在多大程度上使用它,以及如何確保它的安全和保護(hù)。”
8.采用自動(dòng)數(shù)據(jù)分層
并非所有非結(jié)構(gòu)化數(shù)據(jù)都具有相同的價(jià)值,而且其價(jià)值經(jīng)常隨著時(shí)間而變化。在需要高性能基礎(chǔ)設(shè)施的應(yīng)用程序和工作負(fù)載中使用的數(shù)據(jù)將需要高性能存儲(chǔ)資源(例如全閃存)。其他數(shù)據(jù)(例如較舊的和很少使用的數(shù)據(jù))可能會(huì)被存檔,并且不需要高性能。對所有數(shù)據(jù)使用相同類型的存儲(chǔ)系統(tǒng)通常會(huì)導(dǎo)致性能水平不足。使用具有基于策略的自動(dòng)化分層功能的存儲(chǔ)系統(tǒng)可以確保以正確的性能級(jí)別支持?jǐn)?shù)據(jù)。
Chhabra說,“這種方法將優(yōu)化存儲(chǔ)資源投資并消除成本高昂的人工移動(dòng)數(shù)據(jù)。”