大數(shù)據(jù):我們有技術(shù) 但是我們有人才嗎
譯文【51CTO 快譯】許多企業(yè)充斥著大數(shù)據(jù),這為了解和預(yù)測客戶喜好和市場發(fā)展提供了大好機會。因為在競爭異常激烈的全球經(jīng)濟環(huán)境下,擁有正確的信息就意味著擁有競爭優(yōu)勢。
不過這里有一個方面要注意。想成功地駕馭海量信息,公司就需要擁有相應(yīng)技能的人才能如愿以償。這些人要知道如何管理數(shù)據(jù),建立分析系統(tǒng),并且?guī)椭庾x數(shù)據(jù)。
EMC公司最近針對數(shù)據(jù)科學家的一項調(diào)查證實了這一點。共有83%的調(diào)查對象認為,新技術(shù)會增加企業(yè)對數(shù)據(jù)科學家的需求;64%的調(diào)查對象認為,現(xiàn)有的人才供應(yīng)量將滿足不了需求。實際上,麥肯錫全球研究所的一項調(diào)查預(yù)測,在未來六年內(nèi),光美國就可能面臨缺少14萬至19萬擁有扎實分析技能的人才這一窘勢,而且缺少懂得使用相應(yīng)工具分析大數(shù)據(jù)、作出合理決策的150萬管理和分析人員。
TechTarget的Beth Stackpole還指出,今天的專業(yè)人員隊伍雖受過培訓(xùn),但只會管理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,還沒有準備好處理大數(shù)據(jù)環(huán)境以及諸如Hadoop和MapReduce之類的開源平臺。“雖然數(shù)據(jù)管理團隊通常有一套定義明確的專門技能,懂得管理和組織高度結(jié)構(gòu)化的數(shù)據(jù),以及在SQL中建立模型、創(chuàng)建報表,但是這些傳統(tǒng)技能組合無法很好地運用到大數(shù)據(jù)環(huán)境中非結(jié)構(gòu)化的平面文件數(shù)據(jù);在大數(shù)據(jù)環(huán)境中,命令行和NoSQL數(shù)據(jù)庫技術(shù)是搭建大多數(shù)新興平臺的核心基本模塊。”
Hadoop是個Apache開源項目,它由諸多開源組件組成,被設(shè)計成可以存儲來自多個節(jié)點的海量數(shù)據(jù),并壓縮成一種易于訪問的格式,這種格式名為Hadoop分布式文件系統(tǒng)(HDFS)。MapReduce經(jīng)常與Hadoop結(jié)合使用,它是一種編程構(gòu)件,可用于構(gòu)建分析功能,以便分析數(shù)據(jù)。NoSQL數(shù)據(jù)庫通常處理非結(jié)構(gòu)化數(shù)據(jù),包括博客、文檔、文本、PDF、視頻和音頻。
與此同時,企業(yè)沒必要苦苦尋覓,才能找到應(yīng)對大數(shù)據(jù)挑戰(zhàn)和機遇所需要的人才。作為由Informatica和Cloudera共同主辦的一系列網(wǎng)絡(luò)播放活動的一部分,我有幸采訪了幾位身在大數(shù)據(jù)環(huán)境一線的主管和顧問。
比如說,Klout公司的首席技術(shù)官兼聯(lián)合創(chuàng)始人Binh Tran指出,技能組合是這家社交網(wǎng)絡(luò)評級服務(wù)公司在竭力克服的“第一大”挑戰(zhàn)。“我們開辦公司之初,主要工作就是挖掘分析數(shù)據(jù)、編制在線文檔。要找到擁有豐富實際經(jīng)驗的人基本上很難。我們只好從雅虎和Facebook這些公司那里招人。”Tran聲稱現(xiàn)在看到更多的大學設(shè)有Hadoop和MapReduce課程,至少在硅谷地區(qū)是這樣。
Ventana研究公司的分析師David Menninger提到了最近的調(diào)查結(jié)果;調(diào)查結(jié)果發(fā)現(xiàn),169位企業(yè)主管中超過四分之三的人表示,人員配備和培訓(xùn)問題是將大數(shù)據(jù)充分利用起來的兩大障礙。
Cloudera公司的Omer Trajman指出,技能是很缺乏,但形勢并非毫無希望。應(yīng)對Hadoop等大數(shù)據(jù)解決方案的能力“并非高深莫測,人們可以學會,”他說。僅僅幾年前,“只有個別人知道Hadoop”——而現(xiàn)在知道Hadoop的人在不斷增多。“我們鼓勵企業(yè)關(guān)注內(nèi)部擁有的技能組合,注重人員培訓(xùn)。現(xiàn)在有好多人有著合適的背景,可以學會使用Hadoop。企業(yè)不僅僅要物色已經(jīng)學會的那些人、雇用他們……企業(yè)里面也有一些人其實能夠逐漸勝任這個角色……有好多人能學會Hadoop。”
下面是有望在大數(shù)據(jù)時代發(fā)揮作用的崗位:
系統(tǒng)管理員:負責集群的日常運作。“他們可能直接或間接地管理硬件部件,確定對額外硬件的需求,并且實際部署硬件。”Trajman補充說,系統(tǒng)管理員的職責還包括監(jiān)測和配置。“他們還負責Hadoop與其他系統(tǒng)的集成。”
開發(fā)人員:負責搭建平臺、開發(fā)分析應(yīng)用程序。“他們熟悉工具或算法,他們可能要編程、包裝、優(yōu)化或者部署不同的MapReduce事務(wù)。他們將收集和維護不同的代碼庫,他們的角色類似數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)庫管理員(DBA)。”
數(shù)據(jù)分析員/數(shù)據(jù)科學家:Trajman表示,數(shù)據(jù)分析員和數(shù)據(jù)科學家其實屬于同一類。這些專業(yè)人員運用算法來解決分析問題,并且從事數(shù)據(jù)挖掘工作。“他們最大的本事就是能夠讓數(shù)據(jù)道出真相。Trajman表示,此外,“他們可能擁有某個領(lǐng)域的專長。他們將幫助開發(fā)數(shù)據(jù)產(chǎn)品,幫助開發(fā)推動業(yè)務(wù)發(fā)展的數(shù)據(jù)解決方案。”
數(shù)據(jù)專員:最終負責收集高質(zhì)量的數(shù)據(jù)。“數(shù)據(jù)專員匯總所有進入企業(yè)的數(shù)據(jù),并且編成目錄。企業(yè)里面存在著大量的數(shù)據(jù),Hadoop可以將這些數(shù)據(jù)集中起來。所以,確定上游數(shù)據(jù)模型,有抽取、轉(zhuǎn)換和加載(ETL)以及數(shù)據(jù)建模方面的背景,這些都是典型的技能組合和背景。”
Trajman說:“今天許多企業(yè)實際上都擁有所有這些技能組合。”
【編輯推薦】