大數據在云端的應用需要改變IT技能集
如今,企業不斷將大數據工作負載轉移到云端。雖然此舉并不需要徹底改變IT技能,但它確實需要對管理和開發團隊進行一些更改。
而對于采用大數據來打包云計算,企業的團隊為此準備好了嗎?
即使企業在自己的數據中心內采用大數據,也不一定意味著他們將在云中取得成功。而且在大多數情況下,必須對工作人員進行培訓,讓其獲得新的工作技能。
調研機構Enterprise Strategy Group的高級分析師Mike Leone表示,總體而言,云計算中的大數據可以降低內部部署數據中心的成本,并非運行在云端的大數據工作負載或項目都需要企業擁有一名大數據專家,但也有一些企業需要數據專家的幫助,例如涉及Hadoop。
Leone表示,雖然在云端使用五節點集群替換五節點Hadoop集群非常簡單,但卻出現了管理方面的挑戰,尤其是軟件互操作性方面的管理挑戰。
云端獲得大數據的四大技能
根據IT培訓機構Linux Academy公司的大數據分析主管Manisha Sule的說法,IT團隊應該把重點放在四大技能上,以便在云計算領域運行大數據。
- 管理:工作人員知道如何管理Hadoop和NoSQL變得至關重要。工作人員還需要仔細配置和管理(諸如計算、存儲和網絡等)基礎設施組件,以支持大數據項目。Sule說,使用Hadoop分布式文件系統和NoSQL數據庫的經驗也是有幫助的,這兩者都可以存儲大量的數據。
- 開發:Sule表示,大數據開發人員應該具有Python、Scala和Java等語言的編程經驗。此外,具有使用亞馬遜網絡服務(AWS)Kinesis和Lambda等產品的經驗也是一個優勢,因為它們提供了基于微服務架構的實時處理的替代方案。
- 分析:云端大數據分析需要統計學、數據挖掘、機器學習、操作研究、計算機編程方面的專業知識。Sule說,數據科學家和分析師以及機器學習和人工智能工程師需要學習如何構建算法,然后將這些算法實現自動化以處理大量的實時數據。
- 可視化:可視化開發人員設計儀表板,講述組織收集的大數據的故事。這個角色的IT專業人員需要訪問不同的數據源,并將其整合到統一的交互式平臺中。
Sule指出,雖然有一些課程可以幫助掌握這四項技能,但對于IT專業人員來說,最好采取邊做邊學的方法。云計算也適合采用這種模式。
Sule說:“在人們準備充分的時候,可以輕松地注冊一個試用賬戶,直接感受到可用的服務。許多正式課程的內容也涉及實踐經驗。”
Cloud Technology Partners首席架構師Muhammad Nabeel表示,IT團隊也應該為提供商提供的多種云服務結合起來做好準備,以支持大數據計劃。他說:“企業需要詳細了解它們并一起實施。”
根據Nabeel的說法,在三家行業領先的公共云提供商云平臺上運行的關鍵的大數據服務包括:
- 微軟Azure:在微軟Azure上使用Hadoop、Spark、R Server、HBase,以及Storm群集的HDInsight。
- 谷歌云平臺:用于分析數據倉庫的BigQuery,用于批量和流處理的云數據流,用于托管Hadoop和Spark的Cloud Dataproc,以及用于數據挖掘的Cloud Datalab。
- AWS云平臺:使用Hadoop和Spark的Elastic MapReduce; Athena在簡單存儲服務中進行分析; Elasticsearch集群。
除了第三方培訓選項外,云計算提供商還提供有用的學習功能以加速采用。例如,在谷歌云計算控制平臺中,有一個“試用”功能的例子。
Nabeel認為,實踐經驗有很長的路要走。他說:“學習一門課程是有幫助的,但如果課程真正涉及到工作人員所需要的具體知識時,并不總是能夠解決問題。”
網絡流量分析提供商Kentik公司聯合創始人兼首席執行官Avi Freedman表示,雖然提供特定于供應商的大型數據工具的知識非常重要,但組織也應該努力在多個云平臺上使其團隊的技能多樣化。過于依賴單一供應商的企業有些短視,因為現在市場上沒有明顯的贏家。
Freedman說,“這意味著企業將會開發一個沒有長期需求的技能。”更好的方法是學習云計算中與大數據有關的一般概念,如分布式系統和數據庫。
他說:“一旦有了這些,學習特定的云服務提供商的技術和知識應該是非常容易的。此外,在任何云計算環境中,請務必徹底理解自己將要訪問和使用該數據的所有不同方式,例如從應用程序類型到存儲的數據類型。”
他說:“如果發展這種關系的個人或者團隊不了解這個過程中的商業需求,那么這個過程會變得很難。” 就像開發任何新的IT項目一樣,只有求知欲和良好判斷的組織還有很長的路要走。