你還在用這種方法搭建Hadoop嗎?
了解更多數字化轉型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html
談到出門如果讓你在
鑰匙和手機中選一個你會選哪個?
相信很多人選手機吃飯、購物、打車、
取錢沒有是手機干不了的想回家也不難
手機App上找個開鎖公司就好了
而如果選鑰匙你可能還沒出小區大門
就開始后悔了…
手機對于今天人們生活的
重要性不言而喻
這樣的例子小編再舉一個
就是Hadoop對于大數據的重要性
▓ 從2006年誕生至今,Hadoop已經走過了13個年頭,成為互聯網行業大數據計算的標準配置。雖然時有言論唱衰Hadoop(主要針對商業發行版,而不是Hadoop技術本身),但它依然是大數據平臺的核心和事實標準。
今天,幾乎所有公司開展大數據項目都會首先引入Hadoop,然而成功卻并不容易。2016年的時候Gartner估計有60%的大數據項目遭遇失敗。這中間當然有市場、策略等在內的很多因素,但其中一個因素很多人回過頭才發現,是因為它們一開始就走在了“羊腸小道”上。
比如下面這個案例
搭建標準Hadoop集群
還沒上線就出問題
IT系統架構師小王供職于一家提供數據服務的A公司,該公司通過網絡爬蟲7×24不間斷在互聯網上收集所有注冊企業的公開的信息,進行數據處理和信息聚合,供其用戶進行查詢。
最近,A公司業務上有了新的創新,他們決定在現有提供查詢服務的基礎上,進一步對外提供數據分析服務。經公司討論決定,這個任務,落到了小王的頭上。
借鑒互聯網公司的經驗,小王最開始用標準服務器搭建標準Hadoop集群。該平臺對外提供Hadoop as a service服務,每當用戶有請求,平臺都會自動幫用戶生成一套Hadoop環境,同時加載300+TB由公司提供的公共數據進去。
但是,這樣的平臺
在前期測試階段就出現了問題
首先,當出現一個節點故障時,前端用戶使用系統時會感覺非常慢,極端情況下甚至出現過部分數據不可用,集群停止服務等問題。同時故障修復過程也非常緩慢,嚴重影響了用戶體驗。
作為一個外部服務平臺,這樣的表現顯然無法滿足A公司及其外部用戶SLA要求。
其次,作為一個多租戶平臺,同時要支撐很多套Hadoop集群運行,并且每套Hadoop集群都會存儲一份由A公司提供的300+TB公共數據。大量重復數據存儲造成的空間開銷異常高,直接導致需要部署的服務器數量驚人,而A公司所有IT設備均托管在運營商機房,久而久之造成機房的租用成本高企。
最后,大批量服務器部署帶來的運維成本對IT部門也是很大的負擔。
面對這種情況
只能硬著頭皮用下去嗎?
當然不是!小編向您推薦
Isilon for Hadoop解決方案
“等等!Isilon我是知道的,它不是你們常說的那個用在影視行業很牛掰的NAS存儲嘛?它能如何幫到我??”
不錯,Isilon確實是以NAS的形象聞名于江湖
但是它可不僅僅定位于NAS!
Isilon由英特爾®至強®處理器提供支持,該處理器采用軟件定義的基礎設施和敏捷云架構,為Isilon提供了好的性能和效率,可加速要求嚴苛的文件工作負載,使企業發揮數據資本的價值,加速業務的數字轉型。
Isilon搭建Hadoop
大數據也能玩的溜
其實,戴爾易安信Isilon是一個成熟的數據湖解決方案,它的OneFs操作系統支持豐富數據訪問協議,當一種協議寫入數據湖的文件,可以馬上通過其他協議被訪問。
例如,用戶通過SMB寫入到Isilon中的文件,可以馬上通過HDFS被Hadoop計算節點訪問,省去了標準Hadoop集群繁瑣的ELT過程,而且OneFs原生支持HDFS,避免了協議轉換帶來的性能開銷。
具體來說
用Isilon來架構Hadoop集群
比標準Hadoop集群更具優勢
首先,傳統通過DAS構建的,是計算和存儲集中的單層架構,在擴容時需要同時擴容計算和存儲,往往會造成計算資源過剩,形成資源浪費。而通過Isilon構建地是計算與存儲分離的二層架構。讓計算歸計算,存儲歸存儲,這樣就可以隨需靈活地擴充資源,實現最佳資源利用率。
打個比方:
單層架構好比一個人被綁住雙腳,不能走,只能跳,前行速度慢且吃力。
二層架構好比一個人的雙腳掙脫了束縛,邁開步子往前跑,自然前進地更快。
其次,利用DAS構建的標準Hadoop集群,需要將各類在線數據經過繁瑣的ETL過程才能實現大數據分析。
而通過Isilon構建Hadoop集群,能夠實現數據的就地分析,無需繁瑣的轉換,從而避免了協議轉換帶來的性能開銷。
最后,就像前面小王案例中遇到的,當出現一個節點故障時,前端用戶就會受到顯著的影響,這就是標準DAS Hadoop無法避免的單點故障風險。
而基于Isilon搭建的Hadoop集群無單點故障,每個節點都是NameNode,能夠有效避避免業務風險。此外,Isilon的服務質量更有保證,即使有節點失效,也不會顯著降低集群的性能。
具體到A公司新業務的應用場景
- Isilon支持多租戶,可以輕松實現不同用戶的Hadoop環境邏輯上完全隔離。
- 配合Smart Dedupe技術,可以在全局將多Hadoop實例中的共用數據進行重刪,實現存儲經濟性。
- 每個節點都是NameNode,更高可用性。
- Isilon集群還能隨需動態擴展高性能節點或大容量節點,實現好的投入產出比。
總之,相較于標準架構用服務器搭建Hadoop集群,采用Isilon方案能夠為A公司節省更多機柜空間和能耗,簡化運維管理和功能實現方式,并提供更可靠的數據服務和更豐富的接口支持,便于用戶進一步的業務創新。
用好Hadoop不難
關鍵要走在事半功倍的道路上
相關內容推薦:“鴛鴦鍋”玩轉大數據
相關產品:Dell EMC PowerMax NVMe 數據存儲