成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop 3中的磁盤管理大招解密

存儲 存儲軟件 Hadoop
DataNode 使用基于輪詢的策略寫入新塊。但是,在長期運行的集群中,由于 HDFS 中大規模文件刪除或通過磁盤熱交換特性添加新 DataNode 磁盤等事件,DataNode 仍然可能創建了顯著不平衡的卷。

1、前言

本文深入研究 HDFS 磁盤平衡的新特性,這是 Hadoop3 中加入的一個特性。

HDFS 現在包括(在 CDH 5. 8. 2 和更高版本中發布)用于跨節點移動數據的全面的存儲容量管理方法。

在 HDFS 中,DataNode 將數據塊分散到本地文件系統目錄中,這可以使用 hdfs-site.xml 文件的 dfs.datanode.data.dir 參數指定。

在典型的安裝中,每個目錄(在 HDFS 術語中稱為卷)位于不同的設備上(例如,在單獨的 HDD 和 SSD 上)。

當向 HDFS 寫入新塊時,DataNode 使用卷選擇策略為塊選擇磁盤。

[[226313]]

當前支持兩種此類策略類型:

  • 輪詢(round-robin)
  • 可用空間(available space)(HDFS-1804)

簡而言之,如圖1所示,輪詢策略在可用磁盤上均勻分布新塊,而可用空間策略優先將數據寫入具有***可用空間(按百分比)的磁盤。

圖1

默認情況下,DataNode 使用基于輪詢的策略寫入新塊。但是,在長期運行的集群中,由于 HDFS 中大規模文件刪除或通過磁盤熱交換特性添加新 DataNode 磁盤等事件,DataNode 仍然可能創建了顯著不平衡的卷。

即使您使用基于可用空間的卷選擇策略,卷不平衡仍然可能導致效率較低的磁盤 I / O。

例如:每個新寫入將轉到新添加的空磁盤,而其他磁盤在此期間是空閑的,這會在新磁盤造成瓶頸。

最近,Apache Hadoop 社區開發了服務器離線腳本(在 HDFS-1312,dev@ mailing list 和 GitHub 中所討論的),以緩解數據不平衡問題。

但是,由于處于 HDFS 代碼庫之外,這些腳本要求 DataNode 在磁盤之間移動數據之前脫機。

因此,HDFS-1312 還引入了一種在線磁盤平衡器,旨在根據各種指標重新平衡正在運行的 DataNode 上的卷。

與 HDFS 平衡器類似,HDFS 磁盤平衡器作為 DataNode 中的線程運行,以便在具有相同存儲類型的卷之間移動塊文件。

在本文的剩余部分,您將了解為什么以及如何使用此新特性。

2、如何使用磁盤平衡器?

讓我們通過一個例子逐步探討這個有用的特性。

首先,確認在所有 DataNode 上配置 dfs.disk.balancer.enabled 設置為 true。

從 CDH 5.8.2 起,用戶可以通過 Cloudera Manager 中的 HDFS 安全閥片段指定此配置:

在此示例中,我們將向預加載的 HDFS DataNode 添加一個新磁盤(/mnt/disk1),并將新磁盤掛載到 /mnt/disk2。

在 CDH 中,每個 HDFS 數據目錄位于單獨的磁盤上,因此可以使用 df 顯示磁盤使用情況:

顯然,是時候讓磁盤平衡了!

典型的磁盤平衡器任務涉及三個步驟(通過 HDFS diskbalancer 命令實現):計劃,執行和查詢。

在***步中,HDFS 客戶端從 NameNode 讀取關于指定的 DataNode 的必要信息,以生成執行計劃:

從輸出中可以看出,HDFS 磁盤平衡器使用計劃器來計算指定 DataNode 上數據移動計劃的步驟,這是通過使用 DataNode 向 NameNode 報告的磁盤使用信息來完成的。

每個步驟指定要移動數據的源卷和目標卷,以及預計移動的數據量。

在編寫本文時,HDFS 支持的唯一計劃器是 GreedyPlanner ,它不斷將數據從最常用的設備移動到最少使用的設備,直到全部數據均勻分布在所有設備上。

用戶還可以在計劃命令中指定空間利用率的閾值;因此,如果空間利用率的差異低于閾值,則計劃器認為磁盤是平衡的。

另一個值得注意的選項是通過在計劃過程中指定— bandwidth 來限制磁盤平衡器任務 I/O,以便磁盤平衡器 I/O 不會影響前臺工作。

磁盤平衡器執行計劃生成為存儲在 HDFS 中的 JSON 文件。

默認情況下,計劃文件保存在 /system/diskbalancer 目錄下:

要在 DataNode 上執行計劃,請運行:

此命令將 JSON 計劃文件提交給 DataNode,DataNode 在后臺 BlockMover 線程中執行它。

檢查 DataNode 上磁盤平衡器任務的狀態,請使用 query 命令:

輸出(PLAN_DONE)表示磁盤平衡任務已完成。要驗證磁盤平衡器的有效性,請再次使用 df -h 查看跨兩個本地磁盤的數據分布:

輸出確認磁盤平衡器成功地將卷之間的磁盤空間使用率差異降低到10%以下。任務完成!

要閱讀有關 HDFS 磁盤均衡器的更多詳細信息,請閱讀 Cloudera 文檔和上游文檔。

3、總結

隨著 HDFS-1312 中引入期待已久的內部 DataNode 磁盤平衡器特性,CDH 5.8.2 及更高版本中帶來的 HDFS 版本提供了一個全面的存儲容量管理解決方案,可以實現以下3種數據移動:跨節點(平衡器)、存儲類型(Mover)和單個 DataNode 中的磁盤(磁盤平衡器)。

責任編輯:武曉燕 來源: 高效運維
相關推薦

2014-01-03 09:13:39

JavaScriptthis

2015-10-09 09:43:28

CSS CSS3

2009-10-22 13:06:00

Linux磁盤管理

2011-01-11 13:53:33

Linux管理磁盤

2009-10-22 09:25:28

linux磁盤配額

2020-01-09 10:44:47

Hadoop 3缺點優點

2010-08-03 10:32:42

Android 3.0Android 3.0Android開發

2016-01-04 17:39:48

蟻視CES

2016-09-19 14:52:12

Hadoophdfs磁盤

2018-07-30 11:56:17

解密加密開發

2009-02-17 16:20:02

Linux磁盤掛載硬件管理

2011-02-22 15:29:39

2017-12-07 10:39:19

linux磁盤RAID

2023-04-26 11:16:44

2009-02-19 17:02:49

Windows 7隱藏分區

2019-10-10 16:20:23

spark內存管理

2019-04-17 14:44:42

Spark內存源碼

2010-12-31 10:56:13

Windows Ser管理磁盤配額

2013-11-28 17:48:36

騰訊應用寶平臺

2016-02-24 09:38:25

Hadoop集群管理大數據技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美电影免费观看 | 美女黄网站视频免费 | 午夜三区| 日韩一区二区免费视频 | 国产a级黄色录像 | 老子午夜影院 | 成人1区 | 免费在线一区二区 | 亚洲一区高清 | 日韩精品在线看 | 午夜视频一区二区 | 国产免费一区 | 成人超碰在线 | 中文在线一区二区 | 国产一区二区影院 | 一级毛片视频 | 欧美精品91爱爱 | 国产精品3区| 国产精品不卡一区 | 午夜一级大片 | 天天看天天操 | 精品久久精品 | 亚洲欧洲综合av | 日韩中文字幕在线观看 | 中文字幕在线免费视频 | 91一区二区 | 亚洲精品一区在线观看 | 午夜视频一区二区 | 色在线免费视频 | 国产免费一区 | 91免费在线看 | 亚洲精品第一页 | 国产精品一区在线播放 | 久久亚洲一区 | 国产精品美女久久久久久久久久久 | 青草青草久热精品视频在线观看 | 精品视频一区二区三区四区 | 久久久久久国产精品 | 婷婷免费视频 | 欧美亚洲国产一区二区三区 | 一区二区三区精品 |