成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自建Hadoop集群遷移到EMR之數據遷移篇

大數據 Hadoop
自建集群要遷移到EMR集群,往往需要遷移已有數據。本文主要介紹hdfs數據和hive meta數據如何遷移。需要自建集群和EMR各個節點網絡互通。同為VPC網絡只需要同一個安全組,不同的安全組需要設置安全組互通。

自建集群要遷移到EMR集群,往往需要遷移已有數據。本文主要介紹hdfs數據和hive meta數據如何遷移。

[[219271]]

 

前置

已按需求創建好EMR集群。

遷移hdfs數據

主要依靠distcp,核心是打通網絡,確定hdfs參數和要遷移內容,測速,遷移。

網絡

需要自建集群和EMR各個節點網絡互通。同為VPC網絡只需要同一個安全組,不同的安全組需要設置安全組互通。

如果自建集群是經典網絡,EMR集群是vpc,網絡訪問需要設置CLASSICLINK.參見文檔,詳情可以咨詢ECS客服。

設置后可以在新集群節點上ssh 老集群節點確定網絡連通情況,distcp操作如果有xx 節點無法連接xx節點的異常,說明沒有連通,需要繼續設置。

hdfs權限配置確認

hdfs有權限設置,確定老集群是否有acl規則,是否要同步,檢查dfs.permissions.enabled 和dfs.namenode.acls.enabled的配置新老集群是否一致,按照實際需要修改。

如果有acl規則要同步,distcp參數要加-p同步權限參數。如果distcp操作提示xx集群不支持acl,說明對應集群沒配置。新集群沒配置可以修改配置并重啟NM。舊集群不支持,說明舊集群根本就沒有acl方面的設置,也不需要同步。

同步參數

一般在新集群上運行同步,這樣同步的作業可以在新集群上運行,對老集群影響較小。

distcp參數細節,一般命令格式如下:

  1. hadoop distcp -Ddfs.replication=3 -pbugpcax -m 1000 -bandwidth 30 hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/ 

注意事項:

hdfs://oldclusterip:8020寫老集群nameode ip,多個namenode寫當前active的。

指定了副本數3,如想保留原有副本數-p后加r如-prbugpcax。如果不同步權限和acl,-p后去掉p和a。

-m指定map數,和集群規模,數據量有關。比如集群有2000核cpu,就可以指定2000個map。 -bandwidth指定單個map的同步速度,是靠控制副本復制速度實現的,是大概值。

  1. 遷移整體速度受集群間帶寬,集群規模影響。同時文件越多,checksum需要的時間越長。如果遷移數據量大,可以先試著同步幾個目錄評估一下整體時間。如果只能在指定時間段內同步,可以將目錄切為幾個小目錄,依次同步。
  2. 如果遷移過程中老集群還有寫入,可以用-udpate再將變化同步過來。
  3. 一般完全同步,需要有個短暫的業務停寫,以啟用雙寫雙算或直接將業務切換到新集群上。

hive meta數據同步

hive meta數據同步,本質是hive meta db,一般是mysql db的數據同步。和一般的mysql數據同步相比,要注意location改變,和hive版本對齊。

meta db設置

meta數據較多時,一般推薦用rds作為meta db。自建集群可能已有一個rds db,由于location不同,一般需要新建一個數據庫。***實踐是跟EMR集群在一個可用區,一個vpc 安全組下新建一個rds 數據庫。

登錄新集群master節點(如果是ha集群兩個master都需要),修改/usr/local/emr/emr-agent/run/meta_db_info.json,把里面的use_local_meta_db設置為false,meta數據庫信息的鏈接地址、用戶名和密碼換成新建rds的信息。然后重啟hive組件的metaserver。

初始化meta的表信息:

 

  1. ···  
  2. cd /usr/lib/hive-current/bin  
  3. ./schematool - initSchema -dbType mysql  
  4. ··· 

location

hive的表,分區等信息是有location信息的,帶dfs nameservices前綴,如hdfs://mycluster:8020/,而EMR集群的nameservices前綴是統一的emr-cluster,所以需要訂正。訂正的***方式是先導出數據mysqldump --databases hivemeta --single-transaction -u root –p > hive_databases.sql,用sed替換hdfs://oldcluster:8020/為hdfs://emr-cluster/ ,再導入新db中。

  1. mysql hivemeta -p < hive_databases.sql 

版本對齊

EMR的hive版本一般是當前社區***的穩定版,自建集群hive版本可能會更老,所以導入的舊版本數據可能不能直接使用。需要執行hive的升級腳本,地址。例如hive從1.2升級到2.3.0,需要依次執行upgrade-1.2.0-to-2.0.0.mysql.sql,upgrade-2.0.0-to-2.1.0.mysql.sql,upgrade-2.1.0-to-2.2.0.mysql.sql,upgrade-2.2.0-to-2.3.0.mysql.sql。腳本主要是建表,加字段,改內容,如有表已存在,字段已存在的異常可以忽略。

驗證

meta數據全部訂正后,就可以重啟metaserver了。命令行hive,查詢庫和表,查詢數據,驗證正確性。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2023-12-18 09:32:08

ES集群遷移上云oss插件

2010-09-29 11:06:21

活動目錄OpenLDAP

2009-08-06 09:20:30

2016-12-12 19:16:43

數據云端

2019-03-25 12:20:29

數據MySQL性能測試

2024-11-04 15:49:43

Redis?數據遷移

2016-10-26 16:44:44

WatchfinderAWS云計算

2018-01-08 08:50:05

Linux內核系統程序

2018-12-19 09:20:45

Linux遷移安裝軟件

2018-07-10 14:46:04

LinuxShellsudo

2023-12-07 07:14:36

WebpackVite

2011-01-06 09:07:22

云計算

2023-10-19 16:39:38

2021-06-09 17:51:12

Hadoop數據遷移

2025-02-24 10:07:09

Redis節點遷移集群

2012-05-21 10:23:36

2017-07-26 16:09:54

系統遷移趨勢

2013-06-21 13:49:08

MariaDB

2021-10-08 11:07:54

云計算數據中心IT

2010-07-20 09:48:33

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本不卡一区 | 亚洲色在线视频 | 久久久av一区 | 天天看片天天干 | 人成在线| 久久久久免费精品国产 | 午夜私人影院在线观看 | 欧美激情视频一区二区三区在线播放 | 一区二视频 | 亚洲欧美一区二区三区在线 | 日本在线你懂的 | 精品欧美一区二区三区久久久 | 国产在线永久免费 | 精品国产一区二区三区久久久四川 | 国产精品久久欧美久久一区 | 亚洲综合色婷婷 | 天天躁日日躁狠狠很躁 | 一区二区三区高清 | av在线播放一区二区 | 日韩电影免费在线观看中文字幕 | 91婷婷韩国欧美一区二区 | 欧美久久国产 | 国产精品久久一区二区三区 | 亚洲精品一| 91精品国产乱码久久久久久久 | 91av视频在线 | 精品在线视频播放 | 亚洲一区精品在线 | 91精品国产91久久久久久最新 | 欧美精品在线播放 | 99精品一区二区三区 | 91大神在线资源观看无广告 | av乱码 | 天天看夜夜 | 日韩不卡一区二区三区 | 91中文视频 | 99精品视频在线 | 国产免费一区二区三区 | 色伊人久久 | 酒色成人网 | 欧美性生活免费 |