HBase数据迁移(阿里云到腾讯云实战)

这篇具有很好参考价值的文章主要介绍了HBase数据迁移(阿里云到腾讯云实战)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景:需要把阿里云的客户数据迁移到腾讯云环境;腾讯云环境已经部分新客户的数据。

为了保证迁移到腾讯云的历史客户,依然能访问到他们的历史数据;需要注意迁移后不能覆盖腾讯云环境的表数据(即增量迁移),同时要求不能停表停服务。

方案选型:

1.distcp 需要停表停服务;

2.Import/Export 比较稳妥,先下载文件,后传到腾讯云环境;

3.snapshot 速度快,需要目标集群没有该表;

4.从归档的历史数据通过代码写入,工作量大;

5.replication 方式,只能实现主集群变更,实时同步给目标集群;

实施:

1.将阿里云环境的user表最近两年的版本号为1的数据下载为压缩文件;

nohup hbase org.apache.hadoop.hbase.mapreduce.Export \
-D mapreduce.output.fileoutputformat.compress=true \
-D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec \
-D mapreduce.output.fileoutputformat.compress.type=BLOCK \
-Ddfs.client.socket-timeout=240000000 \
-Dipc.client.connect.timeout=40000000 \
-Dmapreduce.task.timeout=1800000 \
-D hbase.client.scanner.caching=20000 \
-D hbase.export.scanner.batch=2000 \
-D hbase.export.scanner.caching=20000 \
-D mapreduce.map.memory.mb=1024 \
-D mapreduce.reduce.memory.mb=1024 \
-D yarn.app.mapreduce.am.resource.mb=1024 \
user /data/hbaseExportBak/user/user_2022-07-07/ 1 1622476800000 1657209600000 &> /var/lib/hadoop-hdfs/2022-07-07.log &

 2.将下载的文件distcp导入到腾讯云的hdfs集群;

3.将数据直接导入到腾讯云的灰度环境,此时报 memorystore 被写满的错误f,同时hbase发生告警,原因是写的数据太多,直接刷满了memorystore;因此,不建议,直接这样写入hbase;

hbase org.apache.hadoop.hbase.mapreduce.Import \
-Ddfs.client.socket-timeout=240000000 \
-Dipc.client.connect.timeout=40000000 \
-Dmapreduce.task.timeout=1800000 \
-D mapreduce.map.memory.mb=5120 \
-D mapreduce.reduce.memory.mb=5120 \
-Dmapreduce.task.timeout=1800000 \
-D yarn.app.mapreduce.am.resource.mb=5120 \
user /data/hbaseExportBak/user/user_2021-07-07/

4.增加参数 -Dimport.bulk.output ,采用bulkload方式导入,先将export出来的数据,转为HFile文件,然后批量写入hbase;

 hbase org.apache.hadoop.hbase.mapreduce.Import \
-D hadoop.tmp.dir=/data/hbase-tmp/ \
-Ddfs.client.socket-timeout=240000000 \
-Dipc.client.connect.timeout=40000000 \
-Dmapreduce.task.timeout=1800000 \
-D mapreduce.map.memory.mb=5120 \
-D mapreduce.reduce.memory.mb=5120 \
-Dmapreduce.task.timeout=1800000 \
-D yarn.app.mapreduce.am.resource.mb=5120 \
-Dimport.bulk.output=/data/hbaseExportBak/user/userHFile/user_2022/ \
user /data/hbaseExportBak/user/2022-07-07/

操作往往不是那么顺利的,在进行上述操作时出现本地磁盘写满的问题,因为hbase hadoop.tmp.dir 参数是运维搭建时是默认的;这样会起一个mr拉取hdfs的数据,默认先下载到本地磁盘目录,然后在本地转换完成再传到import.bulk.output 对应的目录,然后再清空本地写入的数据;因此,你需要选择一个允许大量数据的文件目录;或者手动添加参数修改 hadoop.tmp.dir 目录为hdfs的目录,这样就不会占用本地的磁盘;

5.将转换为HFile文件的目录(/data/hbaseExportBak/user/userHFile/user_2022/)bulkload导入到hbase ;

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles \
-Dhbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily=102400 \
/data/hbaseExportBak/user/userHFile/user_2021/ user

 文章来源地址https://www.toymoban.com/news/detail-617363.html

到了这里,关于HBase数据迁移(阿里云到腾讯云实战)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 记一次Hbase2.1.x历史数据数据迁移方案
  • 【项目实战】Dbeaver使用Apache Phoenix来实现连接Hbase的详细指引

    DBeaver是一款开源的数据库管理工具,可以连接多种类型的数据库,包括Apache Phoenix和Hbase。通过DBeaver连接Hbase表,可以更方便地进行数据管理和查询。 注意:该教程适用于:远程连接Linux上的Hadoop集群,因此本步骤是不需要在本地再下载hadoop的环境,所以,很多内容都可以直

    2024年02月05日
    浏览(11)
  • HBase 复制、备份、迁移

    HBase 复制、备份、迁移

    分享1 阿里云 BDS-HBase 《HBase高效一键迁移的设计与实践.pdf》 https://developer.aliyun.com/live/730 https://developer.aliyun.com/article/704972 https://developer.aliyun.com/article/704977 https://blog.csdn.net/u013411339/article/details/101185699 分享2 腾讯FIT HBase金融大数据乾坤大挪移 https://www.jianshu.com/p/cb4a645dd66a HB

    2024年01月17日
    浏览(8)
  • HBASE集群主节点迁移割接手动操作步骤

    HBASE集群主节点指的是包含zk、nn、HM和rm服务的节点,一般这类服务都是一起复用在同一批节点上,我把这一类节点统称为HBASE集群主节点。 本文中使用了rsync、pssh等工具,这类是开源的,自己可以下载安装。还有一类是我自己写的环境变量,xcgraceful_stopRegionserver是用于优雅的

    2024年02月07日
    浏览(10)
  • 【FusionInsight 迁移】HBase从C50迁移到6.5.1(01)迁移概述

    项目上最近全新部署了FusionInsight HD 6.5.1大数据集群,并且希望将老集群FusinInsight HD C50的所有业务都迁移到新集群上。由于在老集群C50上的HDFS、HBase中存在有大量的业务数据,因此将业务从C50迁移到6.5.1的过程中,就需要将C50上的业务数据同步迁移到新集群6.5.1上。 迁移方向

    2024年02月07日
    浏览(8)
  • HBase内容分享(十):超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步不停机迁移

    HBase内容分享(十):超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步不停机迁移

    目录 1. 背景介绍 2. 知识储备 3. 方案介绍 4. 环境说明 5. 演练操作 6. 资源清理 7. 已知错误 本文介绍的演练操作源于某真实案例,用户有一个 80 TB 的 HBase 数据库,其中有一张超大表,数据量约为 50 TB,在一次迁移任务中,用户需要将该 HBase 数据库迁移到 Amazon EMR 上。 本文将

    2024年01月16日
    浏览(10)
  • 【FusionInsight 迁移】HBase从C50迁移到6.5.1(03)6.5.1上准备Loader

    在FusionInsight HD集群的HBase数据迁移过程中,需要通过Loader将老集群FusinInsight C50上获取HBase的数据加载到新集群FusionInsight 6.5.1,因此需要在新集群FusionInsight 6.5.1中添加Loader以及具有相应权限的用户loaderUser。 本文主要介绍如何在新集群FusionInsight 6.5.1中创建loaderUser用户以及如何

    2024年02月09日
    浏览(13)
  • 【FusionInsight 迁移】HBase从C50迁移到6.5.1(02)C50上准备FTP Server

    【FusionInsight 迁移】HBase从C50迁移到6.5.1(02)C50上准备FTP Server

    在FusionInsight HD集群的HBase数据迁移过程中,需要通过FTP-Server从老集群FusinInsight C50上获取HBase的数据,因此需要在老集群FusinInsight C50中添加FTP-Server以及具有相应权限的用户ftpUser。 本文主要介绍如何在老集群FusinInsight C50中创建ftpUser用户以及如何添加配置FTP-Server。 使用admin用

    2024年02月09日
    浏览(7)
  • 【HBase入门与实战】一文搞懂HBase!

    【HBase入门与实战】一文搞懂HBase!

    HBase的引入、定义和特点 NoSQL数据库的概念和与关系型数据库的区别 HBase的物理架构和逻辑架构 HBase Shell的基本命令使用 HBase的应用场景 常见的NoSQL数据库:包括Redis和HBase,这些数据库在处理大规模数据集时,相比传统的关系型数据库,提供了更高的灵活性和扩展性。 微服务

    2024年03月26日
    浏览(25)
  • 实战案例:HBase的访问控制策略与优化

    在大数据时代,HBase作为一个高性能、可扩展的分布式数据库,已经成为了许多企业和组织的首选。在实际应用中,HBase的访问控制策略和性能优化是非常重要的。本文将深入探讨HBase的访问控制策略与优化,并提供一些实用的最佳实践和技巧。 HBase是一个分布式、可扩展的列

    2024年02月20日
    浏览(15)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包