hadoop生态圈-- 个人笔记学习05 HDFS优化

这篇具有很好参考价值的文章主要介绍了hadoop生态圈-- 个人笔记学习05 HDFS优化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DFSClient和DN在一个节点 —— local reads,远程阅读 Remote reads。 处理方式是一样的

  1. DN读数据
  2. 通过RPC(TCP协议)把数据给DFSClient。DN在中间会做中转,处理简单但是性能收影响 (Local read的情况下,会希望绕过DN直接读取Data,这就是 短路

短路本地读取

  1. DFSClient自行打开文件读取数据,需要配置白名单定义可读取数据的User —— 安全漏洞,不建议使用
  2. 两个进程socket方式通讯,普通数据甚至是文件描述符传递给B,B读取文件内容({即使B没有权限)
    3. A为DN,B为DFSClient,读取文件 安全性稍微好点

负载平衡器 Balancer

让block放信息,在整个DN节点之间平衡数据 (无法在单个DN的各个卷之间平衡

命令

hdfs balancer

设置平衡数据传输带宽

hdfs dfsadmin -setBlancerBandwidth newbandwidth

修改阈值

hdfs balancer -threshold 5

表示阈值为5%,默认10%,每个DN磁盘使用率与cluster总体使用了相差不超过5%。 EXM: 所有DN总体使用率是集群磁盘容量的40%,program要确保每个DN磁盘使用率在这个DN磁盘存储容量的35%到45%之间

磁盘均衡器 HDFS disk balancer

对比个人PC, server可以通过挂在对磁盘扩大单机存储能力

  • DN负责数据block存储,在机器上磁盘之间分配数据块。写入新的block的时候,DN根据选择策略选择block磁盘

** 循环策略**:新的block均匀分布在可用磁盘上(默认
可用空间策略: 数据写入有更多空间磁盘(按百分比

如果基于可用空间的策略:新写入会放入空磁盘 —— 其他磁盘idle, 新磁盘有瓶颈 —— 需要intra DataNode Balancing机制解除 DataNode偏斜 —— 磁盘更换, 随机写入 删除发生的

功能

报告、平衡

比较数据在节点不同卷的分布情况:密度允许在节点之间比较 —— 根据used / capcity保存容量,最好保持70%

指令
plan

hdfs diskbalancer -plan <datanode>
-out 输出位置
-bandwidth 最大带宽 默认带宽10 MB/s
-thresholPercentage 定义磁盘开始参与数据重新分配或平衡操作的值。默认的thresholdPercentage值为10%,这意味着仅当磁盘包含的数据比理想存储值多10%或更少时,磁盘才用于平衡操作
-maxerror 它允许用户在中止移动步骤之前为两个磁盘之间的移动操作指定要忽略的错误数。
-v 详细模式,指定此选项将强制plan命令在stdout上显示计划的摘要。
-fs 此选项指定要使用的NameNode。如果未指定,则Disk Balancer将使用配置中的默认NameNode。

设定好计划后,execute

hdfs diskbalancer -execute <JSON file path>

对DN执行计划

查询

hdfs diskbalancer -query <datanode>

cancel取消计划

EC 纠删码技术

添加链接描述文章来源地址https://www.toymoban.com/news/detail-535970.html

优化方案

  • 动态扩容 —— 原有cluster加新的DN节点
  • 缩容,cluster停止某些机器的HDFS服务

到了这里,关于hadoop生态圈-- 个人笔记学习05 HDFS优化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Hadoop生态 | HDFS | Yarn | Hive | Hbase

    Hadoop生态 | HDFS | Yarn | Hive | Hbase

    ⭐ 简单说两句 ⭐ 作者: 后端小知识 , CSDN后端领域新星创作者|阿里云专家博主 CSDN 个人主页 :后端小知识 🔎 GZH : 后端小知识 🎉 欢迎关注 🔎 点赞 👍 收藏 ⭐️ 留言 📝 进入大数据阶段就意味着进入NoSQL阶段,更多的是面向OLAP场景,即数据仓库、BI应用等。 大数据技

    2024年04月08日
    浏览(12)
  • Hadoop入门学习笔记——三、使用HDFS文件系统

    Hadoop入门学习笔记——三、使用HDFS文件系统

    视频课程地址:https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入门学习笔记(汇总) 3.1.1. HDFS文件系统基本信息 HDFS和Linux系统一样,均是以 / 作为根目录的组织形式; 如何区分HDFS和Linux文件系统: Linux文件系统以 file:// 作为

    2024年01月16日
    浏览(11)
  • hadoop(学习笔记) 4----怎么把文件放到hdfs上?

    hadoop(学习笔记) 4----怎么把文件放到hdfs上?

    怎么把文件放到hdfs上? 首先就是需要将hdfs相关程序启动起来----namenode和datanode namendoe-相当于目录,不进行文件信息的存储 datanode-真正数据存放的位置 但namenode的默认存放位置在tmp文件下,tmp又是临时文件,随时可能被系统清除,我们存放在hdfs上的数据并不安全,所以我们需要修改

    2024年02月04日
    浏览(12)
  • Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

    Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

    视频课程地址:https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入门学习笔记(汇总) 下载Hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz 本次演示部署结构如下图所示: 本次部署服务清单如下表所示

    2024年02月01日
    浏览(15)
  • 数仓知识11:Hadoop生态及Hive、HBase、Impala、HDFS之间的关系

    数仓知识11:Hadoop生态及Hive、HBase、Impala、HDFS之间的关系

    Hive、HBase、Impala、HDFS是Hadoop生态体系中常用的开源产品,各个产品间是一个什么样的关系,许多人都搞不清楚,本文将进行研究分析。 Hadoop生态 在了解Hive、HBase、Impala、和HDFS之前,先熟悉一下Hadoop的生态。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型在计算机集

    2023年04月08日
    浏览(12)
  • Hadoop HDFS 高阶优化方案

    Hadoop HDFS 高阶优化方案

    目录 一、短路本地读取:Short Circuit Local Reads 1.1 背景 ​1.2 老版本的设计实现 ​1.3 安全性改进版设计实现  1.4 短路本地读取配置 1.4.1 libhadoop.so 1.4.2 hdfs-site.xml 1.4.3 查看 Datanode 日志  二、HDFS Block 负载平衡器:Balancer 2.1 背景  ​2.2 命令行配置  2.3 如何运行 Balancer 

    2024年02月10日
    浏览(11)
  • 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

    尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

    视频地址: 尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】 尚硅谷

    2023年04月08日
    浏览(16)
  • hadoop学习之hdfs学习

    hadoop学习之hdfs学习

    HDFS 文件系统,可以说是分布式数据库吧 结构是 目录树 适用场景:一次写入,多次读出.好像不太支持改删 优点: 1.高容错: 因为他会备份,所以一份出问题了,并不影响其他几份 如果副本丢失后,定时恢复.应该是定时检查然后恢复 每次启动,DN向NN汇报备份的存储情况.默认每个6个小

    2024年02月16日
    浏览(10)
  • 05.hadoop上课笔记之hadoop5mapreduce和yarn

    1.yarn(yet another resource negotiator)分布式资源管理系统 1.作业(job)包含多个任务(task) 2.container封装了cpu的各种资源 2.yarn的结构 1.ResouceManager(全局资源管理) 系统资源管理分配 处理客户端请求,健康检查namenode 2.nodemanager(当前节点资源管理) 3.applicationMaster(发送心跳RM.二次分配资源给

    2024年02月08日
    浏览(9)
  • 从零开始的Hadoop学习(二)| Hadoop介绍、优势、组成、HDFS架构

    从零开始的Hadoop学习(二)| Hadoop介绍、优势、组成、HDFS架构

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念—Hadoop生态圈。 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致

    2024年02月11日
    浏览(14)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包