HDFS异构存储详解

这篇具有很好参考价值的文章主要介绍了HDFS异构存储详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HDFS异构存储类型

  • 冷,热,温,冻数据
    • 通常,公司或者组织总是有相当多的历史数据占用昂贵的粗处空间。典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为“热”数据。随着时间的推移,存储的数据每周被访问几次,而不是一天几次,这是认为其是“暖”数据。在接下来的几周和几个月中,数据使用率下降的更多,成为“冷”数据,。如果很少使用数据,例如每年查询一次或两次,这是甚至可以根据其年龄创建第四个数据风雷,并将这组很少被铲讯的旧数据被称为“冻结数据”
    • Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上,用于归档或冷存储。可以设置存储策略,将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储设备上。
    • Hadoop2.5及以上版本都支持存储策略,在该策略下,不仅可以在默认的传统磁盘上存储hdfs数据,还可以在SSD(固态硬盘)上存储数据。

什么是异构存储

异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。
例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。
HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

异构存储类型

RAM_DISK(内存)
SSD(固态硬盘)
DISK(机械硬盘)默认使用
ARCHIVE(高密度存储介质,存储档案历史数据)
HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

如何让HDFS知道集群中的数据存储目录是那种类型存储介质

  • 配置属性时主动声明。 HDFS并没有自动检测的能力
  • 配置参数dfs.datanode.data.dir = [SSD] file:///grid/dn/ssd0
  • 如果目录前没有带上[SSD][DISK][ARCHIVE][RAM_DISK]这4种类型中的任何一种,则默认时DISK类型。

块存储选择策略

  • 块存储指的是对HDFS文件的数据块副本存储
  • 对于数据的存储介质,HDFS的BlockStoragePolicySuite类内部定义了6种策略
    HOT(默认策略)
    COLD
    WARM
    ALL_SSD
    ONE_SSE
    LAZY_PERSIST
  • 前三种根据冷热数据区分,后三种根据磁盘性质区分
    HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

选择策略说明

  • HOT:用于存储和计算。流行且仍用于处理的数据保留在此策略中。所有副本都存储在DISK中。
  • COLD:仅适用于计算量中有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。
  • WRAM:部分热和部分冷。热时,其某些副本存储在DISK中。其余副本存储在ARCHIVE中。
  • ALL_SSD:将所有副本存储在SSD中
  • one_SSD:用于将副本之一存储在SSD中。其余副本存储在DISK中。
  • Lazy_Persist:用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK,然后将其延迟保存到DISK中
    HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

选择策略的命令

  • 列出所有存储策略
    hdfs storagepolicies -listPolicies

HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

  • 设置存储策略
    hdfs storagepolicies -setStoragePolicy -path

    -policy

HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

  • 取消存储策略
    hdfs storagepolicies -unsetStoragePolicy -Path


    在执行unset命令之后,将应用当前目录最近的祖先存储策略,如果没有任何祖先的策略,则将应用默认的存储策略

  • 获取存储策略
    hdfs storagepolicies -getStoragePolicy -path

案例:冷热温数据异构存储

为了更加充分的利用存储资源,我们可以将数据分为冷,热,温三个阶段来存储。具体规划如下:
HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

对应步骤

  • step1:配置DataNode存储目录,指定存储介质类型(hdfs-site.xml)
    HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据
  • step2:重启HDFS集群,验证配置

HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

  • step3:创建测试目录
hdfs dfs -mkdir -p /data/hdfs-test/data_phase/hot
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/warm
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/cold

HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

  • step4:分别设置三个目录的存储策略
hdfs storagepolicies -setStoragePolicy - path /data/hdfs-test/data_phase/hot -policy HOT
hdfs storagepolicies -setStoragePolicy -path /data/hdfs-test/data_phase/warn -policy WARN
hdfs storagepolicies -setStoragePolicy -path /data/hdfs -test/data_phase/cold -policy COLD
  • step5:查看三个目录的存储策略
hdfs storagepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/hot
hdfs sotragepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/warm
hdfs soragepolicies -getStoragePolidy -path /data/hdfs-test/data-phase/cold
  • step6:上传文件测试异构存储
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/hot
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/warm
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/ cold
  • step7:查看不同存储策略文件的block位置
    hdfs fsck /data/hdfs-test/data_phase/hot/profile -files -blocks -locations

HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

HDFS内存存储策略支持-- LAZY PERSIST

介绍

  • HDFS支持把数据写入由DataNode管理的对外内存
  • DataNode异步地将内存中数据刷新到磁盘,从而减少代价较高的磁盘IO操作,这种写入被称为Lazy Persist写入
  • 该特性从Apache Hadoop 2.6.0开始支持
    HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

执行

  • 对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略
  • 客户端进程向NameNode发起创建/写入文件
  • 客户端请求到具体的DataNode后DataNode会把这些数据块回写入RAM内存中,同时启动异步线程服务将内存数据持久化写到磁盘上。
  • 内部的异步持久化存储是指数据不是马上落盘,而是懒惰的,延时的尽心处理

使用

  • step1:虚拟内存盘配置
mount -t tmpfs -o size=1g tmpfs /mnt/dn-tmpfs/

将tmpfs挂载到目录/mnt/dn-tmpfs/,并且限制内存使用大小为1GB

  • step2:内存存储介质设置
    将机器中已经完成好的虚拟内存盘配置到dfs.datanode.data.dir中,其次还要带上RAM_DISK标签
    HDFS异构存储详解,# hdfs,hdfs,hadoop,大数据

  • step3:参数设置优化
    dfs.storage.policy.enabled
    是否开启异构存储,默认true开启
    dfs.datanode.max. locked.memory
    用于在数据节点上的内存中缓存副本的内存量(以字节为单位)。默认情况下,此参数设置为0,这将禁用内存中缓存。内存值过小会导致内存中的总的可存储的数据块变小,但如果超过DataNode能承受的最大内存大小的话,部分内存块会被直接移出。

  • step4:在目录上设置存储策略文章来源地址https://www.toymoban.com/news/detail-619720.html

hdfs storagepolicies -setStoragePolicy -path <path> -policy LAZY_PERSIST

到了这里,关于HDFS异构存储详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【Hadoop】-HDFS的存储原理[4]

    【Hadoop】-HDFS的存储原理[4]

    目录 前言 一、fsck命令 1、HDFS副本块数量的配置 2、fsck命令查看文件的副本数 3、block配置 二、NameNode元数据 1、edits文件 2、fsigame文件 3、NameNode元数据管理维护 4、元数据合并控制参数 5、SecondaryNameNode的作用 三、HDFS数据的读写流程 1、数据写入流程 2、数据读取流程 HDFS的存

    2024年04月26日
    浏览(9)
  • Hadoop:HDFS--分布式文件存储系统

    Hadoop:HDFS--分布式文件存储系统

    目录   HDFS的基础架构 VMware虚拟机部署HDFS集群 HDFS集群启停命令 HDFS Shell操作 hadoop 命令体系: 创建文件夹 -mkdir  查看目录内容 -ls  上传文件到hdfs -put 查看HDFS文件内容 -cat 下载HDFS文件 -get 复制HDFS文件 -cp 追加数据到HDFS文件中 -appendToFile HDFS文件移动 -mv  删除HDFS文件 -rm  

    2024年02月09日
    浏览(47)
  • HDFS Hadoop分布式文件存储系统整体概述

    HDFS Hadoop分布式文件存储系统整体概述

    整体概述举例: 包括机架 rack1、rack2 包括5个Datanode,一个Namenode( 主角色 )带领5个Datanode( 从角色 ),每一个rack中包含不同的block模块文件为 分块存储模式 。块与块之间通过replication进行 副本备份 ,进行冗余存储,Namenode对存储的 元数据进行记录 。该架构可以概括为一个 抽象

    2024年02月16日
    浏览(47)
  • Hadoop 存储占用分析命令,查看 Hdfs 文件夹占用大小

    兼职公司 Hadoop 运维之后,经常要解决 Hdfs 空间占用的问题,不知道哪天谁又在集群上留下一大堆缓存文件也不清掉,Hadoop 本身默认就是三副本,人一多每个人留一点结果占用了一堆的存储空间。 在 Linux 上游 du 这个指令可以很轻松的结合 sort 对文件夹的大小进行排序,分析

    2024年02月15日
    浏览(45)
  • Hadoop的分布式文件存储系统HDFS组件的使用

    Hadoop的分布式文件存储系统HDFS组件的使用

    存储整个HDFS集群的元数据(metaData) —— 整个集群中存储的目录和文件的索引 管理整个HDFS集群 接收客户端的请求 负责节点的故障转移 存储数据,是以block块的形式进行数据的存放。 默认情况下block块的大小是128M。 blocksize大小的计算公式: 寻址时间:下载文件时找到文件

    2024年02月09日
    浏览(47)
  • 【Hadoop精讲】HDFS详解

    【Hadoop精讲】HDFS详解

    目录 理论知识点 角色功能 元数据持久化 安全模式 SecondaryNameNode(SNN) 副本放置策略 HDFS写流程 HDFS读流程 HA高可用 CPA原则 Paxos算法 HA解决方案 HDFS-Fedration解决方案(联邦机制) 另一台机器就是SecondaryNameNode(SNN) 不保存位置信息的原因,是因为当机器重启恢复后,DN会和NN建立心

    2024年02月02日
    浏览(10)
  • HADOOP HDFS详解

    HADOOP HDFS详解

    目录 第一章 概述 1.1大数据的特征(4V) 1.2 大数据的应用场景 1.3大数据的发展前景 1.4企业大数据的一般处理流程 1.4.1数据源 1.4.2数据采集或者同步 1.4.3数据存储 1.4.4 数据清洗 1.4.5 数据分析 1.4.6数据展示 第二章 hadoop介绍 2.1.hadoop 目标 2.2 hadoop的介绍 2.3 hadoop起源 2.4 Hadoop版本

    2024年03月13日
    浏览(8)
  • 大数据期资料2023 Beta版 - Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase详解

    大数据期资料2023 Beta版 - Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase详解

    了解大数据概念、Hadoop、HDFS、MapReduce、Hive、ZooKeeper、Kafka、HBase等技术,包括特点、命令操作和启动关闭方法。获取2023年大数据资料Beta版。

    2024年02月06日
    浏览(87)
  • Middleware ❀ Hadoop功能与使用详解(HDFS+YARN)

    Middleware ❀ Hadoop功能与使用详解(HDFS+YARN)

    Hadoop是一个开源的分布式计算和存储框架,由Apache基金会开发和维护。Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。 Hadoop使用

    2024年02月07日
    浏览(10)
  • Java 操作 Hadoop 集群之 HDFS 的应用案例详解

    Java 操作 Hadoop 集群之 HDFS 的应用案例详解

    注意:本文内容基于 Hadoop 集群搭建完成基础上: Linux 系统 CentOS7 上搭建 Hadoop HDFS集群详细步骤 本文的内容是基于下面前提: Hadoop 集群搭建完成并能正常启动和访问 Idea 和 Maven 分别安装完成 需要有 JavaSE 基础和熟悉操作hadoop 的 hdfs dfs 命令 Maven 及 idea 中 Maven 相关配置 本地

    2024年04月16日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包