Hadoop(Yarn)

这篇具有很好参考价值的文章主要介绍了Hadoop(Yarn)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、Yarn 资源调度器

Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。

1.1 Yarn 基础架构

YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。

Hadoop(Yarn)

1.2 Yarn 工作机制

Hadoop(Yarn)
Hadoop(Yarn)

Hadoop(Yarn)

1.3 作业提交全过程

Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)

1.4 Yarn 调度器和调度算法

Hadoop(Yarn)

1.4.1 先进先出调度器(FIFO)

Hadoop(Yarn)

1.4.2 容量调度器(Capacity Scheduler)

Hadoop(Yarn)
Hadoop(Yarn)

1.4.3 公平调度器(Fair Scheduler)

Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)

1.5 Yarn 常用命令

1.5.1 yarn application 查看任务

Hadoop(Yarn)

[lln@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /output2

Hadoop(Yarn)
(1)列出所有 Application:

yarn application -list

Hadoop(Yarn)
(2)根据 Application 状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)

yarn application -list -appStates FINISHED

Hadoop(Yarn)
(3)Kill 掉 Application:

yarn application -kill application_1683617581530_0001

Hadoop(Yarn)

1.5.2 yarn logs 查看日志

(1)查询 Application 日志:yarn logs -applicationId < ApplicationId >

[lln@hadoop102 hadoop-3.1.3]$ yarn logs -applicationId application_1683617581530_0001

(2)查询 Container 日志:yarn logs -applicationId < ApplicationId > -containerId < ContainerId >

[lln@hadoop102 hadoop-3.1.3]$ yarn logs -applicationId application_1683617581530_0001 -containerId container_1683617581530_0001_01_000001

1.5.3 yarn applicationattempt 查看尝试运行的任务

(1)列出所有 Application 尝试的列表:yarn applicationattempt -list < ApplicationId >

[lln@hadoop102 hadoop-3.1.3]$ yarn applicationattempt -list application_1683617581530_0001

Hadoop(Yarn)

(2)打印 ApplicationAttemp 状态:yarn applicationattempt -status < ApplicationAttemptId >

[lln@hadoop102 hadoop-3.1.3]$ yarn applicationattempt -status appattempt_1683617581530_0001_000001

Hadoop(Yarn)

1.5.4 yarn container 查看容器

(1)列出所有 Container:yarn container -list < ApplicationAttemptId >

[lln@hadoop102 hadoop-3.1.3]$ yarn container -list appattempt_1683617581530_0001_000001

Hadoop(Yarn)
运行完凑释放了,现在看不到

(2)打印 Container 状态:yarn container -status < ContainerId >

[lln@hadoop102 hadoop-3.1.3]$ yarn container -list container_1683617581530_0001_01_000001

Hadoop(Yarn)

1.5.5 yarn node 查看节点状态

列出所有节点:yarn node -list -all

Hadoop(Yarn)

1.5.6 yarn rmadmin 更新配置

加载队列配置:yarn rmadmin -refreshQueues

[lln@hadoop102 hadoop-3.1.3]$ yarn rmadmin -refreshQueues
2023-05-18 11:58:41,376 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.249.103:8033

1.5.7 yarn queue 查看队列

打印队列信息:yarn queue -status < QueueName >

[lln@hadoop102 hadoop-3.1.3]$ yarn queue -status default

Hadoop(Yarn)

1.6 Yarn 生产环境核心参数

Hadoop(Yarn)
apach默认是容量调度器,cdh是公平调度器。

大型企业,对并发度要求很高,用并发,中小型,对并发要求没那么高,用容量。

2、Yarn 案例实操

注:调整下列参数之前尽量拍摄Linux快照,否则后续的案例,还需要重新准备集群。

2.1 Yarn生产环境核心参数配置案例

Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)

Hadoop(Yarn)
Hadoop(Yarn)

2.2 容量调度器多队列提交案例

Hadoop(Yarn)

Hadoop(Yarn)

Hadoop(Yarn)
Hadoop(Yarn)

Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)

Hadoop(Yarn)

Hadoop(Yarn)

2.3 公平调度器

Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)

2.4 Yarn 的 Tool 接口案例

Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)
Hadoop(Yarn)

Hadoop(Yarn)
Hadoop(Yarn)

Hadoop(Yarn)

Hadoop(Yarn)文章来源地址https://www.toymoban.com/news/detail-450833.html

到了这里,关于Hadoop(Yarn)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【Hadoop】YARN容量调度器详解

    【Hadoop】YARN容量调度器详解

    🦄 个人主页 — —🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁🍁🪁🍁🪁 🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁 目录 一、CapacityScheduler简介 二、CapacityScheduler特性 三、CapacityScheduler配置 四、YARN WEB UI 参数详解 Hadoop Y

    2024年02月05日
    浏览(10)
  • Hadoop Yarn 配置多队列的容量调度器

    Hadoop Yarn 配置多队列的容量调度器

    配置多队列的容量调度器 首先,我们进入 Hadoop 的配置文件目录中( $HADOOP_HOME/etc/hadoop ); 然后通过编辑容量调度器配置文件 capacity-scheduler.xml 来配置多队列的形式。 默认只有 default 队列,显然一个队列不符合集群的生产环境,会造成队列阻塞,资源分配不合理的情况等等

    2024年02月11日
    浏览(10)
  • 【大数据】HADOOP-YARN容量调度器配置详解

    Capacity调度器具有以下的几个特性: 层次化的队列设计,这种层次化的队列设计保证了子队列可以使用父队列设置的全部资源。这样通过层次化的管理,更容易合理分配和限制资源的使用。 容量保证,队列上都会设置一个资源的占比,这样可以保证每个队列都不会占用整个集

    2024年02月01日
    浏览(12)
  • hadoop -- Yarn资源管理

    hadoop -- Yarn资源管理

    YARN被设计用以解决以往架构的需求和缺陷的 资源管理 和 调度软件 。 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个 通用资源管理系统 和 调度平台 ,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用

    2024年02月11日
    浏览(14)
  • Hadoop3教程(二十五):Yarn的多队列调度器使用案例

    Hadoop3教程(二十五):Yarn的多队列调度器使用案例

    生产环境下怎么创建队列? 调度器默认只会开一个default队列,这个肯定是不满足生产要求的; 可以按照框架来划分队列。比如说hive/spark/flink的任务分别放在不同的队列里,不过这么做的效率不高,企业用的不是很多。 按照业务模块来划分队列。比如说登录注册的业务,单

    2024年02月02日
    浏览(11)
  • Hadoop YARN Cgroups 资源隔离讲解

    Hadoop YARN Cgroups 资源隔离讲解

    Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups (Control Groups)来进行资源管理和隔离。 Cgroups 是 Linux 内核提供的一种机制,用于限制、账户和隔离进程组(process groups)的资源(例如 CPU、内存、磁盘 I/O 等)。 以下是 Hadoop YARN Cgroups 的主要讲解: 资源隔离和管理: Cgroups 允

    2024年02月01日
    浏览(26)
  • ❤️❤️❤️Mapreduce分布式计算组件和YARN分布式资源调度

    上文我们已经介绍Hadoop中HDFS分布式存储组件 今天我们来学习Hadoop生态中另两大组件Mapreduce和YARN Map阶段 : 将数据拆分到不同的服务器后执行Maptask任务,得到一个中间结果 Reduce阶段 : 将Maptask执行的结果进行汇总,按照Reducetask的计算 规则获得一个唯一的结果 我们在MapReduce计算框

    2024年04月13日
    浏览(11)
  • 【Hadoop】YARN多资源队列配置及使用实践

           由于MapReduce默认采用Capacity Scheduler(详见【Hadoop】YARN简述),因此理论上可以存在多个队列,而默认只有一个队列(default),现有需求:额外创建两个队列分别为online和offline,将这三个队列的资源分别分配为70%、10%、20%,且允许在资源不足时借用其他队列的资源

    2024年02月16日
    浏览(11)
  • 23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

    23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

    1、hadoop3.1.4简单介绍及部署、简单验证 2、HDFS操作 - shell客户端 3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java 4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及H

    2024年02月07日
    浏览(13)
  • Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

    Hadoop-Yarn-NodeManager都做了什么中讲节点资源监控服务(NodeResourceMonitorImpl)时只是提了下SysInfoLinux,下面我们展开讲下 SysInfoLinux是用于计算Linux系统上的资源信息的插件 从源码中可以看到,linux上的资源信息是从各个文件中获取的: /proc/meminfo    解析和计算内存信息 /proc/c

    2024年02月19日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包