手把手带你玩转HetuEngine:资源规划与数据源对接

这篇具有很好参考价值的文章主要介绍了手把手带你玩转HetuEngine:资源规划与数据源对接。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《【手把手带你玩转HetuEngine】(三)HetuEngine资源规划》,作者: HetuEngine九级代言 。

HetuEngine支持在服务层角色实例和计算实例两个维度进行资源规划,并且支持在高并发场景下通过启动多个计算实例进行负载分担和均衡,从而满足各种业务场景下的资源规划需求。

一、HetuEngine角色实例资源规划

HetuEngine能够通过服务层对计算实例进行服务化管理,服务层的角色实例包括HSBroker、HSConsole、HSFabric、QAS。

 

可以通过HetuEngine服务层配置对实例参数进行调整,如下图所示。

 

计算实例资源规划

HetuEngine的计算实例是一个运行在Yarn容器内的基于内存的计算引擎,它一般包含1~2个Coordinator和N个worker,其中Coordinator是管理节点,提供SQL接收、SQL解析、生成执行计划、执行计划优化、分派任务和资源调度等能力,如果需要计算实例支持高可用,必须部署两个Coordinator。Worker是工作节点,提供数据源数据并行拉取,分布式SQL计算等能力。从8.2.1版本开始,HetuEngine支持单租户多计算实例的形态。

Yarn的租户队列、HetuEngine计算实例、计算实例的Coordinator 和 Worker 之间的关系如下图所示:

Yarn资源池分配示意图(AM为Yarn的应用管理器)

HetuEngine支持在HSConsole界面对计算实例进行管理,并且能够对每个计算实例进行差异化配置,如下图所示

并且支持在创建计算实例的时候添加计算实例级别的自定义参数配置:

HetuEngine计算实例选型与内存配置建议

HetuEngine的计算实例作为SQL查询引擎,是一个纯内存的计算引擎。因此,从性能的角度考虑,需要给计算实例尽可能多的内存资源。

由于HetuEngine的计算实例是onYarn模式,Coordinator和Worker都是运行在Yarn的NodeManager节点上的。

coordinator & worker资源配置推荐

Coordinator建议部署的节点为2个,Worker按实际资源情况部署。

• Coordaintor和Worker的内存值配置要求为:

1. 要求yarn.scheduler.maximum-allocation-mb > coordaintor/worker容器内存 > JVM内存。

2. 建议yarn.scheduler.maximum-allocation-mb内存为节点物理内存的90%,coordaintor/worker容器内存比yarn.scheduler.maximum-allocation-mb,JVM内存 为coordaintor/worker容器内存比大小的80%。

3. 建议一个节点启动一个conatiner的形式部署,避免产生内存碎片从未造成资源浪费。

4. coordaintor和worker+AM所用到的内存资源不能超出该租户的可使用最大内存资源。

• Coordaintor和Worker的CPU值配置要求为:

1. yarn.scheduler.maximum-allocation-vcores 大于coordaintor和worker的vcore。

2. 建议coordaintor和worker的vcore的值比yarn.scheduler.maximum-allocation-vcores的值少2~10个。

3. coordaintor和worker+AM所用到的core资源不能超出该租户的可使用最大core资源。

队列资源规划配置示例

计算实例规模估算

根据业务数据量大致估算计算实例worker的大小和数量

Yarn参数、计算实例内存配置

  • Yarn参数调整

调整yarn上container最大核数和最大内存相关参数以满足计算实例估算规模大小要求,在yarn服务级别进行修改

  • 计算实例内存调整

HetuEngine的配置(建议CN和Worker配置保持一致):具体修改点如下图所示,在HSConsole页面,选择计算实例,点击"配置",即可在弹出窗口按下图修改:

3. 高并发下多实例配置推荐

单HetuEngine计算实例的并发建议低于50,高并发场景下建议启动多个计算实例进行负载分担避免性能明显下降。HetuEngine支持两种方式启动多计算实例,一是单租户单实例的模式,二是单租户多实例的模式。

 

方式1: 单租户单实例的部署模式。

可将资源分成多个资源池,每个租户独占一个资源池,每个租户启动一个计算实例的方式进行部署。例如将资源分成default、online、offline 3个资源池,分别给default、online、offline三个租户使用,每个租户启动一个计算实例,不同的业务将提交到不同的资源队列:

 

方式2:单租户多实例的部署模式。

320版本后,HetuEngine支持通过配置在单个租户内启动多个计算实例,如下图所示,不同的业务都提交到同一租户中的队列,HetuEngine能够自动实现单租户内的各个计算实例均衡负载。

二、HetuEngine数据源对接

HetuEngine能够支持跨源(多种数据源,如Hive,HBase,GaussDB(DWS),Elasticsearch,ClickHouse等),跨域(多个地域或数据中心)的快速联合查询,尤其适用于Hadoop集群(FusionInsight MRS)的Hive、Hudi数据的交互式快速查询场景。本章将对HetuEngine的数据源对接能力与操作实践进行介绍。

数据源对接概述

当前HetuEngine数据源对接支持以下几种能力:

1.支持对接Hive、HBase、GaussDB(DWS),Elasticsearch,ClickHouse、Hudi、IoTDB等多种数据源,并支持对接跨域HetuEngine

2.支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面,用户可通过HSConsole界面快速添加数据源,并进行差异化配置

3.数据源动态生效,无需重启计算实例

4.支持数据源下推

多数据源对接

当前版本HetuEngine支持对接的数据源如表1所示

可视化数据源管理界面

HetuEngine能够支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面,用户可通过HSConsole界面快速添加数据源,并进行差异化配置。操作示例如下图所示

可以通过最下方“自定义配置”添加相应数据源的自定义配置

数据源动态生效

在HSConsole界面或者使用HSConsole Rest API对数据源的添加、配置、删除等操作支持动态生效,无须重启计算实例。

数据源动态生效时间默认为60秒。如需修改动态生效时间,在计算实例自定义配置添加如下参数,例如:

catalog.scanner-interval =120s

数据源计算下推

HetuEngine支持查询下推(pushdown),它能把查询,或者部分查询,下推到连接的数据源。这意味着特殊的谓词,聚合函数或者其它一些操作,可以被传递到底层数据库或者文件系统进行处理。查询下推能带来以下好处:

  1. 提升整体的查询性能。

  2. 减少HetuEngine和数据源之间的网络流量。

  3. 减少远端数据源的负载。

HetuEngine对查询下推的具体支持情况,依赖于具体的Connector,以及Connector相关的底层数据源或存储系统。

 

点击关注,第一时间了解华为云新鲜技术~文章来源地址https://www.toymoban.com/news/detail-655636.html

到了这里,关于手把手带你玩转HetuEngine:资源规划与数据源对接的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【JUnit技术专题】「入门到精通系列」手把手+零基础带你玩转单元测试,让你的代码更加“强壮”(实战开发篇)

    本节内容主要介绍JUnit单元测试功能框架,并以实战演练的形式进行讲解。本系列教程主要针对代码编程方式和模型,重点讲解实战代码开发。通过本系列教程的学习,您将能够深入了解JUnit单元测试框架的使用和原理,并掌握如何在实际项目中运用JUnit进行单元测试。 以下是

    2024年02月03日
    浏览(56)
  • 【JUnit技术专题】「入门到精通系列」手把手+零基础带你玩转单元测试,让你的代码更加“强壮”(场景化测试篇)

    【JUnit技术专题】「入门到精通系列」手把手+零基础带你玩转单元测试,让你的代码更加“强壮”(场景化测试篇)

    测试套件将多个单元测试用例捆绑在一起并进行集中执行。在JUnit中,可以使用@RunWith和@Suite注解来实现测试套件的运行。 下面的示例包含TestJunit1和TestJunit2两个测试类,我们将使用测试套件来一起运行这两个测试类: 创建一个类 创建一个待测试的Java类,命名为MessageUtil.ja

    2024年02月03日
    浏览(41)
  • 【Apache-Flink零基础入门】「入门到精通系列」手把手+零基础带你玩转大数据流式处理引擎Flink(基础概念解析+有状态的流式处理)

    【Apache-Flink零基础入门】「入门到精通系列」手把手+零基础带你玩转大数据流式处理引擎Flink(基础概念解析+有状态的流式处理)

    Apache Flink 是业界公认的最佳流计算引擎之一,它不仅仅局限于流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎。Flink 的用户只需根据业务逻辑开发一套代码,就能够处理全量数据、增量数据和实时数据,无需针对不同的数据类型开发不同的方案。这使得

    2024年02月03日
    浏览(51)
  • 【Apache-Flink零基础入门】「入门到精通系列」手把手+零基础带你玩转大数据流式处理引擎Flink(特点和优势分析+事件与时间维度分析)

    【Apache-Flink零基础入门】「入门到精通系列」手把手+零基础带你玩转大数据流式处理引擎Flink(特点和优势分析+事件与时间维度分析)

    本文介绍了Apache Flink的定义、架构、基本原理,并辨析了大数据流计算相关的基本概念。同时回顾了大数据处理方式的历史演进以及有状态的流式数据处理的原理。最后,分析了Apache Flink作为业界公认为最好的流计算引擎之一所具备的天然优势,旨在帮助读者更好地理解大数

    2024年02月03日
    浏览(51)
  • 【手把手】教你玩转SpringCloud Alibaba之Nacos Config深入

    【手把手】教你玩转SpringCloud Alibaba之Nacos Config深入

    在实际的开发过程中,项目所用到的配置参数有的时候并不需要根据不同的环境进行区分,生产、测试、开发环境所用到的参数值是相同的。怎么解决同一服务在多环境中,引用相同的配置的问题?Nacos Config也提供了相应的解决方案:可以通过服务名+拓展名的方式,来实现同

    2024年02月15日
    浏览(11)
  • 精彩!手把手教你玩转低代码/无代码平台的低码脚本——入门篇

    精彩!手把手教你玩转低代码/无代码平台的低码脚本——入门篇

    1.概述 旨在针对低代码脚本做详细介绍,涵盖操作方式,使用路径等,同时汇总低代码常用场景及其写法,为使用低代码的用户提供对应的案例,便于低代码的上手,减少开发的时间。 2.功能介绍 低代码脚本为低代码重要组成部分,可搭配不同场景,弥补复杂需求无法通过配

    2024年02月06日
    浏览(14)
  • 手把手教你玩Hugging Face

    手把手教你玩Hugging Face

    Hugging Face起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超100,000个预训练模型,10,000个数据集,变成

    2024年02月06日
    浏览(12)
  • 手把手带你搞懂AMS启动原理

    手把手带你搞懂AMS启动原理

    彻底搞懂AMS即ActivityManagerService,看这一篇就够了 最近那么多教学视频(特别是搞车载的)都在讲AMS,可能这也跟要快速启动一个app(甚至是提高安卓系统启动速度有关),毕竟作为安卓系统的核心系统服务之一,AMS以及PMS都是很重要的,而我之前在 应用的开端–PackageManag

    2024年02月12日
    浏览(251)
  • 零基础手把手教你如何使用Laf免费玩转Midjourney

    零基础手把手教你如何使用Laf免费玩转Midjourney

    Laf 是一个 Serverless 框架,提供开箱即用的云函数,云数据库,对象存储等能力,是一个非常干净清爽的开发平台,不仅入门简单,还能像写博客一样写代码!最重要的是,敲重点, 三分钟即可上线 ChatGPT 应用 ! 若想深入了解可点击  介绍 | laf 云开发 https://doc.laf.run/guide/ 在

    2024年02月09日
    浏览(48)
  • 手把手带你调参Yolo v5(二)

    手把手带你调参Yolo v5(二)

    来源:投稿 作者:王同学 ​​​​​​​编辑:学姐 今天我们继续上次的YOLOv5参数解析,这次主要解析源码中train.py文件中包含的参数。 1.1\\\'--weights\\\' 1.2\\\'--cfg\\\' 1.3\\\'--data\\\' 1.4\\\'--hyp\\\' 1.5\\\'--epochs\\\' 1.6\\\'--batch-size\\\' 1.7\\\'--imgsz\\\', \\\'--img\\\', \\\'--img-size\\\' 1.8\\\'--rect\\\'🍀 1.9\\\'--resume\\\'🍀 1.10\\\'--nosave\\\' 1.11\\\'--nova

    2024年02月05日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包