Apache Dolphinscheduler 最新 3.1.4 概述和安装(1)

这篇具有很好参考价值的文章主要介绍了Apache Dolphinscheduler 最新 3.1.4 概述和安装(1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Apache Dolphinscheduler 最新 3.1.4

概述

  • Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

  • Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。

特性

简单易用

  • 可视化 DAG: 用户友好的,通过拖拽定义工作流的,运行时控制工具
  • 模块化操作: 模块化有助于轻松定制和维护。

丰富的使用场景

  • 支持多种任务类型: 支持Shell、MR、Spark、SQL等10余种任务类型,支持跨语言,易于扩展
  • 丰富的工作流操作: 工作流程可以定时、暂停、恢复和停止,便于维护和控制全局和本地参数。

High Reliability

  • 高可靠性: 去中心化设计,确保稳定性。 原生 HA 任务队列支持,提供过载容错能力。 DolphinScheduler 能提供高度稳健的环境。

High Scalability

  • 高扩展性: 支持多租户和在线资源管理。支持每天10万个数据任务的稳定运行。

对比

airflow dolphinscheduler
中心思想 可视化配置完成调度的修改、增加、构建dag图 使用py代码完成调度的修改、增加、构建dag
单点故障 是(单一调度程序) 去中心化的多Master和多Worke
HA额外要求 Celery / Dask / Mesos + Load Balancer + DB 不需要(本身就支持HA)
过载处理 任务太多时会卡死服务器 任务队列机制,单个机器上可调度的任务数量可以灵活配置,当任务过多时会缓存在任务队列中,不会造成机器卡死
DAG监控界面 不能直观区分任务类型 任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然
可视化流程定义 否(通过python代码来绘制DAG,使用不便,特别是对不会写代码的业务人员基本无法使用) 是(所有流程定义操作都是可视化的,通过拖拽任务来绘制DAG,配置数据源及资源。同时对于第三方系统,提供api方式的操作)
快速部署 集群化部署复杂 一键部署
是否能暂停和恢复 支持暂停(非真暂停),恢复操作 支持暂停(非真暂停),恢复操作
是否支持多租户 否(只支持多用户) 支持(DolphinScheduler上的用户可以通过租户和hadoop用户实现多对一或一对一的映射关系,这对大数据作业的调度是非常重要的)
任务类型 BashOperator、DummyOperator、MySqlOperator、HiveOperator、EmailOperator、HTTPOperator、SqlOperator等 丰富的operator 毕竟开源好多年 支持传统的shell任务,同时支持大数据平台任务调度: MR、Spark、SQL(mysql、postgresql、hive、sparksql)、Python、Procedure、Sub_Process
契合度 由于不支持多租户,在大数据平台业务使用不够灵活 支持大数据作业spark,hive,mr的调度,同时由于支持多租户,与大数据业务更加契合
任务重跑 可以指定从任意一个任务节点开始重跑 支持失败任务重跑,但是不能指定从任意一个任务开始重跑
跳过某些任务/运行节点
跨项目依赖
项目内依赖 是(将DAG定义在一个脚本中) 是(在一个项目中前驱依赖可以指定不同工作流中任意一个任务,后继依赖可以指定一整个工作流,但是无法指定其他工作流中的任意一个任务)
是否支持自定义任务类型
是否支持集群扩展 是(但是Executor水平扩展复杂) 是(调度器使用分布式调度,整体的调度能力会随便集群的规模线性增长,Master和Worker支持动态上下线)
服务状态监控
系统版本要求 暂无 均7.0以上
支持任务迁移/Copy

dolphinscheduler架构图

Apache Dolphinscheduler 最新 3.1.4 概述和安装(1)

DolphinScheduler 的主要角色如下:

MasterServer 采用分布式无中心设计理念,MasterServer 主要负责 DAG 任务切分、任

务提交、任务监控,并同时监听其它 MasterServer 和 WorkerServer 的健康状态。

WorkerServer 也采用分布式无中心设计理念,WorkerServer 主要负责任务的执行和提

供日志服务。

ZooKeeper 服务,系统中的 MasterServer 和 WorkerServer 节点都通过 ZooKeeper 来进

行集群管理和容错。

Alert 服务,提供告警相关服务。

API 接口层,主要负责处理前端 UI 层的请求。

UI,系统的前端页面,提供系统的各种可视化操作界面。

软硬件环境建议配置

DolphinScheduler 作为一款开源分布式工作流任务调度系统,可以很好地部署和运行在 Intel 架构服务器及主流虚拟化环境下,并支持主流的Linux操作系统环境

1.linux版本要求

操作系统 版本
Red Hat Enterprise Linux 7.0 及以上
CentOS 7.0 及以上
Oracle Enterprise Linux 7.0 及以上
Ubuntu LTS 16.04 及以上

注意: 以上 Linux 操作系统可运行在物理服务器以及 VMware、KVM、XEN 主流虚拟化环境上

2. 服务器建议配置

DolphinScheduler 支持运行在 Intel x86-64 架构的 64 位通用硬件服务器平台。对生产环境的服务器硬件配文章来源地址https://www.toymoban.com/news/detail-467691.html

到了这里,关于Apache Dolphinscheduler 最新 3.1.4 概述和安装(1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Apache DolphinScheduler:深入了解大数据调度工具

    Apache DolphinScheduler:深入了解大数据调度工具

    Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的

    2024年01月22日
    浏览(11)
  • Apache DolphinScheduler-3.2.0集群部署教程

    Apache DolphinScheduler官网:https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler使用文档:https://dolphinscheduler.apache.org/zh-cn/docs/3.2.0 截止2024-01-19,最新版本:3.2.0 部署版本:apache-dolphinscheduler-3.2.0-bin.tar.gz 主机名 ip 部署服务 hadoop31 192.168.0.31 MasterServer、WorkerServer、ApiServer hadoop32 19

    2024年03月11日
    浏览(15)
  • Apache DolphinScheduler数仓任务管理规范

    前言: 大数据领域对多种任务都有调度需求,以离线数仓的任务应用最多,许多团队在调研开源产品后,选择Apache DolphinScheduler(以下简称DS)作为调度场景的技术选型。得益于DS优秀的特性,在对数仓任务做运维和管理的时候,往往比较随意,或将所有任务节点写到一个工作

    2024年02月19日
    浏览(13)
  • Apache DolphinScheduler的资源中心开启HDFS功能

    Apache DolphinScheduler的资源中心开启HDFS功能

    资源中心通常用于上传文件、UDF函数。 可以选择上传到Hadoop集群 DolphinScheduler的资源中心默认是不能往HDFS上传文件的,需要我们配置进行开启 注意:如果Hadoop集群的NameNode配置了HA的话,需要将Hadoop集群下的core-site.xml和hdfs-site.xml复制到dolphinscheduler/conf目录下 重启DolphinSched

    2023年04月09日
    浏览(11)
  • Apache DolphinScheduler——开源大数据调度器神器(国人之光)

    Apache DolphinScheduler——开源大数据调度器神器(国人之光)

    本文已参与「新人创作礼」活动,一起开启掘金创作之路。    Apache DolphinScheduler(海豚调度) ,国人之光,是许多国人雷锋开源在Apache的顶级项目,主要功能就是负责任务的调度处理。 1.1 概 念    Apache DolphinScheduler 是一个分布式去中心化,易扩展的可视化DAG工作流任务调度

    2024年02月15日
    浏览(10)
  • 如何快速在 Apache DolphinScheduler 新扩展一个任务插件?

    如何快速在 Apache DolphinScheduler 新扩展一个任务插件?

    作者 | 代立冬 编辑 | Debra Chen Apache DolphinScheduler 是现代数据工作流编排平台,具有非常强大的可视化能力,DolphinScheduler 致力于使数据工程师、分析师、数据科学家等数据工作者都可以简单轻松地搭建各种数据工作流,让数据处理流程更简单可靠。 DolphinScheduler 非常易于使用

    2024年02月08日
    浏览(12)
  • 【用户案例】太美医疗基于Apache DolphinScheduler的应用实践

    【用户案例】太美医疗基于Apache DolphinScheduler的应用实践

    大家好,我叫杨佳豪,来自于太美医疗。今天我为大家分享的是Apache DolphinScheduler在太美医疗的应用实践。今天的分享主要分为四个部分: 使用历程及选择理由 稳定性的改造 功能定制与自动化部署 运维巡检与优化 公司介绍 我们是一家专注于生命科学产业的运营平台公司,

    2024年04月15日
    浏览(8)
  • Apache Dolphinscheduler如何不重启解决Master服务死循环

    Apache Dolphinscheduler如何不重启解决Master服务死循环

    Apache Dolphinscheduler作为一个开源的调度平台,目前已经更新到了3.X版本,4.0版本也已经呼之欲出。3.0版本作为尝鲜版本,新添加了许多的功能,同时也存在非常多的隐患,本人使用3.0版本作为生产调度也踩了很多坑,到现在依然存在很多难以解决的问题,所以建议小伙伴们尽

    2024年02月06日
    浏览(7)
  • 重磅预告!Apache DolphinScheduler 3.2.0 新功能“剧透”

    重磅预告!Apache DolphinScheduler 3.2.0 新功能“剧透”

    近期,Apache DolphinScheduler 将迎来 3.2.0 版本的到来。本次发版为大版本发布,将会带来众多大家期待已久的新功能和新改进。为了让用户提前感知到新版本的变化,社区特意提前“剧透”新版本的重要 feature,并制作了视频进行介绍。 在之前的版本中,用户部署完毕后必须手动

    2024年02月15日
    浏览(11)
  • 【干货】Apache DolphinScheduler2.0升级3.0版本方案

    因项目需要使用数据质量模块功能,可以为数仓提供良好的数据质量监控功能。故要对已有2.0版本升级到3.0版本以上,此次选择测试了3.0.1 和 3.1.1 两个版本,对进行同数据等任务调度暂停等操作测试,最后选择3.0.1 版本 原因: 1. 3.1.1 在测试sql任务时 ,同时启动上百sql 任务

    2024年03月26日
    浏览(7)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包