火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解

这篇具有很好参考价值的文章主要介绍了火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

申报签署流程详解

火山引擎DataLeap SLA保障的前提是先达成SLA协议。在SLA保障平台中,以 申报单签署的形式达成SLA协议。平台核心特点是 优化了SLA达成的流程,先通过 “系统卡点计算”减少待签署任务的数量,再通过 “SLA推荐计算”自动签署部分任务,最后为剩下的待签署任务智能提供合适的SLA,进一步降低签署成本。
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析
在申报签署环节中,各个环节的变化将通过 通知模块传递信息给相应负责人,实时通知降低信息交流成本,加速了SLA的达成。

流程简介

火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析
上图为申报签署的一般流程,在实际操作时,如任务链路变化、SLA时间商讨待确认等特殊情况,申报签署流程会有微调。
首先需要申报人填写申报单,在申报人提交后,系统会根据申报单中的申报任务拉取上游的所有任务,构成一个完整的DAG,并进行 任务链路分析链路分析的结果是后续算法的前提,也是管理员审批时的重要参考因素,可以让用户快速了解到自身任务在链路中所处的位置及上下游运行情况。
在理想情况下,为保证申报任务顺利推进,需要该任务的 所有上游任务都签署 SLA 才算完成签署。而链路复杂导致的 上游任务多、跨团队沟通成本高、SLA难以确定等问题,成了整体SLA达成的最大阻碍。通过“卡点计算”与“SLA推荐计算”可以跨越此阻碍。

卡点计算

本系统采取一定的“卡点策略”,计算出此DAG中的部分需要被签署的任务,此类任务称为“ 卡点任务”,这个过程称之为“ 卡点计算”。计算得到卡点任务后,在签署过程中可以忽略其他任务,从而大大降低签署成本。
一个申报单会关联多个任务(即该申报任务及其上游的卡点任务),同理一个任务也会关联多个申报单,因为在一个DAG中,申报任务可能从任意节点起,因此二者是N:N的关系。
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析
当两个申报单有部分任务列表重合时,如Task4关联了两个申报单,该任务的申报方、治理团队等数据是两个申报单的去重合集,而等级则取所有申报单中最高者。

SLA推荐计算

利用任务及其上下游任务的历史运行信息,再结合推荐算法,得到该任务的推荐SLA,这个过程称之为 SLA推荐计算。
在负责人签署SLA之前,SLA推荐算法会 智能计算每个任务的推荐的SLA,并以此进一步通过算法 自动签署部分待签署的任务,进一步降低签署成本。据平台数据统计,此功能可以自动签署近 40%的SLA,是最核心的功能之一。
而对于剩余的待签署任务, 会将算法推荐的 SLA 提供给任务负责人。任务负责人可以直接选择直接用这个SLA签署,也可以自行决定SLA。一般情况下,智能推荐的SLA已经能满足绝大多数的需求,通过推荐SLA,任务负责人更快的做出签署决定,再次降低了签署成本。
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析

系统保障监控

当一个申报单完成签署之后,平台将对申报单中的任务进行保障服务。保障服务的核心就是 通过监控 SLA 的状态变化及时播报消息通知,为相应负责人及时提供一手资料,以此降低运维成本。对于一个离线任务,评价其SLA主要是依据其完成时间和其所承诺的SLA来判断,SLA的状态分为四种,分别是:
  • 未到SLA:即当前时间,任务未产出,且还未到SLA时间(继续监控);
  • 已达成:即任务已完成,且完成时间在所承诺的SLA之前(发送就绪通知);
  • 已延迟:即任务未完成,且当前时间已在所承诺的SLA之后(发送延迟通知);
  • 已延迟(产出):即任务已完成,但完成时间在所承诺的SLA之后(发送延迟产出通知);
    • 从下图可以看到在任务达成、未达成两种情况下,随着时间的推移,其SLA状态的变化。
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析
SLA的实时状态是数据业务方所需要的重要信息,因此平台会所有任务的SLA进行监控,并在SLA状态变化时实时对相关人员发送通知,相关人员根据收到的通知知晓SLA的具体情况,并能做出应对措施。

复盘管理详解

复盘管理是本平台提供的响应式治理服务的实现方式,是数据治理方的重点关注对象。复盘管理又分为问题管理与事故管理,问题管理侧重于“为什么”——即整理分析SLA破线的原因,事故管理侧重于“怎么做”——即SLA破线事故之后该怎么治理。

问题管理

问题管理模块的整体目标是满足数据治理团队对SLA问题的登记管理,支持对登记后的问题数据进行不同维度根因数据分析,辅助用户对问题根因进行治理,沉淀治理问题经验。
平台在进行系统保障监控时,会在SLA延迟时进行通知播报,并持续提醒负责人进行问题登记。在问题登记时,平台提供了一组根因树辅助登记,明确问题根因类别,方便统计分析。任务负责人进行问题登记后,累积数据展示在问题看板上,数据治理方由此做问题分析归纳总结。
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析
平台保证了SLA延迟记录与问题之间是一一对应的关系,并在问题看板上关联了SLA详情信息,包括任务链路、负责人、任务起止时间等。
问题登记往往是一个从多到少的过程,前期出现的问题在逐一治理解决后,将对后期的治理起到很好的参考警示作用,它的数据价值如下:
  • 不同SLA问题类型的趋势分布,针对性的治理问题
  • 相同根因引发了多少SLA问题,涉及影响多少数据资产
  • 哪些数据资产经常出现SLA问题,问题的分类以及是什么根因造成的
  • SLA问题经验总结,方便类似问题发生后,后期做推荐辅助快速定位根因
根据平台运营的记录显示,常见的问题有 资源 队列 阻塞、上游任务故障、 数据倾斜等。某数据团队双月问题登记总结如下,问题数量和问题根因种类得到了有效的收敛:
双月
问题数量
根因种类
2019-07/08
77
12
2019-09/10
58
10
2019-11/12
33
7
2020-01/02
23
5
2020-03/04
17
4
2020-05/06
9
2
2020-07/08
9
2

事故管理

事故管理用于记录SLA破线事故的复盘与改进管理,每个事故至少对应一条SLA问题记录,而每个SLA问题不一定会造成事故。
事故可以在任意节点进行,一般在SLA破线并造成实际的业务影响之后,需要进行事故登记,事故登记同样会关联相关的SLA信息。一个事故的处理流程如下所示:
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解,火山引擎,数据治理,大数据,数据分析
如图所示,事故主要包含SLA事故明细、SLA事故根因、改进计划及SLA消耗这几部分,在这其中可以关注以下几点:
  1. 事故在登记时,会根据事故明细确认事故根因,并让相应负责人提出改进计划。
  2. 用户可以订阅事故,在事故的复盘状态及其改进计划的完成状态变化时,都会通知订阅人。
  3. 任务的改进计划在完成前,每日都会提醒计划负责人,直到计划完成为止
SLA事故管理平台的数据是数据治理方治理成果的重要依据,也是整个SLA保障平台使用效果的体现,它的数据价值如下:
  • 对事故的复盘归档管理,方便后期随时查阅,定位相关SLA信息
  • 针对不同数据团队发生SLA事故的整体情况进行对比查看,互相借鉴
  • 对事故的改进计划管理跟踪,验收SLA的治理效果
以下是某个团队的双月事故统计:
双月
事故数量
环比
2019-07/08
46
- - -
2019-09/10
26
-43%
2019-11/12
18
-31%
2020-01/02
13
-28%
2020-03/04
7
-46%
2020-05/06
6
-14%
2020-07/08
5
-16%
通过上述数据可知,火山引擎DataLeap SLA平台有效保障了核心任务的稳定产出,辅助降低了稳定性事故发生的概率,现在每双月该类型事故数量长期维持在个位数。
点击跳转  【大数据研发治理套件 DataLeap】 了解更多

文章来源地址https://www.toymoban.com/news/detail-618533.html

到了这里,关于火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 构建满足流批数据质量监控用火山引擎DataLeap

    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎 DataLeap 数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、

    2024年02月05日
    浏览(12)
  • 数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级

    更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群 近期,火山引擎 DataLeap 上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。 传统的数据探查是基于库表的全量探查,由后

    2024年02月03日
    浏览(12)
  • 开发调试更便捷!火山引擎 DataLeap 提供 Notebook 交互式开发体验

    开发调试更便捷!火山引擎 DataLeap 提供 Notebook 交互式开发体验

    更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群 Notebook 是一种支持 REPL 模式的开发环境。 所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。Notebook 通常使得探索性的开发和

    2024年02月12日
    浏览(13)
  • 火山引擎 DataLeap 构建Data Catalog系统的实践(二):技术与产品概览

    火山引擎 DataLeap 构建Data Catalog系统的实践(二):技术与产品概览

      元数据的接入 元数据接入支持T+1和近实时两种方式 上游系统:包括各类存储系统(比如Hive、 Clickhouse等)和业务系统(比如数据开发平台、数据质量平台等) 中间层: ETL Bridge:T+1方式运行,通常是从外部系统拉取最新元数据,与当前Catalog系统的元数据做对比,并更新差

    2024年02月15日
    浏览(11)
  • 智能安全的四大难题:如何解决?

    智能安全是人工智能(AI)技术的一个重要应用领域,涉及到计算机系统的安全性、数据的隐私保护、网络的安全性等方面。随着AI技术的发展,智能安全的重要性日益凸显。然而,智能安全领域仍然面临着许多挑战,这些挑战可以分为四大难题:数据安全性、算法安全性、系统

    2024年04月10日
    浏览(8)
  • ModaHub 魔搭社区:火山方舟是如何解决大模型互信问题的

    ModaHub 魔搭社区:火山方舟是如何解决大模型互信问题的

    火山方舟是一个全面的大模型服务平台,通过整合多个大模型公司的产品,为需要大模型的企业提供联系和选择的机会。它不仅提供相关工具和服务,还构建了大模型\\\"安全互信计算架构\\\",解决了大模型互信的问题。 这个安全互信计算架构采用了技术手段来保障人工智能公司

    2024年02月12日
    浏览(12)
  • 死磕“增长”:火山引擎的实用主义

    死磕“增长”:火山引擎的实用主义

    作者 | 曾响铃 文 | 响铃说 在刘慈欣的科幻小说《三体》中,地外文明为了封锁地球科技,在天文台向地球科学家展现了「宇宙闪烁」这一奇观,试图颠覆人类的认知,从而影响科技进步,促使地球科技发展陷入停滞。 如今,「宇宙闪烁」一词被火山引擎用到了4月18日的20

    2024年02月06日
    浏览(11)
  • 火山引擎边缘云,助力业务敏捷创新

    火山引擎边缘云,助力业务敏捷创新

    [中国,上海,4 月 18 日]2023 春季火山引擎 FORCE 原动力大会正式举办。大会主论坛,火山引擎总裁谭待围绕云上增长三要素发表了重要演讲。在敏捷迭代专题中,谭待分享了火山引擎边缘云连接与计算无处不在的理念,并于现场正式发布多云 CDN 产品。 谭待表示,在负载分布

    2023年04月21日
    浏览(11)
  • 【Azure】微软 Azure 云中的 SLA 解析:什么是 SLA、影响 SLA 的因素有哪些、如何进行计算 SLA

    【Azure】微软 Azure 云中的 SLA 解析:什么是 SLA、影响 SLA 的因素有哪些、如何进行计算 SLA

    本文将讨论微软 Azure 云中的服务级别协议(SLA)。在当今数字化时代,云计算已成为许多企业和组织不可或缺的一部分。SLA 是云服务提供商与客户之间的合同,它定义了云服务的可用性和性能指标,以确保客户在使用云服务时能够得到稳定、可靠的体验。通过本文的阅读,

    2024年02月15日
    浏览(17)
  • Redis 如何解决缓存雪崩、缓存击穿、缓存穿透难题

    Redis 如何解决缓存雪崩、缓存击穿、缓存穿透难题

    Redis 作为一门热门的缓存技术,引入了缓存层,就会有缓存异常的三个问题,分别是缓存击穿、缓存穿透、缓存雪崩。我们用本篇文章来讲解下如何解决! 缓存击穿 : 指的是缓存中的某个热点数据过期了,但是此时大量的并发请求访问这个key的值,此时因为缓存过期无法从

    2024年02月14日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包