一文看懂业界在离线混部技术

这篇具有很好参考价值的文章主要介绍了一文看懂业界在离线混部技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前 言

刚刚过去的 2021 年,在全球经济增长放缓、疫情时起时伏、中美关系摩擦不断、国家平台监管趋严等宏观趋势叠加影响下,很多互联网厂商都遭遇了明显的市值下滑以及亏损加大,裁员消息时有耳闻,所以在 2022 年,降本增效无疑将进一步成为业界大势所趋。

在保持业务形态和投入不变的前提下,降本增效一个显而易见的方法是提升现有资源利用率,而造成资源利用率不高的原因主要有如下几个:

  • 粗放的资源评估: 研发更关注如何快速稳定的迭代产品需求,所以在服务部署时,一般按照最大流量来估计服务所需资源。但在线服务大都具有明显的潮汐特征,导致大部分时间段资源利用率都很低(10% 以下)从而造成浪费。

  • 集群资源整合度不高: 服务器的资源占用常常呈现非均衡状态,例如在线服务尤其是调用主链路上的扇出节点业务,高峰期往往呈现出 CPU 和带宽吃紧,但内存绰绰有余的情况。这导致虽然内存有冗余,但依然无法聚合等比例的其它闲置资源去形成有意义的计算实体。

  • 业务部署隔离: 因为东西部机房成本差异较大和以及容量规划等问题,很多企业会将在线机房、离线机房完全隔离开,这样不同 AZ 甚至不同地域间的在离线作业完全无法融合,资源池也无法互通流转。

而在离线混部技术作为提升资源利用率、降低成本的有效方案,受到业界的一致认可和推荐。

什么是在离线混部

企业的 IT 环境通常运行两大类进程,一类是在线服务,一类是离线作业。

  • 在线服务: 运行时间长,服务流量及资源利用率有潮汐特征,时延敏感,对服务 SLA 要求极高,如消息流 Feed 服务、电商交易服务等。

  • 离线作业: 运行时间分区间,运行期间资源利用率较高,时延不敏感,容错率高,中断一般允许重运行,如 Hadoop 生态下的 MapReduce、Spark 作业。

因为在线服务资源利用率有更明显的的起伏特征,所以混部的主要场景是通过填充离线作业把在线服务各个时段的空闲资源利用起来,减少企业与日俱增的成本开支。(注:离在线混部计划另文阐述)

一文看懂业界在离线混部技术

图 1 混部示意图

在离线混部的成本价值

为了更形象的了解在离线混部的成本价值,我们来看一个中小型企业,4 核 8G 的机器一共有 1000 台,主要计算资源就是 4000 核,8000G。假设平均每台机器的资源使用率是 10%,那么实际使用的计算资源是 4000*10% = 400 核,8000*10% = 800G。如果我们能通过混部将资源利用率提升到 20%,那么我们只需要 500 台机器即可。假设 CPU 的平均价格是 300 元 / 核 / 年,内存的平均价格是 180 元 /G/ 年,就可以节省 2000*300 + 4000 * 180 = 132w 元 / 年。

由此可见, 在离线混部的成本价值是清晰可计算且收益巨大的。

业界实践来看,谷歌利用混部技术将资源利用率从 10% 提升到 60%,每年节省上亿美金。阿里等大厂也成功借助混部将资源利用率提升了 3 倍以上,成本节省可观。

在离线混部的技术门槛

在离线混部虽然有明显的成本价值,但目前真正落地到生产环境的还是只有头部的一些大厂。究其原因,主要是在离线混部涉及服务观测、调度部署、容灾治理等多方面底层技术难题,甚至还包括组织成本核算、跨部门协同等非技术问题,有较高的实施门槛。总结起来,大致有以下几大挑战:

可观测性体系

可观测性简单来说是通过检查系统输出来衡量系统内部状态的能⼒。从具体输出项来看,一般包括 metric、trace、log 三种方式,是系统健康运行的基石。在离线混部要追求更高的资源利用率,必然需要借助实时指标的反馈做出决策。但是可观测性在分布式及云原生时文章来源地址https://www.toymoban.com/news/detail-476086.html

到了这里,关于一文看懂业界在离线混部技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群

    在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群

    在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群 在内网项目中需要安装K8S集群,经过调研,选择使用Kuboard-Spray工具搭建K8S集群,降低学习成本,提高安装效率。 为了简化安装使用集群的过程,搭建了私有yum源仓库和harbor私有镜像仓库。 详细参考文章: 本地yum源仓

    2024年04月10日
    浏览(18)
  • 保姆级教程,在离线环境下搭建zimbra8.8.15(open source)邮件服务器,centos7.6,在线也可参考使用

            现在我要在一台离线服务器上部署zimbra,但由于目前新版本安装包依赖网络环境来下载一些必需的组件,导致我们在官网下载好的安装包不能在离线服务器上完整安装zimbra,本文来帮助要在离线环境中部署zimbra的朋友完成安装,当然在线安装也可以参考本文,除了

    2024年03月13日
    浏览(17)
  • 一文看懂SGPIO协议

    一文看懂SGPIO协议

    目录 1.简介 2.接口列表 3.时序 3.1 Sclok 3.2 Sload 3.3 Sdataout 3.4 Sdatain 4.应用 串行通用输入输出(SGPIO)是一种串行通用IO信号的方法。通常用于发起方(如主机总线适配器)和目标方(如背板)之间的通信。目标方通常将输出的串行信号转换为多个并行信号,并通过GPIO提供输入信

    2024年01月24日
    浏览(16)
  • 一文看懂数据仓库

    一文看懂数据仓库

    数据仓库(Data Warehouse)是来自一个或多个不同源的集成数据的中央存储库,通过对数据仓库中的数据分析,可以帮助企业,改进业务流程,控制成本,提高产品质量等。数据仓库的两个主要功能:存储分析数据和处理分析数据。 (1)面向主题性 数据库的特点是面向应用进行数

    2024年02月07日
    浏览(11)
  • 一文看懂-纹理/贴图/材质

    一文看懂-纹理/贴图/材质

    纹理(Texture) 应用于网格表面上的标准位图图像,即3D 对象的 2D 贴图。 贴图(Map) 指的是绘制在对象模型表面上的那些图像数据,其所使用的图像文件称为纹理。贴图还包含纹理图在对象表面的坐标(UV坐标)等其他数据信息。 可以说, 纹理是贴图的子集 。 另外。Map也

    2024年02月08日
    浏览(10)
  • 一文看懂EtherCAT总线控制

    一文看懂EtherCAT总线控制

      大家好,我是华山自控编程的朱老师。今天给大家介绍一种前沿的运动控制技术——EtherCAT 总线控制。作为近年来非常受欢迎的一种运动控制方式, 那么 EtherCAT总线控制究竟有哪些优势呢?我主要列举以下三点:   传输速度特别快。在以太网控制协议中,EtherCAT总线控制协

    2024年02月08日
    浏览(17)
  • 【SBUS】一文看懂SBUS协议

    【SBUS】一文看懂SBUS协议

    【STM32】STM32单片机总目录 S.BUS是一个串行通信协议,S.BUS是FUTABA提出的舵机控制总线, S.bus使用RS232C串口的硬件协议作为自己的硬件运行基础。 使用TTL电平,即3.3V。 使用负逻辑,即低电平为“1”,高电平为“0”。 波特率:100000(100k),注意:不兼容波特率115200。 硬件取

    2024年02月14日
    浏览(7)
  • 一文看懂 AIGC 的版权问题

    一文看懂 AIGC 的版权问题

    伴随着 AIGC 技术的强势出圈,大家在惊叹 AI 技术强大的同时,也有越来越多的人开始讨论关于由此带来的版权问题:我们通过 AI 生成的图像属于平台还是个人?目前 AI 作品版权在法律上是如何界定的?又该如何避免引起 AI 版权的纠纷? 今天我想和大家聊聊关于当前 AIGC 作

    2024年02月02日
    浏览(31)
  • 一文看懂分布式存储架构

    一文看懂分布式存储架构

    目录 一、集中存储结构 二、分布式存储 1 、分布式存储的兴起 2 、分布式存储的重要性 3 、分布式存储的种类和比较 三、分布式理论浅析 1 、一致性和可用性 2 、数据分布 3 、复制 4 、分布式协议 5、跨机房部署 四、分布式文件系统 1、 Google 文件系统( GFS ) 2、 Taobao 文件

    2023年04月09日
    浏览(10)
  • 一文看懂膨胀(空洞)卷积(含代码)

    一文看懂膨胀(空洞)卷积(含代码)

    前言:本文的个别内容、图片出自各个博客,但是因时间较久目前找不到原作者链接,如有需要,烦请各位原作者联系我。 目录 一、什么是膨胀卷积?为什么要用膨胀卷积 二、膨胀卷积的特点(优点) 三、膨胀卷积特点的理解 1、先看特点②:可以保证输出的特征映射(

    2024年02月02日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包