Spark 提交任务参数设置关于(线程,shuffle,序列化)

这篇具有很好参考价值的文章主要介绍了Spark 提交任务参数设置关于(线程,shuffle,序列化)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

–driver-java-options ‘-Xss6m’`

是在使用 Apache Spark 时,为了设置 Java 虚拟机(JVM)的堆栈大小而使用命令行选项。
-Xss 是 Java 虚拟机的一个选项,用于设置线程的堆栈大小。在这个命令行选项中,-Xss6m 表示将线程的堆栈大小设为 6MB。这个选项的作用是为了避免在运行 Spark 任务时出现堆栈溢出的错误。

–spark.default.parallelism=200

设置 Spark 默认的并行度为 200。并行度是指在 Spark中并行执行任务的线程数或分区数。通过设置并行度,可以提高 Spark 任务的执行效率。

–conf spark.shuffle.io.maxRetries=200

设置 Spark Shuffle 操作的最大重试次数为 200。Shuffle 是 Spark 中的一个重要操作,用于将数据从一个节点传输到另一个节点。通过设置大重试次数,可以提高 Shuffle 操作的可靠性。

–conf spark.shuffle.io.retryWait=500s

设置 Spark Shuffle 操作的重试等待时间为 500 秒。当 Shuffle 操作失败时,会进行重试,通过设置重试等待时间,可以控制重试的时间。

–conf spark.kryoserializer.buffer.max=512m

设置 Kryo 序列化器的最大缓冲区大小为 512MB。Kryo 是 Spark 中的一种高效的序列化器,通过设置缓冲区大小,可以提高序列化和反序列化的效率。

–conf spark.kryoserializer.buffer=512m

设置 Kryo 序列化器的缓冲区大小为 512MB。通过设置缓冲区大小,可以提高序列化和反序列化的效率。

–conf spark.sql.shuffle.partitions=200

设置 Spark SQL Shuffle 操作的分区数为 200。Shuffle 是 Spark SQL 中的一个重要操作,用于将数据从一个节点传输到另一个节点通过设置分区数,可以提高 Shuffle 操作的并行度,从而提高 Spark SQL 任务的执行效率。文章来源地址https://www.toymoban.com/news/detail-433106.html

到了这里,关于Spark 提交任务参数设置关于(线程,shuffle,序列化)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Spark系列之SparkSubmit提交任务到YARN

    Spark系列之SparkSubmit提交任务到YARN

    title: Spark系列 本地模式,不启动spark集群也能运行。 实际可运行命令: 运行截图: 结果截图: 需要启动Spark的StandAlone集群来运行。 直接提交可能会报错: spark-env.sh中: spark-defaults.conf中: 如若不生效,则直接拷贝 yarn-site.xml 文件到 $SPARK_HOME 中 上述任务在启动的时候,有

    2024年02月03日
    浏览(14)
  • spark streaming如何在kerberos认证的集群上提交任务

    集群有kerberos认证,spark批处理任务提交后正常运行,spark streaming/structed streaming 任务提交后运行不了,报 java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS] 的错误,其中streaming任务里面有用到sparkSQL 找到多种处理方式,在一一尝试之

    2024年02月20日
    浏览(10)
  • spark SQL 任务参数调优1

    spark SQL 任务参数调优1

    要了解spark参数调优,首先需要清楚一部分背景资料Spark SQL的执行原理,方便理解各种参数对任务的具体影响。 一条SQL语句生成执行引擎可识别的程序,解析(Parser)、优化(Optimizer)、执行(Execution) 三大过程。其中Spark SQL 解析和优化如下图 Parser模块:未解析的逻辑计划

    2024年02月07日
    浏览(10)
  • 关于flink重新提交任务,重复消费kafka的坑

    关于flink重新提交任务,重复消费kafka的坑

    按照以下方式设置backend目录和checkpoint目录,fsbackend目录有数据,checkpoint目录没数据 我以为checkpoint和fsbackend要同时设置,其实,1.14.3版本,setCheckpointStorage和stateBackend改成了分着设置 我上边代码这样设置,相当于首先指定了以下checkpoint按照默认的backend存储,然后又指定了按

    2024年02月03日
    浏览(9)
  • 【JAVA】提交任务时,线程池队列已满,这时会发生什么

    【JAVA】提交任务时,线程池队列已满,这时会发生什么

    🍎 个人博客: 个人主页 🏆 个人专栏: JAVA ⛳️   功不唐捐,玉汝于成 目录 前言 正文 抛出异常: 阻塞等待: 丢弃任务: 调整线程池参数: 使用拒绝策略: 结语  我的其他博客   在并发编程中,线程池作为一种重要的资源管理工具,被广泛应用于提高系统性能和响应

    2024年02月20日
    浏览(8)
  • Spark SQL生产优化经验--任务参数配置模版

    Spark SQL生产优化经验--任务参数配置模版

    特殊case说明:当任务存在扫event_log表时需注意,若对event_log表进行了过滤,且过滤比很高,如下图的case,input为74T,但shuffle write仅为3.5G,那么建议提高单partition的读取数据量,将参数set spark.sql.files.maxPartitionBytes=536870912提高10倍至5368709120; 目前测试:在不手动添加任何参数

    2024年02月12日
    浏览(14)
  • 【Spark精讲】Spark Shuffle详解

    【Spark精讲】Spark Shuffle详解

    目录 Shuffle概述 Shuffle执行流程 总体流程 中间文件 ShuffledRDD生成 Stage划分 Task划分 Map端写入(Shuffle Write) Reduce端读取(Shuffle Read) Spark Shuffle演变 SortShuffleManager运行机制 普通运行机制 bypass 运行机制 Tungsten Sort Shuffle 运行机制 基于Sort的Shuffle机制的优缺点 Shuffle调优 广播变量 shu

    2024年02月02日
    浏览(10)
  • Spark九:Spark调优之Shuffle调优

    map端和reduce端缓存大小设置,reduce端重试次数和等待时间间隔,以及bypass设置 学习资料:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中

    2024年01月20日
    浏览(13)
  • Spark学习笔记【shuffle】

    Spark学习笔记【shuffle】

    本文基本上是大数据处理框架Apache Spark设计与实现的Shuffle部分的学习。以及Spark基础知识@Bambrow 上游和下游,不同stage,不同的task之间是如何传递数据的。 ShuffleManager 管理ShuffleWrite和ShuffleRead 分为两个阶段: ShuffleWrite 上游stage输出的分区问题。 ShuffleRead 下游stage从上游获取

    2024年02月03日
    浏览(14)
  • Spark Shuffle 过程

    Spark Shuffle 过程

    本篇主要阐述Spark Shuffle过程,在执行 Job 任务时,无论是 MapReduce 或者 Spark Shuffle 过程都是比较消耗性能;因为该环节包含了大量的磁盘 IO、序列化、网络数据传输等操作。因此,在这一过程中进行调参优化,就有可能让 Job 执行效率上更好。 在 Spark 1.2 以前,默认的 Shuffle

    2023年04月08日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包