谁能讲清楚Spark之与MapReduce的对比

1年前作者：数据咩分类：Toy博客阅读(6)违法举报

这篇具有很好参考价值的文章主要介绍了谁能讲清楚Spark之与MapReduce的对比。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

我们已经知道Spark是如何设计和实现数据处理流程的，这里我们再深入思考一下，为什么Spark能够替代MapReduce成为主流的大数据处理框架呢？对比MapReduce，Spark究竟有哪些优势？

一优势

1 通用性：

基于函数式编程思想，MapReduce将数据类型抽象为，k,v格式，并将数据处理操作抽象为map（）和 reduce（）两个算子，这两个算子可以表达一大部分数据处理任务。因此，MapReduce为这两个算子设计了固定的处理流程map—Shuffle—reduce。
但到数据处理流程其实多种多样，map—Shuffle—reduce模式只适用于表达类似foldByKey（）、 reduceByKey（）、aggregateByKey（）的处理流程，而像cogroup（）、join（）、cartesian（）、coalesce（）的流程需要更灵活的表达方式。

Spark在两方面进行了优化改进：

1）将输入/输出、中间数据抽象表达为一个数据结构RDD，相当于在Java中定义了class，然后可以根据不同类型的中间数据，生成不同的RDD（相当于Java中生成不同类型的object）。中间数据变得可定义、可表示、可操作、可连接。

2）通过可定义的数据依赖关系来灵活连接中间数据。在MapReduce中，数据依赖关系只有ShuffleDependency。而Spark数据处理操作包含了多种多样的数据依赖关系，Spark对这些数据依赖关系进行了分类&文章来源地址https://www.toymoban.com/news/detail-648168.html

到了这里，关于谁能讲清楚Spark之与MapReduce的对比的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

spark和Mapreduce的对比
MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念\\\"Map（映射）\\\"和\\\"Reduce（归约）\\\"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程
2024年02月05日
浏览(12)
大数据：Hadoop基础常识hive，hbase，MapReduce，Spark
Hadoop是根据Google三大论文为基础研发的，Google 三大论文分别是: MapReduce、 GFS和BigTable。 Hadoop的核心是两个部分：一、分布式存储（HDFS，Hadoop Distributed File System）。二、分布式计算（MapReduce）。 MapReduce MapReduce是“ 任务的分解与结果的汇总”。 Map把数据切分——分布式存放
2024年04月25日
浏览(18)
大数据面试题：Spark和MapReduce之间的区别？各自优缺点？
面试题来源：《大数据面试题 V4.0》大数据面试题V3.0，523道题，679页，46w字可回答： 1）spark和maprecude的对比；2）mapreduce与spark优劣好处问过的一些公司：阿里云(2022.10)，银联(2022.10)，携程(2022.09)，vivo(2022.09)，滴滴(2022.09)(2020.09)，网易云音乐(2022.09)，快手(2022.08)，字节(20
2024年02月03日
浏览(10)
Spark_Spark比mapreduce快的原因
最重要的3点，数据缓存 : 中间结果可以缓存在内存中复用资源管理：executor task 管理，不同stage的task可以运行在同一个executor上任务调度 : dag 对比多阶段mr 1.任务模型的优化（ DAG图对比多阶段的MR,启动申请资源耗时更少） mapreduce框架中，一个程序只能拥有一个map一个r
2024年02月10日
浏览(7)
云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。大数据是需求，云计算是手段。没有大数据，就不需要云计算；没有云计算，就无法处理大数据。所有的计算能力、存储能力、和各种各样功能的应用都通过网络
2024年02月04日
浏览(47)
Spark内容分享(十二)：Spark 和 MapReduce 的区别及优缺点
1、Spark处理数据是基于内存的，而MapReduce是基于磁盘处理数据的 MapReduce是将中间结果保存到磁盘中，减少了内存占用，牺牲了计算性能。 Spark是将计算的中间结果保存到内存中，可以反复利用，提高了处理数据的性能。 2、Spark在处理数据时构建了DAG有向无环图，减少了shuf
2024年01月23日
浏览(12)
分布式计算MapReduce | Spark实验
题目1 输入文件为学生成绩信息，包含了必修课与选修课成绩，格式如下：班级1, 姓名1, 科目1, 必修, 成绩1 br （注： br 为换行符）班级2, 姓名2, 科目1, 必修, 成绩2 br 班级1, 姓名1, 科目2, 选修, 成绩3 br ………., ………, ………, ………, ……… br 编写两个Hadoop平台上的MapRed
2024年02月08日
浏览(46)
spark为什么比mapreduce快？
spark为什么比mapreduce快？ 1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的 2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，
2024年02月21日
浏览(8)
实时大数据流处理技术：Spark Streaming与Flink的深度对比
引言在当前的大数据时代，企业和组织越来越多地依赖于实时数据流处理技术来洞察和响应业务事件。实时数据流处理不仅能够加快数据分析的速度，还能提高决策的效率和准确性。Apache Spark Streaming和Apache Flink是目前两个主要的实时数据流处理框架，它们各自拥有独特的特
2024年03月10日
浏览(17)
关于Spark和MapReduce，一篇文带你看清楚
Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：根据服务对象和层次分为：数据来源层、数据传输层、数
2024年03月17日
浏览(11)