[大数据] 比较 Spark 和 MapReduce 执行迭代应用Pagerank的性能差异

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 比较 Spark 和 MapReduce 执行迭代应用Pagerank的性能差异 -> 正文阅读

[大数据]比较 Spark 和 MapReduce 执行迭代应用Pagerank的性能差异

1. 设计思路

a) MapReduce 执行迭代计算过程中会反复读写 HDFS，因此可以在 HDFS 中观察到每一轮迭代的输出结果。
b) MapReduce 会提交一系列的作业，而 spark 仅有一个应用，在 Yarn 的 UI 显示会不一样。
c) 对于同样规模的数据集，spark 执行时间应当更短。

2. 实验设置

1)Ubuntu18.04、jdk1.8、云主机、IDEA2020.3.4
2) Hadoop2.10.1、Spark2.4.7、Scala2.11.12
3) 数据集：web-google.txt；因为数据集太大了，换成了 mini-web-google.txt，一共有十个结点，并做了一些改动 page.txt
4) 迭代次数：20
5) 阻尼系数：0.85

3.实验过程

1、编写一个 PageRank 应用，观察 HDFS 中的文件。
2、分别基于 MapReduce 和 Spark 编写一个 PageRank 应用，并通过 Yarn 进行提交，观察 Yarn 界面的区别。
3、针对改进的 min-web-google 数据集，分别在 MapReduce 和 Spark 中运行，统计二者的运行时间，并绘制成图表。