小组讨论
项目背景
????????Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
?
项目计划
经过我们小组五人的讨论,我们初步确定了项目的实施计划。 项目分为四大核心模块,一是分析Spark core,二是分析Spark streaming,三是分析Spark SQL,四是分析Spark Graphx,四部分中core模块内容较多,经组内讨论该部分由两个人完成,其余部分均为一人完成分析。项目成员按照实施计划与分工稳步推进,迭代开发,在一学期内完成预期成果中的基础部分。
完成基本代码的分析。(第1 - 第8周) 设计样例用以分析。(第9周) 利用程序验证相关内容(第10 - 第13周) 对分析进行总结、准备结题答辩。(第14 - 第15周)
预期成果
完成对Spark四个核心模块的分析、提炼、评价。并能对Spark有深刻理解
分工
我在此项目中主要负责Spark streaming核心的代码分析。 配置环境:JDK1.8.0
语言环境:Scala3.0.2
软件环境:Spark3.1.2
|