一、【Spark和MapReduce对比】
【总结】 尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop 1、在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR构架,比如非常成熟的Hive,hive的底层默认是MapReduce,但是可以经过与spark重新编译后,底层计算框架换成spark。 2、Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据 体系的核心架构。
【提问】 Hadoop的基于进程的计算和Spark基于线程方式优缺点? 解析:Hadoop中的MR中每个MapReduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行单位,但缺点是线程之间会有资源竞争。
二、Spark的四大特点
1、【速度快】 由于Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍
Spark处理数据与MapReduce处理数据相比,有如下两个不同点: (1)其一、Spark处理数据时,可以将中间处理结果数据存储到内存中; (2) 其二、Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成.
2、【易于使用】 目前spark支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。为了 兼容Spark2.x企业级应用场景。
3、【支持多种运行范式】 Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes(Spark 2.3开始支持)上 对于数据源而言,Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。
|