What is Spark?
~ is a multi-language engine for executing data engineering, data science , and machine learning on single-node machines or clusters.
What is the relationship between?Spark and Hadoop?
Hadoop:
Spark:
Using:
- 日志文件,长安区数据的流交流
- 机器学习
- 数据分析师交互式分析
- 各系统间的数据集成和清洗
Core:
提供~最核心功能,是下面几个板块扩展的基础
可以使用SQL操作结构化数据的组键
Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API
~提供的一个机器学习算法库,学起来较困难
~面向图计算提供的框架与算法库
The Arch of Sys in Spark
~采用了分布式计算模型的Master—Slave模型。Master是对应集群中含有Master进程的结点,Slave是集群中含有Worker进程结点。
- ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器。
- Worker:从节点,负责控制计算节点,启动Executor或Driver。在YARN模式中为NodeManager,负责计算节点的控制
- Driver:运行
Application的main() 函数并创建SparkContext。 - Executor:执行器,在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。
- SparkContext:整个应用的上下文,控制应用的生命周期。
Conclude
- 挺好的通识读物,希望后面会有让人亮眼的操作
- 了解了新的工具Spark,对于本来就是大数据专业的我可以说算是开光了。
- 师傅引进门,修行靠个人,与群友共勉。
|