前言 Spark核心模块
-
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 -
Spark Core Spark Core 中提供了Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,Spark Streaming,GraphX,MLlib都是在Spark Core`的基础上进行扩展的 -
Spark SQL Spark SQL 是Spark 用来操作结构化数据的组件。通过Spark SQL ,用户可以使用SQL 或者Apache Hive 版本的SQL方言(HQL) 来查询数据。 -
Spark Streaming Spark Streaming 是Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API 。 -
Spark MLlib MLlib是Spark 提供的一个机器学习算法库。MLlib不仅提供了模型评估、数据导入等额外的功能,还提供了一些更底层的机器学习原语。 -
Spark GraphX GraphX是Spark面向图计算提供的框架与算法库。
第1章 Spark快速上手
1.1 创建Maven项目
1.1.1 增加Scala组件
声明:本文是学习时记录的笔记,如有侵权请告知删除! 原视频地址:https://www.bilibili.com/video/BV11A411L7CK
|