| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Spark 第一个项目(WordCount) -> 正文阅读 |
|
[大数据]Spark 第一个项目(WordCount) |
创建Maven项目搭建 Maven 环境,可参考:无!(🙈 忘了写了,自行搜索吧 ) 1?? Step1:添加依赖(使用对应自己的版本)
🌈 Maven依赖可在 Maven 中搜索 2?? Step2:为本项目添加 Scala SDK 全局库 可参考:Scala 初识+环境搭建 3?? Step3:瞄眼目录结构 WordCount🌈 RDD 为弹性分布式数据集,下面暂且称为‘集合’ 1. 操作步骤1?? Step1:创建 Spark 的上下文对象,SparkContext 对象相当于 Spark Core 的程序入口。
2?? Step2:按照指定的路径,一行一行读取数据,放在 RDD 类型的集合对象
3?? Step3:将
4?? Step4:格式化文本内容,将单词先转小写,再将其中的特殊字符替换为空白字符;返回新的 RDD 集合
5?? Step5:将每个单词映射为二元组形式,原单词当作键,以1作为值;返回新的 RDD 集合,泛型为二元组(Tuple2)
6?? Step6:根据二元组的key(第一个参数)进行聚合,每次取到相同key的value,进行
7?? Step7:当最终的结果收集并输出
2. 测试并修改
2.1 配置运行模式具体的操作步骤如上,试运行,看输出结果: 报错为: 原因:运行 Spark 程序,需要设置主节点的 URL,及需要指定运行的位置 处理方法:
修改项目:添加如下配置,并将配置对象(SparkConf)当作 SparkContext 构造时的参数。
2.2 配置应用名称再次运行!继续看输出: 报错为: 原因:运行 Spark 程序,需要指定程序名称 处理方法:在配置对象中添加配置程序名称 修改项目:在上一步基础上,添加如下配置,并将配置对象(SparkConf)当作 SparkContext 构造时的参数。
3. 运行程序查看输出: 完工! ?
???END???
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 11:05:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |