IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 第二阶段 spark操作大概步骤 -> 正文阅读

[大数据]第二阶段 spark操作大概步骤

1. 从本地HDFS上拿取csv文件并初步实现去重功能

需求:写两个类:
HdfsUtils,用于连接hdfs和从hdfs上下载数据
在这里插入图片描述

SprakUtils,用于连接spark
在这里插入图片描述

一个方法:
duplicate(),去重方法,先把方法写到main函数里

把连接hdfs,从hdfs上下载数据,连接spark,使用spark去重封装成方法,可以将hdfs操作和人spark操作相关的方法封装成不同类,类名为HdfsUtilsSparkUtils

示例:

HdfsUtils.connect('192.168.31.2:50070');    //连接hdfs
HdfsUtils.get("/data//bosssjob.csv")
SparkUtils.connect()			// 连接spark
spark.utils.distinct()			//数据去重

整体步骤:

  1. 编写代码从hdfs上获取数据
  2. 使用spark的去重方法去重

2. 直接使用原数据进行数据分析

需求:
将代码写成一个java类,类名叫JobParse,创建此类的实例对象并调用该对象的方法可直接获取分析完之后的数据

需要包含的方法:

parse_area_job():调用此函数可以获取每个地方岗位数的分析结果
parse_tecs():调用此函数可以获取需要的技术分析结果
parse_salary():调用此函数可以获取最高最低和平均薪资的分析结果
``

供他人使用的示例:

JobParse jobParse = new JobParse()		//JobParse是自己写的数据分析类,调用构造函数获取一个对象
area_job = jobParse.parse_area_job()			//调用方法中的parse方法可以获取分析后的每个地方的岗位数

data数据格式:字典格式

分析维度及操作:

  1. 每个地方的岗位数
    方法:parse_area_job
    返回值:area_job
    返回值类型:DataFrame
数量
地区
湖南1500
湖北4550
湖北4550
湖北4550
湖北4550
  1. 分析需求的技术数量
    方法:parse_tecs()
    返回值:tec_nums
    返回值类型:DataFrame

具体步骤:
2.1 获取对应列tecs
2.2 去重,枚举出所有出现过的岗位,写入一个列表only_tecs
2.3 对比tecsonly_tecs,将相似的转换为only_tecs中相近的值
2.4 统计原数据中每种技术出现的次数,返回结果tec_nums,格式为dataframe
tec_nums格式:

数量
技术
spark15000
java20000
java20000
java20000

  1. 最高和最低的薪资,需要实现中文转换数值
    方法:parse_salary()
    返回值:jobs_salary
    返回值类型:DataFrame

返回值示例格式:

最低工资最高工资平均工资
数量4500350007000

3. 连接DM8数据库,使用假数据进行读写数据库操作

需求:能够连接数据库,并将阮方杰处理后的数据放入数据库的不同表中

代码规范要求:
一个类:
DAO:用来连接和增删改查数据库,本项目只需要写入即可

DAO类中需要实现的方法:

  • connect() 连接数据库
  • write()写入数据

写入的表和写入的数据:

数据备注
job_areajob_area每个地区的职位数
tec_numstec_nums所有的职位技术要求出现过的次数
jobs_salaryjobs_salary职位薪资的分析结果

步骤:
1、解决连接数据库的代码
2、解决编写代码写入数据库

供他人使用的示例:

import DAO
DAO dao = new DAO()		// 创建一个数据库管理对象
dao.write(dataframe)		// 写入datafeme
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-07-03 10:53:18  更:2022-07-03 10:54:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/20 3:26:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码