| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> saless.csv数据的导入,清洗,分析,导出,可视化(利用hive,sqoop,mysql工具) -> 正文阅读 |
|
[大数据]saless.csv数据的导入,清洗,分析,导出,可视化(利用hive,sqoop,mysql工具) |
题目描述样表(sales_sample_20170310)字段说明:
卖出方和买入方又分为 3 种类型:
举例:
问题: 1、数据导入: 2、数据清洗: 3、数据分析处理:
4、处理结果入库: 5、数据可视化展示: hadoop配置首先安装好hadoop,我参考的b站视频: 登录3台虚拟机(均可联网): 主机(有桌面,Firefox): 注:打开主机终端方式如下
之后 ping s1,没问题 可是xshell连接失败: 记得开启了 sshd 服务,再检查一遍,发现果然已经启动了: 之后发现子网ip竟然和上面的不对应,改过来就好了(记得不仅要重启虚拟机,还要重启电脑) 这样就可以了: 输入命令 输入 通过 用 输入 http://master:8088/cluster,访问集群,可以看到执行的这个任务: 输入 http://master:50070/explorer.html#/wordcount/output,可以看到我之前操作的一些文件信息: hive配置我参考的b站视频: hive版本要和自己的hadoop版本符合才可以: https://hive.apache.org/downloads.html https://dlcdn.apache.org/hive/hive-2.3.9/
下载可以看到 mysql配置我参考的b站视频: 输入 再次启动hive:
所以我们可以认为,只要往原路径下放数据,它均可以查到,而且建表和放数据的顺序随意 我们看下mysql数据库:
完成问题1,2在hive里面建表: 具体语法可看:Hive建表语句详解–CREATE TABLE
结果:
cast()函数用法可看:mysql cast( as int) error_Mysql SQL CAST()函数
结果:
zookeeper、hbase配置借鉴: 【ZooKeeper】安装教程
sqoop配置sqoop要和hadoop版本对应,这里下的1.4.7版本 http://archive.apache.org/dist/sqoop/1.4.7/ 将文件放进Linux:
发现有一些警告,想要去除(但是我hbase和zookeeper都配了,hbase都识别了,zookeeper却识别不了,吐了): 之后就可以了: 利用sqoop将hive数据导出到mysql借鉴博客: 列出mysql数据库中的全部数据: 将hive中的表数据导入到mysql中(表结构就跟你hive一样就行):
sql语句解释:
运行结果: 排查原因,发现由于hive表里面没有主键,因此mysql里面不应该有主键,应该把主键去了: 之后执行代码: 结果如下: 注对于之后的问题,做完会同步到博客上 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 13:48:26- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |