IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据分析——Hive数据处理 -> 正文阅读

[大数据]大数据分析——Hive数据处理

1、IP地址规划表(三台虚拟机IP和本机IP规划及截图)

?2、操作步骤

将原有数据集删除首行:

sed -i '1d' user_log.csv

删除首行后查看前几行的数据:?

并将原有数据集剪切出1w条数据,并放入新的文件small_user_log.csv中:

./predeal.sh ./user_log.csv ./small_user_log.csv

?

hdfs创建文件夹,命令:

hdfs dfs -mkdir -p /dbtaobao/dataset/user_log1

?

???????将user_log.csv文件推至hdfs文件内:

hdfs dfs -put -p /usr/local/dbtaobao/dataset/user_log.csv /dbtaobao/dataset/user_log1

?

???????新建数据库dbtaobao:

create database dbtaobao

?

???????创建dbtaobao.user_log表:

CREATE EXTERNAL TABLE dbtaobao.user_log(user_id INT,item_id INT,cat_id INT,merchant_id INT,brand_id INT,month STRING,day STRING,action INT,age_range INT,gender INT,province STRING) COMMENT 'Welcome to? dblab,Now create dbtaobao.user_log!' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION? 'dbtaobao/dataset/user_log1';

?

表格创建完成:

?查看user_log表数据结构:

? show create table user_log;? ?

???????

?

查看user_log表简单数据结构

?????? desc user_log;

?

?查看日志前10个交易日志的商品品牌

???? select brand_id from user_log limit 10;

???

?查询前20个交易日志中购买商品时的时间和商品的种类

????? select month,day,cat_id from user_log limit 20;

?????

?

用聚合函数count()计算出表内有多少条行数据

????? select count(*) from user_log;

?

在函数内部加上distinct,查出uid不重复的数据有多少条

????? select count(distinct user_id) from user_log;

??

排除顾客刷单(查询不重复的数据)

????? select count(*) from(select user_id,item_id,cat_id,merchant_id,brand_id,month,day,action from user_log group by user_id,item_id,cat_id,merchant_id,brand_id,month,day,action having count(*)=1) a;

查询双11当天有多少人购买了商品

????? select count(distinct user_id) from user_log where action=’2’;

?

品牌2661,当天购买此品牌商品的数量

????? select count(*) from user_log where action=’2’ and brand_id=2661;

查询双十一当天男女购买商品比例

?? select count(*) from user_log where gender=0;

select count(*) from user_log where gender=1;

女性:

?

男性:

查询某一天在该网站购买商品超过5次的用户id

????? select user_id from user_log where action='2' group by user_id having count(action='2')>5;

?

创建姓名缩写表 ,其中字段大于4条,并使查询插入,最后显示姓名缩写表格数据

建立新表xzy

????? create table xzy(user_id INT,item_id INT,cat_id INT,brand_id INT,action INT) COMMENT ‘This is search table’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ STORED AS TEXTFILE;

?

插入数据:

insert into xzy(user_id,item_id,cat_id,brand_id,action) select user_id,item_id,cat_id,brand_id,action from user_log where action='2';

?

结果展示:

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-07-20 18:56:33  更:2022-07-20 18:57:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/15 23:21:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码