| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 大数据分析——Hive数据处理 -> 正文阅读 |
|
[大数据]大数据分析——Hive数据处理 |
1、IP地址规划表(三台虚拟机IP和本机IP规划及截图) ?2、操作步骤 将原有数据集删除首行: sed -i '1d' user_log.csv 删除首行后查看前几行的数据:? 并将原有数据集剪切出1w条数据,并放入新的文件small_user_log.csv中: ./predeal.sh ./user_log.csv ./small_user_log.csv ? hdfs创建文件夹,命令: hdfs dfs -mkdir -p /dbtaobao/dataset/user_log1 ? ???????将user_log.csv文件推至hdfs文件内: hdfs dfs -put -p /usr/local/dbtaobao/dataset/user_log.csv /dbtaobao/dataset/user_log1 ? ???????新建数据库dbtaobao: create database dbtaobao ? ???????创建dbtaobao.user_log表: CREATE EXTERNAL TABLE dbtaobao.user_log(user_id INT,item_id INT,cat_id INT,merchant_id INT,brand_id INT,month STRING,day STRING,action INT,age_range INT,gender INT,province STRING) COMMENT 'Welcome to? dblab,Now create dbtaobao.user_log!' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION? 'dbtaobao/dataset/user_log1'; ? 表格创建完成: ?查看user_log表数据结构: ? show create table user_log;? ? ??????? ? 查看user_log表简单数据结构
? ?查看日志前10个交易日志的商品品牌 ???? select brand_id from user_log limit 10; ??? ?查询前20个交易日志中购买商品时的时间和商品的种类 ????? select month,day,cat_id from user_log limit 20; ????? ? 用聚合函数count()计算出表内有多少条行数据 ????? select count(*) from user_log; ? 在函数内部加上distinct,查出uid不重复的数据有多少条 ????? select count(distinct user_id) from user_log; ?? 排除顾客刷单(查询不重复的数据) ????? select count(*) from(select user_id,item_id,cat_id,merchant_id,brand_id,month,day,action from user_log group by user_id,item_id,cat_id,merchant_id,brand_id,month,day,action having count(*)=1) a; 查询双11当天有多少人购买了商品 ????? select count(distinct user_id) from user_log where action=’2’; ? 品牌2661,当天购买此品牌商品的数量 ????? select count(*) from user_log where action=’2’ and brand_id=2661; 查询双十一当天男女购买商品比例 ?? select count(*) from user_log where gender=0; select count(*) from user_log where gender=1; 女性: ? 男性: 查询某一天在该网站购买商品超过5次的用户id ????? select user_id from user_log where action='2' group by user_id having count(action='2')>5; ? 创建姓名缩写表 ,其中字段大于4条,并使查询插入,最后显示姓名缩写表格数据 建立新表xzy ????? create table xzy(user_id INT,item_id INT,cat_id INT,brand_id INT,action INT) COMMENT ‘This is search table’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ STORED AS TEXTFILE; ? 插入数据: insert into xzy(user_id,item_id,cat_id,brand_id,action) select user_id,item_id,cat_id,brand_id,action from user_log where action='2'; ? 结果展示: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/15 23:21:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |