IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 最近七天内连续三天活跃用户数 -> 正文阅读

[大数据]最近七天内连续三天活跃用户数

最近七天内连续三天活跃用户数

首先,感谢大华公司给的面试机会,非常感谢~!
进入正题,建表:

create table uv_detail_daycount(
mid int
)PARTITIONED BY(dt string);

通过load将hdfs文件加载到hive中。
数据文件名如下:
在这里插入图片描述
里面的数据只有用户mid。如下所示:
在这里插入图片描述

每个日期对应的用户mid,即为该天活跃。
在这里插入图片描述
通过上图可以发现,最近七天内连续三天活跃用户数应该是001和002号用户,最终2021-08-10这天的最近七天内连续三天活跃用户数为2.

实现

第一步,查询最近七天的数据,并按照日期从小到大进行排序。

select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10'

在这里插入图片描述
第二步,求日期和排名的差值.

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10')
	
select 
	mid,
	date_sub(dt, mid_dt_rank) date_dif
from
	t1;

在这里插入图片描述
第三步,对用户和差值进行分组,然后通过having选择差值相同个数大于等于3的数据取出。

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10'),
	t2 as (select 
	mid,
	date_sub(dt, mid_dt_rank) date_diff
	from t1)

SELECT mid 
from 
	t2
	group by mid, date_diff
	HAVING count(*) >= 3;

在这里插入图片描述
第四步,根据用户id去重(为什么会出现重复的mid?最近七天可能用户前3天用户连续登录满足所求指标的要求,后三天也是如此,所以会出现mid重复。这个mid可以理解为该用户满足指标的次数吧,但是指标求的是活跃用户数,所以要去重)

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10'),
	t2 as (select 
	mid,
	date_sub(dt, mid_dt_rank) date_diff
	from t1),
	t3 as (SELECT mid 
	from 
	t2
	group by mid, date_diff
	HAVING count(*) >= 3)
	
select mid	
from
	t3
	group by mid;

在这里插入图片描述
第五步,整理显示:

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >= date_add('2021-08-10',-6) and dt <= '2021-08-10'),
	t2 as (select 
	mid,
	date_sub(dt, mid_dt_rank) date_diff
	from t1),
	t3 as (SELECT mid 
	from 
	t2
	group by mid, date_diff
	HAVING count(*) >= 3),
	t4 as(select mid	
from
	t3
	group by mid) 

select 
	'2021-08-10',
	concat(date_add('2021-08-10',-6),'至','2021-08-10'),
	count(*)
from 
	t4;

在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-11 12:28:56  更:2021-08-11 12:29:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 20:53:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码