[大数据] hive sql 求所有用户和活跃用户的总数及平均年龄

hive sql 求所有用户和活跃用户的总数及平均年龄。（活跃用户指连续两天都有访问记录的用户）

有日志如下，请写出代码求得所有用户和活跃用户的总数及平均年龄。（活跃用户指连续两天都有访问记录的用户）

有日志如下，请写出代码求得所有用户和活跃用户的总数及平均年龄。（活跃用户指连续两天都有访问记录的用户）

建表

导入数据

注意：这里都默认每个人的年龄是不变的，不考虑一个人的年龄增长的情况；

用到的知识点有hive的 over（）开窗函数、row_number（）函数、lead（）函数

思路一

1. 求所有用户的总数和平均年龄

1)先求出每个用户的年龄

2) 再求所有用户的总数和平均年龄

2.求活跃用户总数和平均年龄（活跃用户指连续两天都有访问记录的用户）

1) 因为一个用户每天可能登陆多次，计算活跃用户数时每天登陆一次就算今日活跃过了，所以要对每日登陆的用户去重

2) 这里开始到了活跃用户的计算逻辑了：

先用 row_number() over(partiton by _ order by _) 对用户进行分组，对登陆日期进行排序，排序完就会多出来一列(排序的列)；

再用时间列减去排序的列（rk），在连续登陆的情况下，每次相减的结果都相同；

3) 活跃用户的规则是连续2次登陆就算活跃用户，所以以用户id和ds列进行分组，统计组内的数据条数，当条数大于等于2就是活跃用户；可以顺便得到连续登陆的开始日期，结束日期，连续登陆的天数；

4)求活跃用户总数和平均年龄

第一步：因为同一个用户可以活跃多次(在不同时间段内都满足连续登陆2天)，但只算一个活跃用户，因此要先去重，先求出活跃用户的id和对应的年龄(去重)；

第二步：计算活跃用户总数和平均年龄

最后一步：将这两个结果结合起来

思路二：用hive里的函数lead()

求活跃用户总数和平均年龄（活跃用户指连续两天都有访问记录的用户）

连续登陆2天就算活跃用户:
就用 lead(t1.day_time,1) over(partition by t1.user_id order by t1.day_time) nt
然后 nt-day_time=1;

连续登陆3天就算活跃用户:
就用 lead(t1.day_time,2) over(partition by t1.user_id order by t1.day_time) nt
然后 nt-day_time=2;

连续登陆4天就算活跃用户:
就用 lead(t1.day_time,3) over(partition by t1.user_id order by t1.day_time) nt
然后 nt-day_time=3;