IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 普通用户查看全量hive库的表最后访问时间 -> 正文阅读

[大数据]普通用户查看全量hive库的表最后访问时间

我们在使用大数据集群时,时间越长越发现有大量的冗余数据表,删除却发现所有人的使用情况不一样,删除的话可能会影响当前正在运行的业务

于是我尝试了下面几种方法

查看表描述

desc formatted table_name
查看表描述
在图上我们可以看到这里只能看到最后一次DDL时间(也就是增删改的时间),这样并不能拿到select的时间

HDFS时间
hadoop fs -ls /user/hive/warehouse/tmp.db/regexp_test/
hadoop fs -stat /user/hive/warehouse/tmp.db/regexp_test/

hdfs时间
这个方式同样不能拿到放问时间,只能拿到修改时间

最终在大佬的知道下,学到了一个新命令

use tmp;show table extended like regexp_test
表时间
此刻我们终于拿到了我们想要的访问时间lastAccessTime,但是有另外一个问题,权限问题,我们没有权限的表不能用hive/beeline 去查看,spark-sql 无法执行该命令

hive自带黑科技–hcat

hcat 是为了让没有hive账户的人去查看hive表信息的工具
下面提供一个批量获取数据库全部表访问时间的脚本

aa=`hcat -e "show databases;"`
array=$aa
for i in ${array[@]}
do 
    dd=`show tables in $i`
    arr=${dd}
    for j in ${arr[@]}
      echo ";use ${i};show table extended like ${j}"  >> xx.sql
    done
done

hcat -f xx.sql >> result_table_info.txt

集群表越多运行时间越长,可以选择部分数据库运行

执行完是一个类型map<key,value>的文件,可以取关键行信息来操作

#1.选取我们想要的行
cat result_table_info.txt|grep -E 'location|totalFileSize|lastAccessTime'|awk -F':' '{print $NF}' >> resut_user_info.txt
#2.把没个表的信息拼成一行,两种方法均可
cat resut_user_info.txt | sed 'N;N;s/\n/,/g'   #行数-1个N;
or
cat  awk 'ORS=NR%3?" ":"\n"{print }'|sed 's/ /,/g'   # 对3取余的3目运算

最后可以吧文件到入mysql,或hive 数据库,转化时间戳(毫秒级),可以将一年内无访问的表删除(备份表除外)

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-11 16:42:24  更:2021-07-11 16:43:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/7 10:52:53-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码