IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hive 分区表增加字段并赋值 -> 正文阅读

[大数据]Hive 分区表增加字段并赋值

Hive 分区表增加字段并赋值


前言

最近工作上需要用到大数据平台,之前没用过大数据相关的工具,所以踩了不少坑。今天就把在分区表中添加字段的坑分享出来,避免再次踩坑。

背景

今天接到一个需求,在原有的 hive 分区表中需要添加一个字段,并且原来的数据中这个字段还是需要赋值。后续这个值是由 ETL 任务去拉取的,所以只需要解决好原来的数据。

解决方案

  1. 为了数据不丢失,先把原表备份,备份表名叫 xxx_temp(备份表这里不给出语句)。
  2. 备份完了之后,开始把原表结算复制一份,然后添加新加的字段,复制表名叫 xxx_temp1。
  3. 在把原表的数据复制到 xxx_temp1 的同时,把新加的字段也赋值上去。
  4. 把原表的数据 truncate 掉,然后添加新字段(这里为了尝试,先用了另外一个备份表 xxx_temp2)。
  5. 把复制表(xxx_temp1)中的数据 insert 到原表里面,任务完成。

具体操作

代码如下:

-- 创建表,这里需要用 like,不能用 as,如果用 as 分区表的分区是不会复制到新表上
create table 库名.xxx_temp1 like 库名.xxx; 
-- 新增表字段
alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc");
-- 如果上面用了 like,里面的数据是不会到新表,需要执行下面的语句,把数据拉到新表
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table 库名.xxx_temp1 partition(inc_day) select *, inc_day from 库名.xxx;
-- 查看数据是否拉到新表
select * from 库名.xxx_temp1 limit 10;
select count(*) from 库名.xxx_temp1 limit 10;

-- 删除 xxx_temp2
drop table 库名.xxx_temp2;
-- 创建 xxx_temp2
create table 库名.xxx_temp2 like 库名.xxx;
-- 赋值
set hive.exec.dynamic.partition.mode=nonstrict;
insert into table 库名.xxx_temp2 partition(inc_day) select * from 库名.xxx;
-- 删除表 xxx_temp2 中数据
truncate table库名.xxx_temp2;
-- 特别注意这里,分区表需要添加两次,只添加一次的话,到时候会没数据
alter table 库名.xxx_temp2 add columns (xxx_fff string COMMENT "ccc");
alter table 库名.xxx_temp2 partition(inc_day) add columns (xxx_fff string COMMENT "ccc");
-- 插入备份表的数据
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table 库名.xxx_temp2 partition(inc_day) select * from 库名.xxx_temp1;
-- 查询是否有数据和数据是否正确
select * from 库名.xxx_temp2 limit 10;

注意事项

这里有两点需要注意的事项:

  1. 如果分区表里没有分区,或者说没有数据时,添加字段只需要添加一次就行了,也就是执行alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc");这个语句就行了。
  2. 如果分区表里有分区,前提是分区里面没有数据,添加字段时就需要添加两次。如果不是,那从另一个表复制数据过来时,这个新增的字段是不会有值的。
    注意:这里是因为要处理原来存在分区的数据,所以第二次添加是需要在之前的分区也添加新增的字段才会生效。
    alter table 库名.xxx_temp2 add columns (xxx_fff string COMMENT "ccc");
    alter table 库名.xxx_temp2 partition(inc_day) add columns (xxx_fff string COMMENT "ccc");
    

总结

这是在用大数据工具中的踩坑经历,希望能对大家有帮助,共同学习。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-12 23:31:26  更:2021-10-12 23:32:43 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 0:58:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码