IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hive insert Overrite partition踩坑 -> 正文阅读

[大数据]Hive insert Overrite partition踩坑

Hive insert Overrite partition 动态分区踩坑实录

业务上要求有一张表要动态插入按照时间分区的数据,然后就用了如下语法(已脱敏):

先说结论:动态分区按照查询的最后一个字段来,我这里没有按照这个规范写,就报了很多奇奇怪怪的错误。

在Application上找到spark的执行日志时,发现卡在最后一个stage的repartitionAndSortWithPartitionsmapPartitions 阶段,而且表现为所有executor上的task数都为0,但是都有shuffle read的记录数,然后Task的执行里面会一直显示Running状态,也不报错,但是跑了15个小时,这11个task的进度条还是 0/11 ,只能kill掉。确认dynamic开启了非严格模式,给的分区数也足够。

set hive.exec.dynamic.partition = true;
set hive.exec.dynamic.partition.mode = nonstrict;
set hive.exec.max.dynamic.partitions = 10000;
set hive.exec.max.dynamic.partitions.pernode = 10000;
drop table if exists db1.table1;
create table db1.table1
(
    id string,
    code string,
    pred_sell double
)
partitioned by (insert_date string)
STORED AS PARQUET
;

insert into table db1.table1
partition (insert_date)
select
a.id,
a.code,
a.insert_date,
b.sell as pred_sell
from db1.table1 a join db1.table2 b
on a.id=b.id and a.code=b.code and cast(date_format(a.insert_date,'yyyyMMdd') as string) >= '${yesterday_time}';

然后找回代码中,发现我最后一个字段select的是b.sell as pred_sell,而分区中填的是insert_date,这就导致我的任务一直卡在repartition那里。

之后事情就多了,任务跑的时间过长报了RPC channel close问题,然后又是spark Return Code3问题…还是怪自己不够细心。

综上,总结一下,Hive建表时指定的分区字段会自动跟在表字段的最下方,然后如果使用insert into partition select * from table 方式插入的话,要记得字段位置对应,特别是分区字段放到普通字段下面,与创建表的顺序对应才行。

drop table if exists db1.table1;
create table db1.table1
(
    id string,
    code string,
    pred_sell double
)
partitioned by (insert_date string)
STORED AS PARQUET
;

insert into table db1.table1
partition (insert_date)
select
a.id,
a.code,
b.sell as pred_sell,
a.insert_date,
from db1.table1 a join db1.table2 b
on a.id=b.id and a.code=b.code and cast(date_format(a.insert_date,'yyyyMMdd') as string) >= '${yesterday_time}';

就改了一下字段的顺序,它就跑通了。

以此记录一下这个莫名其妙的问题。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-24 00:08:15  更:2021-07-24 00:08:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/3 23:29:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码