[大数据] sparksql 谓词下推功能的bug

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> sparksql 谓词下推功能的bug -> 正文阅读

[大数据]sparksql 谓词下推功能的bug

场景描述，

一个普通的sql，因为查询条件过多，导致task一直在filter, 假死的状态。spark的版本为spark-2.3

sql语句

CREATE TABLE `temp.tmp_st_loan_bfm_crdamt_slast_xray20210727`(
  `userid` bigint, 
  `flag_type` string, 
  `score_bairong` bigint, 
  `bfm_used_rate` double, 
  `lrm_credit_amt` bigint, 
  `r3` int, 
  `r4` int, 
  `r5` int, 
  `r6` int, 
  `r8` int, 
  `r9` int, 
  `r10` int, 
  `r11` int, 
  `r12` int, 
  `r13` int, 
  `r14` int, 
  `r15` int, 
  `r16` int, 
  `r17` int, 
  `r18` int)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
TBLPROPERTIES (
  'transient_lastDdlTime'='1627429670');
--  查询语句
  select
    *
from
    temp.tmp_st_loan_bfm_crdamt_slast_xray20210727
where
    r3 = 1 
    and r4 = 1
    and r5 = 1
    and r6 = 1
    and r8 = 1
    and r9 = 1
    and r10 = 1
    and r11 = 1
    and r12 = 1
    and r13 = 1
    and r14 = 1
    and r15 = 1
    and r16 = 1
    and r17 = 1 
    and r18 = 1