IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 和测试人员对碰,自己挖的坑,含着泪也要填完! -> 正文阅读

[大数据]和测试人员对碰,自己挖的坑,含着泪也要填完!

昨天数据接完了,想着今天交给测试就完了,应该问题不大吧,卧槽,一天没休息!
在这里插入图片描述

1.坑点一:数据类型不一致导致spark使用的时候报类型不匹配的错!

  1. 接入的时候是数据库的数据类型,但大家都知道hive一般都是用string类型,所以我ods和dwd层的数据表建的都是string类型,数据映射成hive表时没有报错,那你以为就没问题了,你错了!
  2. 使用spark-shell查询相同的表,hive里查没问题,使用sparksql查就报错,你说神奇不神奇,sparksql很强大呀,还可以给你检测类型呢(我内心:你,真绝,我不想检查啊!)
    在这里插入图片描述
    3.个人解决方式,在接入到ods的时候就做数据类型的处理,一了百了,皆大欢喜!,代码贴一哈

val srcDF: DataFrame = xxx  #源df字段各种类型
val columns: Array[String] = srcDF.columns
val array: Array[Column] = columns.map(column => col(column).cast("string"))
val resDF: DataFrame = srcDF.select(arrayColumn :_*) #目标df全转成string类型

坑点二:有坑点一引发的惨案,日期时间不匹配?时间差八个小时?

当时理解为时区转换了,用的jdk8的1.3以上版本,默认时区为上海时区。ods转了一次,dwd又转了一次,神奇的负负得正,卧槽!最后采用坑点一的处理方式,此bug就消失了,有大神解释一下吗!

坑点三:没经过ETL的字段,数据竟然不一致?

是你测试查的有问题吧,是我的第一感觉,明天我要和她好好唠唠!
在这里插入图片描述

坑点四:测试用hive查询和使用spark-shell使用同一条SQL,竟然结果不一致?

  1. 首先,说一下,结果时hive的结果是正确的,spark的结果有错误的数据,但查询sql没问题。
  2. 表是在重新接入的时候刷新过了分区,不存在数据层面的问题
  3. 你说你为啥用spark-shell又查了一遍,给你自己找事干呢,还是我太闲了,给我找事干!
  4. 求大神来给我指点迷津!
    在这里插入图片描述

明天继续和测试交锋,是男人,就不能怂(内心独白:后天就要放假了,消停点吧,姑奶奶!)
在这里插入图片描述

点了关注,不迷路。下期见吧,在这里提前祝大家,后天回家喽:
在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-09-18 10:14:40  更:2021-09-18 10:15:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 19:45:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码