IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据治理——数据质量管理 -> 正文阅读

[大数据]数据治理——数据质量管理

目录

数据质量保障原则

完整性

准确性

一致性

及时性

常见的数据监控原则

单表数据量监控

单表空值检测

单表重复值检测

单表值域检测

跨表数据量对比


在当今这个大数据时代,数据质量对于数据的价值有着至关重要的意义。它是数据有效影响业务并驱动业务发展的基础。对于企业级的数据治理项目,数据质量管理是其中重要的一环。

数据质量保障原则

如何评价数据质量的好坏,目前业界已基本达成共识。主要从以下四个方面进行评估:

完整性、准确性、一致性和及时性。

  • 完整性

完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。需要重点关注数据的生产环节(原始数据的数据同步)和加工环节(数仓ETL)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。例如,电商交易中的每日交易数据量,(除了双11特殊情况)一般不会出现大幅波动;订单ID、商品ID、卖家ID、买家ID等都是必然不为空的。

  • 准确性

准确性是指数据记录中信息和数据是否准确、不存在明显的错误或异常。例如,在用户行为数据分析场景中,UV、PV这类指标数值小于0,则明显是错误数据。

  • 一致性

对于不同的业务流程和节点,来源相同的数据必须保持一致性。例如,在线教育业务中,课程表字段的subject字段中如果有英语、English两种表述,在您group by subject时会出现两条记录。

  • 及时性

及时性主要体现在数据应用层的指标数据可以及时产出。在保证了上面的完整性、准确性、一致性的基础上,保障数据及时产出,才更能发挥数据的价值。保证及时性,需要确保整个数据加工链路上的每个环节都可以准时成功产出。

常见的数据监控原则

单表数据量监控

一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值

单表空值检测

某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内

单表重复值检测

一个或多个字段是否满足某些规则

单表值域检测

一个或多个字段没有重复记录

跨表数据量对比

主要针对同步流程,监控两张表的数据量是否一致

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-04-15 00:05:37  更:2022-04-15 00:11:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 2:32:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码