目录
数据质量保障原则
完整性
准确性
一致性
及时性
常见的数据监控原则
单表数据量监控
单表空值检测
单表重复值检测
单表值域检测
跨表数据量对比
在当今这个大数据时代,数据质量对于数据的价值有着至关重要的意义。它是数据有效影响业务并驱动业务发展的基础。对于企业级的数据治理项目,数据质量管理是其中重要的一环。
数据质量保障原则
如何评价数据质量的好坏,目前业界已基本达成共识。主要从以下四个方面进行评估:
完整性、准确性、一致性和及时性。
完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。需要重点关注数据的生产环节(原始数据的数据同步)和加工环节(数仓ETL)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。例如,电商交易中的每日交易数据量,(除了双11特殊情况)一般不会出现大幅波动;订单ID、商品ID、卖家ID、买家ID等都是必然不为空的。
准确性是指数据记录中信息和数据是否准确、不存在明显的错误或异常。例如,在用户行为数据分析场景中,UV、PV这类指标数值小于0,则明显是错误数据。
对于不同的业务流程和节点,来源相同的数据必须保持一致性。例如,在线教育业务中,课程表字段的subject字段中如果有英语、English两种表述,在您group by subject时会出现两条记录。
及时性主要体现在数据应用层的指标数据可以及时产出。在保证了上面的完整性、准确性、一致性的基础上,保障数据及时产出,才更能发挥数据的价值。保证及时性,需要确保整个数据加工链路上的每个环节都可以准时成功产出。
常见的数据监控原则
单表数据量监控
一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值
单表空值检测
某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内
单表重复值检测
一个或多个字段是否满足某些规则
单表值域检测
一个或多个字段没有重复记录
跨表数据量对比
主要针对同步流程,监控两张表的数据量是否一致
|