| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 数据质量管理,是数据价值的生命线 -> 正文阅读 |
|
[人工智能]数据质量管理,是数据价值的生命线 |
随着组织不断发展壮大,组织内部数据量剧增,数据系统存在大量无效冗余旧数据,错误数据,残缺数据的情况,影响后续数据处理分析,使管理层决策失误。问题数据频繁出现的背后,是组织数据质量管理不善导致的。 数据质量是数据的生命线,没有高质量的数据,一切数据分析、数据挖掘、数据应用基于错误数据,数据价值会大打折扣,甚至出现完全错误的结论,浪费组织大量时间和精力,得不偿失。 本篇文章,辰哥就带大家系统了解组织数据质量管理的概念、4种常见低数据质量情况、3大影响因素、6大评价维度以及实施落地6大步骤。 —??01??— 什么是数据质量管理 1.数据质量的概念 既然要进行数据质量管理,我们首先要理解,什么是数据质量。 数据质量,指的是在组织业务,管理要求下,符合数据使用者满足业务,管理需求的评价方式。 注意,数据质量是一种评价方式,就像我们评价一个电脑是否优质,要看外观,材质,工作性能等。 对于组织来说,只要对业务管理有价值的数据,都是高质量的数据。比如一个超市的销售数据,管理者知道某种产品大卖,开始增加库存,产生更多业绩。 这个销售数据辅助管理者决策,让超市盈利更多,对组织业务和管理有价值,于是属于质量高的数据。 同理,如果一些数据不能满足某些组织的业务和管理需求,这就是质量低的数据。 比如一家公司邀请用户填写调查问卷,但问卷答案是用户乱填的,这些错误数据无法反映用户,市场真实意图,对企业了解市场没什么益处,还会导致管理者做出错误决策,这就属于质量低的数据。 2.数据质量管理的概念 我们明白数据质量的概念,知道高质量数据是发挥数据价值的基础,企业需要对数据质量管理有足够重视。 什么是数据质量管理呢?根据国际数据治理协会DAMA官方定义,数据质量管理是对数据从计划、获取、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。 简单理解,我们就是要对数据进行清洗,整理,分类,监控等一系列管理,提高数据的质量,减少数据库里面的无效数据,旧数据,残缺数据,错误数据等情况。 3.4种常见低质量数据情况 在组织数据库中,主要有4种常见低质量数据情况,分别是重要数据缺失,数据异常,数据不一致,数据重复或错误,它们是拉低数据库数据质量的元凶。 (1)重要数据缺失 第一种情况是数据缺失,它指的是一些表格,业务中,缺少的一些重要数据未被填充。 比如在CRM系统中,很多客户的手机号信息没有被获取,企业无法用短信电话触发用户,实现营销效果,导致整个CRM数据质量不高。 缺失数据产生原因主要有3个: ①有些信息暂时无法获取,或者获取信息的代价太大。比如用户的手机号信息,身份证,银行卡信息,暂时无法获取 ②信息在采集输入中遗漏。比如系统故障,导致大量数据无法输入 ③属性值不存在。比如CRM系统中,需要填写用户的微信号联系方式,但是系统未设置,导致数据缺失,影响业务发展。 数据缺失,会导致大量有价值信息未被采集,或者被丢失,说明企业收集信息,数据处理系统,数据模型方面均有欠缺。 针对缺失数据,企业可以通过简单统计分析,找到未填写数据,相关属性,对可能值进行插补填充。 (2)数据异常 第二种情况是数据异常,指的是数据与平时的业务,管理数据有很大差别,影响数据分析得出的结论。 异常数据产生的原因,最主要是数据输入错误。比如超市中,奶粉的一周的消费数量是100罐,但是最近数据系统显示一周销售数量是1000,2000,或者消费数量为1,2罐,数量波动太大,导致超市出现进货过多过少情况,影响业务发展。 针对异常数据,需要用之前数据作为基础,确定最大值和最小值,判断数据变量是否超出合理的范围,如果数据异常,系统会自动报警提醒。 (3)数据不一致 第三种情况是数据不一致,指的是在数据集成汇总的时候,多个系统分布的相同数据,出现不一致的现象。 比如一个用户,在同一银行的2个网点,均办理过业务,两个系统都存储记录过用户电话号码,但后续用户号码变更,上传总系统时,两个网点提供用户信息不一致。 不一致数据,导致银行在营销活动群发短信无法正确触达用户,影响业务发展。 针对不一致的数据,企业系统可以注意数据抽取的规则,对于大部分相同但不一致的数据,进行鉴别,修改,合并。 (4)数据重复或错误 最后一种情况,就是重复/错误数据,指的是一些数据出现重复统计,数据填写错误。 比如企业用问卷收集用户信息,很多时候用户录入数据多次保存,导致重复数据屡次录入,还有部分用户乱填问卷信息,导致数据错误的情况, 这样就导致统计结果不准确,容易做出错误决策。针对重复数据,企业可以在系统中设置过滤限定条件,清除重复数据。 3.影响数据质量3大因素 在数据日常输入,存储,管理,使用的过程中,出现数据缺失,数据异常,数据不一致,数据重复或错误情况,主要是业务,技术,管理3大方面导致的。 (1)业务影响 有时候,数据质量问题是业务引起的。很多业务部门没有统一标准,数据口径,双方理解困难,导致数据名称,单位错误各种问题。 针对业务数据问题,企业需要根据具体的业务目标,业务场景,来制定数据质量改进方案。 通常业务数据,有3个常见问题: ①业务需求不清晰。比如数据的业务描述,业务规则不清晰,有的业务部门把消费金额超过1万的划分为vip客户,有的把消费5万划分为vip客户,导致数据混乱。 ②业务数据输入不规范。常见的业务数据输入,包括大小写,特殊符号输入问题错误,导致不规范数据频繁存在。 ③虚假数据。很多时候业务数据输入,没有专人审核校对,产生假数据情况。 (2)技术影响 技术问题引起的数据质量偏低,也是很常见的。技术方面,主要指的是数据从收集,存储,功处理等过程出现问题。 技术常见有5大数据问题: ①数据源质量问题。比如很多生产数据是通过生产端采集,在生产端就存在重复,不完整,不准确的数据情况,采集过程中,没有对数据进行清洗和处理 ②数据采集过程质量问题。不同的采集点,采集时间,采集频率等设置不正确,也会导致采集的数据不准确,拉低数据质量 ③数据传输过程质量问题。在数据传输过程中,数据接口问题,接口参数配置错误,网络波动等,都会造成传输过程中数据遗失,出现质量问题 ④数据装载过程问题。比如数据清洗的规则,数据转换规则,数据装载规则配置问题等 ⑤数据存储问题。数据存储设计不合理,存储能力有限,导致人为调整数据,引起的数据丢失,数据记录重复等问题 (3)管理影响 很多数据,因为管理手段,流程不完善,也容易导致数据质量偏低的问题。 常见有5大管理问题: ①对数据质量问题不够重视。组织高层对数据质量不够重视,没有重点宣传,导致数据管理不上心,存在大量低质量数据。 ②没有数据治理组织,缺乏数据追责机制。出现问题,找不到负责人,数据质量管理无法推进 ③缺乏数据规划。没有明确的确保数据质量目标,没有相关的流程和管理制度 ④数据输入规范不统一。不同的业务部门,不同时间处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾 ⑤缺乏有效的数据监控机制。历史数据的检核,新增数据的审核,没有明确和有效的控制措施,出现数据质量问题无法考核。 总得来说,影响数据质量的因素,可以总结为2类:一类是主观因素,一类是客观因素。 主观因素,指的是数据各环节处理中,由于人为的疏忽或者管理缺陷等,导致数据错误,数据遗漏,数据丢失的情况。客观因素,指的是在数据流通的各个环节,由于系统异常或者流程设置不当,引起的数据质量问题。 —??02?— 数据质量评判6大维度 数据质量管理既然这么重要,那么什么样的数据才算高质量数据呢?国际数据治理协会DAMA制定了数据质量评判的6大维度,分别是完整性,一致性,准确性,时效性,唯一性和可访问性,只要数据满足这6大属性,都属于高质量数据。 1.完整性 完整性,指的是数据记录的信息是否完整,是否存在缺陷的情况。数据残缺主要包括记录的残缺和重要字段信息的残缺,这两种情况都会造成统计结果不准确。 比如CRM系统中,用户联系方式手机号未填写,就是记录缺失;如果手机号记录缺少1位数字,就是信息残缺。 2.一致性 一致性,指的是数据在数据仓库的不同系统中,要保证数据的一致性。 比如一个用户在电商平台下单购物,那么用户数据系统,仓库发货系统,财务系统的各个节点,都需要保证用户ID保持一致。一个银行用户,在不同银行网点办理业务,用户数据信息需要保持一致性。 3.准确性 准确性,指的是数据记录的信息和数据是否准确,是否存在异常,或者错误的信息。 比如银行的用户信息数据,用户的姓名,身份证号,地址,联系电话,都需要保证准确,不能出现有错误的情况。 4.时效性 第4个是时效性,指的是数据的时间和效果需要保证,有效及时的数据,才能发挥价值。 比如当公司网络系统出现故障,运维人员需要希望立刻拿到实时关键的运行日志数据,方便快速排查解决问题。如果数据陈旧,与出现的问题距离时间太长,那么就属于无效数据。 5.合规性 合规性,指的是数据的值,格式和展现形式,必须符合数据定义和业务定义的要求。 比如销售系统中,货款规定的单位是千,我们就不能使用万,保证所有的数据都符合数据标准规范。 6.可访问性 可访问性,指的是给用户想要使用这些数据的时候,能有访问权限。 企业的数据管理平台,需要提供统一的数据资源目录,来告诉使用者企业有哪些数据?存放在哪里?以及如何访问到这些数据。 比如我们去银行自助服务机中办理业务,可以查询我们的个人信息,银行流水等数据,这些都是表明数据要有可访问性。毕竟能被使用的数据,才是有价值的数据。 —??03??— 数据质量管理实施6部曲 前面的文章内容,我们已经知道高质量的数据是企业使用数据,挖掘数据的前提,没有高质量的数据,后面的数据分析,数据辅助业务和管理,都会变成无稽之谈。 那么企业应该如何把数据质量管理落实推进下去呢?主要有6个步骤:? ? ?? 1.确定目标和范围 第一步,就是组织要确认数据治理的目标和范围,要达到什么样的程度,满足什么要求,确定大的方向,哪些范围内的数据需要提高数据质量。 比如一个银行,需要开展数据质量管理项目,确定的目标是应对监管,业务的要求,那么治理的数据质量范围,就在监管要求的数据,业务相关重要的数据即可。 2.数据质量调研 把治理目标和范围确定以后,第二步,就是组织要对内部数据质量进行调研。 数据质量调研是数据质量管理的基础,通过调研,收集组织内部常见数据质量问题,形成数据问题库,然后根据数据重要影响程度排序,为后续的数据质量提升提供参考。 一般情况下,进行数据质量调研,我们要关注3个点: ①调研企业系统质量情况。用调研表的方式,与业务人员,技术人员进行数据在业务使用中的情况,数据问题分布进行了解。 ②分析数据质量问题。把问题收集后,用影响范围,层级,类型来分析拆解,对质量问题进行优先级排序 ③制定数据质量提升范围。根据项目目标,数据问题优先级,来确定哪些数据质量需要提升。 3.设定数据质量管理角色,流程和制度 把问题找出后,第三步我们需要制定合适的数据质量管理角色,流程和制度。 组织需要明确数据质量管理角色,划分出单独的组织架构,落实追责,才能保障数据质量提升能落实落地。 一般情况下,数据治理组织架构主要有4个角色: ①数据治理管控委员会,主要职责是负责数据治理项目,组织协调推进项目实施监督和落地,该部门职位为组织领导层担任。 ②数据质量管理岗,主要负责协调和管理数据质量工作,负责组织,推动数据质量相关工作的开展,该部门职位为IT部门领导担任。 ③业务部门成员,主要是数据的生产者和使用者,负责从业务层面参与到数据管理工作,设置数据质量管理专员,发现质量问题并提出改进建议,该部门主要为各业务部门成员担任。 ④科技部开发中心,主要是通过技术层面参与数据质量管理工作,该部门职位主要由IT部门技术人员担任。 数据质量管理流程,主要分业务流程和技术流程,业务人员平时如何发现数据质量问题,如何上报,如何提交问题的流程,技术流程,包括数据质量提升,数据修改等流程。 数据质量管理制度,从制度上确定相关的原则和政策,确保数据治理提升项目有序进行。 数据质量管理制度,主要有《数据质量管理制度》《数据质量考核办法》《数据质量提升策略》。 4.数据质量规则制定 把组织架构,管理流程,管理制度从宏观层面确定之后,第四步就是具体的实施落地阶段,首先组织需要制定出明确的数据质量规则,告诉组织内成员,什么能做,什么不能做,遇到不同问题如何处理。 通常,组织数据质量规则的制定,需要考虑4个方面: ①已有的数据标准。很多企业原先有一定的数据标准,但是随着组织发展,标准慢慢开始不适应,这个时候企业可以根据已有的数据治理规则,作为重要参考依据 ②监管要求,行业规范。很多组织比如银行,政务,电力都有监管要求,行业标准,这个时候监管要求和行业规范,也是参考的重要依据。 ③调研的数据质量问题。通过之前数据质量调研中发现的问题,并且进行影响程度排序,重要的问题也是制定数据质量规则的重要依据。 ④业务需求。组织内部各业务部门对于数据质量也是拥有一定要求,可以根据内部的业务需求,来制定数据质量规则。 5.数据质量平台建设 制定好数据质量规则之后,第五步,组织需要把相关的规则,流程录入到相应的数据质量管理系统之中。 ? ? ? ? ?? ? ? ? 以亿信华辰数据治理产品睿治为例,睿治使用流程主要是4个步骤: 第一步,录入数据质量规则。把制定好的数据质量规则,录入到系统里 第二步,建立质量检查方案。企业根据自己的需求,建立相关的质量检测方案 第三步,执行质检方案。企业根据质检方案,对整个数据进行检核 第四步,数据质量报告。根据制定的规则,检核所有数据,睿治系统会自动生成一份数据治理报告,告诉管理人员数据质量情况 6.数据质量运营持续提升 数据治理系统设置好后,最后一步就是组织要通过建立长效的质量管理机制,持续提升内部数据质量。 数据质量持续提升,主要分为4个步骤: ①全面收集与发现数据问题,形成数据质量问题收集常态机制。平时的业务,技术,管理问题,需要建立相关问题收集,反馈机制。 ②优化数据问题分析方法,找到问题根本原因。根据问题影响程度,进行量化分析,从管理流程,数据认责及操作规范方面识别根本原因,根据问题严重性进行优先级排序。 ③根据业务流程需要,制定合适的数据问题解决方案。根据方案,及时跟踪问题解决情况,定期发布数据质量报告。 ④建立数据质量考核机制,进行数据质量监管常态化运转。组织要定时定期对数据质量进行跟踪验证,提高数据质量提升速度,毕竟数据质量的提升是一个长期的过程。 —??04??— 智能数据治理平台—睿治 数据质量的高低,是数据价值的体现,没有高质量的数据,那么数据价值的挖掘,数据对于企业的监管,管理,业务的帮助,将会是无稽之谈。 睿治是亿信华辰自主研发的数据全生命周期的数据治理平台,它融合数据集成,数据交换,实时计算存储,元数据管理,数据标准管理,数据质量管理,主数据管理,数据资产管理,数据安全管理,数据生命周期管理十大产品模块,打通数据治理各个环节,可快速满足政府,企业用户各类不同的数据治理场景。 睿治平台中的数据质量管理功能,内置13种行业数据质量的监控规则,都有完整成熟的解决方案,功能点包括:数据质量监控,规则模板管理,财务数据质检,客户之间,日志监控,数据质检报告等。 通过数据质量的监控功能,可以发现问题,然后推给技术和业务人员,进行整改,睿治系统可以自动生成数据质检报告,定期让管理人员,使用人员看到数据质量的提升管理效果。 ? ? ? ? ? ? ?? ??质量检查方案规则定义 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 2:38:09- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |