IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据治理中的数据分类 -> 正文阅读

[大数据]数据治理中的数据分类

一、记录类数据

1、事务数据

事务是数据库处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。

2、业务数据

业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。

3、日志数据

早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。

二、管理类数据

1、元数据

元数据(Meta-data)是描述数据的数据。
与业务规则、流程相关的描述性数据,我们称之为业务元数据;
与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
与数据操作相关的描述性数据,我们称之为操作元数据;
与数据管理相关的描述性数据,我们称之为管理元数据。

元数据解决什么核心问题?
元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。

2、主数据

主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。其实Master Data翻译成“核心数据”可能会更合适,因此主数据也被成为“黄金数据”。这么说吧,其实阿里的One ID就是主数据理念的结果。

对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。

所以我们总结一下,主数据一共有以下种类:

与人相关的:用户、客户、公民、病人、供应商、学生等;
与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
与场相关的:地址库、楼盘字典、POI信息等;
与规则相关的:财务的账套等。

主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:

确定核心业务环节
识别主数据
定义和维护主数据匹配规则(代码规则、ID Mapping)
建立及发布数据标准
主数据的后续维护及更新

3、参考数据

参考数据就是码表。

三、分析类数据

维度模型中的维度、度量、指标。

附:另一角度的说明

这里所提的数据分类,是指在企业信息化领域做数据治理通常的分类方式。我们通常将数据分为:主数据、交易数据、参考数据、元数据和统计分析数据(指标)。上一张图来说明:


为什么要谈数据分类,因为对每类数据进行治理时,关注点、方法和效果都不同,需要区别对待。下面谈一点笔者个人的理解:

主数据关注的是“人”和“物”,主数据管理(MDM)是数据治理领域一个专门的话题,其主要目的是对关键业务实体(如员工、客户、产品、供应商等)建立统一视图,让客观世界里本是同一个人或物,在数据世界里也能做到唯一识别,而不是在不同系统、不同业务中成为不同的人或物。主数据管理在各行业企业已经有大量的实践,其核心管理思想是和后面要谈的数据治理方法一脉相承的。
交易数据关注的是“事”,交易数据没有形成单独的数据治理领域,由于交易数据是BI分析的基础,因此往往在数据质量管理中重点关注;
参考数据是更细粒度的数据,是对“人”“事”“物”的某些属性进行规范性描述的,对参考数据的管理一般会与主数据管理同时进行,或与BI数据质量管理同时进行,因为指标维度和维值直接影响到BI数据质量;
元数据是一个包罗万象的概念,其本质是为数据提供描述,所以任何数据都有元数据。数据治理领域的元数据,更多是指BI、数据仓库这个范畴内的元数据(国际上有Common Warehouse Meta-model规范),此外还有信息资源管理的元数据(如Dublin core协议)、地理信息元数据、气象元数据等等。正因为如此广泛,也造成了从业者对其有极高的预期以及实践后的极大失落。
统计分析数据(指标),无需多言,目前BI系统建设的主要作用就是做各种指标和报表的计算和展示。指标往往是数据治理的重点,指标的数据流分析、指标数值的波动性、平衡性监控,几乎是各个企业做数据治理的必备应用。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-03-10 22:36:15  更:2022-03-10 22:38:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 8:56:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码