IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据治理要点 -> 正文阅读

[大数据]数据治理要点


已经在公司待了有一段时间了,自己也亲身接触和实践了一些项目,最近发现自己一直没有进步,想了想或许是自己一直没有反思总结,自己这段时间也经常在做数据治理,这里记录并且持续更新自己对于一些数据治理的体会,以下仅是我自己的个人拙见。

数据治理-ods

我一直在做的都是离线数仓,整个的大体框架是数据接入的stg层,经过治理到ods,这里的治理可以是对数据进行相应的解码,或者是对不同规则的数据进行统一规则,比如某一个描述日期的字段,具体内容中出现了“天”、“小时”、“分钟”等,需要进行统一规则,比如对这一字段进行拆分,还可以是对某些老的行政区划编码进行再更新等等,这里治理的地方非常庞杂,具体情况具体对待。

治理前言-确定表主键

一个标准的表进行数据治理要包含几部分,首先表一定要有主键,表里的每一条数据都要能够唯一确定这一条数据,对主键的选择至关重要,有时候,数据来源方会在表注释中将主键标注出来,比如这张表中就将主键是哪个字段标识了出来,之后与来源发沟通一下,确定无误,就可以直接选取。如果一张表是描述有关人员的信息,里面涉及到身份证号等字段,那就可以直接对身份证号加密,并直接当选主键,在治理之后的ods表中,再将身份证号为空的内容剔除,因为为空,我们在之后的数据供给中用不到它。如果表数据内容是有关在建项目等内容,那就需要进行尝试,并配置联合主键,比如将具体项目代码信息与项目名称或者建设单位,监工单位,设计单位,施工单位,勘察单位等进行联合拼接,确定主键
在这里插入图片描述

数据治理-行政区划

在进行治理行政区划时,有时会出现左侧这种行政区划,出现“下城区”这类字眼,杭州目前已没有下城区,那是老的行政区划,这里我们就需要对行政区划做新的更新,比如像这样加两列,将新的行政区划编码与对应的行政区划名称列出来
在这里插入图片描述

数据治理-字段拆分

由于数据安全的一些限制,这里我不能展示过多的数据条目和具体内容,只能大致用文字描述其含义,比如这里我们在获取元数据的时候,是一条描述项目工期的数据,这里原值存在直来直往的数字,存在数字与汉字并存,存在数字与英文字母,这里我们就需要对数据进行拆分,比如将具体的数字拿出来单做一列,将剩余的文字描述信息单做一列,并且还有一列直接取原值,因为我们并不知道需求方需要什么样的数据,他们可能会看到我们的表结构与一些具体的数据条目,对我们提需求,那我们就需要将完全的数据展示给他们,他们做抉择
在这里插入图片描述

数据治理-必去的脏数据

对表进行数据治理说到底就是对表里面的每一个字段都进行治理,我们经常会对表中的每一个字段都看一遍,有时候我们会看到类似项目内容描述这样的字段,但它的具体内容可能是“测试”,或者“ceshi”这样的字眼,并且这一条数据后续的数据项都没有具体的含义,那么像这样的字段我们都需要进行去除,这里可以用一些好用的正则表达式来进行过滤,一些简单的正则表达式并不难,这里是几个很常用的正则表达式的例子

REGEXP ‘[0-9]+’ THEN NULL 包含数字置空

REGEXP ‘[0-9]+$’ THEN NULL 全为数字置空

REGEXP ‘0|00000000’ THEN NULL 为0或者8个0置空

正则表达式只提取数字
REGEXP_REPLACE(bargaindays,‘[^0-9]’,‘’)

正则表达式只提取中文
REGEXP_REPLACE(bargaindays,‘[\u4e00-\u9fa5]’,‘’)

数据治理-全角转半角

这里涉及到的就是一些中英文状态下的一些字符的规范,比如中文状态下的引号冒号:,和英文状态下的冒号:,两者可能会同时出现在某一个字段中,这里我们就需要对其进行统一格式转换

数据治理还有许多情况和规范,来日再更。

感谢阅读,我是啊帅和和,大数据专业刚刚毕业的应届生。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-08-19 19:12:48  更:2022-08-19 19:16:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 17:27:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码