IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 商业数据的加工处理 -> 正文阅读

[人工智能]商业数据的加工处理

目录

商业数据的加工

抽取数据源中的指定数据

数据源的分类汇总(分组)

完善数据源

透视列与逆透视列

商业数据的整理与转换

查询编辑器

数据排序和筛选

数据源合并与转换

数据合并的重要性

数据合并的优点

格式和属性设置

创建和管理关系

数据建模


商业数据的加工

抽取数据源中的指定数据

有时候我们导入的数据源并不是我们全部所需要的,我们只需要其中的部分数据,这样的情况下,我们可以从数据源中进行满足条件的数据抽取。
数据抽取的方式大致有:

  1. 在数据库中使用SELECT语句进行指定数据的抽取
  2. 使用筛选功能抽取数据
  3. 使用函数抽取数据(如F、VLOOKUP函数等)等

数据源的分类汇总(分组)

分类汇总是对所有资料分类进行汇总。把资料进行数据化后,先按照某一标准进行分类,然后在分完类的基础上对各类别相关数据分别进行求和、求平均数、求个数、求最大值、求最小值等方法的汇总。

我们日常工作中经常接触到二维数据表格,我们经常需要根据表中某列数据字段对数据进行分类汇总。

数据分类汇总通常可以满足多种数据整理需求,如:

  1. 既想分类汇总,又想分类打印
  2. 不想分类打印,只是想随时查看各类数据的明细和统计情况
  3. 不想打乱正常的流水式数据表格的数据顺序,而是想随时查看各类数据的统计结果

分类汇总是统计中常用的方法。比如统计学生成绩,及格不及格的归类,分优良中差等级归类等。

完善数据源

在数据加工中,完善数据源的方式大致有:

  1. 根据现有数据进行信息的提取
  2. 对数据源中的原有数据列进行有效拆分
  3. 进行添加列和添加行的操作
  4. 根据数据列进行表达式的计算生成新列数据
  5. 进行分类汇总、条件列的操作方式完善数据源等等

透视列与逆透视列

这是对互逆的过程。

逆透视列是将二维表转化为一维表,一维表便于系统进行数据处理和分析。

透视列是将一维表转化为二维表,二维表更符合人的观察习惯。

概念:

一维表:每列都是独立属性,列和列之间不能在归为一类概念。录入原始数据,一般要有一维表。

二维表:至少有部分列是非独立的,同类概念/属性/参数(可归类为一类),那么就是二维表。二
维表,主要目的是展示,更容易理解,发现规律。

商业数据的整理与转换

查询编辑器

使用查询编辑器可连接到一个或多个数据源,调整和转换数据以满足自己的需要,然后将该模型加载到数据建模页面进行关系建模。

打开查询编辑器的方式有两种:

  1. 导入数据的时候,可以在导航器界面看到编辑的选项按钮,如果选择“编辑”,此时将启动“查询编辑器”并使用你从数据源中选择的表或其他实体进行填充。
  2. 通过点击开始功能区中的编辑查询按钮直接启动查询编辑器。

一旦查询编辑器与数据进行加载后,可以看到以下几个分区:

  1. 在功能区中,许多按钮当前处于活动状态,以与查询中的数据进行交互
  2. 在左窗格中,列出了所有查询(每个查询各对应一个表或一个实体)并可供选择、查看和定型
  3. 在中央窗格中,将显示已选择查询中的数据,可供调整
  4. 显示的查询设置窗口列出了查询的属性和应用步骤

在查询编辑器中,可以实现:

  1. 对数据的基本操作:如行列的管理和操作,数据类型的转换,数据的追加和合并等
  2. 对数据的转换:如对表格的转换,任意列和文本列的转换与操作等
  3. 对列的添加:添加条件列、索引列、自定义列以及调用函数等
  4. 在视图中可以打开高级编辑器,进行M函数的输入和管理

数据排序和筛选

排序方法有很多,可以按行、按列、升序、降序排序,也可以按颜色进行排序,有些时候我们也会多条件排序,比如先按地区,每个地区又从高到低排序等等。普通的排序,我们选中所要排序的列的某一个单元格, 点击右键,排序,选择要升序还是降序即可。第二种排序就是自定义排序,操作和普通排序是一样的,只是自定义排序可以选择多个条件。

筛选功能是非常的强大,可以单条件筛选,也可以多条件筛选,不同的格式筛选也会有不同的方法,例如:对日期的筛选我们可以筛选是介于某个时间段内、在某个时期之后的、或者是仅看某个月或者某个季度等等,像文本就是包含或者等于或者不等于某个字某个短语的,数字的就是更多了,等于、不等于、大于小于,大于等于等等。

两者的区别在于:

排序是为了将某列按照一定顺序(正序或者倒序)来排列。

筛选是为了将需要的值所在的行筛选出来。

数据源合并与转换

数据合并是把在不同数据源的数据收集、整理、清洗并加工,然后转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。

数据合并的重要性

  1. 数据和信息系统分散。我国信息化经过多年的发展,已开发了众多计算机信息系统和数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,管理层无法获得有效的决策数据支持。往往管理者要了解所管辖不同部门的信息,需要进入众多不同的系统,而且数据不能直接比较分析。
  2. 信息资源利用程度较低。一些信息系统集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距。有些单位已经建立了内部网和互联网,但多年来分散开发或引进的信息系统,对于大量的数据不能提供一个统一的数据接口, 不能采用一种通用的标准和规范,无法获得共享通用的数据源,于是不同的应用系统之间必然会形成彼此隔离的信息孤岛。缺乏共享的、网络化的可用度高的信息资源体系。
  3. 支持管理决策能力较低。同时, 随着计算机业务数量的增加,管理人员的操作也越来越多,越来越复杂,许多日趋复杂的中间业务处理环节依然或多或少地依靠手工处理进行流转:信息加工分析手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,无法对外部信息进行及时、准确的收集反馈,业务系统产生的大量数据无法提炼升华为有用的信息,并及时提供给管理决策部门;已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用等。数据的共享度达不到单位对信息资源的整体开发利用的要求。简单的应用多,交叉重复也多,能支持管理和决策的应用少,能利用网络开展经营活动的应用更少。数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。

数据合并的优点

  1. 底层数据结构的透明。为数据访问(消费应用)提供了统一的接口,消费应用无需知道数据在哪里保存、源数据库支持那种方式的访问、数据的物理结构、网络协议等。
  2. 性能和扩展性。数据合并把数据集成和数据访问分成了两个过程,因此访问时数据已经处于准备好的状态。
  3. 提供真正的单一数据视图。数据合并的优势是经过了数据校验和数据清理,使看到的数据更加真实、准确、可靠。
  4. 可重用性好。由于有了实际的物理存储,数据可以为各种应用提供可重用的数据视图,而不用担心底层实际的数据源的可用性。
  5. 数据管控能力加强。管控是面向服务的架构里面重要的概念。数据合并的优势是数据规则可以在数据加载,转换中实施,保证了数据管控。

格式和属性设置

在数据整理和转换时,我们可以更改数据的类型,如整数型、文本型、日期型等;也可以按需更改数据的格式,如设置成百分比、科学计数、货币格式等。
?

创建和管理关系

自动创建关系

导入多个表时,很可能需要使用所有这些表中的数据来执行一些分析。为准确计算结果并在报表中显示正确信息,这些表之间创建关系是必需的。

数据分析与可视化软件一般都可以轻松创建这些关系或者进入软件后点击自动检测功能即可实现自动创建关系。事实上,在大多数情况下,无需执行任何操作,软件导入数据后会自动执行自动创建相关操作。但有时,可能需要自行创建关系,或者需要对关系进行更改。

手动创建关系

创建关系:

  1. 在软件的“主页”选项卡上,选择“管理关系”>“新建”。
  2. 在“创建关系”对话框第一个表的下拉列表中,选择一个表。选择要在关系中使用的列。
  3. 在第二个表的下拉列表中,选择要在关系中使用的其他表。选择要使用的其他列,然后选择“确定”。

默认情况下,软件为新关系自动配置“基数”(方向)、“交叉筛选方向”和“激活此关系”选项。但是,可根据需要更改这些设置。如果为该关系选择的表均不具有唯一值,则将看到以下错误:ONE OF THE COLUMNS MUST HAVEUNIQUE VALUES(其中一列必须具有唯一值)。关系中至少有一个表必须具有密钥值的不同的唯一列表,该列表是对所有关系数据库技术的常见要求。

如果遇到此错误,可采用以下方式修复:

  1. 使用“删除重复项”创建具有唯一值的列。此方法的缺点是删除重复行时信息可能会丢失:而通常重复键(行)是有用的。
  2. 将包含不同密钥值列表的中间表添加到模型,该模型会链接到关系中的两个原始列。

手动编辑关系

编辑关系:

  1. 在“主页”选项卡上,选择“管理关系”。
  2. 在“管理关系”对话框中,选择关系,然后选择“编辑”。

配置其他选项

创建或编辑关系时,可配置其他选项。默认情况下,软件会根据最佳推测自动配置其他选项,但每个关系的配置可能会根据列中的数据有所不同。

基数

“基数”选项可以具有以下设置之一:

多对一(*:1):多对一关系是最常见的默认关系类型。这意味着一个给定表中的列可具有一个值的多个实例,而另一个相关表(通常称为查找表)仅具有一个值的一个实例。

一对一(1:1):在一对一关系中,一个表中的列仅具有特定值的一个实例,而另一个相关表也是如此。

一对多(1:*):在一对多关系中,一个表中的列仅具有特定值的一个实例,而另一个相关表可具有一个值的多个实例。

多对多(*:*):借助复合模型,可以在表之间建立多对多关系,从而消除了表中对唯一值的要求。它还删除了旧解决办法,如为建立关系而仅引入新表。

交叉筛选器方向

“交叉筛选方向”选项可以具有以下设置之一:

双向:出于筛选目的,两个表被视为如同一个表。“双向”设置非常适用于其周围具有多个查找表的单个表。例如,具有部门查找表的实际销售额表。此配置通常称为星型架构配置(一个具有多个查找表的中心表)。但是,如果你拥有两个或多个具有查找表(部分查找表共有)的表,则“双向”设置不适合。继续讲之前的示例,在本例中你还一个预算销售表,它记录了每个部门的目标预算。并且,部门表格同时连接到标售表和预算表。对于此类配置,请避免“双向”设置。

单向:最常用的默认方向,这意味着连接表中的筛选选项适用于将求值总和的表。如果你在EXCEL2013 或更早的数据模型中导入了POWER PIVOT ,则所有关系都将具有单个方向。

激活此关系

勾选后,关系会用作处于活动状态的默认关系。如果两个表格之间存在多个关系,则软件可通过活动关系自动创建包含这两个表的可视化效果。
?

数据建模

数据建模概念

数据建模其实就是识别表的类型和表的关系,并按照设计的需求来搭建关系。

原因:当面对庞大的数据源和各种报表时,一定要找一个切入点。这个切入点就是浏览各个表,然后对表进行分类。在建模的过程中,最主要的就是分清楚数据表(又叫事实表)和维度表(又叫LOOKUP表),在分清楚表的类型后,即可进行布局设计。一般都是维度表在上,数据表在下创建关系。

区别介绍数据表维度表
介绍数据表中一定包含数据内容一般行数较少,少于数据表
举例产品销售数据表、商品进销存表等用户类别表、产品类型等
用途度量值一般都来自于数据表的计算在可视化视图中一般都在行、列、筛选器和切片器
关系视图“*”的一端,一般为关系箭头的末端”1”的一端,一般为关系箭头起始端


?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-07 11:11:00  更:2022-05-07 11:13:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 7:27:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码