IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 《深入浅出数据科学》笔记 -> 正文阅读

[人工智能]《深入浅出数据科学》笔记


在这里插入图片描述

如何听起来像数据科学家

什么是数据科学

数据是指有组织无组织格式聚集在一起的信息

  1. 有组织数据:指以行列结构分类存储的数据,每一行代表一个观测对象,每一列代表一个观测特征
  2. 无组织数据:指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。

数据科学韦恩图

理解数据科学需要从3个领域开始

  • 数学/统计学:指使用方程和公式进行分析
  • 计算机编程:指通过代码用计算机生成结果
  • 领域知识:指理解问题所处的领域(医学、金融、社会科学)

数据的类型

数据是信息的集合

数据的分类方式

  • 结构化和非结构化
  • 定量和定性
  • 数据的4个尺度

结构化数据和非结构化数据

判断方法:

  • 结构化数据:指特征和观察值以表格的形式存储(行列结构)
  • 非结构化数据:指数据以自由实体形式存在,不符合任何标准的组织层次结构,比如行列结构

文本信息的预处理

描述文本特征的数据

  • 字数/短语数
  • 特殊符号
  • 文本相对长度
  • 文本主题

大多数机器学习需要数值型数据

定量数据和定性数据

定量数据和定性数据的含义如下:

  • 定量数据:通常用数字表示,并支持包括加法在内的数字运算
  • 定性数据:通常用自然类别和文字表示,不支持数字格式和数字运算

案例

数据:咖啡店

  • 咖啡店名称
  • 营业额(单位:千元)
  • 邮政编码
  • 平均每月的客户数
  • 咖啡产地

分析

  • 咖啡店名称:定性数据

咖啡店名称无法用数字表示,且咖啡店名称不能进行数学运算

  • 营业额(单位:千元):定量数据

营业额可以用数字表示,且营业额支持简单的数学运算,如将12个月营业额相加可得到1年的营业额。

  • 邮政编码:定性数据

虽然邮政编码通常由数字表示,但它是定性数据,因为邮政编码不符合定量数据的第二个要求----支持数学运算。两个邮政编码相加得到一个没有意义的数字,而不是新的邮政编码

  • 平均每月的客户数:定量数据
  • 咖啡产地:定性数据

结论:

  • 大部分情况下,当字段值为文本时,该字段都是定性数据
  • 有些字段用数字表示,但并不是定量数据(如邮政编码),因为对该字段求和或求平均值,得到的结果没有任何意义

字段分析内容

定量数据列

  • 字段平均值是多少
  • 随着时间的推移,字段值是增加还是减少
  • 是否存在某个阈值,当字段值超过或低于阈值,表示公司在某方面出现了异常

定性数据列

  • 高频值和低频值分别是什么
  • 字段有多少重复值
  • 非重复值分别代表什么

深入研究

计数类
测量类
定量数据
离散型
连续型

定量数据还可以继续细分为离散型数据连续型数据

  • 离散型数据:通常为计数类数据,取值只能为自然数或整数

比如:掷色子的点数属于离散型,色子的点数只有六个值。

  • 连续型数据:通常为测量类数据,取值为无限范围区间

比如:体重可以是68kg,也可以是89.6kg,注意小数点,时间和温度同样属于连续型

数据的4个尺度

通常情况下,结构化数据的每一列都可以被归为以下四个尺度中的一个,分别是:

  1. 定类尺度
  2. 定序尺度
  3. 定距尺度
  4. 定比尺度

随着尺度的深入,数据的结构化特征也将越来越多,也更有利于分析。每个尺度都有适用于自身的测量数据中心的方法。

定类尺度

定类尺度,主要指名称或者类别数据,如性别,国籍等。它们无法用数字表示。

适用的数学运算

  1. 等式
  2. 集合隶属关系

测度中心

测度中心是一个描述数据趋势的数值,有时也被称为数据平衡点。常见的测度中心有平均值、中位数和模。

定类尺度的数据有何特征

定类尺度数据既不能排序,也无法相加,因此中位数和平均数不能作为它的测度中心

定序尺度

李克特量表是最常见的定序尺度数据。当我们用110填写满意度调查问卷时,生成的结果是定序尺度数据。调查问卷答案必须介于110,并可以被排序,比如8分比7分好。

适用的数学运算

  1. 等式
  2. 集合隶属关系
  3. 排序
  4. 比较

测度中心

定序尺度通常用中位数,而不是平均值表示测度中心,因为定序尺度不支持除法。

定距尺度

适当的数学运算

  1. 等式
  2. 集合隶属关系
  3. 排序
  4. 比较
  5. 加法
  6. 减法

测度中心

对于定距尺度数据,我们依然可以用中位数和模来表示数据的测度中心,但更加准确的方法是用算术平均数,通常称为均值

变差测度

在数据科学中,我们知道测度中心的重要性,了解数据分布的广度同样重要。

变差测度(比如标准差)是一个描述数据分散程度的数字。变差测度和测度中心是描述数据集最重要的两个数字。

标准差

标准差是定距尺度和更高尺度数据中应用最为广泛的变差测度。标准差可以理解为“数据点到均值点的平均距离”。

计算标准差公式的步骤:

  1. 计算数据的均值
  2. 计算数据集中的每一个值和均值的差,并将其平方
  3. 计算第2步的平均值,得到标准差
  4. 对第3步得到的值开平方,得到标准差

定比尺度

定比尺度的比值一般不为负数

适当的数学运算

  1. 等式
  2. 集合隶属关系
  3. 排序
  4. 比较
  5. 加法
  6. 减法
  7. 乘法
  8. 除法

测度中心

算数平均值对定比尺度仍然有效,同时还增加一种叫几何平均值的新均值类型,后者在定比类型中并经常适用,它是指n个观察值连乘积的n次方根。

几何平均值计算公式:

∏ x n n \sqrt[n]{\prod_{x}^{n}} nxn? ?

数据科学的5个步骤

数据科学和数据分析

两者的最大不同在于数据科学严格遵循结构化,一步一步的操作过程,保证了分析结果的可靠性

5个步骤预览

  1. 提出有意思的问题
  2. 获取数据
  3. 探索数据
  4. 数据建模
  5. 可视化和结果分享

提出有意思的问题

学会多提问题并记录下问题。不要关心回答这些问题所需的数据是否存在。这样做的原因有两个:

  1. 你不会希望在没有找到数据之前,就被自己的偏见影响。
  2. 获取数据可能涉及公开渠道和私有渠道,因此不会轻松和显而易见。

获取数据

一旦确定需要关注的问题,接下来就需要全力收集回答上述问题所需要的数据。数据可能需要多个数据源。

探索数据

数据建模

涉及统计学和机器学习模型的应用。不仅仅选择模型,还通过在模型中植入数学指标,对模型效果进行评价。

可视化和结果分享

分析结果看起来非常明显和简单,但将其总结为他人易于理解的形式比看起来困难的多。

探索数据

基本问题

我们接触新数据集时,有5个基本问题需要回答。这些问题不是数据科学的起点和终点,它们时我们面对新数据集时需要遵循的基本原则。

  • 数据时有组织模式还是无组织模式
  • 每一行代表什么
  • 每一列代表什么
  • 是否有缺失值?如何处理缺失值?
  • 是否需要对某些列进行数据转换

自始至终,核心问题是,我们能从前期的推理统计中得到哪些信息。

定性数据的探索(Python)

定类尺度列

describe函数用于输出指定列的快速统计信息

describe函数作用于定性数据时,我们将得到4个统计信息

count该列含有多少个值
unique该列含有多少个非重复值
top该列出现次数最多的值
freq该列出现次数最多的值的次数
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-17 12:00:06  更:2021-10-17 12:00:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:18:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码