如何听起来像数据科学家
什么是数据科学
数据是指有组织和无组织格式聚集在一起的信息
- 有组织数据:指以行列结构分类存储的数据,每一行代表一个观测对象,每一列代表一个观测特征。
- 无组织数据:指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。
数据科学韦恩图
理解数据科学需要从3个领域开始
- 数学/统计学:指使用方程和公式进行分析
- 计算机编程:指通过代码用计算机生成结果
- 领域知识:指理解问题所处的领域(医学、金融、社会科学)
数据的类型
数据是信息的集合
数据的分类方式
结构化数据和非结构化数据
判断方法:
- 结构化数据:指特征和观察值以表格的形式存储(行列结构)
- 非结构化数据:指数据以自由实体形式存在,不符合任何标准的组织层次结构,比如行列结构
文本信息的预处理
描述文本特征的数据
大多数机器学习需要数值型数据
定量数据和定性数据
定量数据和定性数据的含义如下:
- 定量数据:通常用数字表示,并支持包括加法在内的数字运算
- 定性数据:通常用自然类别和文字表示,不支持数字格式和数字运算
案例
数据:咖啡店
- 咖啡店名称
- 营业额(单位:千元)
- 邮政编码
- 平均每月的客户数
- 咖啡产地
分析
咖啡店名称无法用数字表示,且咖啡店名称不能进行数学运算
营业额可以用数字表示,且营业额支持简单的数学运算,如将12个月营业额相加可得到1年的营业额。
虽然邮政编码通常由数字表示,但它是定性数据,因为邮政编码不符合定量数据的第二个要求----支持数学运算。两个邮政编码相加得到一个没有意义的数字,而不是新的邮政编码
结论:
- 大部分情况下,当字段值为文本时,该字段都是定性数据
- 有些字段用数字表示,但并不是定量数据(如邮政编码),因为对该字段求和或求平均值,得到的结果没有任何意义
字段分析内容
定量数据列
- 字段平均值是多少
- 随着时间的推移,字段值是增加还是减少
- 是否存在某个阈值,当字段值超过或低于阈值,表示公司在某方面出现了异常
定性数据列
- 高频值和低频值分别是什么
- 字段有多少重复值
- 非重复值分别代表什么
深入研究
定量数据还可以继续细分为离散型数据和连续型数据
- 离散型数据:通常为计数类数据,取值只能为自然数或整数
比如:掷色子的点数属于离散型,色子的点数只有六个值。
比如:体重可以是68kg,也可以是89.6kg,注意小数点,时间和温度同样属于连续型
数据的4个尺度
通常情况下,结构化数据的每一列都可以被归为以下四个尺度中的一个,分别是:
- 定类尺度
- 定序尺度
- 定距尺度
- 定比尺度
随着尺度的深入,数据的结构化特征也将越来越多,也更有利于分析。每个尺度都有适用于自身的测量数据中心的方法。
定类尺度
定类尺度,主要指名称或者类别数据,如性别,国籍等。它们无法用数字表示。
适用的数学运算
- 等式
- 集合隶属关系
测度中心
测度中心是一个描述数据趋势的数值,有时也被称为数据平衡点。常见的测度中心有平均值、中位数和模。
定类尺度的数据有何特征
定类尺度数据既不能排序,也无法相加,因此中位数和平均数不能作为它的测度中心
定序尺度
李克特量表是最常见的定序尺度数据。当我们用110填写满意度调查问卷时,生成的结果是定序尺度数据。调查问卷答案必须介于110,并可以被排序,比如8分比7分好。
适用的数学运算
- 等式
- 集合隶属关系
- 排序
- 比较
测度中心
定序尺度通常用中位数,而不是平均值表示测度中心,因为定序尺度不支持除法。
定距尺度
适当的数学运算
- 等式
- 集合隶属关系
- 排序
- 比较
- 加法
- 减法
测度中心
对于定距尺度数据,我们依然可以用中位数和模来表示数据的测度中心,但更加准确的方法是用算术平均数,通常称为均值
变差测度
在数据科学中,我们知道测度中心的重要性,了解数据分布的广度同样重要。
变差测度(比如标准差)是一个描述数据分散程度的数字。变差测度和测度中心是描述数据集最重要的两个数字。
标准差
标准差是定距尺度和更高尺度数据中应用最为广泛的变差测度。标准差可以理解为“数据点到均值点的平均距离”。
计算标准差公式的步骤:
- 计算数据的均值
- 计算数据集中的每一个值和均值的差,并将其平方
- 计算第2步的平均值,得到标准差
- 对第3步得到的值开平方,得到标准差
定比尺度
定比尺度的比值一般不为负数
适当的数学运算
- 等式
- 集合隶属关系
- 排序
- 比较
- 加法
- 减法
- 乘法
- 除法
测度中心
算数平均值对定比尺度仍然有效,同时还增加一种叫几何平均值的新均值类型,后者在定比类型中并经常适用,它是指n个观察值连乘积的n次方根。
几何平均值计算公式:
∏
x
n
n
\sqrt[n]{\prod_{x}^{n}}
n∏xn?
?
数据科学的5个步骤
数据科学和数据分析
两者的最大不同在于数据科学严格遵循结构化,一步一步的操作过程,保证了分析结果的可靠性
5个步骤预览
- 提出有意思的问题
- 获取数据
- 探索数据
- 数据建模
- 可视化和结果分享
提出有意思的问题
学会多提问题并记录下问题。不要关心回答这些问题所需的数据是否存在。这样做的原因有两个:
- 你不会希望在没有找到数据之前,就被自己的偏见影响。
- 获取数据可能涉及公开渠道和私有渠道,因此不会轻松和显而易见。
获取数据
一旦确定需要关注的问题,接下来就需要全力收集回答上述问题所需要的数据。数据可能需要多个数据源。
探索数据
数据建模
涉及统计学和机器学习模型的应用。不仅仅选择模型,还通过在模型中植入数学指标,对模型效果进行评价。
可视化和结果分享
分析结果看起来非常明显和简单,但将其总结为他人易于理解的形式比看起来困难的多。
探索数据
基本问题
我们接触新数据集时,有5个基本问题需要回答。这些问题不是数据科学的起点和终点,它们时我们面对新数据集时需要遵循的基本原则。
- 数据时有组织模式还是无组织模式
- 每一行代表什么
- 每一列代表什么
- 是否有缺失值?如何处理缺失值?
- 是否需要对某些列进行数据转换
自始至终,核心问题是,我们能从前期的推理统计中得到哪些信息。
定性数据的探索(Python)
定类尺度列
describe函数用于输出指定列的快速统计信息
当describe函数作用于定性数据时,我们将得到4个统计信息
count | 该列含有多少个值 | |
---|
unique | 该列含有多少个非重复值 | | top | 该列出现次数最多的值 | | freq | 该列出现次数最多的值的次数 | |
|