IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于python/scipy学习概率统计(0):基础概念 -> 正文阅读

[人工智能]基于python/scipy学习概率统计(0):基础概念

目录

0. 前言

1. 随机变量

1.1 随机事件

1.2 概率

1.2 随机变量

1.3 离散随机变量

1.4 连续随机变量

1.5 随机变量的概率分布

2. 概率函数

2.1 概率质量函数?

2.2 概率密度函数

2.3 累积分布函数

2.4 百分点函数(PPF)

2.5 Survival Function

2.6 Inverse Survival Function

2.7 风险函数Hazard Function

2.8 累积风险函数 Cumulative Hazard Function

3. 常用统计特征(Common Statistics)

3.1?数学期望 ?Expectation

3.2?矩 moment

3.3?方差 Variance

3.4?偏度 Skewness

3.5 峰度 Kurtosis

3.6 协方差与相关系数

3.7 多维随机变量的协方差矩阵


0. 前言

????????概率论和统计学是数据科学的基本支柱,机器学习和人工智能的底层原理也无非就是概率论和统计学和线性代数。要想在这些领域有所作为,对它们背后的数学原理有一些深入的理解是必要条件。本系列将从实用的角度来一个关于概率论和统计学的飞掠之旅(也就是说不会太纠结于繁琐的概念描述、数学推导和定理证明,一切以实用为指导原则),特别地,借助于python中的scipy.stats模块进行一些编程实验,帮助获得一些直观认识,这些编程实验本身也是实际应用中经常需要用到的技巧。

????????首先,我们要先了解一些基本概念。

1. 随机变量

1.1 随机事件

????????随机试验(random experiment) 是概率论中的一个重要术语,它包含以下特点:

????????(1) 可以在相同条件下重复进行

????????(2) 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果

????????(3) 进行一次试验之前不能确定哪一个结果会出现

????????随机试验𝐸?的所有可能结果组成的集合,称为样本空间,记为𝑆?;样本空间𝑆中的每一个结果称为样本点,记为𝑒。样本空间的子集称为随机事件,用大写字母表示,比如A\subset S,每一个样本点𝑒当然也是样本空间的一个子集,所以也是一个随机事件,称为基本事件。

????????比如掷一个六面体的骰子是一个典型的随机试验,其样本空间是:𝑆=1,2,3,4,5,6

????????其中“3”表示3点朝上,是一个样本点,也是一个随机事件。

1.2 概率

????????虽然随机试验的每一次试验的结果是无法预先知道的,但是,当试验的次数足够多的时候,直感告诉我们比如说在以上掷骰子试验中,1,2,3,4,5,6出现的次数应该是基本相同(假设骰子是公正的)的。因为骰子的6个面没有哪个是特殊的,所以它们出现的次数应该大抵相同!这里涉及到所谓的等可能概型的概念(这可以参考Ref1的解释)。用概率论的语言来说就是每个点数出现的概率都是1/6.

????????概率的定义:设?𝐸是随机试验,?𝑆是它的样本空间。对于?𝐸?的每一事件?𝐴?赋予一个实数,记为𝑃(𝐴),称为事件?𝐴?的概率,如果集合函数?𝑃(?)?满足如下条件:

????????(1) 非负性:对于每一个事件?𝐴?,有?0≤𝑃(𝐴)≤1

????????(2) 规范性:对于必然事件?𝑆?,有?𝑃(𝑆)=1

????????(3) 可列可加性:设?𝐴1,𝐴2,...A1,A2,...是两两互斥的事件,有𝑃(𝐴1∪𝐴2...)=𝑃(𝐴1)+𝑃(𝐴2)+...

????????相关概念:等可能概型,古典概型,频数,频率,概率,大数定律...

1.2 随机变量

????????随机变量(random variable)表示随机现象或者随机试验的各种可能结果的实值单值函数。注意,随机变量虽然名为变量,其实质上是一个函数!也就是如前所述的将随机事件映射为某个数值的实值单值函数,其定义如下:

????????设随机试验的样本空间为𝑆=𝑒.?𝑋=𝑋(𝑒)是定义在样本空间S上的实值单值函数,称X为随机变量。

????????随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。

????????根据随机变量的所有可能取的值,可以把它们分为两种基本类型:离散随机变量和连续随机变量.

1.3 离散随机变量

????????离散型(discrete)随机变量是指在取值范围内的变量的可能取值为有限个或可数个。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数,扔N次硬币中得到k次正面朝上的次数,扔一个骰子所得到的点数等等。

1.4 连续随机变量

????????连续型(continuous)随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。

1.5 随机变量的概率分布

????????笼统地说,随机变量的概率分布反映的就是随机变量取不同可能的值的概率,可简称为概率函数,详细参见下一节。

????????需要注意的是,在有些术语方面不同的书中不尽相同。比如说Ref1中没有出现过概率质量函数这个词,而是用分布律替代。又比如,Ref1中用分布函数来指代累积分布函数(CDF),等等(若干年前第一次学习概率论用的教材就是Ref1,但是若干年后回头来看至少对“分布函数”这个提法不是很认同^-^)。

????????离散型随机变量遵循的概率分布称为离散概率分布,典型的有伯努利分布、二项分布、几何分布和泊松分布等等。

????????连续型随机变量遵循的概率分布称为连续概率分布,典型的有均匀分布、正态(高斯)分布、伽马分布、指数分布等等。

2. 概率函数

????????概率函数(probability function)是用以刻画随机变量的最基本的概率特性的函数。离散随机变量和连续随机变量的概率函数的表现形式略有不同。

????????离散随机变量的最基本的概率函数称为概率质量函数(PMF: Probability Mass Functions),连续随机变量的最基本的概率函数称为概率密度函数(PMF: Probability Mass Functions)。

????????除了PMF和PDF还有其它一些常见的概率函数,如累积分布函数(CDF: Cumulative Distribution Function),百分点函数(PPF, Percent Point Function),风险函数(Hazard Function),生存函数(Survial Function)等等

2.1 概率质量函数?

????????离散随机变量的概率函数称为概率质量函数(PMF)记为𝑝(𝑥),是满足以下性质的函数:

????????(1) p(x)表示随机变量X取值为x的概率,即𝑝(𝑥)=𝑃𝑟𝑜𝑏[=𝑥]=𝑃𝑟[𝑋=𝑥]=𝑃[𝑋=𝑥]. 三种表示概率的方法都可以,最后一个最简单常见。但是要注意的一点,通常用方括号[]而不是圆括号()表示概率

????????(2) p(x)为非负实数

????????(3) 对所有可能的x进行针对p(x)的求和结果为1,即\sum\limits_{x\in\Omega}p(x) = 1,Ω表示X的所有可能取值集合

????????由(2)和(3)可以很容易地推出0<=𝑝(𝑥)<=1.

2.2 概率密度函数

????????连续随机变量的概率函数称为概率密度函数(PDF)记为𝑓(𝑥)(注意,当然也可以记为𝑝(𝑥),或其它任何符号,只要从上文保持一致且能根据上下文正确地分辨即可),是满足以下性质的函数:

????????(1) 随机变量取值在a和b两点之间的概率为:P[a \leq x \leq b] = \int_a^b f(x)dx

????????(2)?𝑓(𝑥)>=0对所有x成立

????????(3)?\int_{-\infty}^{\infty} f(x)dx = 1

????????由于连续随机变量可以取(一定区间内的)任意值,因此从数学的角度来说它取任意某一个特定的值的概率都是0(!与离散随机变量不同),概率只能在一个区间上进行评估而不能针对某一个点进行评估,具体来说,区间[a,b]之间的概率等于函数f(x)在[a,b]内所围成的区域的面积。与离散随机变量的概率函数另一个不同点是,f(x)在某些点或者某些区间可以大于1!

????????下图为正态分布的概率密度函数示意图。

2.3 累积分布函数

????????累积分布函数(CDF)的定义为:𝐹(𝑥)=𝑃𝑟[𝑋≤𝑥]

????????对于连续分布,它可以表示为概率密度函数的积分:F(x) = Pr[X \leq x] = \int_{-\infty}^{x} f(\mu)d\mu

????????对于离散分布,它可以表示为概率质量函数的求和:F(x) = Pr[X \leq x] = \sum\limits_{\mu \leq x} p(\mu)

????????下图为正态分布的l累积分布函数示意图。

2.4 百分点函数(PPF)

????????百分点函数是累积分布函数的反函数,所以PPF也常被称为逆分布函数,这里记为𝐺, 其定义为:

????????x = G(q) = F^{-1}(q) \Leftrightarrow F(x) = q

????????PPF的输入是一个概率值q,返回的是x值,使得该x对应的累积分布函数值等于q。

????????下图为正态分布的百分点函数示意图。

????????由反函数性质可知,百分位函数的曲线与累积分布函数曲线以直线y=x为轴对称。

2.5 Survival Function

????????生存函数常用于可靠性分析相关领域,它的定义如下:

? ? ? ? ?????????𝑆(𝑥)=𝑃𝑟[𝑋>𝑥]=1?𝐹(𝑥)

????????所以生存函数可以理解为是累积分布函数的互补函数,所以也被称为CCDF(complementaty cumulative distribution function)?

????????下图为正态分布的生存函数示意图。

2.6 Inverse Survival Function

????????正如累积分布函数的逆函数为百分点函数一样,生存函数也有它的逆函数(只不过比较衰的是它并没有一个自己的专用名称^-^),这里记为𝑍.

????????由于累积分布函数与百分点函数以及生存函数的关系,逆生存函数可以基于百分点函数定义为:𝑍(𝛼)=𝐺(1?𝛼)

????????下图为正态分布的逆生存函数示意图。

2.7 风险函数Hazard Function

????????风险函数是概率密度函数(或者对于离散分布来说是概率质量函数)与生存函数之比,即:

????????h(x) = \frac{f(x)}{S(x)} = \frac{f(x)}{1-F(x)}

????????正态分布的风险函数如下图所示:

2.8 累积风险函数 Cumulative Hazard Function

????????顾名思义,累积风险函数即为风险函数的积分:

????????H(x) = \int_{-\infty}^x h(\mu) d\mu = -\ln(1-F(x))

????????正态分布的累积风险函数如下图所示:

3. 常用统计特征(Common Statistics)

????????上一章介绍的随机变量的累积分布函数、概率密度函数、概率质量函数等已经能够完整地描述随机变量的概率统计特性了。但是实际应用中常常使用的是能够直接描述随机变量的某种特征的常数,比如说一个人群的平均身高、体重,每个家庭的平均日常用电量,急救中心平均多久时间会接到一个求救等等。又比如学生考试成绩偏离平均成绩的分布程度等等。这些统计特性都可以基于CDF和PDF/PMF求出。

3.1?数学期望 ?Expectation

? ? ? ? 数学期望(Expectation)也称(统计)均值(Mean),其定义如下。

? ? ? ? 对于离散随机变量X,?E[X] = \sum\limits_{k}x_kp(x_k)

? ? ? ? 对于连续随机变量X,?E[X] = \int\limits_{-\infty}\limits^{\infty}f(x)dx

?

3.2?矩 moment

? ? ? ? 定义1:设X是随机变量

????????若E[X^k], k=1,2,...存在则称它为X的k阶原点矩,简称为k阶矩。

? ? ? ? 若E[(X-E[X])^k], k=1,2,...存在则称它为X的k阶中心矩。

? ? ? ? 定义2:设X和Y是随机变量,

????????若E[(X-E[X])^k], k=1,2,...存在则称它为X和Y的k+l阶混合(原点)矩。

????????若E[(X-E[X])^k(Y-E[Y])^l], k,l=1,2,...存在则称它为X和Y的k+l阶混合中心矩。

?

? ? ? ? 显然,上一节定义的数学期望即为一阶(远点)矩。注意,一阶中心矩根据定义总是等于0,too trival to define.

3.3?方差 Variance

? ? ? ? 方差(Variance)反映的是随机变量偏离其均值的程度也称(统计)均值(Mean),随机变量X的方差的定义为:Var[X]=V[X]=E[(X-E[X])^2]

? ? ? ? 这一定义对离散随机变量和连续随机变量都适用。由定义可知,方差就是二阶中心矩。

? ? ? ? 方差Variance通常也记为\sigma^2,其中\sigma(即方差的平方根)称为标准偏差(standard deviation). 统计学中通常所说的几个希格玛啊什么的就是指这个\sigma

?

3.4?偏度 Skewness

? ? ? ? 偏度衡量的是概率分布的对称性,其定义如下:

? ? ? ??S[X] = E[(\frac{X-E[X]}{\sigma})^3]

????????由定义可知,偏度就是归一化后的三阶中心矩。

3.5 峰度 Kurtosis

? ? ? ? 峰度衡量的是概率分布的陡峭程度,所以也称峭度,其定义如下:

? ? ? ??K[X]=E[(\frac{X-E[X]}{\sigma})^4] - 3

????????由定义可知,偏度就是归一化后的四阶中心矩。

? ? ? ? 注意,后面减3或是不减都可以,减3以后会使得标准正态分布的峰度计算值恰好为0,这样得到的计算值更加直观一些。scipy.stats中的计算峰度的函数采用的是以上减3的定义。

?

3.6 协方差与相关系数

? ? ? ? 设X与Y是随机变量,X与Y的协方差定义为:

????????Cov[X,Y]=E[(X-E[X])(Y-E[Y])]

? ? ? ? 由该定义可知,协方差就是X和Y的1+1阶(或者2阶)混合中心矩。

? ? ? ? 相关系数则定义为:

????????\rho_{XY}=\frac{Cov[X,Y]}{\sigma_X\sigma_Y}

? ? ? ? 相关系数相当于是对协方差进行基于两者的标准偏差乘积的归一化。

? ? ? ? 以上这个相关系数定义衡量的是两个随即变量之间的线性关联度,其全程为皮尔逊相关系数。除了皮尔逊相关系数,还有其他几个相关系数,比如说斯皮尔曼相关系数,Kendall相关系数等等。

3.7 多维随机变量的协方差矩阵

? ? ? ? 设X={X1,X2,...,Xn}为n维随机变量,其各成分两两之间都存在协方差,如下所示:

????????c_{ij} = Cov[X_i,X_j] = \frac{E[X_i-E[X_i]]E[X_j-E[X_j]]}{\sigma_i\sigma_j}

? ? ? ? 由所有c_{ij}构成一个矩阵即得到n维随机变量的协方差矩阵:

????????\bold C = [c_{ij}]

? ? ? ? 由于协方差的对称性,协方差矩阵为对称矩阵,其对角线上的元素记为各成员随机变量的方差。

? ? ? ? 以上就将基本概念要点(从实用的角度)大致列举了一下(有遗漏的话以后再回头补充),下一篇将开始介绍scipy.stats模块。

Ref1: 浙大版《概率论与数理统计》第四版

Ref2:?https://itl.nist.gov/div898/handbook/eda

Ref3:?随机变量_百度百科

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-06 15:15:13  更:2021-12-06 15:16:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 2:32:44-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码