IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习中的几个重要概念 -> 正文阅读

[人工智能]机器学习中的几个重要概念

1.No free lunch theorem

机器学习中存在大量的各类不同模型,想要找到一个最好的模型适用不同的场合和不同的数据,这通常是不可能的,没有一个简单的所谓最好的模型能够适应不同的问题,这就是没有免费的午餐定理(No free lunch theorem)。原因在于不同的模型可能基于一定的假设(或称之inductive bias),而这些假设在特定的domain内表现的很好但在另一些domain可能表现很差。

2.Occam's Razor

? 奥卡姆剃刀(Occam's Razor)原理是指,在各种科学研究任务中,应该优先使用较为简单的公式或原理,而不是复杂的。 应用到机器学习任务中,可以通过减小模型的复杂度来降低过拟合的风险,即模型在能够较好拟合训练集(经验风险)的前提下,尽量减小模型的复杂度(结构风险)。

3.BIC

在机器学习涉及多个模型的选取的问题(model selection)时,除了采用K折交叉验证外,一个更为有效的方法是计算模型的后验分布,具体如下

????????????????????????????????????????????????p(m|\mathcal D)=\frac{p( \mathcal D|m)p(m)}{\sum_{m\in \mathcal M}p(m,\mathcal D)}

通过计算得到,? ? ?\hat{m}=argmax\ p(m,\mathcal D),这就是所谓的Bayesian model selection。

如果选择模型的先验分布为均匀分布,p(m) \propto 1,上述 p(m|\mathcal D)的计算只与p(\mathcal D|m)有关,这就等价于最大化

????????????????????????????????????????????????p(\mathcal D|m)=\int p(\mathcal D|\theta)p(\theta|m)d{\theta}

上述结果称为边缘似然(marginal likelihood)或积分似然(integrated likelihood)或模型 m?的证据(evidence)。通常情况下计算上述边缘似然对应的积分表达式有点困难,一个通行的简化做法是计算Bayesian information criterion(BIC),

????????????????????????????????????????BIC \triangleq log \ p(\mathcal D|\hat{\theta})-\frac{dof(\hat{\theta})}{2}log {N} \approx log p(\mathcal D)

如果定义模型的自由度??dof(\hat{\theta})=DD?是模型中变量的数量,就能得到:

????????????????????????????????????? ? ? ? ??BIC \triangleq log \ p(D)\approx log \ p(\mathcal D|\hat{\theta})-\frac{D}{2}log {N}

BIC方法非常接近于最小描述长度MDL(minimum description length principle),也就是一个模型拟合数据的评分(log-likelihood)减去定义模型的复杂度,可以理解为带有惩罚项的log-likelihood。

4.AIC

与上述BIC/MDL非常相似的一个就是AIC信息准则(Akaike information criterion),定义如下

????????????????????????????????????????AIC(m,\mathcal D) \triangleq log\ p(\mathcal D|\hat{\theta}_{MLE})-dof(m)

这个所谓的AIC源于频率派视觉得出,不同于贝叶斯派,所以上述不能理解为边缘似然的一个近似,然而这个表示形式与BIC非常相似。通过对比两者可知,AIC的惩罚项小于BIC,这使得AIC通常能选择更为复杂的模型,最终能够得到更好的预测准确性。

5.第一类最大似然

在统计与概率论中,估计统计模型参数的一个常用方法是使用MLE(Maximum likelihood estimation),具体定义如下

????????????????????????????????????????????????????????\hat{\theta} \triangleq \mathop{\arg\max}\limits_{\theta}log \ p(\mathcal D |\theta)

上述MLE对应的似然通常称之为第一?类最大似然。

6.第二类最大似然

当使用Bayesian 方法时,为了评价边缘似然的效果,并不局限于采用网格法取有限值进行比较,而是采用数值优化方法,具体如下

????????????????????????????????????????????????????????????????\lambda ^ {*}=\mathop{\arg\max}\limits_{\lambda}p(D| \lambda)

上述参数\lambda 是超参数,这种方法叫做经验贝叶斯方法或者第二类最大似然估计方法,与采用交叉验证评价不同超参数的模型,采用该方法更有效。

7.Simpson's paradox

辛普森悖论(Simpson’s paradox)指的是统计上在各个分组中得到的趋势或结论,当各个分组合并到一起统计时得出的结论会出现刚好相反的结果,举例如下。在图a中 统计对比中国和意大利各年龄段感染新冠病毒的致死率,各个年龄段的致死率中国都比意大利高,但是汇总的致死率却是意大利高于中国,原因在于意大利有更高的老龄化(老年人比例)。图a给出的是?p(F=1|A,C),其中A,C分别表示年龄和国家,F?表示感染新冠致死这一事件。图b给出的是?p(A|C)?表示在给定国家?C?时在人群在各个年龄组的概率,对比下图a,b主要的差异在于

????????????????p(F=1|A_i,C=China)>p(F=1|A_i,C=Italy),1\leq i(AgeIdx) \leq 9

????????????????p(F=1|C=Italy)>p(F=1|C=China)

8.Berkson's paradox

比如以预测下雨这一事件为例,R=1,R=0分别表示下雨和不下雨事件,p(R=1)?表示下雨的概率,根据先验知识满足?p(R=1)=0.5,?如果看到草地是湿的推测会下雨的概率达到了?p(R=1|W=1)=0.7,其中?W=1?表示草地湿的这一事件,W=0表示草地是干的,在此基础上如果看到了有洒水器S=1?这一事件,此时推测下雨的概率为p(R=1|W=1,S=1)=0.3, 上述一些观察结果的多种原因之间的这种消极相互作用被称为解释效应,也被称为伯克森悖论。

9.black swan paradox

在bayes估计中为了避免zero-count的问题,通过平滑法 add-one smoothing ,比如投掷硬币试验只试验了一次,那么直接基于bayes估计得到头朝上的概率

???????????????????????????????????????????????????????????????\theta_{map}=\frac{N_1}{N_1+N_0}=0

采用 add-one smoothing(可以通过基于一个先验分布计算后验概率),

??????????????????????????????????????????????????????????????????????\theta_{map}=\frac{N_1+1}{N_0+N_1+2}

这也就是通过经验数据与先验知识来避免不可能存在的这种推测结果(黑天鹅悖论即不可能出现的情形)。

10.one-standard error rule

对于机器学习的训练任务,训练数据的经验风险 loss-function 定义如下

????????????????????????????????????????????????\mathcal L(\theta)=\frac{1}{N}\sum_{n=1}^{N}\mathit L(y_n,\theta;x_n)

通过经验风险最小化来得到需要的模型。当训练样本有限时,通常使用交叉验证方法Cross-validation 训练数据集分为 K-folds 可以得到多个不同的模型对应有不同的超参数 \lambda

????????????????????????????????????????R^{cv}_{\lambda}=\frac{1}{K}\sum_{k=1}^{K}R_0(\hat{\theta}_{\lambda(\mathcal D_{-k})},\mathcal D_k)

其中\mathcal D_k表示K-fold 数据集,?\mathcal D_{-k}???????表示K-fold 数据集外的其它数据?,那么,第n个样本集对应的loss

????????????????????????????????????????L_n=\mathit L(y_n,f(x_n;\hat{\theta}_{\lambda(\mathcal D_{-n})}))

其中的超参数?\lambda?基于除了第 n 个样本集之外的数据训练得到。计算经验均值与经验方差如下

????????????????????????????????????????\hat{\mu}=\frac{1}{N}\sum_{n=1}^{N}L_n

????????????????????????????????????????\hat{\sigma^2}=\frac{1}{N}\sum_{n=1}^{N}(L_n-\hat{\mu})^2

假定我们应用交叉验证(cross validation)于一组模型,并计算其估计loss的平均值\hat{\mu}与标准差\hat{\sigma},从这些带噪声估计值中选择模型的一种常见的启发式方法就是,选择与最佳模型的经验风险不超过一个标准误差的最简单模型;这被称为一个标准差准则(one-standard error rule),具体如下:

????????????????????????????????????????????????L^{simplest}<\left |L^{best}-\hat{\sigma} \right |

上述L^{simplest},L^{best}?分别为最简单模型和最佳模型对应的loss。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-14 22:35:35  更:2022-06-14 22:39:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/30 1:01:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码