| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习中的几个重要概念 -> 正文阅读 |
|
[人工智能]机器学习中的几个重要概念 |
1.No free lunch theorem机器学习中存在大量的各类不同模型,想要找到一个最好的模型适用不同的场合和不同的数据,这通常是不可能的,没有一个简单的所谓最好的模型能够适应不同的问题,这就是没有免费的午餐定理(No free lunch theorem)。原因在于不同的模型可能基于一定的假设(或称之inductive bias),而这些假设在特定的domain内表现的很好但在另一些domain可能表现很差。 2.Occam's Razor? 奥卡姆剃刀(Occam's Razor)原理是指,在各种科学研究任务中,应该优先使用较为简单的公式或原理,而不是复杂的。 应用到机器学习任务中,可以通过减小模型的复杂度来降低过拟合的风险,即模型在能够较好拟合训练集(经验风险)的前提下,尽量减小模型的复杂度(结构风险)。 3.BIC在机器学习涉及多个模型的选取的问题(model selection)时,除了采用K折交叉验证外,一个更为有效的方法是计算模型的后验分布,具体如下 ???????????????????????????????????????????????? 通过计算得到,? ? ? 如果选择模型的先验分布为均匀分布, ???????????????????????????????????????????????? 上述结果称为边缘似然(marginal likelihood)或积分似然(integrated likelihood)或模型 ???????????????????????????????????????? 如果定义模型的自由度?? ????????????????????????????????????? ? ? ? ?? BIC方法非常接近于最小描述长度MDL(minimum description length principle),也就是一个模型拟合数据的评分(log-likelihood)减去定义模型的复杂度,可以理解为带有惩罚项的log-likelihood。 4.AIC与上述BIC/MDL非常相似的一个就是AIC信息准则(Akaike information criterion),定义如下 ???????????????????????????????????????? 这个所谓的AIC源于频率派视觉得出,不同于贝叶斯派,所以上述不能理解为边缘似然的一个近似,然而这个表示形式与BIC非常相似。通过对比两者可知,AIC的惩罚项小于BIC,这使得AIC通常能选择更为复杂的模型,最终能够得到更好的预测准确性。 5.第一类最大似然在统计与概率论中,估计统计模型参数的一个常用方法是使用MLE(Maximum likelihood estimation),具体定义如下 ???????????????????????????????????????????????????????? 上述MLE对应的似然通常称之为第一?类最大似然。 6.第二类最大似然当使用Bayesian 方法时,为了评价边缘似然的效果,并不局限于采用网格法取有限值进行比较,而是采用数值优化方法,具体如下 ???????????????????????????????????????????????????????????????? 上述参数 7.Simpson's paradox辛普森悖论(Simpson’s paradox)指的是统计上在各个分组中得到的趋势或结论,当各个分组合并到一起统计时得出的结论会出现刚好相反的结果,举例如下。在图a中 统计对比中国和意大利各年龄段感染新冠病毒的致死率,各个年龄段的致死率中国都比意大利高,但是汇总的致死率却是意大利高于中国,原因在于意大利有更高的老龄化(老年人比例)。图a给出的是? ???????????????? ???????????????? 8.Berkson's paradox比如以预测下雨这一事件为例, 9.black swan paradox在bayes估计中为了避免zero-count的问题,通过平滑法 add-one smoothing ,比如投掷硬币试验只试验了一次,那么直接基于bayes估计得到头朝上的概率 ??????????????????????????????????????????????????????????????? 采用 add-one smoothing(可以通过基于一个先验分布计算后验概率), ?????????????????????????????????????????????????????????????????????? 这也就是通过经验数据与先验知识来避免不可能存在的这种推测结果(黑天鹅悖论即不可能出现的情形)。 10.one-standard error rule对于机器学习的训练任务,训练数据的经验风险 loss-function 定义如下 ???????????????????????????????????????????????? 通过经验风险最小化来得到需要的模型。当训练样本有限时,通常使用交叉验证方法Cross-validation 训练数据集分为 K-folds 可以得到多个不同的模型对应有不同的超参数 ???????????????????????????????????????? 其中 ???????????????????????????????????????? 其中的超参数? ???????????????????????????????????????? ???????????????????????????????????????? 假定我们应用交叉验证(cross validation)于一组模型,并计算其估计loss的平均值 ???????????????????????????????????????????????? 上述 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年4日历 | -2025/4/3 20:03:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |