[人工智能] task1：西瓜书第一、二章（1）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> task1：西瓜书第一、二章（1） -> 正文阅读

[人工智能]task1：西瓜书第一、二章（1）

? ? ? ?之前对机器学习有所了解，但一直没有进行系统的学习，这次借吃瓜机会补全一下机器学习上一些知识的漏洞，主要是标注一下自己需要注意的地方在这与大家分享，今日分享的是西瓜书一、二章中自己之前不太重视的地方：

? ? ? ?1.在获得样本时，通常假设为每个样本都是独立的从某一分布上采样获得的，即“独立同分布”（independent and identically，简称i,i,d），比如做分类算法时，检验样本的时候除去常规的空缺值、奇异值检查外，其实第一步应该考虑是否满足i,i,d。

? ? ? ?2.在考虑算法的归纳偏好时，常常采用“奥卡姆剃刀”，即“若有多个假设与观察一致，则选最简单的那个”，当然，光使用这一机制不可能做到一劳永逸。如考虑集成学习时，采取“多释原则”即保留与经验观察一致的所有假设可能是更为合理的选择。因此，在面对具体现实问题时，算法的归纳偏好是否与问题本身匹配，直接决定算法的性能。

? ? ? ?3.NFL定理——总误差与学习算法无关。该定理存在两个假设上的问题：第一、所有“问题”出现的机会相同、或者问题同等重要。第二、假设了样本的均匀分布，而实际情况并非如此。因此，在算法选择上一定要具体问题具体分析，问题的独特的地方就埋藏着突破的钥匙。（P9）

? ? ? 4.评估方法：

? ? ? 4.1留出法：注意分层抽样的问题与训练集、测试集占比问题，一般而言2/3~4/5用于训练。

? ? ?4.2交叉验证法：一般为10次10折交叉验证，当k=m时为留一法（Leave-One-Out,LOO）结果比较准确，但数据集较大时训练模型太多，计算开销太大。

? ? ?4.3自助法（包外估计，out-of-bag estimate）：保证了实际评估模型与期望评估模型都使用m个训练样本，但仍大约有1/3没在训练集中出现的样本用于测试。优点在于处理数据集较少、难以有效划分训练/测试集时很有效。缺点在于改变了初始数据集分布，引入了估计偏差。

? ? ?5.训练集、测试集与验证集的区别？

? ? ?训练集用于训练模型参数，测试集用于估计模型对样本的泛化误差，验证集用于“训练”模型的超参数。（超参数是限制模型复杂度，控制模型的表达能力，限制模型的解空间的，例如回归分析中确定多项式的项数。）

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-07-13 17:28:06 更:2021-07-13 17:30:23

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/23 17:01:56-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码