基本术语
- 属性:反映事件或对象在某一方面的表现或性质的事项,比如:人是一个属性,因为人有黄种人,黑种人,或白种人。属性也叫特征。
- 特征向量:将属性作为坐标轴,形成多维坐标系,坐标系里的每一个点对应的坐标向量称之为特征向量。
- 机器学习的目标就是通过一些训练样本总结出相对应的数学模型,数据越多,训练的模型精度则越高。
- 归纳偏好:机器学习算法在学习过程中对某类型假设的某种偏好,就像投票一样,加入自己的判断因素来决定自己该投哪一票
模型评估与选择
经验误差与过拟合:预测输出与真实结果之间的差异成为误差,在新样本上的误差为泛化误差,过拟合的意思是学习能力太强,把一些特殊的点学了进去,并把它当做普通性质来使用,欠拟合则恰恰相反。过拟合无法避免,只能减小他所带来的风险
模型的评估方法
- 留出法:将数据集划分为两个互斥的数据集,一个用来训练机器学习算法,另一个用来测试机器学习算法的精确度
- 交叉验证法:将数据集划分为n个大小相似互斥的子集数据集,每次都用n-1个数据集训练机器学习算法,剩余那个用来测试
- 自主法:自助法使用来解决后加的数据集数据冗余对机器学习算法影响的,具体表现为,放回抽样,将抽样的数据在组成另一个数据集,然后用此数据集来训练机器学习算法。但此法改变了初始数据集的分布,会导致估计偏差,多以一般较少采用这种方法。
- 调参与最终模型:机器学习算法中的参数配置不同所产生的的结果可能会不一样,因此,在模型评估与选择的时候,还要对使用的学习算法进行选择,对算法参数进行设定,这种情况叫做调参。
性能度量
性能度量是衡量模型泛化能力的评价标准
|