1.1 引言
1.2 基本术语
- 数据集:记录的集合(文中是收集了一批关于西瓜的数据)
- 示例/样本:关于一个事件或对象的记录(对一个西瓜的描述)
- 属性/特征:反应对象的性质(西瓜的色泽、根蒂、敲声)
- 分类/回归:预测值是离散值的学习任务/预测值是连续的学习任务
- 测试:学得模型后。使其进行预测的过程
- 预测样本:被预测的样本
- 学习器:即模型,看作学习算法在给定的数据和参数空间上的实例化
- Fx:学得f后,对x进行测试,可以得到其预测标记,即y=f(x)
- 一般的,预测任务希望通对训练集(x1 ,y1)(x2 ,y2)…(xm ,ym)进行学习,建立一个输入空间X到输出空间Y的映射:
分类类别 | 输出取值 |
---|
二分类 | 通常令Y={-1, +1}或{0, 1} | 多分类 | \Y\ >2 | 回归类 | Y∈R |
类型 | 训练数据是否有标记 | 代表 |
---|
监督学习 | 是 | 分类和回归 | 无监督学习 | 否 | 聚类 |
- 泛化能力:学得模型适应新样本的能力,具有强泛化能力的模型具有很好的适应整个样本空间
1.3假设空间
1.4 归纳偏好
- 归纳偏好:算法在学习中对某种类型假设的偏好。
当版本空间面临新样本时产生不同的输出。为了确定输出,偏好将起到重要作用。
尽可能特殊:
好瓜 ?(色泽= ★) (根蒂 = 蜷缩) (敲声 = 浊响)
尽可能一般:
好瓜 ?(色泽= ★) ∩(根蒂 = 蜷缩) ∩ (敲声 = ★)或
好瓜 ?(色泽= ★) ∩ (根蒂 = ★) ∩ (敲声 = 浊响)
但是由于某种原因更相信某种属性。例如更相信根蒂,则会确定为:
好瓜 ?(色泽= ★) ∩(根蒂 = 蜷缩) ∩ (敲声 = ★)
- 归纳偏好具有必要性:任何一个有效的机器学习算法必有其归纳偏好。特别是庞大的假设空间中。
如图多个假设与观察一致,A曲线更平滑,B曲线更崎岖
但是最终的归纳偏好要结合实际进行选择。
没有最好的算法只有最合适的算法
|