(未添加代码块)
1. 导论
有监督学习(回归、分类)和无监督学习(聚类) 回归:因变量是连续变量 分类:因变量是离散变量 有监督学习:有因变量,有特征向量,预测结果/未来 无监督学习:无因变量,有特征向量,寻找数据中的结构
sklearn:包含各种数据集
1.1 回归
1.2 分类
1.3 无监督学习
2. 使用sklearn构建完整的机器学习项目流程
- 明确项目任务:回归/分类
- 收集数据集并选择合适的特征
- 选择度量模型性能的指标:均方误差、平均绝对误差、决定系数、解释方差得分
- 选择具体的模型并进行训练以优化模型(机器学校算法岗和人工智能岗要了解模型背后的原理和数学公式推导过程)
- 评估模型的性能并调参
2.1 使用sklearn构建完整的回归项目
线性回归模型
几何解释部分:要找到
w
w
w,使得
Y
Y
Y与
X
w
Xw
Xw之间的距离最小,即
Y
?
X
w
Y-Xw
Y?Xw与
X
X
X平面的距离最小。 线性回归的最小二乘估计等价于噪声服从正态分布的极大似然估计
目前的很多模型都是在线性回归模型的基础上进行改进而得的 逐渐打破线性模型的经典假设,来适用于更广泛的场景中
线性回归的推广
多项式回归
打破经典假设之一:模型设定无偏误 多项式回归模型,真实模型为非线性模型 多项式的阶数
d
d
d不能取过大,一般不大于3或者4,因为
d
d
d越大,多项式曲线就会越光滑,在
x
x
x的边界处有异常的波动
广义可加模型(GAM)
GAM模型框架:
y
i
=
w
0
+
∑
j
=
1
p
f
j
(
x
i
j
)
+
e
i
y_i=w_0+\displaystyle\sum_{j=1}^{p} f_j(x_{ij})+e_i
yi?=w0?+j=1∑p?fj?(xij?)+ei? 优点:简单容易操作,能够很自然的推广线性回归模型至非线性模型,是的模型的预测精度有所上升;由于模型本身是可加的,因此GAM还是能像线性回归模型一样把其他因素控制不变的情况下单独对某个变量进行推导,极大地保留了线性回归的基于推断的性质。 缺点:GAM模型会经常忽略一些有意义的交互作用,比如某两个特征共同影响因变量,不过GAM还是能像线性回归一样加入交互项的形式,可能还会提升模型预测精度。
显著性(数据分析师->假设检验->A/B测试)
回归树
打破线性回归模型的“线性”关系的假设 回归树与线性模型的比较:如果特征变量与因变量的关系能很好地用线性关系表述,那么线性回归通常有着不错的预测效果,拟合结果则优于不能揭示线性结构的回归树,反之,如果特征变量与因变量的关系呈现高度复杂的非线性,那么树方法比传统方法更优。
- 树模型的优缺点:
树模型的解释性强,在解释性方面可能比线性回归还要方便; 树模型更接近人的决策方式; 树模型可以用图来表示,非专业人士也可以轻松解读; 树模型可以直接做定性的特征而不需要像线性回归一样哑元化; 树模型能很好地处理缺失值和异常值,对异常值不敏感,但是这个对线性模型来说却是致命的; 树模型的预测准确性一般无法达到其他回归模型的水平,但是改进方法很多。 (sklearn回归树的参数含义)
支持向量机回归(SVR)
约束优化问题(约束+优化) (约束:不等式约束、等式约束) KKT条件 对偶理论 极大似然估计:使得事件发生的概率最大,多个事件同时发生的概率最大,得到似然函数。
|