强烈安利开源学习社区Datawhale!附上github地址:datawhale 系列文章为Datawhale七月组队学习笔记,对课程内容有所引用。
一、线性回归模型 主要思路就是,求解线性回归模型的参数。 通过构建一个含有参数的损失函数,求解使得损失函数最小的参数的值。 损失函数的形式:MSE均方误差、MAE平均绝对误差、R2决定系数、解释方差得分。 求解参数的方法:最小二乘估计、几何法、极大似然估计。
二、线性模型之外 分布非线性的情况下,可以采用多项式建模、GAM模型、回归树模型、支持向量机。
作业 1.在线性回归模型中,极大似然估计与最小二乘估计有什么联系和区别? 联系:两者得到的估计值是一样的。 区别:极大似然估计,需要假设噪声服从正态分布。最小二乘估计,不需要假设。
2.为什么多项式回归在实际问题中的表现经常不是很好? 当阶数越高,多项式的曲线越光滑,在数据点较少的边界波动较大,边界数据的预测精确度较低。
3.决策树模型与线性模型之间的联系与区别? 逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。 另外,逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除非对x进行多维映射),而决策树可以找到非线性分割。
4.numpy实现线性回归模型,待完成。
|