关于线性回归算法的欠拟合和过拟合
- 欠拟合:采用某个算法去拟合数据时,得到的模型不能很好的拟合训练数据,使得预测效果很差,欠拟合也被称为是:高偏差。
欠拟合的问题,需要我们不断尝试各种合适的算法,优化算法中的参数调整,以及通过数据预处理、数据可视化等特征工程,找过模型拟合效果最优化的结果。可以通过增加更多的特征变量,利用更高幂次的多项式当作假设函数,以该假设函数来拟合训练数据。
- 过拟合:采用某个算法去拟合数据时,得到的模型很好的拟合了训练数据,而在预测数据上的效果很差,过拟合也被称为是:高方差。
一般发生在特征变量过多的情况下,可以减少特征数量,但也会舍弃其所携带的一些信息。或者也可以采用正则化的方法,即在成本函数上加上正则项,即各参数的平方和。
岭回归和Lasso回归,都可以防止过拟合,解决了约束参数解决多重共线性问题(即:特征矩阵不可逆时,无法求解的问题),同时Lasson回归也弥补了岭回归的不足。
岭回归和Lasso回归相当于在普通线性回归估计的残差平方和中加入了对估计系数的约束,其中岭回归加入了参数平方和的约束惩罚项(也叫:L2正则化);Lasso回归则加入了参数绝对值和的惩罚项(也叫做:L1正则化)
|