幸福感预测(离散问题)
- 数据预处理
异常值处理:删除明显的异常值 对于缺失值来说:若某列缺失值过多,则无法提供更多信息,可以删去该列;对于含有部分缺失值的列,可以通过增补平均数、众数、中位数的方法补全缺失值(对于此次像问卷形式的分类问题,也可以将自己当作受访者来补全缺失值),若缺失值极少,对模型的建立影响很小,可以直接删除含有该缺失值的数据行。 其他:若分类问题中的部分变量是连续值,可以将该变量离散化 - 数据增广
分析特征之间的关系,通过数学运算增加一些对分类有影响的特征(如:悠闲指数、收入比、社会阶级等特征) - 特征选择
通过计算各个特征与目标列之间的相关性,筛选出与目标列相关性大的特征,去除那些与目标列无关的特征 - 特征建模
建立lightgbm、xgboost、RandomForestRegressor随机森林等模型,对这些模型进行5折交叉验证得到结果
蒸汽量预测(连续问题)
- 探索数据分布
a. 查看每个特征分别在测试集与训练集上的分布情况是否相似,若分布相似,则可以进行进一步的分析,若不相似,则删除这些特征的数据 b. 计算各个特征之间的相关性,若相关性很小,则删除该特征 c. 归一化:将所有特征的值映射到[0,1]之间 - 特征工程
利用Box-Cox方法对数据进行变换,一定程度上减小不可观测的误差和预测变量的相关性。 - 模型构建
a. 构建训练集与测试集后,找出离群值,并进行删除 - 集成学习
参考: [1]https://github.com/datawhalechina/ensemble-learning
|