2021年华为杯中国研究生数学建模竞赛B题-空气质量预报二次建模-思路-程序
程序链接:https://mianbaoduo.com/o/bread/YZ6WmZtt
问题1. 使用附件1中的数据,按照附录中的方法计算监测点A从2020年8月25日到8月28日每天实测的AQI和首要污染物,将结果按照附录“AQI计算结果表”的格式放在正文中。 针对问题1: 并没有什么难度,根据给出的方法,采用合理的方式进行相应的计算即可,需要注意的是,缺失值的填充方式,可能会影响最终的计算结果。而缺失值的填充方式有很多种。但是针对这种具有时序型的监测数据,缺失值受到前面时刻和后面时刻的影响较大,缺失值可使用前后时刻的均值、前面时刻的值、前后几个时刻的均值等方式。(针对提示的数据异常情形,除了缺失值之外,还应注意偶然因素的影响)建议使用时序折线图等可视化方式,对数据进行全局和局部的观察。 缺失值填充方法:利用前面的填充、利用前面和后面的均值填充、利用均值(中位数)填充、考虑多个变量影响关系的填充方式,如KNN等。 数据可视化方法:折线图、箱线图等
问题2. 在污染物排放情况不变的条件下,某一地区的气象条件有利于污染物扩散或沉降时,该地区的AQI会下降,反之会上升。使用附件1中的数据,根据对污染物浓度的影响程度,对气象条件进行合理分类,并阐述各类气象条件的特征。 针对问题2 合理分类:由于这并没有固定的说有几类,所以应该根据数据的分布情况进行分析,直观的方式就是聚类分析(可使用的聚类算法有很多种),根据数据的聚集情况进行分类,然后阐述每类数据的气象条件特征(这个特征的最简单表示可以使用簇的中心),以及这些气象特征对污染物扩散或者沉降的影响,进而对AQI的影响。 聚类方法:K均值聚类、K中值聚类、密度聚类、系统聚类等。聚类结果可视化可借助TSNE等方式进行降维可视化、轮廓系数图等。
问题3. 使用附件1、2中的数据,建立一个同时适用于A、B、C三个监测点(监测点两两间直线距离>100km,忽略相互影响)的二次预报数学模型,用来预测未来三天6种常规污染物单日浓度值,要求二次预报模型预测结果中AQI预报值的最大相对误差应尽量小,且首要污染物预测准确度尽量高。并使用该模型预测监测点A、B、C在2021年7月13日至7月15日6种常规污染物的单日浓度值,计算相应的AQI和首要污染物,将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。 针对问题3:使用3个地点的数据集,建立二次预报数学模型,该模型具体使用什么方法,可以有很多种。如何评价预测效果的好坏,通过AQI的相对误差和首要污染物预测准确度(这两个指标都可以使用给定的数据计算出来,所以可以认为模型的监测目标有两个,而且这两个又有一定的关系。)针对AQI的取值可以看着是一个回归类型的模型,针对首要污染物预测准确度可以看作是一个分类问题,而且两种损失函数也可以融合为一个。鉴于该数据又有一定的时序性,所以建模时也不能忽略时序的印象,例如:可以使用多个、多种模型融合的组合式建模方法,与时序LSTM等相关的深度学习算法。 机器学习算法:支持向量机、神经网路、随机森林、多元线性回归、Ridge回归、ARIMA、ARIMAX、Prophet、LSTM、RNN等。
问题4. 相邻区域的污染物浓度往往具有一定的相关性,区域协同预报可能会提升空气质量预报的准确度。如图 4,监测点A的临近区域内存在监测点A1、A2、A3,使用附件1、3中的数据,建立包含A、A1、A2、A3四个监测点的协同预报模型,要求二次模型预测结果中AQI预报值的最大相对误差应尽量小,且首要污染物预测准确度尽量高。使用该模型预测监测点A、A1、A2、A3在2021年7月13日至7月15日6种常规污染物的单日浓度值,计算相应的AQI和首要污染物,将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。并讨论:与问题3的模型相比,协同预报模型能否提升针对监测点A的污染物浓度预报准确度?说明原因。 针对问题4:相对于问题3,该问题需要更近一步的考虑方位和距离对空气质量的影响。评价的指标和问题3相同,因此可以在问题3的建模结果的基础上进行相应的考虑,例如:添加新的特征。或者根据风向等气象指标考虑污染物的流动等因素。
|