目录
一、基本介绍
1.1问题一重述
1.2问题二重述
1.3问题三重述
1.4问题四重述
二、问题分析与求解
2.1问题一分析与求解
2.2问题二分析与求解
2.3问题三分析与求解
2.4问题四分析与求解
三、完整代码及论文
一、基本介绍
1.1问题一重述
根据电影分类的特点,综合考虑电影分类、电影类型、导演、导演分级等特征,对提供的数据集中的电影进行聚类分类,并验证分类的有效性。
1.2问题二重述
根据提供的的数据给出一个分类模型(题目1的结果),并提前给出各类别的预估票房预测和整体票房预测。
1.3问题三重述
建立识别网络舆情正负分的算法;建立模型提取主题词、主题分类或其他重要指标;建立模型,分析网络舆情与电影票房的相关性以及对电影票房的影响程度;设计思路和具体方法是在找出网络水军电影评分存在的问题和现状的基础上。
1.4问题四重述
利用所提供的数据,分析疫情稳定后不同上座率要求(30%、50%、75%)对电影票房预测的影响。
二、问题分析与求解
2.1问题一分析与求解
针对问题一,本文选用阿里云天池公开数据集作为初始数据,通过查阅相关文献,选用电影时长、上映年份、导演、制作公司、编剧、电影类型、电影限制级别与主演等八个指标进行建模分析。首先,对上述指标进行归一化处理,紧接着对导演、主演、编剧、制作公司等特征做数值化处理。在画出手肘图之后,选用电影的类型数量作为聚类的K值,使用K-means方法对上述特征做聚类,最后选用伯努利贝叶斯、MLP神经网络、XGBoost、KNN、决策树和随机森林等方法验证分类效果。
?
各方法验证结果
| 伯努利 贝叶斯 | MLP神 经网络 | XGBoost | KNN | 决策树 | 随机森林 | 训练集 准确度 | 0.16 | 0.92 | 0.99 | 0.91 | 0.99 | 0.99 | 验证集 准确度 | 0.16 | 0.92 | 0.90 | 0.88 | 0.8 | 0.90 | MSE | 27.196 | 1.805 | 2.960 | 4.465 | 9.634 | 3.565 |
2.2问题二分析与求解
针对问题二,本文基于问题一的分类模型,利用元数据和历史票房数据及问题一提取到的特征,采用随机森林、LGB、SVM、深度森林等方法来训练预测模型。最后使用我们收集到的1986年到2016年在国内外上映的6820部电影数据来训练和测试模型的效果。
三种方法训练集和验证集准确度
| 随机森林 | LGB | 深度森林 | 训练集 准确度 | 92.52% | 78.18% | 93.22% | 验证集 准确度 | 35.92% | 38.62% | 40.11% |
2.3问题三分析与求解
针对问题三,需要引入舆情指标,理论上来讲,评分才是电影的真实性反应,电影的评分应当与其评论中的好评词汇出现的频率呈较大线性相关。本文首先采集电影评分和评论文本信息,构建词库,利用LDA主题模型,分析每天正负舆情及票房的趋势, 每个词库相当于一个指标,最后统计出来的词频就是指标数据,然后求与电影评分的相关性,并提取出关键词等重要指标。
2.4问题四分析与求解
针对问题四,模型主体与问题二模型类似,只需引入假设场均人次减少的约束条件,分别求出每个场馆上座率不超过 30%、50%、75%情况下对电影票房预测的影响。利用LSTM(长短期记忆网络)做预测,并与第二问结果进行对比,计算不同电影的受影响程度,即票房下降幅度。
三、完整代码及论文
详情添加博主QQ:1654243128咨询。
数据挖掘与人工智能课程设计,2021年数维杯国际赛D题,基于启发式算法的电影市场票房波动模型分析。内含论文!-算法与数据结构其他资源-CSDN下载
|