基于随机森林方法的国产电影票房研究

发布日期:2021年3月29日
基于随机森林方法的国产电影票房研究 基于随机森林方法的国产电影票房研究

本内容试读结束

下载后可阅读完整内容,立即下载

随着经济的发展和人民生活水平的提高,电影行业迅速发展。电影票房影响因素的研究及预测,对提高国产电影质量十分必要。目前学者们多采用神经网络方法对电影票房进行研究,神经网络方法未给出变量重要性排序,预测结果不够稳健。本文依据2014~2018年225部国产影片的相关数据,采用随机森林方法建立电影票房预测模型。得到了影响我国国产电影票房的因素主要有首周末票房、首映日票房、百度指数、豆瓣评分和点映票房。同时本文采用线性回归模型和神经网络模型建立电影票房的预测模型,应用三种方法对2019年12部国产电影票房进行预测。结果表明:随机森林在电影票房预测方面更加精确稳健,对《飞驰人生》、《银河补习班》等八部影片的预测误差在10%左右。神经网络和线性回归模型预测误差较大。

近年来中国电影业发展迅速,但国产电影票房收入在总票房中占比不大,国产电影想要在国际电影市场占有一席之地仍需更大的努力,分析影响电影票房的因素,预测电影票房,提高电影质量势在必行。

2014 年杨威[1]使用新媒体微博数据作为研究对象,利用神经网络方法建立票房预测模型,并与支持向量机模型和线性回归模型进行预测精度对比,结果表明神经网络模型准确度高于其他模型。2017 年张雪[2]使用多元线性回归、BP 神经网络和卷积神经网络建立票房预测模型,结果表明[2]:多元回归模型预测效果精确度较低, BP 神经网络和卷积神经网络预测效果都比回归好。

2018 年郭萱[3]针对2014~2016 年173部国产电影采用随机森林方法进行电影票房影响因素分析,兼顾数值预测方法与分类预测方法提供合理的电影票房预测方案。2019 年鲁月[4]基于随机森林构建票房组合预测模型并与基于BP 神经网络、k-均值[4]和局部BP 神经网络的国产电影票房预测模型进行对比,结果表明基于随机森林因素筛选的国产电影票房组合模型在一定程度上提高了票房的预测精度。

随机森林方法提出至今,已经被广泛应用于机器学习、生物医学、生物信息学和数据挖掘等众多领域。该方法不仅可以进行分类和回归预测,同时可以给出变量重要性排序[5]。相比于参数模型中假设较多,参数估计数值不稳定的问题,随机森林方法可以更好地解决噪声问题以及数据中的异常值问题、能更好地对大规模数据进行处理[6]、具有良好的解释性及学习过程快速。本文采用随机森林方法对国产电影票房影响因素进行分析,并对2019 年12 部影片的票房进行预测。首先根据问题实际背景给出七个影响国产电影票房的因素,分别为:档期、是否有续集、首映日票房、点映票房、首周末票房、百度指数和豆瓣评分。基于2014~2018 年225 部影片的相关数据,采用随机森林方法建立回归模型,得到影响国产电影票房的主要因素并给出2019 年12 部影片电影票房的预测值和预测误差。同时采用电影票房领域应用较多的神经网络方法和线性回归方法对2019 年12 部影片进行预测。将随机森林预测结果与神经网络和线性回归模型预测结果进行对比分析。在变量选择方面随机森林具有一定的优势,在预测方面随机



相关标签