股票预测一直是金融界研究的热点问题,近年来融合文本、图片这类非结构化数据成为提高预测精度的研究方向。本文建立了一种能够同时处理多源异质数据的股票价格走势预测联合模型,分析词云图片、股吧评论文本和股票交易数据。联合模型分为两个分支,一个分支运用CNN模型分析由股民评论文本转为的词云图片,另一分支运用LSTM模型处理历史股票交易数据和由股民评论文本得到的情感评分,两个分支共同预测4天、6天、8天的股票走势涨跌。结果表明使用词云图片的CNN模型表现优于情感分析的LSTM模型,证明词云图片的可使用性,且联合模型结果优于两个单一模型,准确率稳定在0.6~0.7之间。
股票预测一直是金融界学者们研究的热点问题。随着互联网的发展和技术的进步,学者们在输入数据时,开始融合结构化数据和非结构化数据,目前使用较多的非结构化数据为图片、文本两类。使用这些多源异质数据, 能够优化数据输入的多元性, 使模型获取的市场信息更加全面, 从而提高预测精度[1]。
目前学者们对于文本类数据的研究分为两类,即金融新闻类文本和社交媒体类评论文本。Maqbool等(2023) [2]使用多层感知器回归模型(MLP-regressor)分别对10 天、30 天和100 天的股票进行预测, 检验金融新闻情绪对股票走势的影响。结果表明股价与金融新闻之间存在高度相关性,使用金融新闻情绪可以预测股价。Liu 等(2020) [3]从股吧获取股票评论文本并与股票历史交易数据一起进行股票预测分析, 结果表明评论文本数据和股票历史交易数据是相辅相成,两者可用作提取互补特征的数据源。
学者们对于文本类数据的使用逐步成熟,但对于图片数据的研究仍处于起步阶段。现在普遍使用的图片是蜡烛图,蜡烛图内包含股票价格、走势信息,能够取代股票历史交易数据这类结构化数据。Hung和Chen (2021) [4]通过蜡烛图预测NI225 指数2015~2019 年价格涨跌趋势,平均准确率达到66.53%。学者们认为对于股票这种容易受到社会新闻事件、相关行业股票、投资者情绪等多种因素影响的敏感型投资产品,利用知识图谱是一种很有前景的研究方向。知识图谱能将与股票相关联的信息融入到价格特征表示中,从而增加多因素输入,使得模型能学习到更多市场信息,进而提高预测精度。可是,目前知识图谱研究工作具有大量节点的图的复杂性和梯度问题有待解决。Jafari 和Haratizadeh (2021) [5]将任意一组股票之间的关系建模为一种称为影响网络的图结构,使用图卷积网络算法来预测股票走势,准确率优化后仅有0.56。知识图谱的运用尚未形成一个完整体系的研究脉络,研究工作还有待改善,其他图片的使用还有待开发。
随着输入数据的多元化,单一的模型已无法兼顾多源异质数据,学者们开始搭建联合模型对数据进行处理。Ho 和Huang (2021) [6]通过全连接层连接两种CNN 模型建立集成模型,同时处理蜡烛图和由推