一种基于FinBERT-CRF命名实体识别模型的证券领域知识图谱构建框架

发布日期:2021年5月27日
一种基于FinBERT-CRF命名实体识别模型的证券领域知识图谱构建框架 一种基于FinBERT-CRF命名实体识别模型的证券领域知识图谱构建框架

本内容试读结束

下载后可阅读完整内容,立即下载

随着信息媒介的转变以及人们对金融领域逐步的关注,证券领域新闻资讯信息的传递频率达到了前所未有的水平,而在当今金融领域缺乏一种能够可视化展示证券领域企业实体之间情感影响关系的建模方法。针对该问题,本文首先提出了一套实时的定向爬虫框架来获取所需的证券领域新闻文本,其次针对新闻文本设计了一种基于FinBERT-CRF的命名实体识别模型,最后结合市场基本面提出了一种构建面向情感分类的证券领域知识图谱,为投资者以及投资机构提供了一定的参考价值。

随着互联网便捷化的发展,以及新闻信息传播媒介的逐步转变,新闻资讯信息的传递速度达到了前所未有的水平。在金融证券领域的服务类别中,用户阅读金融类资讯的使用频率远超于其他金融服务,相对应,上市公司重大事件新闻的传播影响力也在快速增大。例如18 年7 月发生的长生生物疫苗事件,国家药品监管局早在同年7 月18 日便发布公告称长生生物疫苗研究中违反了相关规范, 直到7 月22 日, 一篇《疫苗之王》的公众号文章将长生生物推至风口浪尖,其股票价格一路下跌同时带动同概念生物疫苗相关股票价格一路狂跌。从类似事件的发生我们可以发现虽Fama [1]于1965 年提出了“有效市场假说”,但该假说的前提假定为:于证券市场参与者来说,人们均处于极其理性的情况下,同时掌握了金融证券市场完整的信息。但在真实的金融领域,由于中国的证券交易市场仍处于初期阶段且影响因素繁多,投资者往往难以自主对海量数据即时准确做出判断从而成为证券市场中的被动者。因此在计算机技术、深度学习逐渐兴起的背景之下,针对证券市场企业实体的情绪分类对于投资者以及投资机构来说尤为重要。近年来,在针对证券领域新闻文本的情感分类理论研究中,研究学者往往仅从文本化非结构性数据中获取相关影响因子或有效信息,而这一过程往往忽视了金融证券市场是一个综合整体的实体存在,对当前证券领域缺乏准确普遍的建模方法。故在本文中我们通过搭建面向情感分类的证券领域知识图谱,使证券领域实体之间的关系图像化,即为通过构建图边关系进一步对市场企业实体的情绪进行有效的分析打下基础。

在对金融证券领域的文本信息转换为知识图谱搭建中,首先需要考虑的问题是如何获得证券领域内的新闻文本和基本面数据,以及如何实现将其文本表述转换为计算机能够识别的表示方法。在传统的机器学习方法中,常需要充足的数据量来支撑参数调整优化,然而在特定专业领域,模型学习的效率往往由于上述假设过于严格而难以达到很好的效果。事实上,这些领域可用数据量缺失,使得训练样本往往不足以供复杂的机器学习模型进行训练从而得到一个可靠的生成预测模型。因此在本章,我们首先构建实时的定向爬虫框架来获取所需的证券领域新闻文本以及半结构化企业基本面数据。

其次本文针对非结构化数据证券领域新闻文本,提出基于命名实体识别的方法对证券领域知识图谱进一步情感分类标注的扩充。虽然命名实体识别模型搭建在现有的解决方案中已较为普遍,但由于证券领域新闻文本相关数据常存在一系列专有名词,大多数仅通过人为设立规则和模板方法为主,统计学习方法多作为辅助决策来完成。针对证券领域有标签数据常存在人工标注慢等此类问题,在本文中我们提



相关标签