基于知识增强卷积神经网络的标的物命名实体识别方法

发布日期:2021年11月22日
基于知识增强卷积神经网络的标的物命名实体识别方法 基于知识增强卷积神经网络的标的物命名实体识别方法

本内容试读结束

下载后可阅读完整内容,立即下载

针对招标文件中,“标的物”作为命名实体存在着分词错误、多个名词并列现象导致的真实意图标的物命名实体提取困难问题,提出一种基于知识增强卷积神经网络(CNN)的标的物命名实体识别方法。该方法首先构建了针对招标文件的正则表达式,实现包含标的物短语的定位。然后利用基于知识增强卷积神经网络,在输入层将标的物定位短语和其上下文信息作为输入,通过卷积层对特征进行提取,最后通过Softmax层输出实体标注结果。在2017~2020年的19,980份招标文件的数据集上,本方法的平均准确率为0.96,与深度神经网络(DNN)、循环神经网络(RNN)和Hopfield神经网络(HNN)相比准确率分别提升了1.2%、0.4%和0.3%。实验结果表明本方法能够进一步提高标的物命名实体识别的准确率,使得企业在智能化标的物提取过程中取得更优的效果。

招标业务是企业进行项目管理的一项重要工作,而企业对于招标项目管理过程中的标的物提取依然采用人工方式进行处理,消耗了大量不必要的人力物力。因此,可以利用计算机实现标的物自动提取, 从而显著提高相关领域企业工作人员的工作效率,有效提高招标的质量,促进企业对招标的管理方式在智能化、电子化的大方向上发展。

特定命名实体识别的主要任务是识别出文本中的人名、地名、化学名词等不能用通用名词构成规则和长度而划分的专有名词[1] [2] [3]。命名实体是命名实体识别的研究主体,一般包括3 大类(实体类、时间类和数字类)和7 小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体[4] [5] [6] [7]。由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得较好的识别效果,相比之下人名、地名、机构名的构成更复杂和常用,因此这几种实体相关研究是近几年的研究热点[8] [9]。

招标文件文本中由于标的物命名实体会涉及到机构名和专有的物品名称,还与行业领域相关,而且还有多个名词同时并列出现的情况,其识别难度很大。标的物命名实体的成词规则不同于通用的名词构词规则,但是标的物却是招标文件分类的重要参数,因此,针对行业领域的招标文件的标的物命名实体识别开展研究具有重要的理论和现实意义。

首先,本文针对招标文件文本,构建相关的规则集和字段词典作为“知识”,利用正则表达式对标的物命名实体所在的文本片段进行定位;然后,利用基于知识增强卷积神经网络(Convolutional Neural Network, CNN),在定位的文本片段上进一步识别标的物命名实体,解决多个名词并列相邻以及构词规则特殊化问题,同时还利用了深度学习模型能利用上下文语义关系的优化。



相关标签