复杂数据上的实体识别综述

发布日期:2021年5月28日
复杂数据上的实体识别综述 复杂数据上的实体识别综述

本内容试读结束

下载后可阅读完整内容,立即下载

复杂数据的数据量大和数据源不同的特征导致在挖掘复杂数据中的潜在价值时,需要利用实体识别技术。实体识别技术能实现对传统数据进行完整刻画、对数据质量进行管理的重要操作。而在复杂数据进行实体识别具有识别效果差、识别精度不高等问题。本文首先从应用领域的角度探讨复杂数据上的实体识别技术,包括社交网络领域的敏感实体识别、军事领域的目标实体识别、商业领域的商情实体识别。其次,对不同领域中的各个实体识别常用方法进行对比,分析了各个方法的问题与不足。最后,对在不同领域中进行实体识别的难点进行总结。

随着各个行业内复杂数据的数据量在信息化时代均呈爆发式增长,这使得挖掘数据的潜在价值愈发重要,如何更好地利用这些复杂数据逐渐被人们重视。而复杂数据通常具有数据量大和数据源不同的特征。数据量大使得处理数据时需要使用大量的计算资源,数据源不同导致在数据使用之前数据内部逻辑或结构需要统一整合。这两个特征是判断数据是否属于复杂数据的基础,另外,复杂数据的复杂性需要通过数据结构、数据量大小、数据的颗粒度、数据查询语言、数据类型、数据分散性以及数据增长率7个指标进行深入判断[1] [2]。

这些指标导致在复杂数据上开展相关研究将比传统数据更加困难, 并存在一些难以解决的问题。

实体识别技术是自然语言处理(Natural Language Processing, NLP)技术[3] [4]中的一项重要的基本任务。这项基本任务可以简单总结为在目标文本中识别出命名实体,并标注其位置与类型的过程。根据MUC-6 将命名实体划分为时间类(TIMEX)、实体类(EMAMEX)与数字类(NUMEX), 可以将实体识别问题看作一种特殊的序列标注问题(Sequence Labeling Problem) [5] [6] [7] [8], 这类问题不但与常规的输入特征相关,而且与目标文本的上下文之间有一定的联系。如表1,早期实体识别技术通常使用基于规则的方法[9] [10] [11]建立字典、规则库、语料库以及规则模板,从而使目标文本中的特征词能够根据人工规则被计算机识别并提取,但人工规则的构建需要耗费大量人力与时间进行人工标注,不能适应当前复杂数据拥有的数据量大的特征, 进而发展形成基于统计的方法。

基于统计的方法[12]利用机器学习算法弥补了基于规则的方法需要人工工作带来的损失,同时通过构建模型实现特征词语的自动提取,实体识别的效率得到增强。但基于统计的方法仅能够通过大量数据完成对模型的训练,面对数据量较小的数据集往往难以保证实体识别的正确率,因此能够处理小规模数据的基于深度学习的方法应运而生。基于深度学习的方法[13] [14] [15]根据深度学习模型完成小样本条件下实体的自动识别[16]-[21],同时更好地联系上下文关系。但使用基于深度学习的方法仅能针对某一领域进行实体识别,而非提取实体在各个领域的全部特征,无法做到目标实体全部特征的联合,导致目标实体识别的准确性受到影响。传统实体识别使用的基于规则的方法与基于统计的方法一般将目标文本的识别分为特征工程与文本分类两个部分,在特征工程部分完成人工标注,在文本分类部分完成特征提取,但这两个阶段往往消耗大量人力成本,且最后得到的识别结果也并不准确,因此运用深度学习方法进行实体识别是较好的选择。实体识别技术又被称为



相关标签