机构名识别是命名实体识别的核心任务之一,其识别效果的优劣极大地影响着下游知识图谱构建、意图搜索等任务。现有的机构名实体识别在工作中存在着实体标注粒度通常过粗,识别率低的问题。基于以上,提出一种不依赖人工特征选择和领域知识的端到端细粒度识别模型(BERT-BiLSTM-CRF)。该模型在传统实体识别模型BiLSTM-CRF的基础上引入BERT预训练模型,通过引入BERT预训练语言模型获取动态字向量表示,有效解决了由于缺乏大量训练语料而无法获得丰富语义信息的问题,然后将BERT和BiLSTM-CRF模型联合起来进行实体识别,学习语料上下文信息和标签转移关系,最终获得机构名细粒度类别标签。同时,根据实际应用需求重新划分了机构名的类别,对数据集进行了细粒度的语料标注。实验表明,该模型在使用的训练数据集上,F1值最佳,达到了92.41%,相较于主流序列标注模型准确率更高,具有浅在应用价值。
命名实体识别(Named Entity Recognition, NER)是信息抽取的重要环节之一,其目的是从文本中识别出命名实体的边界并判断其所属的实体类型。传统实体识别任务主要集中在人名、地名、机构名的识别上,但是,由于机构名具有罕见词多、结构复杂、名称差异性较大等问题,和其他类别相比,识别准确率较低[1]。
机构名在日常生活中覆盖面极广且划分领域细致,通常分为政府机关、医疗机构、科教服务场所、餐饮等多个类型,因此,对机构名进行细粒度实体识别更符合现实世界的知识体系。通过在已有类别基础上进行进一步的类别划分,使得从文本中抽取出来的实体有更为详细的定义,为下游兴趣点搜索、意图识别、面向导航系统等实际任务提供更有力的支撑。
命名实体识别主要有基于规则的、基于统计的和基于深度学习的方法。基于规则的方法通过分析实体的构成特点和上下文结构,人工构造大量的特定规则,再从语料中匹配符合这些规则的实体,人工成本高,可移植性低。基于机器学习的常见方法有隐马尔可夫模型和条件随机场[2]等,文献[3]采用规则与条件随机场相结合对中文地名、机构名进行识别并取得了不错的效果。但是,这种方法对于语料库的依赖较大,而且需要语料具有一定的特征结构[4]。
近年来,基于神经网络的方法在实体识别任务中取得了较大的成功,文献[5]用双向长短时记忆网络BiLSTM 自动学习文本的词级和字符级表示,在CoNLL-2003 数据集上取得了F1 值90.94%的先进水平成绩,该方法能够自行从数据中学习出文本序列的特征,不需要人工设计规则模板。相比于英文语系,中文