为提高儿童多种疾病推理的准确率,提出以知识图谱为数据基础并结合推理机的儿童疾病推理算法。通过Neo4j构建知识图谱对数据进行储存和应用,而推理机以TransE推理机为基础,并结合朴素贝叶斯分类器来提升推理机处理不同疾病含有同种症状的问题的能力,再通过建立的自适应机制来降低不同疾病的症状数不同对推理机的影响。实验结果表明,所提出算法在疾病推理的精确率,召回率和F1值上均有所提升,说明该方法提高了儿童多种疾病推理的准确率。
伴随医学信息化的提升,现已经产生和积累了大量医学数据,且在健康网上咨询的情况也越来越常见。而回答咨询的基础为疾病推理,所以提高疾病推理的准确率有利于更好地推荐宜忌食物或推荐就诊科室等推荐服务。而儿童时期为人生的关键时期且儿童疾病的症状明显,所以儿童疾病推理具有好的应用前景。
疾病推理即根据病人的症状等信息,推理出病人可能有的疾病。Wang 等人[1]结合专家系统和人工智能的推理模型正确率高,但需要设定大量规则。Qiu 等人[2]基于贝叶斯的方法能够模拟人脑的学习, 但所学的结构可能不太准确。龚乐君等人[3]基于决策树方法准确率高,但是微调数据可能会使模型失去稳定性。Jia [4]结合了知识图和深度强化学习提出模型DKDR,该模型诊断准确率较高,但是特征少的时候对训练结果的影响较大。刘勘等人[5]提出的CDR (CNN-DNN-TransR)模型准确率提升高,但是该模型需要在较为完备的知识图谱上进行且由于医疗记录的复杂性,用语的口语化和多样性,将影响症状实体准确识别。Chai [6]提出了BLSTM (Bi-directional Long Short-Term Memory)用于甲状腺疾病的诊断,该方法实验结果稳定,对甲状腺疾病的认知率在80%以上,但是参与的特征对结果影响较大。
上述方法的问题是在多种疾病推理上准确率低,或未考虑输入不平衡性的问题。因此受混合推理[7]的启发,本文结合了Neo4j 构建的知识图谱储存数据可用性好,TransE 推理速度快,朴素贝叶斯在多分类上复杂度低和自适应机制抗输入不平衡性干扰效果好的优点,从而提高了在儿童多种疾病推理上的准确率。
2. 医学知识图谱分析 知识图谱是图G = (V, E)的某种扩展形式,V 是顶点集合,表示实体,E 是边集合,表示实体间的联系。知识图谱是图数据模型的继承和发展,其在一般图模型的顶点和边上附加更多的属性信息,用于描述现实世界中事物的广泛联系[8]。其常用类型为RDF 图。
定义1. RDF 图。设U、B 和L 为互不相交的无限集合,分别代表URI、空顶点和字面量。一个三元组()()(), , s p oUBUUBL∈∪××∪∪称为RDF 三元组,其中s 是主语,p 是谓语,o 是宾语。RDF 图G是三元组(s, p, o)的有限集合。
定义2. 医学知识图谱 MedKG (Medical Knowledge Graph)。
MedKG 如图1 所示, 可用式(1)表示图谱中的每一条医学知识[9]。h、t 分别为头实体和尾实体,r 为实体间的关系。
(), , MedKGh r t= (1)