知识图谱作为知识的结构化表示,已成为智能认知系统的一个重要研究方向。本文主要通过抓取网络上以骨科康复治疗知识为主的各种医学知识,通过数据清洗将这些医学数据整合成以疾病为中心的结构化知识。同时辅助权威书籍和医生专家对数据进行修正和增删。最终将数据存入图数据库,构建七类约9.6万的实体节点、十类约109万的实体关系以及九类属性类型的医疗健康知识图谱。本文进一步对构建的知识图谱进行通用疾病和骨科疾病分析,发现实体关系边数分布满足幂律分布,同时分析了各类型实体关系边数排行榜,为病人食谱、症状、检查项目和并发症等选择提供一定的参考价值,本知识图谱也为骨科康复的互联网远程智能问诊打下基础。
知识图谱是旨在描述人类知识各种实体或概念之间的内在关系[1] [2], 将知识内容转化为图结构, 由表达知识概念的实体和反映两个实体之间关系的边组成,是一种数字化的语义网络,计算机存储和理解知识语义关系的一种结构化处理方法,是实现机器认知智能的关键技术,目前已经拥有很多成熟的产品应用。
1955 年,Garfield 就检索文献提出了自己的看法——引文索引的思想[3]。1965 年普赖斯提出“引证网络”[4],从此开启当代科学发展脉络引文研究时代,初步形成知识图谱(Mapping Knowledge Domain)的概念。
1977 年, 知识工程知识库概念出现, 成为研究人员的研究对象, 其中以专家系统为主要代表[5]。
20 世纪的90 年代, 新的概念——知识库(Knowledge Base) [6]被提出, 人们开始深入研究知识将如何表示、知识怎样组织,并将此研究广泛应用到各科研机构和企业单位。2012 年11 月,Google 针对如何提升搜索引擎的准确性、如何提升用户使用感的问题,创新性提出知识图谱(Knowledge Graph)的概念[7]。
随后知识图谱被广泛应用于知识问答领域,相较于传统的问答系统,基于知识图谱的问答系统以其特有的结构化知识大大提高其处理庞大数据量时的搜索效率,且还提供一定的推理功能。知识图谱的存储包括两种形式:资源描述框架(RDF) [8]和图数据库。由于Neo4j 相较其它数据库的各种优势[9] [10], 成为大幅度领先的主流图数据库。
现在, 较为知名的知识图谱系统有Google 的KG、微软的Probase [11]、百度的知心、上海交通大学的zhishi.me (中文)、中国科学院的CAS-IR (目前国内规模最大)、搜狗的知立方等[12]。