关联规则在中医肝病电子病历数据分析中的应用研究

发布日期:2015年11月26日
关联规则在中医肝病电子病历数据分析中的应用研究 关联规则在中医肝病电子病历数据分析中的应用研究

本内容试读结束

下载后可阅读完整内容,立即下载

目的:基于关联规则挖掘模型分析中医肝病患者数据,探寻检查指标与中医辩证之间的关联。方法:通过设置最小支持度和最小可信度对中医肝病患者资料进行关联规则分析,根据生成规则的重要性筛选出前后件成正相关的规则,结合提升图评价挖掘结果准确性。结果:分析样本例数317例,共获得30条规则,揭示了检查指标组合与中医辨证结果间的关系。结论:在中医肝病电子病历数据中应用关联规则分析可以揭示不同检查指标对于中医辨证的影响,有利于辅助诊断。

自1993 年Agrawal 等人提出关联规则概念后, 基于关联规则的挖掘算法被普遍应用于商场购物篮的分析,目的是发现顾客的购物习惯,其原理为“基于频繁项集生成规则并计算规则的贡献度”[1]。在中医诊断中,通常检查指标包括有患者基本信息、四诊信息和实验室检查指标等[2],而肝病诊断指标常见的有肝病通用刻下症、舌脉诊、肝病专科检查等, 中医肝病常见证型有肝郁脾虚、湿热蕴结、肝郁气滞、脾虚湿阻、肝肾阴虚等[3] [4]。借鉴关联规则挖掘商品数据的原理,探索中医诊断指标对证型判定的贡献度,可形成诊断量表[5],利于中医临床辨证。本研究利用Microsoft Visual Studio 2008 提供的挖掘工具, 采用关联规则与决策树模型对中医肝病电子病历数据进行挖掘,寻找指标项与证型之间符合预设条件的规则,为中医肝病辨证提供参考[6]。

2. 资料与方法 2.1. 资料来源 本研究资料来自于某临床肝病研究所电子病历,共317 例。资料涉及患者的年龄、性别、舌脉诊、肝病通用刻下症以及肝病专科检查,共计27 项指标。该资料以定性资料为主,部分变量有少量缺失值。

2.2. 方法 本研究利用SQL Server 2008 [7]进行挖掘分析,其中用于分析的数据存储在SQL Server 数据库中, 挖掘分析过程在Microsoft Visual Studio 2008 平台上实现。该平台封装了常用挖掘模型,本研究选取其中关联规则模型(Microsoft_Association_Rules)与决策树模型(Microsoft_Decision_Trees)进行数据挖掘。其中关联规则模型采用的是经典的Apriori 算法,其挖掘步骤如下: 1)扫描数据集,生成频繁项集。此过程一般比较耗时。这些项集的支持度必须要大于等于最小支持度(Minimum_Support)。

2) 基于第一步生成的频繁项集,产生关联规则。这些规则出现的概率(置信度)必须大于等于最小概率(Minimum_Probability)。



相关标签