基于改进DeepFM的心脏病预测应用研究

发布日期:2021年8月24日
基于改进DeepFM的心脏病预测应用研究 基于改进DeepFM的心脏病预测应用研究 基于改进DeepFM的心脏病预测应用研究

本内容试读结束

下载后可阅读完整内容,立即下载

基于改进DeepFM的心脏病预测应用研究

近年来,心脏病在全球已严重威胁到人类的身体和生命健康安全,通过利用人工智能等技术手段来辅助医疗诊断的科学技术日益普遍,为提高心脏病诊断的准确性,本文提出了一种在DeepFM模型的基础上改进后的较为新颖的模型——RDF模型。RDF模型由三个组件共同构成,其中因子分解机对低阶特征交互进行建模,BP神经网络对高阶特征交互进行建模,集成树则进一步提高模型的准确性和稳健性。本文在UCI数据集中的303个心脏病样本上进行实验,实验结果显示AUC值为0.8809,准确率为0.8317。

在人口结构失衡和年轻人不良的饮食习惯和作息规律的影响下, 中国患心血管疾病的人数越来越多, 这不得不促使我们增加对心脏病诊断的关注和干预[1]。随着海量数据的挖掘、人工智能的迅猛崛起,数据的规模不断膨胀,分析处理数据的方式也在不断更新,在此背景下,人们仅依靠自身经验与猜想假设去探索未知领域,又或者以样本来推断总体情况是远远不够的,我们已然步入了一个新兴的时代——大数据时代[2]。人工智能与医疗健康领域的融合不断促进了医学诊断的创新和进步。在机器学习和深度学习的理论支撑下,为提高医学诊断的精准性,许多学者以数据挖掘技术来辅助心脏病的诊断。

国内外对于心脏病预测领域的研究已日渐成熟。早在2007 年,Emre Çomak 等人利用最小二乘支持向量机对心脏瓣膜疾病进行分类[3];王阶等人将逻辑回归算法应用到冠心病的诊断当中[4]。2008 年,陈天华等人在冠心病分类中运用了BP 神经网络算法[5]。2017 年,王莉莉等人针对心脏病样本不平衡提出了一种改进的AdaBoost 算法[6]。Rui Guo,逢凯,Indu Yekkala 等人先后将随机森林或优化后的随机森林模型应用于心脏病诊断中[7] [8] [9] [10] [11]。

DeepFM 是推荐系统领域中比较成熟的用于点击率预测的模型,它是在2017 年由Huifeng Guo 等人提出的,DeepFM 模型的核心思想是集成因子分解机和深度学习两部分,形成一种新的神经网络架构, 进行特征学习,解决实际问题[12]。陈一文将融合了GBDT 的DeepFM 模型应用于CTR 的预估,具有实际的探索意义[13]。DeepFM 模型是一个继Wide & Deep 模型后改进的更为高效的模型。2016 年由Heng-Tze Cheng 等人提出的Wide & Deep 模型中Wide 代表广义线性模型,通过特征交叉实现记忆能力, Deep 代表前馈神经网络,通过生成没有出现过的高维特征提高泛化能力[14]。Wide & Deep 模型结合了LR 和DNN 两部分,但是由于LR 仍需人工特征工程实现特征交叉,DeepFM 模型便以FM 代替LR,且和DNN 共享同一个输入,使模型更为高效。DeepFM 模型的思想在理论上不仅可以用于点击率的预测, 还能应用于具有可操作性的各种分类问题。因此,本文利用改进后的DeepFM 模型对是否患心脏病进行分类,进一步探索数据挖掘对医疗诊断干预的重要性。

本文的工作安排如下:1) 对DeepFM 模型结构和内容的详细展开;2) 介绍了集成学习之随机森林模型的特点和步骤;3) 在基础模型之上提出RDF 模型,给出模型架构和输出表达;4) 实验数据的介绍和预处理;5) 将RDF 模型应用到UCI 心脏病数据中,并与多个模型的实验结果进行对比,根据评价指标对多组实验结果展开分析;6) 指出本文的探索意义以及有待改进的方向。

2. DeepFM 模块 DeepFM 模型是在Wide & Deep 模型的基础上提出的用来解决点击率预估的分类模型[12]。DeepFM



相关标签