近年来,随着健康医疗大数据平台的快速发展,越来越多的体检数据整合到大数据平台上。如何挖掘并利用健康医疗海量数据提高医疗服务质量,提升医患沟通水平是一个全新的挑战。文中应用机器学习算法对45,374个体检用户,共3,529,829条体检数据进行分析数据的探索性分析和特征工程。在个人信用风险评分模型的基础上,将预测模型由梯度集成决策树改进为LASSO回归模型,增加评分卡的可解释性,同时结合体检的应用场景和输入数据,建立体检评分模型。实验结果表明在体检大数据集上,健康指数分数基本上服从正态分布,符合线性回归模型的先验假设。该评分模型同时具有稳健性和区分度的特点,可综合各项体检指标,较为客观地描述用户身体健康状况水平,降低体检用户同医生的沟通成本,督促用户更加关注身体整体健康状况水平。
《“健康中国2030”规划纲要》中提出,健康中国建设需要从以“治已病”为中心向以“治未病”为中心转变[1],同时随着体检机构的信息化建设的推进,健康体检向健康管理过渡成为一种必然趋势。
2016 年,国务院印发《关于促进和规范健康医疗数据应用发展的指导意见》,文件指出健康医疗大数据是国家重要的基础性战略资源,其应用发展将带来健康医疗模式的深刻变化,有利于激发深化医药卫生体制改革的动力与活力, 培育健康医疗大数据应用新业态[2]。
近几年, 随着人工智能、云计算、大数据、物联网等相关技术的发展,已初步建立区域级的健康医疗大数据平台,积累了一定的数据量,形成一个巨大的数据“矿产”。体检中心作为较为成熟的医疗机构,一方面数据格式相对统一,另一方面数据量巨大,如能利用机器学习、人工智能等技术手段挖掘数据背后的知识具有较大科研价值和社会效益。目前因数据隐私等问题体检大数据尚未得到有效利用,体检中心的体检信息缺乏智能算法的分析,只是简单堆积罗列的健康档案文档[3],同时导致用户从体检到获得体检结果的时间周期很长。
通过文献检索发现关于“健康指数”相关研究目前还鲜有开展,本文创新性的提出一种基于体检大数据,并利用机器学习算法建立一个可以持续跟踪群体健康状况的量化指标——健康指数。该健康指数可以及时客观地反应用户的整体健康状况,以此描绘健康画像,结合历史数据预测健康走势。同时该模型通过用户各项体检指标的变量选择和参数估计,初步揭示群体身体状况与各种指标之间的相互联系, 抓住影响健康的关键因素,为用户的健康管理提供参考,达到预防慢性非传染性疾病,提高人群生活质量,降低医疗支出的目的[4]。
2. 数据和分析方法 2.1. 数据来源 本数据来源某体检医院,包含两个数据表,分别是MEDICAL_DIAG_EXPORT2010 和MEDICAL_