随着深度学习技术的发展和引入,现有人群健康数据预测方法的性能不断提高,但仍然受到数据质量问题的限制。为此,本文提出了一种基于外部知识辅助的人群健康数据预测方法。首先,该方法以与冠心病患病率相关性较强的高血压患病率数据和选区老年人口比例数据作为外部知识辅助填补冠心病患病率数据稀疏部分,对上述数据进行预处理后,构建CNN模型对高血压患病率数据和选区老年人口比例数据提取特征矩阵,并和随机噪声、部分完整的冠心病患病率数据作为CGAN模型的输入,以生成用来填补原冠心病患病率数据中稀疏部分的人工样本;然后,该方法将填补后的完整数据集通过ARIMA模型拟合得到模型特征,并输入GRU模型进行预测分析。实验结果表明,本文方法在MAE和RMSE上和KNN模型和RNN模型相差不多,但MPAE大大降低。
随着科技的快速发展和全球健康意识的提升,人群健康数据预测方法的研究逐渐成为了公共卫生、医疗科技等领域的研究热点。人群健康数据预测可以帮助人们提前预警潜在的健康风险,还能辅助相关政策制定、优化医疗资源配置[1]。人群健康数据预测早期主要依赖传统统计模型分析数据趋势和周期性来预测未来健康状态,如指数平滑模型和ARIMA 模型[2] [3]。然而,统计模型在处理大量高维数据时存在局限性,容易出现过拟合现象,且模型的泛化能力有待提高,难以捕捉数据中的深层次特征[4]。
然而随着机器学习技术的发展,近年来深度学习技术在人群健康数据预测领域取得了显著的应用进展[5],例如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)等模型的应用[6],能够自动提取数据特征,处理非线性关系,一定程度上缓解了过拟合问题,大幅提升预测准确性[7]。然而, 深度学习模型需要大量的数据资源支持,而且可解释性有待提高。为此,研究者尝试融合不同的模型, 形成混合模型,例如,将ARIMA 与LS-SVM 结合,形成ARIMA-LS-SVM 模型[8]。虽然预测模型本身在不断优化和进步,但仍然受到数据质量问题的限制。为了提高数据质量,常用的数据填补方法有删除法和替换法[9],但这些传统方法的效果并不理想,于是深度学习模型也被引入到数据填补技术中[10], 旨在捕捉数据复杂结构以精准填补缺失值,但在背景知识单一情况下填补效果仍然受限。
为此,本文将提出一种基于外部知识辅助的人群健康数据预测方法,利用外部知识来解决稀疏数据对预测模型的限制问题。具体地,在本文的预测方法中,首先,本文以与冠心病患病率相关性较强的高血压患病率数据和选区老年人口比例数据作为外部知识辅助填补冠心病患病率数据稀疏部分,对上述数据进行预处理后, 构建CNN 模型对高血压患病率数据和选区老年人口比例数据提取特征矩阵, 并和随机噪声、部分完整的冠心病患病率数据作为CGAN 模型的输入,以生成用来填补原冠心病患病率数据中稀疏部分的人工样本。
然后, 本文将填补后的完整数据集通过ARIMA 模型拟合得到模型特征, 并输入GRU模型进行预测分析。
2. 相关工作 2.1. 人群健康数据预测方法 随着大数据和人工智能技术的迅猛发展,人群健康数据预测已成为全球研究领域的热点。这一技术融合为洞察疾病发生趋势、预防控制和治疗提供了前所未有的机遇。在人群健康数据预测方法研究中,