数据驱动的医疗保健(data driven healthcare)作为可用的大型医疗数据的使用,以提供最好的和最个性化的护理,正成为医疗行业革命成功的主要趋势之一。电子病历是推动这一数据驱动的医疗革命成功的主要载体。本文运用深度学习的方法,基于词嵌入模型实现对电子病历信息的表示,利用长短期记忆
全球医疗保健系统正在迅速采用电子病历(EHR),它是在任何护理交付环境[1]中由一个或多个相遇产生的纵向患者健康信息的系统集合(例如,诊断、药物、实验室测试、程序等)。这将极大地增加有效的电子临床数据。因此,数据驱动的医疗保健作为可用的大型医疗数据的使用,以提供最好的和最个性化的护理, 正成为医疗行业革命成功的主要趋势之一[2] [3] [4]。
由于患者EHR 是进行数据驱动的医疗研究的主要载体,了解EHR 中包含的信息并对其信息有效提取是至关重要的。
2. 相关工作 近年来,病历中表型的提取和表示的现有方法包括:基于向量的表示。这种方法针对每个病人构建了一个向量,它的维度等于在HER 中出现的不同事件的数量, 每个维度上的值是在特定时间段内相应医疗事件的汇总统计(例如,总和、平均值、最大值、最小值等)。使用基于向量的表示,每个表型通常被假定为这些原始医疗事件的线性组合,组合系数是通过一些优化过程获得的,这种表示的局限性在于它忽略了这些事件之间的时间关系。
Ho 等人[5]提出了一种基于非负张量因子分解的EHR 张量表型提取方法。
该方法探索了不同医学实体之间的相互作用;其局限性是,他们仍然没有考虑事件–时间关系。基于序列的表示,该方法根据每个事件的时间戳为每个患者构建EHR 序列,然后,运用频繁模式挖掘方法将时间模式识别为表型,一个问题在于,患者EHR 之间的高度可变性,这种方法通常会返回大量的模式(也称为“模式爆炸”现象)。基于时间矩阵的表示[6],这种方法表示患者EHR 作为时间矩阵,其中一维对应于时间, 另一维对应于医疗事件。
Zhou 等人[7]提出了将相似时态趋势的医疗事件分组在一起的表型分型方法。然而,他们没有考虑不同事件之间的时间关系。Wang 等人[8]提出了一种卷积矩阵分解方法, 用于检测患者EHR 矩阵上的移位不变模式,但不能确定最优模式长度,需要枚举所有可能的值。
为了克服上述电子病历信息的稀疏性、时间上无规律性和疾病信息的长期依赖性挑战,本文将基于自然语言处理[9]中的词嵌入模型将EHR 中离散的元素嵌入到连续向量空间中, 将相同类型的向量合并为单个向量,把向量经过特定池化类型处理表示为一次入院,以这种方式,可变大小的输入被嵌入到连续分布的向量空间中,作为LSTM 的输入特征,通过LSTM 对时序信息的有效处理,实现对疾病风险的预测。
因为嵌入是从数据中学习的, 所以模型不依赖于人工特征工程。
实验结果表明, 该模型具有有效性。
3. 基本概念 3.1. 词表示 用“词”来指一个大的上下文中的离散元素(例如,文档中的一个词或一次入院的一种诊断),输入到