本文的数据来源于广东省某肿瘤医院,共计2064个鼻咽癌病案,我们对其进行数据挖掘,并预测病人的医疗费用。本文通过以下四步对数据进行研究。首先,我们选取了病人的年龄、性别、TNM诊断分期以及住院天数等特征为预测变量。然后,基于回归决策树算法(CART)建立费用预测模型。其后,分别使用两种Boosting算法,AdaBoost和Gradient Boosting对已有模型进行改进。接着,通过直观比照和回归评价指标,分析三种算法建立的预测模型的效果并进行比较,得到效果最好的DBRT (Gradient Boosting Decision Tree)预测模型,其预测准确率约为85%。最后,通过特征重要度和部分依赖关系图,解释基于Boosting算法的模型的现实意义,为医疗保险资源的分配和单个病例预期费用提供了参考。
尽管医疗保险资金再分配是医疗保险机制中重要的一环,但在日常的运行过程中常常遇到资源分配不合理的问题。
而对患者来说, 难以预先得知较为准确的治疗费用, 也将对其治疗过程产生不利的影响。
所以, 研究医疗费用预测对建立单病种的支付额度和患者的治疗十分重要。
但是, 由于很多因素的影响, 单病种支付额度不可能是始终不变的,尤其是癌症这类医疗费用极差较大的病种来说,其治疗过程中产生的费用更是难以准确预测。究竟该如何准确给出治疗费用是摆在研究人员面前的棘手问题。
国内外对于该问题已有一定的研究,近些年,Robert B. Fetter 等人提出的DRGs (Prospective Payment System Based On Diagnosis Related Groups) [1],即诊断相关分类,有着迅速发展,它是当今世界公认的比较先进的支付方式之一。它以病例组合为基本依据,考虑了患者的个体特征以及并发症和合并症情况等因素,将诊疗过程相似、费用支出相近的病例分到同一个组,进而接受统一标准的诊疗预付费。这一方法通过统一的诊断分组定额支付,激励医院加强质量管理、优化资源利用。而国内对于医保赔付和医疗费用预测问题也有一些成果,林倩、杜剑亮、Ai-Jing Luo 等人[2] [3] [4]利用决策树实现DRGs,并对医保赔付做出指导。张凯、王若佳[5] [6] [7]引入数据挖掘技术解决该问题,提供了新的思路。
本文对大量鼻咽癌患者病历进行数据挖掘,根据影响疾病治疗费用的主要因素,基于回归决策树构建了针对鼻咽癌(NPC)患者个体的费用预测模型,并运用Boosting 算法进行模型改进,最后解释模型的现实意义,为医疗保险资源的分配和单个病例预期费用提供参考。