一种基于分类算法集成学习模型的金融信贷违约预测

发布日期:2024年3月29日
一种基于分类算法集成学习模型的金融信贷违约预测 一种基于分类算法集成学习模型的金融信贷违约预测

本内容试读结束

下载后可阅读完整内容,立即下载

随着金融市场的不断发展,金融信贷业务的激增也导致了信用风险的不断增加。为了应对这一挑战,传统的风险评估方法已经不能满足实际需求。目前集成模型成为违约问题研究的热点,通过整合多个分类算法的预测结果,充分利用各个算法的优势,以提高预测准确性和鲁棒性。本文研究了双阶段异构堆叠集成模型(DH-SEM)在金融信贷违约中的应用。该模型包括两个关键阶段,在第一阶段,选择了SVM、KNN、朴素贝叶斯作为三个监督基础学习器;在第二阶段,采用了随机森林作为元学习器来预测分类结果。对于金融信贷违约预测,DH-SEM模型预测准确率为0.886,相比传统的模型预测的更加准确。

发放贷款是全球银行的核心业务。巨大的违约损失和激烈的竞争要求金融中介机构准确有效地区分申请人。因此,银行应在申请筛选时决定是否提供信贷。数据主要来自申请表、客户人口统计以及过去借款和还款行为的大量记录。通常,信用评分问题会转化为二元或多类分类。换言之,利用信用数据开发分类器,构建决策支持系统,从而协助银行决定是否向特定申请发放贷款。应用于信用评分的预测模型大致可分为两组:统计方法和人工智能(AI)方法。许多研究都集中在建模方法上,这些方法提供了一种新颖的算法来提高信用评分的准确性。这些方法包括统计方法,如线性判别分析(Linear Discriminant Analysis, LDA) [1]和逻辑回归(Logistic Regression, LR) [2], 以及人工智能方法, 如人工神经网络(Artificial Neural Networks, ANN) [3]支持向量机(Support Vector Machines, SVM) [4]和决策树(Decision Tree, DT) [5]。尽管基于人工智能的方法取得了突破,但LDA 和LR 等简单型仍然是流行的信用评分方法,因为它们易于实施且准确[6]。

国内在信用风险评估领域起步较晚, 最初主要依赖专家经验进行评估, 容易存在主观性误差。

然而, 自2003 年起,机器学习方法开始引入信用风险评估。李萌[7] (2005)利用主成分分析构建Logistic 回归模型评估商业银行信用风险。郑昱[8] (2009)通过Probit 模型发现职业稳定性和过去信贷状况是影响个人信用的主要因素。支持向量机在1995 年提出,适用于二分类问题,可以通过核方法进行非线性分类。姚潇和余乐安[9] (2012)将支持向量机应用于信用风险评估, 并证明其具有良好的判别效果。

任潇等[10] (2016)比较了四种常见的单一模型, 发现SVM 方法效果最好。

随着算力提升和机器学习的发展, 集成学习在个人信用风险评估中得到广泛应用。集成学习通过训练多个弱分类器并组合其结果来提高预测效果。集成学习包括Bagging 和Boosting 两种类型。随机森林是一种常用的Bagging 集成算法,在商业银行和贷款机构应用广泛。方匡南、吴见彬等[11] (2010)利用随机森林评估信用风险,并取得良好表现。Boosting 是一种串行集成方法,代表算法有AdaBoost、XGBoost 和LightGBM。白鹏飞[12] (2017)研究发现XGBoost在互联网信贷风险评估中表现优于其他模型。

LightGBM 是微软团队在2017 年提出的轻型GBDT 梯度提



相关标签