随着机器学习技术不断取得突破性进展,越来越多的决策交给复杂自动化的机器学习算法去做。但这些高性能的模型就像黑盒子,缺乏决策逻辑的透明度和可解释性。LIME (Local Interpretable Mod-el-agnostic Explanation)是由Marco Tulio Ribeiro等人提出的一种XAI (Explainable Artificial Intelli-gence)方法,对于复杂的黑盒模型,LIME使用可解释性模型(线性模型)对黑盒模型进行局部近似,局部解释复杂模型的决策行为。LIME中使用的线性模型(Ridge回归等)学习能力较弱,不能很好地局部逼近复杂模型。对于复杂树模型(XGB、RF等)本文提出采用可解释性良好的广义加性树模型EBM去近似它们的局部行为,而对于复杂神经网络模型,本文提出利用广义加性神经网络模型GAMINET去局部逼近其局部行为。EBM (Explainable Boosting Machine)和GAMNET (广义加性神经网络模型)均具备可解释性并且拥有更强的学习能力,能更好地逼近复杂机器学习模型。
随着机器学习和深度学习的不断发展,这些精度高、性能优异的复杂模型、应用场景贯穿我们生活的方方面面。数据导入到模型即可得到预测结果。我们无法知道模型是如何从数据当中捕获知识的。在一些涉及到生命健康、财产安全等较为重要的领域,我们需要对模型的决策进行解释,另外对错误结果的解释也可以反过来指导对模型的调整。因此除了模型的精度之外,模型的可解释性也非常重要。对可解释机器学习的研究有着重要的意义。
近年来,可解释机器学习在科研会议上成为关注热点,可解释机器学习主要是研究如何使黑盒子模型决策更加透明、可信, 主要分为两大类:一是内在可解释机器学习, 如逻辑回归;二是事后解释方法, 如LIME [1]、SHAP [2]等,通过事后辅助的归因解析去对复杂模型进行解释。本文主要在LIME 的基础上进行改进,使用近年来新提出的可解释性加性模型去逼近复杂模型,而不是LIME 内部使用的简单线性模型,进一步提升LIME 解释复杂模型的能力。
2. 模型及原理介绍 2.1. 机器学习可解释性 机器学习可解释性是指人类对机器学习模型预测结果的理解程度大小。模型可解释性主要回答如何由输入数据得到预测结果的问题,是对输入特征和预测结果之间关系的定性理解。基本的可解释性模型主要有线性回归、浅层决策树、朴素贝叶斯、以及K 近邻等。这些模型具备较强的可解释性,但令人觉得遗憾的是和复杂的机器学习模型如集成树模型以及神经网络模型相比,它们的学习能力非常有限,只能解决一些简单的问题。复杂的机器学习模型在许多目标任务上取得了良好的性能,但绝大多数是黑盒子模型,没法说明从输入到输出之间的因果关系。而在一些重要领域如金融、法律、医疗健康等,模型的可解释性非常重要,如风控借贷模型中,对一个被拒绝贷款的客户,我们有必要向其解释拒绝放贷的原因。再如机器学习模型在区分恶性肿瘤和不同类型的良性肿瘤方面是非常准确的,但是我们依然需要