写在前面:
这篇文献提出的方法对我的工作帮助不是太大,但可以扩展可解释性的理解。
1 摘要
深度学习在很多人工智能应用领域中取得成功的关键原因在于, 通过复杂的深层网络模型从海量数据中学习丰富的知识。然而, 深度学习模型内部高度的复杂性常导致人们难以理解模型的决策结果, 造成深度学习模型的不可解释性, 从而限制了模型的实际部署。因此, 亟需提高深度学习模型的可解释性, 使模型透明化, 以推动人工智能领域研究的发展。本文旨在对深度学习模型可解释性的研究进展进行系统性的调研, 从可解释性原理的角度对现有方法进行分类, 并且结合可解释性方法在人工智能领域的实际应用, 分析目前可解释性研究存在的问题, 以及深度学习模型可解释性的发展趋势。为全面掌握模型可解释性的研究进展以及未来的研究方向提供新的思路。
2 可解释问题研究现状
2.1 什么是可解释性
定义:可解释性是指我们具有足够的可以理解的信息, 来解决某个问题。具体到人工智能领域, 可解释的深度模型能够给出每一个预测结果的决策依据, 比如银行的金融系统决定一个人是否应该得到贷款, 并给出相应的判决依据。
如图 1, 分类器不仅要识别图片中的猫, 而且要给出分类依据。
根据可解释性的解释范围, 我们可以分为全局可解释和局部可解释。
全局可解释性
整体模型的可解释性是指同时理解整个模型, 并解释全局模型输出。比如输入特征对预测结果的重要性程度, 以及不同特征之间的相互作用等等。
模块化层面上的全局可解释性是在模块层面上理解模型, 将全局模型的可解释性进行模块化。
局部可解释性
单一预测的局部可解释性是对模型的一个预测结果进行解释。局部可解释的预测结果可能只依赖于线性或某些单调的特征, 而非对它们有复杂的依赖性, 所以局部可解释性通常比全局可解释性更容易和准确。因此可以通过扰动输入, 观察输出的变化, 确定模型是基于哪些特征进行决策的, 以解释预测的原因。
一组预测的局部可解释性是对多个样本的预测结果进行解释。多个样本的模型预测可以用单一预测的局部可解释性方法来分别进行解释, 然后聚合为一组。
2.2 如何解释深度学习模型
模型内部可视化
对模型内部学习的权重参数、神经网络的神经元或者特征检测器等进行可视化。由于权重直接反映特征对模型最终预测的贡献, 所以可以非常粗暴地可视化出模型内部的权重。同理, 也可以对神经元或特征检测器可视化, 展示出输入特征在模型内部的变化。尽管这类可解释性方法可以直观地观察到模型内部输入的运算过程, 但是缺乏普适性, 很难得出通用的可解释性, 而且解释的效果也有待提升。
注:主要是通过可视化工具将模型内部可视化,但可视化结果一般人也无法直接理解
特征统计分析
对不同的特征进行汇总统计或者显著性可视化, 以此建立特征和预测之间的因果关系。许多可解释性方法根据决策结果对每个特征进行汇总统计, 并返回一个定量的指标, 比如特征重要性衡量不同特征对预测结果的重要性程度,或者特征之间的交互强度。此外, 还可以对特征显著性统计信息进行可视化, 比如直观地展示出重要性特征的特征显著图, 或者显示特征和平均预测结果关系的部分相关图。特征统计分析方法主要是从特征层面上解释深度模型, 特征作为可解释性和模型之间的桥梁。
注:主要是通过对模型内部特征进行统计,建立特征和输出的因果关系,计算不同特征对模型输出的贡献, 并对显著性特征进行可视化。
本质上可解释模型
利用本质上可解释的模型近似模拟黑盒模型, 然后通过查看可解释性模型内部的参数或者特征统计信息来解释该黑盒模型。比如借助可解释的决策模型或稀疏性的线性模型来近似黑盒模型, 可以通过蒸馏等方法, 在可解释的模型上建立输入和输出之间的关系, 实现可解释性的迁移。这种可解释模型近似的方法通常不考虑黑盒模型内部的参数, 直接对模型进行“端到端”的近似。下面将对这些可解释性方法进行详细的介绍,
注:一般是通过线性模型或者决策树模拟深度学习模型,得到一样结果,通过将黑盒的深度学习模型迁移到这些可解释的模型中, 从而可以解构这些不可解释的模型。
后面内容就不总结了,比较简单,如需用到可以直接看原文。
|