模型可解释方法综述

机器学习模型可解释性总体上可分为两类:
ante-hoc 可解释性指通过训练结构简单、可解释性好的模型或将可解释性结合到具体的模型结构中的自解释模型使模型本身具备可解释能力。
Post-hoc 可解释性指通过开发可解释性技术解释已训练好的机器学习模型。 据解释目标和解释对象的不同,post-hoc 可解释性又可分为全局可解释性(Global Interpretability)和局部可解释 (LocalInterpretability)。全局可解释性旨在帮助人们理解复杂模 背后的整体逻辑以及内部的工作机制,局部可解释性旨在帮助人们理 机器学习模型针对每一个输入样本的决策过程和决策依据。 Post-hoc 可解释性也称事后可解释性, 发生在模型训练之后。对于一个给定的训练好的学习模型,post-hoc 可解释性旨在利用解释方法或构建解释模型,解释学习模型的工作机制、决策行为和决策依据。因此posthoc 可解释性的重点在于设计高保真的解释方法或构建高精度的解释模型。根据解释目的和解释对象的不同,post-hoc 可解释性又分为全局可解释性局部可解释性,所对应的方法分别称为全局解释方法和局部解释。

模型可解释方法综述_第1张图片

你可能感兴趣的:(教程)