机器学习可视化——部分依赖图

部分依赖图(PDP或PD图)显示了一个特征对先前拟合模型预测结果的边际效应(J. H. Friedman 200126)。预测函数固定在选定特征的几个值上,并在其他特征上取平均值。

局部相关图可以表示目标与特征之间的关系是线性的、单调的还是更复杂的。例如,应用于线性回归模型,部分相关图总是显示线性关系。

在实践中,特征集合通常只包含一个特征或最多包含两个特征,因为一个特征产生2D图,两个特征产生3D图。除此之外的一切都相当棘手。即使是2D纸张或显示器上的3D也已经颇具挑战性。


部分依赖函数定义为: 

截图1

其中XS是部分相关函数需要绘制的特征,XC是机器学习模型F中使用的其他特征。通常情况下,S集中只有一两个特征,S中的特征是我们想知道的对预测的影响。特征向量S和C的总和构成总特征空间X。部分依赖通过对机器学习模型输出的分布特性集C边缘化,所以函数显示了XS我们感兴趣的特性之间的关系,预测结果。通过边缘化其他特性,我们得到一个函数,它只依赖于S中的特性,与其他特性的交互。

截图2

部分函数f来通过计算训练数据的平均值得到,也称为蒙特卡罗方法。

依赖函数告诉我们对于给定的xS值,预测的平均边际效应是多少。在这个公式中,xC(i)是数据集中我们不感兴趣的特征的实际特征值,n是数据集中实例的数量。PDP的一个假设是,C中的特征与s中的特征不相关。如果违反这个假设,部分依赖图的平均值将包括非常不可能甚至不可能的数据点(见缺点)。

目前为止,我们只考虑了数值特征。对于分类特征,部分依赖关系是很容易计算的。对于每个类别,我们通过强制所有数据实例具有相同的类别来获得PDP估计。

Examples:

让我们回到回归的例子,在这个例子中,我们预测每天将租赁的自行车的数量。我们首先在数据集上建立机器学习模型,然后分析部分依赖关系。在这种情况下,我们拟合了一个随机森林来预测自行车的数量,并使用部分依赖图来可视化模型所学到的关系。天气特征对预测的自行车数量的影响:


自行车计数预测模型与不同天气测量(温度、湿度、风速)的部分依赖关系图。最大的区别在于温度:平均来说,自行车租赁的次数越多,温度越高,直到20摄氏度,温度越高,自行车租赁的次数也就越多。x轴上的标记表示数据中特征的分布。

对于温暖(但不太热)的天气,该模型预测平均自行车数量较高。当湿度达到60%以上时,潜在的骑行者在骑行过程中受到越来越多的限制。此外,风力越大,人们就越不喜欢骑自行车,这是有道理的。有趣的是,预测的自行车数量并没有在每小时25到35公里的风速之间下降,只是没有那么多的训练数据,所以我们不能对其效果有信心。至少凭直觉,我认为自行车的数量会随着风速的增加而下降,尤其是在风速非常高的时候。

为了说明一个带有分类特征的部分依赖关系图,我们检验了季节特征对预测自行车租赁的影响。


自行车数量预测模型和季节的部分依赖图。出人意料的是,所有的季节都显示出同样的效果,只有在春季,模型预测自行车租赁会减少。

我们也计算子宫颈癌分类的部分依赖关系。这一次,我们随机选取了一个森林来预测女性是否患有宫颈癌,并给出了一些风险因素。在此模型下,我们计算和可视化了癌症概率对不同特征的部分依赖关系:

使用激素避孕药的癌症概率与危险因素、年龄和年岁的部分依赖关系图。对于年龄特征,部分依赖图显示,平均来说,癌症的概率一直到40岁,之后会增加。50岁以后数据点的稀疏性说明模型在50岁以上没有多少数据点可以学习。使用激素避孕药的时间越长,十年后患癌症的风险越大。但同样,该地区的数据点并不多,这意味着我们可能无法依靠机器学习模型预测10年使用避孕药的

我们还可以同时可视化两个特征之间的部分依赖关系:

肿瘤发生概率的部分依赖图与年龄、妊娠次数的交互作用。图中显示,无论怀孕次数如何,患癌症的几率在45岁时都会增加。一个有趣的相互作用发生在25岁以下:与没有或两次以上怀孕的女性相比,怀孕1或2次的年轻女性患癌症的风险更低。该模型预测了1 - 2次怀孕对癌症的一种保护作用。但要小心得出结论:这可能只是一种相关性,而不是因果关系!癌症的风险和怀孕的次数可能是由另一个年轻女性不同的、无法衡量的因素造成的。

OK,从这些案例可以明白部分依赖图是干什么的了,我觉得更多是用在数据分析上啊。那为什么可以用这个部分依赖图来给机器学习模型做检测?

这个我觉得明天要看下具体这方面的论文是怎么做的。

我的博客:机器学习的可视化——部分依赖图

你可能感兴趣的:(机器学习可视化——部分依赖图)