ValueError: zero-size array to reduction operation maximum which has no identity

这是我在改进adaboost时,numpy库的一个报错

网上的通识是:这是由于对一个空的array或者matrix对象进行去最值操作,从而报错的。然后要你再去检查一下你的对象是否为空。

然后我一路debug找到了原因:

#计算AdaBoost误差,当误差为0的时候,退出循环
aggClassEst += alpha * classEst  											

是因为alpha过大或者不存在,从而导致aggClassEst变成了[[Nan]],最后传参的时候就直接变成了空的。如何解决这个问题呢,我目前是这么想的:

下面是alpha的计算过程:

alpha = float(0.5 * np.log((1 - weightedError) / max(weightedError, 1e-5))) 		
#计算弱学习算法权重alpha,使error不等于0,因为分母不能为0

可以发现我对分母进行了取最值操作,这样保证了分母不会出现为0的情况,所以alpha是一定存在的。再来看分子,唯一的问题就是在里面的weightedError。

因为我对传统的adaboost进行了改进,所以这个时候的weightedError的取值是在(0,无穷大)之中的,再结合另一个警告:

RuntimeWarning: divide by zero encountered in log

所以就是问题就是因为:weightedError=1,导致后面出现log溢出了,alpha为inf或者nan。

我的解决办法也是去最值:

alpha = max(float(0.5 * np.log((1 - weightedError) / max(weightedError, 1e-5))),1e-9) 

不要让它太小就行,或者你也可以直接加1e-9,两者效果都是差不多的。

####################题外话

再扯一句题外话,考虑到adaboost的权重作用,其实这样取值也有不合理之处,就是你默认错的再多的分类器,他错到一定程度的话他在最后集成的时候权重都会是一样的。总而言之就是很有可能是你的改进处理那里出了点问题,现在不报错也只是在这个数据集下,一旦报错了,就可能出现我这种情况:

 这训练了个寂寞

你可能感兴趣的:(机器学习,numpy)