几种信息熵的理解

本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    之前对算法原理和推导写的比较多,评价指标、信息熵较少,补充下。

    机器学习算法中经常会用到各种熵,如决策树、损失函数等,常见的熵包含信息熵、相对熵、条件熵、联合熵以及交叉熵,它们之间存在一些关系,刚开看的时候一头雾水,趁有点头绪,记录下。

    多样性是推荐系统用户体验的一个比较重要的评价指标,对于多样性指标,网上常常提及通过计算物品内容之间的相似度来判断,但由于我的项目要短时间内上线,没有太多时间计算物品之间的相似度。考虑能不能通过统计物品类目来初步判断其多样性,初步方案是简单统计推荐类目数量在总类目数量的占比,但这种方式粒度太粗,不能细致的描述类目分布。

    有没有其他方法可以更为细致描述类目分布多样性呢?信息熵不正可用于描述数据分布的不确定程度吗。信息熵的计算公式如下:

    例如:

        以下现有2种推荐列表结果,共9个商品,哪种类目分布不确定程度更高?

        (1)1(苹果),1(帽子),5(手机),2(围巾)

        (2)2(苹果),2(帽子),3(手机),2(围巾)

        从直观上,第2种类目的数量分布更为均衡,显然多样性更丰富。如下图,我们通过计算信息熵,结果显示第2种类目分布的信息熵略大于第1种,不确定性更高,多样性更丰富,符合预期。如采用统计类目占比,假定总类目数量为10,两种推荐列表的占比均为4/10,不能直观地显示它们之间的差异。

    其他一些熵(相对熵、交叉熵等)还可用于描述两种不同概率分布p(x)、q(x)之间的关系。

一、相对熵

二、条件熵

三、联合熵

四、交叉熵

你可能感兴趣的:(几种信息熵的理解)