2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)

传统的特征提取的方法:

1.互信息量(Mutual Information MI):评估零个随机变量相关程度(数组额上离散使用了累加,而连续是积分)

百度:互信息_百度百科
https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF/7423853?fr=aladdin

2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)_第1张图片

另外MI可以解释为:给定一个随机变量后另外一个随机变量上的减少。也就是MI越大的话说明变量A 的出现时的B减少的更多

当两个单词具有相同条件概率,则出现次数少的单词会比出现次数多的单词得到更高的MI值

2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)_第2张图片

缺点:

容易受一个单词的边缘概率的影响,也就是在相同的条件概率下出现少的具有较大的MI值


2.信息增益(Information Gain   IG):在某种特征出现后与出现前的信息之差。用来描述该特征在种地中的功能作用度

信息增益_百度百科
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E5%A2%9E%E7%9B%8A/8864911?fr=aladdin

缺点:

同时考虑事件发生不发生的相中情况下该特征的信息量,而在实际中通常一个特征在文本中不怎么发生

2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)_第3张图片

3.期望交叉熵(Cross Entropy   CE):得到的函数值反应了文档类别的概率分布,它表示出现特定词情况下文档类别概率分布之间的矩离,在金子那个特征选择时,应选择函数值大的特征

数据挖掘笔记-特征选择-期望交叉熵 - CSDN博客
http://blog.csdn.net/fighting_one_piece/article/details/38562183


4.基于词频的方法

特征词的文档频率(Document Frequency   DF)

论文:

基于词频统计的文本关键词提取方法
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyy201603026

设定阈值,当DF的值超过阈值则保留。通常从保留的值中选择较大的

5.CHI统计

与互信息量相似,都表示两个变量之间的相关的程度。不同的是CHI在计算的时候同时考虑特征项存在与不存在的两种情况

2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)_第4张图片

文章:文本分类 特征选取之CHI开方检验 - CSDN博客
http://blog.csdn.net/wangran51/article/details/8446234

很好的解释了公式的来源:

(实际—预测)^2    --------------------------插值衡量公式                    然后再开方









你可能感兴趣的:(2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计))