传统的特征提取的方法:
1.互信息量(Mutual Information MI):评估零个随机变量相关程度(数组额上离散使用了累加,而连续是积分)
百度:互信息_百度百科
https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF/7423853?fr=aladdin
另外MI可以解释为:给定一个随机变量后另外一个随机变量上的减少。也就是MI越大的话说明变量A 的出现时的B减少的更多
当两个单词具有相同条件概率,则出现次数少的单词会比出现次数多的单词得到更高的MI值
缺点:
容易受一个单词的边缘概率的影响,也就是在相同的条件概率下出现少的具有较大的MI值
2.信息增益(Information Gain IG):在某种特征出现后与出现前的信息之差。用来描述该特征在种地中的功能作用度
信息增益_百度百科
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E5%A2%9E%E7%9B%8A/8864911?fr=aladdin
缺点:
同时考虑事件发生不发生的相中情况下该特征的信息量,而在实际中通常一个特征在文本中不怎么发生
3.期望交叉熵(Cross Entropy CE):得到的函数值反应了文档类别的概率分布,它表示出现特定词情况下文档类别概率分布之间的矩离,在金子那个特征选择时,应选择函数值大的特征
数据挖掘笔记-特征选择-期望交叉熵 - CSDN博客
http://blog.csdn.net/fighting_one_piece/article/details/38562183
4.基于词频的方法
特征词的文档频率(Document Frequency DF)
论文:
基于词频统计的文本关键词提取方法
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyy201603026
设定阈值,当DF的值超过阈值则保留。通常从保留的值中选择较大的
5.CHI统计
与互信息量相似,都表示两个变量之间的相关的程度。不同的是CHI在计算的时候同时考虑特征项存在与不存在的两种情况
文章:文本分类 特征选取之CHI开方检验 - CSDN博客
http://blog.csdn.net/wangran51/article/details/8446234
很好的解释了公式的来源:
(实际—预测)^2 --------------------------插值衡量公式 然后再开方