零基础刷题总结系列一(数理统计+机器学习+python编程)

来源:牛客网

题目一

链接:https://www.nowcoder.com/questionTerminal/ce5b813660b94c2bb27c5a274bce6d90
零基础刷题总结系列一(数理统计+机器学习+python编程)_第1张图片

分析

大牛的理解:信息增益通俗讲就是指区分度。如果对于一个属性,其结果都是等概率出现的,即信息熵为1,信息增益为0,那么这个属性就没有任何区分度,无实际意义。(个人理解:结果都是等概率出现意思就是结果的不确定性大,不确定性大,信息熵就越大。等概率出现,所有可能的情况都会出现)就像本题中年龄一样,年龄高的的人是否接受调查的人都是1/2,年龄低的人是否接受调查的人也分别占1/2,那么年龄属性没有任何实际意义,有没有都一样了。不得不说Shannon发明的这个信息熵太强大了。

答案

零基础刷题总结系列一(数理统计+机器学习+python编程)_第2张图片
零基础刷题总结系列一(数理统计+机器学习+python编程)_第3张图片

题目二

若用 φ() φ ( n ) 表示欧拉函数,请问: φ(56) φ ( 56 ) 的欧拉函数之积为? 24

分析

这里写图片描述
其中,其中 p1,p2pn p 1 , p 2 … … p n x x 的所有质因数,x x 是不为0的整数。

答案

φ56=56(11/2)(11/7)=24 φ ( 56 ) = 56 ∗ ( 1 − 1 / 2 ) ∗ ( 1 − 1 / 7 ) = 24

题目三

下列哪个不属于常用的文本分类的特征选择算法?
卡方检验值
互信息
信息增益
主成分分析(不属于)

分析

来自https://blog.csdn.net/ztf312/article/details/50890099
常采用特征选择方法。常见的六种特征选择方法:
1)DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2)MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
3)(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
4)CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
5)WLLR(Weighted Log Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性

你可能感兴趣的:(零基础刷题)