机器学习面试小的知识点

1.装饰器的作用就是为已经存在的函数或对象添加额外的功能

2.*args 和**kargs区别  *args是元组,**kargs是字典

3.熵:对不同概率分布的刻画,衡量概率分布的 不确定性,概率越大,不确定性越大。对概率分布信息含量的衡量,求一个概率分布综合的不确定性 H(p)=-Σplogp  概率分布不确定性的期望值,值越大,概率分布不确定性越大,提供的信息越小

4.伯努利分布的熵  H(p)=-plogp-(1-p)log(1-p)

5.联合熵:与联合概率分布有关 对于随机变量x和y,二者的联合概率分布p(x,y) 联合概率分布的熵叫做联合熵  H(x,y)=-Σp(x,y)logp(x,y)

x,y是相互独立的,y原先只有两个概率p2,1-p2,联合概率分布有四个概率,可以认为是将y的每个概率进行分拆,p2被分成p1*p2,(1-p1)*p2,即对于y的每个取值,本身就具有一个不确定性,由于要与x联合起来,就在每个取值的不确定性上又引入了不确定性,不确定性显然增大了  H(x,y)>=H(x)

6.条件熵  对于y来说,x的引入增加了多大的熵  H(x|y)=H(x,y)-H(y)

7.交叉熵:衡量两个概率分布的差异 一般在神经网络和逻辑回归中作为损失函数

8.相对熵:一般用在生成模型中用于评估生成的分布和真实分布的差距

9.互信息:评估两个分布之间的相似性 I(x,y)=H(x)-H(x|y)

10.基尼系数:任选两个样本,属于不同类别的概率

11.AUC:模型的排序能力  正样本排在负样本之前的概率

12.order by是全局排序  sort by是局部排序

13.flatmap map区别 :map操作为每个输入值生成一个输出值,而flatmap操作为每个输入值生成一个任意数字(零个或多个)值

你可能感兴趣的:(python,spark,概率论,机器学习,面试)