机器学习进阶day1

最大似然估计的概念

最大似然估计就是在已知样本的前提下,找出使得样本发生最大的概率的参数值。
求解最大似然估计的步骤:
(1) 概率密度函数相乘得到似然函数
(2) 对似然函数取对数得到对数似然函数
(3) 对对数似然函数求导
(4)求解

赔率

公平赔率为概率的倒数
真实赔率为公平赔率×α(小于1的系数)

PCA的理解

实际操作,将样本在某个方向上进行投影,使得样本降维
主方向:使得在某个方向投影后的方差最大的方向称为PCA的主方向

One-hot编码

对一些文本类别转换成数值类型的数据,会导致样本特征膨胀
函数
pd.get_dummies(data)
get_dummies 是利用pandas实现one hot encode的方式
指定列进行one-hot编码
pd.get_dummies(df.列名)

pd.Categorical() 识别数据中的不同数据的个数
x.categories——返回类别
x.codes——返回序号

你可能感兴趣的:(机器学习,概率论,人工智能)