1、《统计学习方法》代码实现
2、吴恩达机器学习课程笔记
3、七月在线人工智能面试题
4、Datawhale秋招机器学习算法工程师面经
5、AI算法工程师手册—华校专
6、机器学习十大算法系列—July专栏
建议阅读:《统计学习方法》第一章:统计学习方法概论
KeyWords:经验风险、结构风险、L1与L2正则化、交叉验证、精确率、召回率
ps:
1、L1先验服从拉普拉斯分布,L2先验服从高斯分布
2、如何评价模型好坏?混淆矩阵、精准率、召回率、准确度、ROC曲线、AUC、基尼系数
建议阅读:《吴恩达机器学习课程笔记》2 & 4
KeyWords:代价函数、批量梯度下降、及其公式推导、单变量到多变量、 特征缩放/标准化/归一化
ps:
1、批量梯度下降:每一步,使用所有的训练样本
2、线性回归输出为具体的浮点数
建议阅读:《吴恩达机器学习课程笔记》6
KeyWords:代价函数、极大似然估计、sigmoid、梯度下降求导、多类别分类
ps:
1、逻辑回归是在线性回归(输出范围负无穷到正无穷)的基础上添加了sigmoid函数(输出范围0-1)
2、逻辑回归输出为0-1之间的小数,表示输出变量=1的概率值
3、正样本y=1,负样本y=0
4、逻辑回归的代价函数是通过极大似然估计得到的
5、最大化似然函数等价于最小化log损失函数
建议阅读:《统计学习方法》第2章
KeyWords:分离超平面、损失函数、误分类点到超平面的距离、随机梯度下降、最优化、对偶形式
ps:
1、随机梯度下降:一次随机选取一个样本点进行参数更新
2、感知机解不唯一,也就是超平面不唯一
3、正样本y=1,负样本y=-1
4、感知机是在线性回归的基础上加了个sign符号函数,输出为-1 or +1
建议阅读:《统计学习方法》第7章为主,SVM三层境界为辅
KeyWords:线性可分SVM、线性SVM、非线性SVM、核函数、函数间隔、几何间隔、间隔最大化、凸二次规划、支持向量、对偶算法、拉格朗日函数、极大极小问题、KKT条件、硬间隔、软间隔、松弛变量、合页损失函数(hinge)、线性核、多项式核函数、高斯核函数、序列最小最优化算法(SMO)
ps:
1、《统计机器学习》是从感知机扩展到SVM,其从最大间隔这个点出发,《吴恩达机器学习课程笔记》是从逻辑回归的损失函数到SVM的损失函数(合页损失hinge),二者本质上是一样的,角度不同,个人倾向于前者。
2、SVM的输出(符号函数sign)为+1 or -1,二分类
3、正样本+1,负样本-1
4、简要思路
建议阅读:《统计学习方法》第3章
KeyWords:特征空间划分、k值选择较大或较小、多数表决、kd树
ps:
1、k值较小,模型复杂,过拟合,k值较大,模型简单,欠拟合,通常使用交叉验证原则k
2、多数表决对应于经验风险最小化(无正则)
3、kd树是二叉树,一种快速实现knn的算法
4、树,基本就对应着特征空间的划分
建议阅读:《统计学习方法》第5章
KeyWords:条件概率分布、特征空间划分、特征选择、信息增益、信息增益比、ID3、C4.5、基尼系数、分类与回归树(classification and regression tree, CART)、剪枝。
ps:
1、决策树就是特征空间的划分,一个节点对应一个超矩形
2、特征选择准则:信息增益(ID3)、信息增益比(C4.5)、基尼指数(CART)
3、ID3与C4.5只进行了最优特征选择,注意并不是二叉树,只是一般的树
4、CART是二叉树,进行了最优特征与最优切分点的选择
5、CART利用平方误差就是回归,利用基尼指数就是分类
6、剪枝就是损失函数考虑到了模型复杂度,可以简单理解为极小化加了正则之后的损失函数
7、CART应用非常广泛,经常作为boost方法的基本分类器,如XGBoost
建议阅读:《统计学习方法》第8章为主,Adaboost算法的原理与推导为辅
KeyWords:Adaboost、GBDT、基本弱分类器、强分类器、加权多数表决、样本的权值改变、前向分布算法、加法模型、弱分类器的权值改变、具体算法流程、公式推导、代码实战
ps:
1、Adaboost改变训练样本的权重、弱分类器的权重
2、Adaboost是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法的二类分类方法
3、以决策树为基函数的提升方法是提升树,用梯度近似残差就是梯度提升树(GBDT)
4、注意,GBDT为回归问题,回归树,是boost,但不是Adaboost,
5、Adaboost是最后分类器相加
6、GBDT是每一颗树学的都是之前的数结果和残差,就是用残差代替真实数据供后续的树学习,具体看书中的例子
7、GBDT累加所有树的结果作为最终的结果(浮点数)参考1、参考2
建议阅读:《统计学习方法》第4章
KeyWords:先验概率、后验概率、类条件概率,贝叶斯公式、后验概率最大化、朴素贝叶斯、贝叶斯估计
ps:
1、朴素:条件独立性假设,特征在类确定的条件下都是条件独立的
2、参数估计用的极大似然估计
3、先验概率和类条件概率都是根据数据统计得到的
4、朴素贝叶斯估计可能存在概率值为0的情况,所以出现了贝叶斯估计,就是在概率计算的时候加上一个正数(拉普拉斯平滑),保证不出现概率为0的情况
建议阅读:《吴恩达机器学习课程笔记》8 & 9
KeyWords:前向传播、误差反向传播、各种符号表示、多层、输出层、多类
ps:
1、神经网络的基础是逻辑回归,注意多类分类
2、神经网络的输出目标是k维向量[1 0 0 0],但是实际输出应该是浮点数[0.9 0.2 0.1 0.1]向量,表示概率
3、误差反向传播公式推导,见附录资料
建议阅读:《吴恩达机器学习课程笔记》13
KeyWords:无监督、聚类中心、簇、肘部法则
ps:
1、随机初始化,选择聚类中心;然后计算样例到中心的距离,聚类;计算簇均值,更新聚类中心
2、k值的选择,根据任务或者肘部法则(纵坐标损失函数,横坐标k值)
3、损失函数就是所有样例到聚类中心的距离之和,注意有多种距离度量方式
4、第一种类型无监督学习问题:聚类,K-Means是最常见的聚类算法
持续更新ing…
1、批量归一化(Batch Normalization)
2、反向传播公式详细推导(注意,博客中的参数 σ \sigma σ表示激活函数)
3、查准率、召回率
4、PCA主成分
5、推荐系统