Machine Learning知识点一览

参考资料:
李航《统计学习方法》
周志华《机器学习》
Andrew Ng《机器学习》
《PRML》
一些博客、知乎……

一直更新中……
目录
1.基本概念和数学工具
2.常见算法
3.python工具包
4.spark工具包
5.Application

1.基本概念和数学工具

几种范数的区别
L1的稀疏性LASSO、L2的平滑性(ridge regression)
几种常见的损失函数
经验风险、结构风险与正则化、奥卡姆剃刀原理、泛化能力
交叉验证(cross validation)
过拟合、欠拟合
生成方法和判别方法
批量、随机梯度下降、mini-batch梯度下降
坐标上升法(coordinate ascent)
精确率、召回率、F1、ROC曲线、AUC
偏差(bias)和方差(variance)
频率学派、Bayes学派
牛顿法、逆牛顿法
拉格朗日对偶、KKT条件
熵、条件熵、互信息、K-L散度(相对熵)
PCA降维
LDA:类内距离最小类间距离最大
SVD(奇异值变换)
分类/标注/回归问题
最大后验估计(MAP,posterior)
极大似然估计(ML,max likelihood)
特征提取与特征选择:https://www.zhihu.com/question/28641663

还有一些可能会用到的概率论、统计学、线性代数、凸优化等基础,可参考:
https://zhuanlan.zhihu.com/p/25197792(机器学习的数学基础~^_^)

2.常见算法(不断补充更新)
(1)线性回归模型(linear regression model)
回归问题
最小二乘法(http://blog.csdn.net/code_caq/article/details/67638083)
局部加权回归(locally weighted regression)

(2)感知机(perceptron)
线性分类、二分类
min误分类点到超平面距离
随机梯度下降
对偶形式(Gram矩阵)

(3)朴素贝叶斯法(Naive Bayas)
多分类、生成方法、条件独立性假设
max后验概率、min期望风险(0-1损失)
极大似然估计
Laplace平滑

(4)决策树(DT)
ID3、C4.5、CART

(5)逻辑斯蒂回归(Logistic Regression)
二分类
估计参数:极大似然估计、GD法、Newton法
多分类:softmax模型
最大熵模型
推广:指数分布族、GLM

(6)KNN
离样本点最近的k个点的类的多数预测
(7)K-means聚类
unsupervised learning
(8)Boosting和Bagging方法:Random Forest、Adaboost、GBDT、XGBoost等等
(9)神经网络BP模型
(10)支持向量机SVM
kernel、soft margin、SMO algorithm
(11)深度学习模型:
CNN、RNN等
(12)PU learning:半监督学习

3.python工具包
(1)Peter Harrington《机器学习实战》——code
(2)Python sklearn 工具包:
http://scikit-learn.org/stable/index.html
http://blog.csdn.net/bryan__/article/details/51288953
(3)Python特征选择:
http://blog.csdn.net/fighting_one_piece/article/details/37912051

4.Spark工具包
spark机器学习库:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package

5.Application
分类spam、手写识别、金融大数据风险建模

——高能预警——

Machine Learning知识点一览_第1张图片
(此图为转载,版权归原作者所有)

你可能感兴趣的:(Machine,Learning)