要点(PPV课)机器学习 黄志洪

知识参考 http://www.ppvke.com/10400.html

一、常用语言

R语言 (S语言 源于统计,数据探索、统计分析、作图的解释型语言。)

www.r-project.org


Python  (瑞士军刀、通用语言、爬虫、网站、 shell)

   NumPy  SciPy Matplotlib


Matlab  矩阵实验室 

WEKA   机器学习与数据挖掘 JAVA环境 图形界面  (hadroop大数据迁移)


二、主要方法

回归预测以及相应的降维技术:线性回归、logistics回归、主成分分析、因子分析、岭回归、LASO

分类器:决策树、朴素贝叶斯、贝叶斯信念网络、支持向量机、提高准确率的Adaboost和随机森林算法。

聚类与孤立点判别

人工神经网络


三、回归

基本思想:利用样本产生拟合方程,从而进行预测。

样本存在误差,学习器将误差也学习了,造成了过拟合问题;

线性回归分析:一元线性;多元线性(曲面、超平面);广义线性等。

非线性回归分析

困难:选定变量(多元)。避免多重共线性,避免过拟合,检验模型是否合理。


函数关系与相关关系(非确定性关系)

相关关系:背后受某种共同因素影响

相关系数   柯西不等式

RSS 残差平方和  OLS

假设检验  t统计量   阈值一般0.05

回归擅长内推插值,不擅长外推归纳

业绩预测 时间序列 季节影响


虚拟变量 (哑变量):

离散、分类变量

加法模型(分类中选n-1个,影响截距)

乘法模型(分类中选n个,影响斜率)


多元线性回归 :   变量选取

逐步回归

向前引入(一元回归开始)

向后剔除(全变量)

衡量标准 :RSS 、相关系数平方、AIC越小越好(赤池信息准则)


回归诊断:

符合正态分布假设?离群点判断;线性模型是否合理?误差是否满足独立、等方差、正态分布等假设?多重共线性?(表现为矩阵不可逆)

多重共线性 Kappa值?


广义线性模型(GLM)

二元变量   S型曲线


 非线性模型:

对数法;指数法;幂函数法;(待定系数a、b)

多项式回归

非线性模型的参数估计 nls


三、假设检验

否定域       显著性水平(一般0.05)  概率密度曲线;总体期望

步骤:

  1. 建立原假设
  2. 构造检验统计量
  3. 确定原假设否定域

四、多元线性回归
矩阵运算 
广义逆出现奇异性:变量比样本多;多重共线性;


五、岭回归(RR)


加K扰动、惩罚函数(2阶)、约束条件;
岭回归的几何意义;有偏性;
岭回归参数趋向更大时,岭回归系数估计趋向于0;
岭迹图:

岭参数一般选择原则:


缺点:参数选择不够严谨科学。


六、LASSO(套索)
最小绝对值收缩;变量的选择;有偏估计;
思想:构建一阶的惩罚函数
引出弹性网,混合岭回归和lasso;

七、最小角回归(LAR)
lasso的高效解法,类似于向前逐步回归;
相关系数的几何意义(中心化、标准化后):内积,夹角的余弦;
LAR的几何意义:利用变量与残差向量的夹角;

你可能感兴趣的:(机器学习)