机器学习——周志华读书笔记

1、模型评估方法:

留出发:数据集分割为两部分,data=测试集+训练集;2/3~4/5作为训练集,其余测试集

交叉验证:数据集分割为k组,k-1组为训练集,剩余1组为测试集。共k中情况,对k种情况的训练结果求平均作为最终结果。为了避免分割的影响,对上述过程进行p次,求p次总均值。称为p次k折交叉验证。

自助法:m个原始数据集D,进行又放回抽样,每次抽1个,抽取m次,得到一个新样本D1。原始数据D中始终没有被采取的样本概率:lim(1-1/m)^m=1/e=0.368. 所有可以使用D1为训练集,D\D1为测试集。

2、模型性能

均方误、精度、错误率=1-精度、查准率=准确度P=TP/(TP+FP)、查全率=召回率R=TP/(TP+FN)、F1指标(1/F1=0.5(1/P+1/R)即PR的调和平均)

查准率高,查全率低;查全率高,查准率低。

  预测正 预测反
真实正 TP(ture positive) FN(false negative)
真实反 FP(flase positive) TN(ture negative)

3、线性回归Y=WX+b;广义线性回归Y=f(wx+b),加权最小二乘法或似然估计来估计参数。

4、阶跃函数:y=1 if z>0;0.5 if z=0; 0 if z<0.

5、sigmoid函数:形似S的函数

6、fisher线性判别:原始数据投影到y=wx+b上,使类内距离小,类间距离大。min J=类内距离/类间距离

7、多分类:one vs one; one vs Rest; many vs many

 

 

 

 

你可能感兴趣的:(机器学习(1))