2018-11-28 机器学习打卡

05课 机器如何学习

  • 有监督学习Supervised Learning:有标签label
  • 无监督学习Unsupervised Learning:无标签

06课 三要素

数据

向量空间模型VSM,x特征向量Feature vector, y标签

模型

可以看做函数,通过训练数据得到。

算法

有监督为主:
损失函数(Loss Function)L(y, y’)= L(y, f(x)):针对一个数据
代价函数(Cost Function)J(theta):来描述整体的损失
目标函数 argmin J(theta):最小化的代价函数
具体的优化算法有很多,比如:梯度下降法(Gradient Descent)、共轭梯度法(Conjugate Gradient)、牛顿法和拟牛顿法、模拟退火法(Simulated Annealing)

07 模型获取和改进

步骤

  • 数据准备:预处理、向量空间模型、拆分训练/验证/测试集(2-1-1,7-1-2)
  • 训练:输出模型
  • 测试:预测比对

改进

数据:量,标注,标准化,采样,特征
算法:调参
模型:DL模型(CNN,DNN,RNN,LSTM)要求数据量大,少用

08课 模型质量与评判指标

评判指标

  • 精准率(Precision)=TP/(TP+FP)
  • 召回率(Recall)=TP/(TP+FN)
  • F1Score = 2*(Precision * Recall)/(Precision + Recall)
定义

图示

模型偏差

  • 欠拟合(Underfitting):训练集不佳
  • 过拟合 (Overfitting):训练好,验证/测试不好

09课 梯度下降(常用优化算法)

目标

最小化目标函数,凸函数Convex 保证有最小值。 f(tx + (1-t)y) <= tf(x) + (1-t)f(y)


方法

步长为超参数,步长太大太小都容易有问题,比较合理的是随趋势缩小步长,但是还可能碰到局部小值。

你可能感兴趣的:(2018-11-28 机器学习打卡)