数据驱动方法


作业

  • KNN
  • SVM,Softmax
  • Two-layer neural network
  • Image features

图像分类中的问题

姿势、遮挡、背景、群猫
计算边缘


数据驱动

  • 训练集
  • 测试集

最小临近算法KNN

  • KNN训练很快,存储数据,测试很慢,线性时间
  • 卷积神经网络,训练很慢,测试很快
  • Manhattan距离 d_1(I_1,I_2)=\sum_p|I_1^P-I_2^P|

移动坐标轴会改变,坐标依赖
坐标有实际意义

  • Euclidean距离d_1(I_1,I_2)=\sqrt{\sum_p(I_1^P-I_2^P)^2})

绝对距离

  • K的选择和距离的选择(超参数),事先确定,可调整
  • 训练集和测试集的分配与超参数设置调整策略

训练集、测试集、验证集
先训练,不同的算法,不同的超参数,验证集验证表现最好的,用于测试
训练集和验证集的区别:算法能否直接看到标签

  • 交叉验证

划分测试集和训练集
训练集K等分,轮流从中选取验证集
循环训练

  • KNN的问题

时间长
L2距离不能很好衡量相似性和差异
维度灾难:指数增长的计算量

线性分类

  • 参数模型f(x,W)=Wx+b
  • 优点:向量值带权重
  • 问题:无法获得划分线、多分类问题

你可能感兴趣的:(数据驱动方法)