正交化:每次调整对某一性能进行针对性调试和优化,更快地发现影响效应,从而进行综合性的优化。
一个好的模型最好能够同时在训练集,验证集,测试集和实际应用中表现良好,如果:
情况 | 解决办法 |
---|---|
在训练集上表现不好 | 尝试更大的神经网络或者使用更好的优化算法(如Adam) |
在验证集上表现不好 | 尝试获取更多的训练数据或者加入正则化 |
在测试集上表现不好 | 同验证集优化或者使用更有代表性的验证集(如加大数量) |
在实际应用上表现不好 | 没有使用合适的测试集或者代价函数的评估指标不合理,调整测试集或者代价函数 |
为了更好的体现和比较调整优化的结果,设置一个综合的评价指标,例如F1 score;
预测结果的分析如下:
- | 实际:真 | 实际:假 |
---|---|---|
预测:真 | TP(Ture Positive) | FP (False Positive) |
预测:假 | FN (False Negative) | TN (Ture Negative) |
我们一般更关注预测结果的正确率,正确率的不同概念描述如下(都是越大越好):
精准率 precision:TP / (TP + FP), 预测为真的有多少实际上是真的。
召回率 recall:TP / (TP + FN),有多少真的别预测出来了。
准确率 accuracy:(TP + TN) / (TP + FP + FN +TN),有多少预测是和实际的值一样。
其中,精准率和召回率是互斥提高的,例如全部预测为真时召回率recall为1但是精准率precision会很低,可以针对性的调整,也可以通过综合性的指标来评价,这就是 precision 和 recall 的调和平均数 F1 score:
评价方式是多变的,不同业务的特性和要求不一样,可以灵活的设置评价指标。
当数据量较小时可以按照 7:3 或者 6:2:2 的比例划分,但在数据量巨大时验证集(也叫开发集dev)和测试集增加数据量对模型的提升没有太大的作用,应该让训练集有更大的数据,例如 100 万数据量时可以考虑 98 : 1: 1 或者 99:1。
数据集应该尽可能使用同一分布,但是当实际应用的数据较少时也将其尽可能地设置为开发集和测试集,这样才能更客观的反映模型的实际效果。例如网上爬取很多图片,用户拍摄的图片较少,在猫分类中测试集应该全部或者大部分使用用户拍摄的图片。这和迁移学习的思想类似。
贝叶斯最优误差(Bayes Optimal Error): 一般是理论上的最优误差,模型可以比较容易达到人类表现水平,但较难以接近贝叶斯误差,100%准确率也是基本不可能实现的。
当模型训练误差于人类表现相差较大时,可以认为产生了可避免的误差,可能需要调整模型,直至两者相近甚至超过并接近贝叶斯误差。
人工检查输出结果中分类错误的样本虽然效率不高但是却很有必要,通过建立表格对影响输出结果的不利影响进行人工分析有助于发现突出问题并寻找解决方法。
例如猫分类中,狗和猫科动物的错误分类,图片模糊等因素的影响,比较由其产生的错误率,对应的调整代价函数或者添加新的子模块。
对于标注错误等情况一般不需要过多关注,老吴推荐快速搭建系统并迭代:
1、设置好训练,验证,测试集和确定目标,衡量指标
2、快速训练出一个初步的系统,用训练集拟合参数,验证集参与调参,测试集评估
3、通过偏差和方差以及错误分析方法,决定下一步的处理方向
这三个学习都要求有大量的数据。
迁移学习可以在别人类似的大量数据集训练好的模型上(预训练,pre-training),在最后的连接层等进行模型和参数的微调(fine-tuning)。在具有相同的低层特征(如都是道路场景),使用迁移学习可以使用更少的数据量和加快学习速度。
多任务学习:可以认为是同时得到多个分类,例如道路车辆识别。多任务学习同样需要具有共同的低层次特征,并且要求更深更复杂的模型和更大的数据量。softmax只输出一个分类,多任务学习输出c个分类, 具有m个样本的代价函数如下:
端到端学习:可以通过大量的数据直接构建 X 到 Y 的映射,不使用人工组件可以减少时间,简化工作流程的优点,但也带来难以针对性提升的缺点。分阶段的端到端学习可以作为一个折中的解决办法。