11. 什么时候改变开发/测试集和评估指标（machine learning yearning）

当开始一个新项目，我试图迅速选择开发/测试集，因为这给团队定义了一个明确的目标。

我通常要求我的团队在一周之内找到初始开发/测试集和初始评估指标。从不完美的开始，并迅速行动起来，比过度思考要更好。但这个一周的时间要求并不适用于成熟的应用。比如，反垃圾邮件是一个成熟的深度学习应用。我曾经见过一些有着成熟系统的团队花费数个月获取更好的开发/测试集。

如果你后来意识到你的初始开发/测试集或评估指标和目标不一致，那么迅速地使用一切手段改变它们。比如，如果在你的开发集和评估指标上分类器A比分类器B表现得好，但是你的团队认为分类器B在你的产品上表现会更好，那么这可能就是你需要改变开发/测试集或评估指标的信号。

有三个主要原因可能导致开发/测试集把分类器A排得更高：

你要表现得好的数据实际分布和开发/测试集不一致；
假设初始开发/测试集主要是成年猫的图片。你发布app，发现用户上传了比预期更多的幼猫的图片。这样，开发/测试集的分布不能代表你需要做得好的数据的实际分布。在这种情况下，更新你的开发/测试集，使得更具有代表性。
你过拟合了开发集
在开发集上重复评估想法的过程导致你的算法逐步“过拟合”（overfit）开发集。当你完成开发，你需要在测试集上评估你的系统。如果发现开发集性能远好于测试集，这是你过拟合开发集的信号。在这种情况下，你需要更新开发集。
如果你需要跟踪你的团队的进展，你也可以在测试集上定期（比如一周一次或一个月一次）评估你的系统。但是不要使用测试集为算法制定任何决定，包括是否回退到上一周的系统。如果这样做，你将开始过拟合测试集，而且再也不能在上面对系统性能做无偏估计（你可能在发表论文需要这个估计，或使用这个估计制定重要的商业决策）。
评估指标衡量的不是项目需要优化的
假设对于你的猫app，评估指标是分类准确率。在这个指标下分类器A比分类器B表现得好。但是假设你尝试了两种算法，发现分类器A偶尔会允许色情图片通过。即使分类器A具有更好的准确率，色情图片偶尔的通过带来的坏影响导致它的性能不可接受。你会怎么做？
此处，实际上评估指标不能识别出对于你的产品算法B比算法A更好。所以你不再相信这个评估指标可以获取最好的算法。是时候改变评估指标了。比如，你可以将评估指标修改为严重惩处色情图片。我强烈推荐选择一个新的评估指标，并使用该指标为团队定义一个新目标，而不是长时间在不信任的评估指标下继续前行，并回退到人工选择分类器。

在项目中改变开发/测试集或评估指标很正常。有一个初始的开发/测试集和评估指标可以帮助你快速迭代。如果你发现开发/测试集或评估指标不再指引你的团队走向正确的方向，这不是什么大问题！改变它们，并确保你的团队指导新的方向。

11. 什么时候改变开发/测试集和评估指标（machine learning yearning）

你可能感兴趣的:(11. 什么时候改变开发/测试集和评估指标（machine learning yearning）)