论文写作: 实验效果不好怎么办?

摘要: 本贴讨论实验效果不好的应对措施.

讲道理, 论文写作本身只涉及包装, 即将已经做好实验的创新性成果写成一篇论文. 实验效果不好, 是方案设计的问题. 但多数研究者都会遇到这个问题, 所以还是在这个板块讨论一下.

对于机器学习而言, 实验效果主要受几方面的影响:

  1. 方案是否合理. 虽然结果无法控制, 但方案本身有设计理念, 有物理意义. 例如, 决策树旨在使得树最小, 以防止过拟合已有样本; 线性回归旨在最小化 l 2 l_2 l2 损失; 岭回归旨在压制线性回归的过拟合, 并且保证有解析解 (矩阵可逆). 注: 王熙照老师认为, 机器学习的核心就只有一件事情: 防止过拟合.
  2. 方案是否与数据集匹配. 有些方案只适用于稠密数据, 即不能有太多的缺失值; 有的方案只适用于类平衡数据, 即正负样本数量差距不大. 如果不匹配, 很可能导致效果差.
  3. 运气. 平常代码讲究的是正确性, 有个正确与错误的判断, 例如把一组数相加, 结果是否正确, 是一个确定的事情. 然而, 机器学习的结果不是确定的. 即使你的代码正确地贯彻了你的意图, 你也不能幻想自己的方案一实现就获得很好效果 (相当于到河边第一次抛杆就钓到鱼, 你以为它们这么饿呀). 科研需要的是试错与探索, 10 个 idea 有一个效果好就非常不错了.

因此, 效果不好的时候, 可以先哭会儿, 然后考虑几个解决方案:

  1. 设计替换方案 (alternative approach). 把算法的几个部件分别用类似的方案替换. 例如, 将线性分类器换成神经网络, 将特征矩阵用 PCA 降维. 有的技术引入之后, 反而使得性能降低, 当然就应该丢掉. Ablation study 用于保证你选择的每个模块、增加的每个技术都起到了正向的作用.
  2. 观察算法所适用数据的特点. 一个算法的适用范围有局限性, 这并不一定是坏事. 甚至我们还可以把适用和不适用的数据集分开, 结果放在两个表里面, 进行详细讨论.
  3. 使用各种评价指标. 有可能某些算法在某些指标上表现更好. 有一些常用的指标, 或者更先进的指标. 例如, Accuracy, F1, NDCG, AUC 都有其适用的算法和任务.
  4. 调参. 比如神经网络的层数, 每层的节点数据, dropout 比例. 很多人就是网络调参师. 当然, 做更加原创的工作, 比天天调参有前途得多.
  5. 输出中间结果. 这个与软件测试中的单元测试类似, 最终结果也是从中间结果来的. 只有深入了解代码的中间结果, 才能获得更多的观察, 有办法进行改进. 对于初学者来说, 这也是解决自己方案缺陷最困难的部分.

本贴发出来后阅读量迅速上升, 看来实验结果不好确实是广大研究人员的痛点!

你可能感兴趣的:(论文写作,python,开发语言,论文写作,1024程序员节)