模型的矛盾:工业界 vs 学术界

工业界和学术界的差异争论历史悠久,关于机器学习模型,大家的看法又是怎样呢 ?

「何处去云阙」的话题:对于工业界和学术界的矛盾在于,通常工业环境提升效果的最快速手段是提高数据质量,而算法模型只是提供了一种更有效的可能性,但其对于不同场景效果未知。多变繁杂的场景,使这些模型的期望收益无穷小,而且数据和特征远远都没有穷尽。那可怜的5%的自然误差和开放域的噪音,也几乎吞噬了模型带来那一点点的成效。

这个话题抛出后,很多人有话要说:

「黄海广」:学术界的数据往往比较完美,而且,学术界主要看重模型的效果而不看重效率,还有一点就是学术界可以多次测试,而工业界可能就一次测试机会。

「弦亚」:模型有总比没有强,在很多领域目前还是传统的专家系统甚至是人工控制的,有模型至少可以辅助决策。就类似于自动驾驶虽然还不完美,但是已经起到了辅助驾驶的作用。相信在实践中不断调试改进模型,会越来越接近实际情况的。

「十三」 : 所以说 “数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”

「何处去云阙」 回复 「十三」 : 地基决定楼高。

「黑耳朵吐司」 : 你说的也不一定对。如果模型的数据集(包括训练集合验证集)在开始的时候就不是从实际中得到,那么模型不可能有这么好的泛化能力去适应实际情况。这个上限应该是在一开始的训练数据集中就决定了的,模型逼近的是label。

「abc」:不错呀,抛出了一个很有意义的问题。的确,如果数据很好,上限高是自然的,模型也很容易更加逼近这个上限,不如假设是个比率λ1。而数据差,上限有所下降也是自然的,然而,模型却逼近上限的比率λ2往往远小于λ1。 而实际应用中的数据往往是比较差的,因此,如何提高λ2远比提高λ1有价值。例外同个模型的λ1的提高并不意味λ2也会提高。任重而道远。

「何处去云阙」回复「abc」:短期跑通数据上下游,总结归纳特征,搞数据闭环,业务先行,工程稳定,挖掘项目,赚钱,之后再考虑优化细节,不然资本消耗完了都没产出,能完成整个链的公司真是少之又少。

「QJ」:我觉得两者并不冲突。模型的本质在于对数据的建模,本身就不存在万能的模型,而且学术界所研究的模型也都是存在各种假设或者适用条件的,只有你的数据符合模型的假设才能发挥出模型的价值。

「何处去云阙」:主要是试模型,没有一概而论的策略,试模型至少要能调参到极限才有拿出来说的意义,而这之间的差距又没有跑出5%的自然误差,并且对于不同模型指不定还要重新整特征工程,这是一个无底洞,话是这么说,可automl也没提高到超过手工调参的地步。

你可能感兴趣的:(机器学习)