曾几何时,NLP 的 ImageNet 时代被许多人所期待,他们希望用于语言任务的模型也能够像 ImageNet 在计算机视觉领域的应用一样广泛。
近日,来自俄罗斯 Silero 公司的数据科学家 Alexander Veysov 发表了一篇名为《语音从业者对业界和学术界的批评》的文章,引发了不少同行关注。
他在文中指出,“最近在大众媒体中,有监督机器学习泛滥成风。出现这种情况的原因是,无法兑现的承诺被炒作,使该领域出现了非理性的繁荣和过度投资。这种情况可能会导致对领域的投资不足。”
文中,Alexander Veysov 以 ImageNet 在计算机视觉领域的广泛应用进行对比,反衬语音转文字(STT)行业的预训练模型、迁移学习和数据集都远远落后,而计算要求(正如研究论文中所述)仍然过高。
据了解,大部分语音研究是由行业/企业赞助的学者发表的。为此,作者也将批评的矛头转向了业界与学界。
首先在业界,作者表示,大多数的 STT 论文出自 Google、Facebook、百度等科技公司的研究人员。为此,行业从业者需要关注六个核心问题:一是关注基于私有数据的解决方案而非清楚地报告;二是复杂的框架和工具包;三是解决了不存在的问题;四是论文中结果模糊不清。
例如,像“关注基于私有数据的解决方案而非清楚地报告”这一问题中,作者指出,Google 等公司可能拥有 1 万甚至 10 万小时的私有数据集用于训练模型。但问题在于,他们使用这些数据以提升模型训练却并没有报告这些数据。
众所周知,语音标注需要耗费大量的资源和时间精力。标注一段 1 小时的语料可能需要2~10 小时不等,这取决于数据集的难易程度及是否有其他自动标签。这导致了当前几乎所有人都宣称通过开源数据集 LibriSpeech 进行训练得到了最好的结果,但却没去说明这些模型在现实生活中的表现以及哪些模型投入了生产过程。因为像 Google 这样的公司都没有明显的经济动因而开源其大型专有数据集。总而言之,这为希望构建自身 STT 系统的从业者设置了非常高的进入门槛。
为什么会存在复杂的框架和工具包?作者指出,依靠框架或工具包而非从头编写是很常见的。如果有专门的框架和工具包,那么最好在框架提供的模型上进行构建,而不是直接在 PyTorch 或 TensorFlow 上构建自己的模型。但这在语言任务中却需要另当别论。原因有很多:
例如,代码经过优化后可在大型计算机上运行;模型仅适用于小型学术数据集,且无法在没有大量计算的情况下扩展到大型数据集;模型的样本效率极低等等。
此外,对于“解决不存在的问题”及“无法复现的结果”,作者并未过多赘述。他认为,与最先进相反,应该更多关注在“足以在现实生活中使用的”解决方案和公共数据集。
当然,除了对业界进行抨击外,学界也未幸免。
一是由于过于追求 SOTA 的模型或效果,反而使其失去了意义。因为每次有 SOTA 出现时原因是不尽相同的,并且不一定是技术性问题,但在机器学习训练中,通常是模型过度拟合用于某些数据集。
学术数据集将成为公司用来炫耀实力的“排行榜”。为达到最先进的水平,尽管小玩家无法访问大型计算,但在大型计算上使用庞大且样本效率低的网络已成为默认设置。
二是在理想情况下,论文应足够详细,以使独立研究人员至少复现论文的 95%。
三是在现实中,论文的内容和结构通常会因其实际目的和现实生活应用而受到质疑。例如为了发表论文,选择复杂的计算方式以解释某个新概念,尽管事实上,研究人员可能从来不用上述计算方式或者使用了现成的仪器。
此外,作者还指出研究论文还有一些常见的缺陷,如对方法的概括含糊不清,隐瞒耗费的计算资源,或者从不公布收敛曲线等等。
相关链接:https://thegradient.pub/a-speech-to-text-practitioners-criticisms-of-industry-and-academia/