华为提出新型动态 BERT 模型,可自适应宽度和深度并保持高性能

华为提出新型动态 BERT 模型,可自适应宽度和深度并保持高性能_第1张图片

技术编辑:王治治丨发自 HOME
SegmentFault 思否报道丨公众号:SegmentFault


近日,华为诺亚方舟实验室发布了一篇论文《DynaBERT: Dynamic BERT with Adaptive Width and Depth》。在该论文中,实验室的研究者提出了一种新型动态 BERT 模型 —— DynaBERT。

据论文作者介绍,像 BERT 和 RoBERTa 这样的预训练语言模型虽然在许多自然语言处理任务中功能强大,但计算和内存都很昂贵。为了缓解这个问题,一种方法是在部署前对它们进行特定任务的压缩。

然而,目前关于 BERT 压缩的工作通常是将大的 BERT 模型压缩成一个固定的小尺寸,并不能完全满足不同边缘设备不同硬件性能的要求。而 DynaBERT 则可以在自适应的宽度和深度下运行。

DynaBERT 的训练过程包括首先训练一个宽度自适应的 BERT,然后通过将全尺寸模型中的知识提炼成小的子网络,允许宽度和深度自适应。网络重布线也被用来保留更多的子网络共享的更重要的注意力头和神经元。在各种效率约束下的综合实验证明,华为诺亚方舟实验室提出的 RoBERTa 在最大尺寸时具有与 BERT 相当的性能,而在较小的宽度和深度下,其性能始终优于现有的 BERT 压缩方法。

你可能感兴趣的:(华为,算法,自然语言处理)