FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition

FastCorrect:语音纠错

Introduction

近年来,纠错技术已被广泛采用来细化 ASR 模型的输出句子,以进一步减少 WER。纠错是一种典型的序列到序列任务,将 ASR 模型生成的句子作为源序列,将 ground-truth 句子作为目标序列,旨在纠正源序列中的错误。以前关于 ASR 纠错的工作通常采用基于编码器-解码器的自回归生成模型。虽然实现了良好的 WER 降低,但自回归模型的推理速度较慢,并且不能满足在线 ASR 服务的延迟要求。

在 ASR 纠错中,源和目标标记是单调对齐的,ASR 准确性通常由基于编辑距离的 WER 来衡量。编辑距离提供了对源句(ASR 模型的输出)进行插入、删除和替换等编辑和对齐信息,以匹配目标(ground-truth)句,可以作为 NAR 校正的精确指导模型。基于这些观察,在本文中,作者提出了 FastCorrect,这是一种利用编辑对齐并从中受益的新型 NAR 纠错模型。

Method

FastCorrect 利用带有编辑对齐的 NAR 生成来加速自回归校正模型的推理。在 FastCorrect 中,首先计算识别文本(源句)和真实文本(目标句)之间的编辑距离。通过分析编辑距离中的插入、删除和替换操作,我们可以得到编辑后每个源令牌对应的目标令牌的数量(即0表示删除,1表示不变或替换,≥2表示插入)。 FastCorrect 采用带有长度预测器的 NAR 编码器-解码器结构来弥补编码器(源语句)和解码器(目标语句)之间的长度不匹配。获得的目标令牌数量用于训练长度预测器以预测校正后每个源令牌的长度,并对每个源令牌进行调整,其中调整后的源令牌被送入解码器以进行并行生成。

下面这幅图描述了如何选择编辑对其,首先找出具有最短编辑距离的几种编辑方案(下图最左),然后选择匹配分数最高的方案(匹配分数指源句中不需要修改的token数量)(下图中间),最后,从之前得到的编辑方案集E中,根据对齐的目标token的n-gram tokens的频率,选择最终的编辑方案e(下图最右),这样做,可以尽可能地将源标记与更频繁的 n-gram 目标标记对齐。
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition_第1张图片
下面是模型的结构:
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition_第2张图片
预训练时的数据通过爬取获得,根据一定的错误率有选择地进行添加错误,以此制造伪数据集。预训练完成后在真实的ASR系统的输入数据上进行微调。

你可能感兴趣的:(语音识别论文笔记,人工智能)