语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)

前言

实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”

定义

WER 字错误率句错误率

为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。

公式为:
这里写图片描述

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

SER

SER,SER表述为句子中如果有一个词识别错误,那么这个句子被认为识别错误,句子识别错误的的个数,除以总的句子个数即为SER

其计算公式如下所示:
这里写图片描述

注意事项

  1. WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。

  2. 因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。

  3. 站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中,一般句错误率是字错误率的2~3倍,所以可能就不怎么看了。

参考文档

AI产品经理需要了解的语音交互评价指标
语音识别评估标准-WER

你可能感兴趣的:(自然语言处理)