LibriSpeech数据集--学习笔记

  1. 数据采集自有声书网站,首先对每个句子做一遍语音识别,识别模型使用WSJ示例中的声学模型,语言模型使用二元文法,语言模型数据为语音数据对应的电子书文本。根据识别结果,统计每个说话人的WER,从低到高排序,前一半标记为clean,表示这些说话人语音比较清晰,其余标记为other。
    1. WSJ:是一个朗读数据。内容是朗读华尔街日报,共80小时。是kaldi中的一个示例
    2. 二元文法:
      1. 语言模型:计算句子出现的概率的模型,统计的对象就是人工标注成的语料库
      2. 随着句子长度增大,语言模型会遇到的问题:
        1. 数据稀疏:长度越长的句子越难出现,可能统计不到频次。
        2. 计算代价越大,需要的存储越多。即使用字典树索引,代价还是很高。
      3. 使用马尔可夫假设来简化语言模型:
        1. 马尔可夫链 :给定时间线上有一串事件顺序发生,假设每个事件的发生概率只取决于前一个事件,那么这串事件构成的因果链被称作马尔可夫链。
        2. 在语言模型中,每个单词出现的概率只取决于前一个单词,则该语言模型称为二元语法模型
        3. 由于语料库中二元连续的重复程度要高于整个句子的重要程度,缓解了数据稀疏的问题,另外二元连续的总数量远远小于句子的数量,存储和查询也得到了解决。
    3. WER:词错率,一项用于评价ASR性能的重要指标,用来评价预测文本与标准文本之间错误率,因此词错率最大的特点是越小越好。像英语、阿拉伯语语音转文本或语音识别任务中研究者常用WER衡量ASR效果好坏。      
  2. 该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。

你可能感兴趣的:(dataset,语音识别,人工智能)