语音识别相关工具和资料分享

作者:帅帅家的人工智障

原创文章,转载请申请原作者同意

常见的语音相关工具很多,这里介绍几种常见的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他语音识别工具。常用的Kaldi,也有端到端的工具ESPnet等。

Kaldi

Kaldi是 danpovey大神使用C++编写的开源语音识别工具集。目前占据整个语音识别工具的半边天。目前danpovey已经加入国内公司小米。语音识别相关工具和资料分享_第1张图片

1 . 资源:

文档:http://kaldi-asr.org/doc/build_setup.html

论文:http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf

kaldi作者Dan Povey's博客:http://www.danielpovey.com/kaldi-lectures.html

gitbook上面中文教程Chinese Doc of Kaldi:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html  版本比较老。

2 . 截止到2019年11月底github活跃情况:语音识别相关工具和资料分享_第2张图片

kaldi语音识别大神povery的课程资料,帅帅家的人工智障公众号直接回复:201912151

PyTorch-Kaldi

Pytorch-Kaldi是一个开源的state-of-the-art DNN/RNN用于语音识别的项目。DNN部分依赖于Pytorch,数据预处理、特征提取、解码等依赖于Kaldi。

语音识别相关工具和资料分享_第3张图片

1 . 资源:

github:https://github.com/mravanelli/pytorch-kaldi

论文:https://arxiv.org/abs/1811.07453

vedio:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s

Next Version: SpeechBrain

2 . 截止到2019年11月底github活跃情况:

语音识别相关工具和资料分享_第4张图片

哔哩哔哩视频链接:

https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881

SpeechBrain

SpeechBrain项目旨在完全基于PyTorch构建新颖的语音工具包。借助SpeechBrain,用户可以轻松创建语音处理系统,范围包括语音识别(HMM / DNN和端到端的系统),说话人识别,语音增强,语音分离,多麦克风语音处理等。

目前只有预告还没有正式发布语音识别相关工具和资料分享_第5张图片

1 . 资源:

主页:https://speechbrain.github.io/

github:https://github.com/speechbrain/speechbrain.github.io

vedio:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be

2 . 截止到2019年11月底github活跃情况:语音识别相关工具和资料分享_第6张图片

哔哩哔哩视频链接:

https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

pykaldi

PyKaldi是Kaldi语音识别工具包的Python脚本层。为Kaldi和OpenFst库中的C ++代码提供了易于使用,开销低,一流的Python包装器。可以使用PyKaldi编写Python代码来完成其他需要编写C ++代码的事情,例如调用低级Kaldi函数,在代码中操作Kaldi和OpenFst对象或实现新的Kaldi工具。语音识别相关工具和资料分享_第7张图片

1 . 资源:

文档:https://pykaldi.github.io/

github:https://github.com/pykaldi/pykaldi

论文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf

2 . 截止到2019年11月底github活跃情况:语音识别相关工具和资料分享_第8张图片

ESPnet

ESPnet是一个端到端的语音工具,专注于端到端的语音识别和端到端的文本转语音。使用chainer和pytorch作为主要的深度学习引擎(框架)。遵循kaldi风格的数据处理、特征提取和格式化等。提供了一个完整的pipline。

语音识别相关工具和资料分享_第9张图片

1 . 资源:

文档:https://espnet.github.io/espnet/

github:https://github.com/espnet/espnet

论文:https://arxiv.org/abs/1804.00015?context=cs

2 . 截止到2019年11月底github活跃情况:

语音识别相关工具和资料分享_第10张图片

图像那边也有一个ESPnet,比如这个语义分割的演示视频:https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989

其他语音工具

1 . 其他著名语音识别引擎及其特点:语音识别相关工具和资料分享_第11张图片

2 . 移动或者手机端:语音识别相关工具和资料分享_第12张图片

3 . 还有一些wiki的可以参考的:

wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software

我之前上传b站的一些国外的语音相关的视频【 语音自然语言深度学习课程 】Deep Learning for Speech and Language(合辑)(英文字幕部分)

https://www.bilibili.com/video/av38854819/

【 语音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment(英文字幕)

https://www.bilibili.com/video/av36308563/

【 语音Speaker Verification 】Generalized End-to-End Loss for Speak(英文字幕)

https://www.bilibili.com/video/av36308874/

【语音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe(英文字幕)

https://www.bilibili.com/video/av36308701/

【 两分钟论文 】This AI Learned To Isolate Speech Signals(英文字幕)https://www.bilibili.com/video/av35977892/

相关推荐阅读

欢迎关注我的公众号“帅帅家的人工智障”,或者同名 微博,一起学习提升。

语音识别相关工具和资料分享_第13张图片

你可能感兴趣的:(语音识别相关工具和资料分享)