RapidASR项目(语音转文本):更快、更容易部署、开箱即用

引言

  • 本人就是该项目的贡献者之一!!!

  • 目前在语音转文本的开源项目中,wenet算是其中翘楚,虽说在wenet repo下的README中写的是:

    WeNet 是一款面向工业落地应用的语音识别工具包,提供了从语音识别模型的训练到部署的一条龙服务。

  • 但是整个项目依赖着PyTorch整个生态,真正部署使用还是会面临依赖包很大很多的问题。同时推理代码不是很清楚明朗,初上手往往不知所措。

  • 很多时候,我们想要看的往往就是一个demo,就是想要跑一个自己遇到的音频文件,看看识别效果如何,这看似简单的诉求,却很难看到。

  • 因此,我们RapidAI-NG Team推出了由wenet项目衍生出的专注推理的项目—RapidASR。我们从庞大复杂的wenet中抽取其中核心推理代码部分,去除PyTorch相关的依赖,采用更小更快的同等功能库替代,这使得该项目对于工业落地场景,更加友好。这也算是为工业落地的最后一公里略尽绵薄之力吧!

RapidASR

  • 该项目仓库主要是基于C++和Python两个语言下的推理代码整理,其中,我主要负责Python部分的整理。由于C++部分,目前我还不是太擅长,所以在本篇文章中,着重介绍Python部分的情况。

  • Python部分,我是本着开箱即用的原则来整理的。同时给出了一个运行的示例demo,力图做到简洁直观。整体结构目录如下:

    RapidASR/python
    ├── pretrain_model
    ├── README.md
    ├── requirements.txt
    ├── test_data
    ├── test_demo.py
    └── wenet
    
  • 该项目主要依赖的包有如下,完全满足易用易部署问题。

    onnxruntime==1.8.1
    numpy==1.20.3
    scipy==1.7.1
    SoundFile==0.10.3.post1
    librosa==0.9.1
    
  • 速度情况:
    在测试test_data/test.wav时,纯CPU,推理速度大概0.5s左右一条

  • 在Python部分的README中,给出了保姆级别的安装教程,感兴趣的话,可以移步README

推荐项目

  • RapidOCR: 直接落地级别OCR项目
  • RapidVideOCR: 视频硬字幕自动提取
  • RapidTTS2: 文本转语音
  • YOLO2COCO: YOLO标注格式数据转COCO格式

你可能感兴趣的:(深度学习,ASR,语音转文本)