speech

SpeechBrain 中文预训练模型：助力中文语音识别的强大工具

SpeechBrain中文预训练模型：助力中文语音识别的强大工具speechbrain.tar.gz项目地址:https://gitcode.com/open-source-toolkit/a3461项目介绍在语音识别领域

管彩嫒Zachary·2025-04-18 08:01

部署docker版本的FunASR

damo/speech_fsmn_vad_zh-cn-16k-co

Luke Ewin·2025-04-17 21:19

部署Fish-Speech实现声音克隆及文本转语音

FishSpeech是由FishAudio团队开发的一款开源文本转语音（TTS）模型，支持多语言的语音合成和识别。它采用先进的深度学习技术，能够生成自然流畅的语音，并提供高质量的语音转文字功能。

培根芝士·2025-04-17 12:51

基于深度学习的语音识别

以下是对这一领域的系统介绍：1.任务和目标语音识别的主要任务和目标包括：语音转文本（ASR,AutomaticSpeechRecognition）：将语音信号转换为相应的文本。

SEU-WYL·2025-04-16 19:30

通过python如何实现视频提取音频，并将音频转文本

moviepy库中的VideoFileClip类读取视频文件，并将其转换为音频文件；（2）使用pydub库中的splitonsilence函数将音频文件分割成多个音频片段，以便进行语音识别；（3）使用SpeechRecognition

Micheal_Dad·2025-04-13 16:21

【场景应用2】speech_recognition：微调语音模型

本笔记演示如何对多语言预训练语音模型进行微调，以用于自动语音识别任务。本笔记设计用于在TIMIT数据集上运行，支持使用ModelHub中任何带有ConnectionistTemporalClassification(CTC)头的语音模型检查点。根据所选模型和使用的GPU配置，可能需要调整batchsize以避免内存溢出错误。设置这两个参数后，笔记其余部分应能顺利运行：model_checkpoin

AI专题精讲·2025-04-11 21:11

多语种语音识别新突破：使用Transformers微调Whisper模型，实现精准识别！

简介Whisper是一系列用于自动语音识别(automaticspeechrecognition，ASR)的预训练模型，它由来自于OpenA

大模型入门学习·2025-04-11 21:39

【场景应用3】audio_classification：音频分类的微调

1引言本笔记展示了如何对多语种预训练的语音模型进行微调，以实现自动语音识别（AutomaticSpeechRecognition）。

AI专题精讲·2025-04-11 21:38

python aipspeech_Python调用百度API实现语音识别（二）

Python调用百度API实现语音识别(二)前言上一篇文章里，大致介绍了百度官方api的一些前置准备工作。想回顾的同学，可以看完本篇在下面找到历史链接。今天就来上手实战编码，体验一下代码实现以及编程中遇到的坑。环境准备开始之前，安装百度语音sdk，Python版。pipinstallbaidu-aip环境很简单，就这一步，完成即可编码。代码撸起直接拷贝官方提供的代码，就行了，改点参数，上篇文章介绍

軒舞·2025-04-10 10:20

【人工智能语音识别】——深入详解人工智能语音信号处理：理解语音信号的特征提取与表示

深入详解人工智能语音识别之语音信号处理语音识别（SpeechRecognition）是人工智能领域中的一项关键技术，它使计算机能够“听懂”人类的语言并作出反应。

猿享天开·2025-04-09 16:17

开源呼叫中心系统FreeIPCC：大模型多模态与TTS、ASR的功能对比及其在呼叫中心IVR中的应用

IVR中的应用作者：开源呼叫中心系统FreeIPCC，Github地址：https://github.com/lihaiya/freeipcc在人工智能技术的快速发展中，大模型多模态、TTS（TexttoSpeech

FreeIPCC·2025-04-09 07:21

建模混淆矩阵以提高语音识别准确率，并应用于构音障碍语音

建模混淆矩阵以提高语音识别准确率，并应用于构音障碍语音原文：Modellingconfusionmatricestoimprovespeechrecognitionaccuracy,withanapplicationtodysarthricspeech

帅小柏·2025-04-07 09:01

解锁Azure Speech “通话转录音分析”功能，驶向服务升级高速路

而AzureSpeech的“通话转录分析”功能正好满足了他们的需求，通过引入这一功能，企业实现了通话监控、分析与管理的全面升级，显著提升了服务效率

Leinwin·2025-04-05 12:31

python学习课程（六）

Python语音识别（SpeechRecognition）1.引言Python是当今最流行的编程语言之一，Python语音识别（SpeechRecognition）是开发人员需要掌握的重要技能。

·2025-04-05 10:46

实现语音合成的三种方法：HTML5 Web Speech 、speak-tts、百度语音合成

1.使用HTML5WebSpeechAPI1.1使用方法window.speechSynthesis是HTML5WebSpeechAPI的一部分，是浏览器原生提供的文本转语音功能。

芭拉拉小魔仙·2025-04-05 02:29

Android 科大讯飞语音识别(详细步骤+源码)

一下然后修改布局activity_main.xml接下来就是MainActivity了③编码一、声明变量和初始化privatestaticfinalStringTAG=“MainActivity”;privateSpeechRecognizermIat

2401_85730195·2025-04-04 07:22

python程序语音控制摄像头打开

pipinstallSpeechRecog

X-yes·2025-04-04 05:37

python pyttsx3文本转语音_已上线！AWS Polly 全新配置神经文本转语音系统

雷锋网AI科技评论按：7月30日，亚马逊在AWSPolly上发布神经文本转语音系统，同时推出新闻播音员语音风格；并且通过这一工具，亚马逊与谷歌的WaveNet、微软的AzureSpeechService

大坨坨儿·2025-04-01 13:52

第八篇【传奇开心果系列】python的文本和语音相互转换库技术点案例示例：Google Text-to-Speech虚拟现实（VR）沉浸式体验经典案例

python的文本和语音相互转换库技术点案例示例系列博文目录前言GoogleText-to-Speech在虚拟现实（VR）体验中有一些应用场景。

2401_84252820·2025-04-01 13:16

pyttsx3 使用教程

项目地址:https://gitcode.com/gh_mirrors/py/pyttsx3项目介绍pyttsx3是一个用于Python的文本转语音（Text-to-Speech,TTS）库，支持离线工作

尹辰子Wynne·2025-04-01 10:52

使用websocket客户机和服务器实现通讯

前言在最近的项目（TestPaddlespeech）中，虽然在本地完成了一个语言识别算法，但是没有任何项目部署到服务器上，或者实现前后端交互的知识和技术。

Chai_Hao·2025-04-01 04:46

HarmonyOS NEXT AI基础语音服务-文章播报

案例描述这是一个基于AI基础语音服务实现的文字语音播报案例实现步骤：###1.引入必要的模块引入textToSpeech和promptAction模块，分别用于文字转语音和提示信息展示。

·2025-03-30 12:22

语音识别项目实战：从零到一

我们将以DeepSpeech作为实现基础，使用Python和TensorFlow等流行的工具，结合实际代码案例，帮助大家深入理解如何从头开始

一碗黄焖鸡三碗米饭·2025-03-29 18:46

CSS3学习教程，从入门到精通，CSS3 媒体查询实现响应式布局语法指南（21）

媒体查询核心语法1.基础语法结构@media媒体类型and(媒体特性){/*匹配条件时应用的CSS规则*/}2.媒体类型（可省略）类型值说明all所有设备（默认值）screen屏幕设备print打印机设备speech

知识分享小能手·2025-03-28 23:18

python实现语音转文字

一、下载模型地址模型地址两个模型一个小一点，加载快一个大一点，加载慢加载的话每次启动只加载一次二、代码pipinstallspeech_recognitionvosk代码importjsonimportspeech_recognitionassrfromvoskimportModel

张航柯·2025-03-27 07:32

Sherpa-ONNX：说话人识别与语音识别自动开启（VAD）+ Python API 完整指南

介绍Sherpa-ONNX是一个基于ONNX的轻量级语音识别框架，支持多种语音处理任务，包括说话人识别（SpeakerRecognition）和自动语音识别（AutomaticSpeechRecognition

一只蜗牛儿·2025-03-25 14:26

连接chatgpt的桌面语音助手

以下是一个完整的解决方案和技术实现步骤：所需工具和库语音识别使用speech_recognition库捕获用户的语音输入。需要麦克风支持。

getapi·2025-03-25 01:16

When Large Language Models Meet Speech: A Survey on Integration Approaches

主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：

UnknownBody·2025-03-23 17:46

文本转语音常用的几个python库

在Python编程领域，文本到语音（Text-to-Speech,TTS）的转换是一个常见的需求，尤其是在开发能够与用户交互的应用程序时。

天蓝海乡·2025-03-23 01:58

自动语音识别（ASR）：技术、应用与未来

自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。

ajie1117·2025-03-21 16:17

python离线语音转文本_使用Python将语音转换为文本的方法

如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始

weixin_39760619·2025-03-21 11:01

H5语音识别功能(Web Speech API+科大讯飞)

H5语音识别效果图:方案一:WebSpeechAPI(免费,IE浏览器可用,谷歌浏览器不可用)方案一：WebSpeechAPI开始停止识别结果:{{finalTranscript}}{{interimTranscript

辣辣1·2025-03-20 17:05

文本转语音的Python库（pyttsx3）

一、pyttsx3的概述pyttsx3isatext-to-speechconversionlibraryinPython.pyttsx3是Python中的文本到语音转换库。

数产第一混子·2025-03-20 15:21

使用 Python 的 pyttsx3 库进行文本转语音

与其他文本转语音库（如gTTS）不同，pyttsx3不依赖于网络服务，它使用本地的TTS（Text-to-Speech）引擎，这使得它在离线状态下也能正常工作1.2pyttsx3支持多平台（Windows

Bingjia_Hu·2025-03-20 14:48

如何在 Python 中将语音转换为文本

在本教程中，您将学习如何使用SpeechRecognition库在Python中

无水先生·2025-03-20 14:17

AI笔记——语音识别

摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。

Yuki-^_^·2025-03-16 15:07

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.25-2024.07.01

LearningfromHigh-qualityGenerativeDataDrivenbyLanguage2.BioMNER:ADatasetforBiomedicalMethodEntityRecognition3.BESTOW:EfficientandStreamableSpeechLanguageModelwiththeBestofTwoW

小小帅AIGC·2025-03-15 05:10

Python中用SpeechRecognition库和 vosk模型来识别语音

Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。

老菜鸟YDZ·2025-03-15 04:01

【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南

本文旨在全面介绍如何利用Python编程语言及其强大的库——SpeechRecognition和gTTS，构建一个基础但功能完备的语音助手。

蒙娜丽宁·2025-03-13 02:41

基于讯飞星火的语音问答

一.简介项目基于讯飞星火api作为核心能力并在其中搭载了WebSpeechAPI中的webkitSpeechRecognition对象来实现语音转文字的功能和TTS(Text-to-Speech)：通过调用百度

哎呦☞ᨐ·2025-03-10 15:45

基于Pytorch的语音情感识别系统

基于Pytorch的语音情感识别系统介绍语音情感识别（SpeechEmotionRecognition,SER）是指通过分析和处理人的语音信号来识别其情感状态。

鱼弦·2025-03-09 15:34

C#实现语音合成播报器——基于System.Speech的语音交互方案，在windows上实现语音播报指定文本

——基于System.Speech的语音交互方案，在windows上实现语音播报指定文本一、语音合成播报应用场景语音合成播报器广泛应用于以下领域：工业控制：生产线异常报警、设备状态实时播报（如网页4中的

WangMing_X·2025-03-06 17:00

【智能客服】智能客服的核心技术-对话系统

目录一、基本概念二、对话系统的应用场景三、对话系统的常见构建方式四、一般架构AutomaticSpeechRecognition(ASR)NaturalLanguageUnderstanding(NLU

姚瑞南·2025-03-06 12:50

呼叫智能体：AI时代下的智能交互革命

一、呼叫智能体的核心技术栈声音克隆与TTS进化通过深度学习模型（如VITS、FastSpeech2），系统可克隆特定人声音色，结合大语言模型生

MARS_AI_·2025-03-06 05:48

Transformer模型详解

导读Transformer在许多的人工智能领域，如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing

Yuki-^_^·2025-03-02 21:46

VOSK语音识别工具包使用教程

VOSK语音识别工具包使用教程voskVOSKSpeechRecognitionToolkit项目地址:https://gitcode.com/gh_mirrors/vo/vosk1.项目介绍VOSK是一个开源的语音识别工具包

邴联微·2025-03-01 15:50

使用Python和Vosk库实现语音识别

今天，我们将介绍如何使用Python中的SpeechRecognition库和Vosk模型来实现语音识别。

车载testing·2025-02-27 01:22

VBA第十四期一个有声音的进度条

下面的实例是在工作之余想到的一个有趣的尝试，就是用Application.Speech.Speak这个调用嵌入到循环里面,同时通过状态栏显示完成情况，两者结合就可以达到进度条效果。

jimin_callon·2025-02-26 14:02

python 语音转文本中文——DeepSpeech

DeepSpeech简介与音频转文本实践DeepSpeech是由Mozilla开发的一种开源语音识别引擎，基于深度学习技术，采用端到端架构，可以高效地将语音转换为文本。

drebander·2025-02-26 00:51

深入探索Mozilla的DeepSpeech：语音识别的新里程碑

深入探索Mozilla的DeepSpeech：语音识别的新里程碑项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeech项目简介是一个开源的语音识别引擎，基于深度学习技术

温宝沫Morgan·2025-02-22 18:28

推荐频道