语音识别+语音合成

Python 几分钟就把视频语音识别为文本了，不到10行代码

Whisper这个方案就是OpenAI开源的Whisper，当然是用Python写的了，只需要简单安装几个包，然后几行代码一写，稍等片刻（根据你的机器性能和音视频长度不一），最终的文本内容就出来了，就是这么简单。GitHub仓库地址：https://github.com/openai/whisperFast-Whisper虽然已经很简单了，但是对于程序员来说还是不够简洁，毕竟程序员都很“懒”，Wh

奔向理想的星辰大海·2025-03-27 07:02

OpenAI推出新一代语音与转录AI模型

这些模型在语音识别准确率、噪声环境适应性及多语言处理能力上实现突破，标志着AI语音技术从实验室走向规模化商业应用的步伐进一步加快。

未来智慧谷·2025-03-26 05:47

Vosk-Server: 高精度离线语音识别服务器

Vosk-Server:高精度离线语音识别服务器vosk-serveralphacep/vosk-server:VoskServer是一个基于Vosk语音识别引擎的服务端实现，可以部署为HTTPAPI服务

柯茵沙·2025-03-26 04:10

黄仁勋GTC大会对AI的展望-英伟达进入Agentic AI时代

主要内容AgenticAI的兴起技术范式转移：黄仁勋指出，AI已经经历了三代技术范式的转移，从判别式AI（如语音识别、图像识别）到生成式AI，再到如今的AgenticAI。未来将是影响物理世界的

帅森森聊AI和职场(公众号同名)·2025-03-25 21:45

sherpa-onnx 安装和配置指南

sherpa-onnx安装和配置指南sherpa-onnxk2-fsa/sherpa-onnx:Sherpa-ONNX项目与ONNX格式模型的处理有关，可能涉及将语音识别或者其他领域的模型转换为ONNX

盛瑾蓬Seeds·2025-03-25 14:59

开源项目推荐：sherpa-onnx

甄登汉·2025-03-25 14:59

Sherpa-ONNX：说话人识别与语音识别自动开启（VAD）+ Python API 完整指南

介绍Sherpa-ONNX是一个基于ONNX的轻量级语音识别框架，支持多种语音处理任务，包括说话人识别（SpeakerRecognition）和自动语音识别（AutomaticSpeechRecognition

一只蜗牛儿·2025-03-25 14:26

连接chatgpt的桌面语音助手

要创建一个连接到ChatGPT的桌面语音助手，可以使用Python编写一个程序来实现语音识别、与ChatGPTAPI交互以及语音合成的功能。

getapi·2025-03-25 01:16

语音识别学习系列（13）：语音识别中的情感识别与表达

语音识别学习系列（13）：语音识别中的情感识别与表达前言在语音识别领域，仅仅将语音准确转换为文字内容已不能满足日益多样化的人机交互需求。

DoYangTan·2025-03-24 08:58

哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法

本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。

你觉得205·2025-03-23 19:39

自动语音识别（ASR）：技术、应用与未来

自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。

ajie1117·2025-03-21 16:17

python离线语音转文本_使用Python将语音转换为文本的方法

语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？

weixin_39760619·2025-03-21 11:01

深度学习的颠覆性发展：从卷积神经网络到Transformer

CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh

AI天才研究院·2025-03-21 07:57

【微信小程序（云开发模式）变通实现DeepSeek支持语音】

调用云函数进行语音识别和DeepSeek处理。界面模仿DeepSeek，支持文本编辑。后端（云函数+Node.js）：使用云函数调用腾讯云语音识别（ASR）服务。调用DeepSeekAPI处理文本。

技术与健康·2025-03-21 04:09

AI 大模型应用数据中心的数据迁移架构

AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。

AGI大模型与大数据研究院·2025-03-21 03:34

录音文字转换专家，一键搞定音转文字，让你的工作效率飞起来！

录音转文字助手是一款功能丰富的app，主要聚焦于语音识别、音频转文字以及实时语音翻译等功能。在这个app中，其内置了一套强大的识别系统。

开开心心_Every·2025-03-21 00:10

视频转音频, 音频转文字

venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别

言之。·2025-03-20 23:57

H5语音识别功能(Web Speech API+科大讯飞)

H5语音识别效果图:方案一:WebSpeechAPI(免费,IE浏览器可用,谷歌浏览器不可用)方案一：WebSpeechAPI开始停止识别结果:{{finalTranscript}}{{interimTranscript

辣辣1·2025-03-20 17:05

如何在 Python 中将语音转换为文本

一、说明学习如何使用语音识别Python库执行语音识别，以在Python中将音频语音转换为文本。想要更快地编码吗？我们的Python代码生成器让您只需点击几下即可创建Python脚本。

无水先生·2025-03-20 14:17

书籍-《动手学深度学习（英文版）》

CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具

·2025-03-20 14:25

【微信小程序变通实现DeepSeek支持语音】

微信小程序实现录音转文字，并调用后端服务（Node.js）进行语音识别和，然后调用DeepSeek处理的完整实现。整体架构前端（微信小程序）：实现录音功能。将录音文件上传到后端。

技术与健康·2025-03-20 12:54

深入探索 PyTorch 在语音识别中的应用

深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。

Zoro｜·2025-03-19 13:19

AI人工智能深度学习算法：搭建可拓展的深度学习模型架构

深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。

AI大模型应用之禅·2025-03-19 02:09

《AI大模型趣味实战》 No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下)

本文详细解析了这些改进的技术实现，包括语音识别与合成

带娃的IT创业者·2025-03-18 17:38

李开复：AI 2.0 时代的价值

人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。

AI大模型应用之禅·2025-03-18 15:53

李开复：AI 2.0 时代的机遇

人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。

AGI大模型与大数据研究院·2025-03-18 15:52

Python 中的离线语音转文本

Vosk是一个语音识别

无水先生·2025-03-18 03:09

最方便的离线python实时中文语音识别！

废话不多说，直接上代码，先安装环境需要安装的包：jsonpyaudionumpyvosk新建一个py文件写入：importjsonimportpyaudioimportnumpyasnpfromvoskimportModel,KaldiRecognizer,SetLogLeveldefSaveWave(model):#设置音频参数FORMAT=pyaudio.paInt16#音频流的格式RATE=

迟钝皮纳德·2025-03-18 03:37

基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战

其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。

zhz5214·2025-03-18 02:56

AI 大模型应用数据中心建设：高性能计算与存储架构

这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大

AI智能涌现深度研究·2025-03-17 12:10

一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用

百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey

DerrickOzil·2025-03-17 12:09

AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！

这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？

大模型教程·2025-03-17 10:30

小红书开源工业级自动语音识别模型

微信公众号｜搜一搜：蚝油菜花大家好，我是蚝油菜花，今天跟大家分享一下FireRedASR这个小红书开源的工业级自动语音识别模型。

蚝油菜花·2025-03-17 07:39

语音识别后处理代码

importreimportdifflibimportosfromdatetimeimportdatetime,timedeltadefextract_snippets_no_duplicates(input_file,output_file,window=150):"""从输入文本文件中提取包含目标字符（A、B、C、D、"开始"、"结束"）前后`window`个字符范围的文本。提取时扩展到完整的

hitsz_syl·2025-03-17 07:07

Android 百度语音合成工具类封装：内存泄漏防护与简化调用

适配高版本Android系统使用ApplicationContext避免内存泄漏默认回调支持，调用更简洁线程安全与资源释放优化完整代码：BaiduTTSManager.java：importandroid.content.Context;importandroid.os.Handler;importandroid.os.Looper;importandroid.util.Log;importand

tangweiguo03051987·2025-03-16 16:44

AI笔记——语音识别

摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。

Yuki-^_^·2025-03-16 15:07

自动语音识别（ASR）模型全览

适用场景：早期电话语音识别（嵌入式设备）、孤立词识别（工业控制终端）

u013250861·2025-03-16 15:05

Assembly语言的自然语言处理

从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja

花韵婷·2025-03-16 05:57

NPU的应用场景：从云端到边缘

NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。

绿算技术·2025-03-16 02:29

吴恩达机器学习笔记复盘（二）监督学习和无监督学习

语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量

wgc2k·2025-03-15 09:21

Python中用SpeechRecognition库和 vosk模型来识别语音

Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。

老菜鸟YDZ·2025-03-15 04:01

人工智能概念

近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别

zhangpeng455547940·2025-03-14 19:13

【自学笔记】讯飞星火基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录讯飞星火基础知识点总览一、讯飞星火简介二、核心功能1.语音识别2.自然语言处理3.知识图谱4.星火API三、基础概念1.AI模型2

Long_poem·2025-03-14 02:08

【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南

文章首先概述了语音识别与合成的基本原理和关键技术，随后详细讲解了如何安装和配置必要的开发环境。通过丰富的代码示例和详细的中

蒙娜丽宁·2025-03-13 02:41

AI视频生成工具清单（附网址与免费说明）

AI视频生成工具清单（附网址与免费说明）1.Synthesia网址：https://www.synthesia.io是否免费：免费试用（生成视频带水印）核心功能：✅120+AI虚拟主播✅支持70种语言语音合成

远方2.0·2025-03-12 18:46

【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？

在自然语言处理、语音识别、时间序列预测等领域，数据本质上是序列化的——即当前数据点与前后数据点存在依赖关系。传统的前

arbboter·2025-03-12 02:18

多模态大模型：技术原理与实战模型压缩实战

ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别

AGI大模型与大数据研究院·2025-03-12 01:16

【花雕动手做】基于ESP32S3和通义千问大模型AI语音聊天机器人

2、技术架构：（1）语音识别：使用语音转文字大模型，将用户的语音输入转换为文本信息。（2）文本理解：将转换后的文本发送到通义千问大模型进行处理，模型会根据文本内容生成相应的回答。

驴友花雕·2025-03-11 22:44

大模型交互-超拟人合成

1、超拟人合成：将文字转化为自然流畅的人声，在实时语音合成的基础上，精准模拟人类的副语言现象，如呼吸、叹气、语速变化等，使得语音不仅流畅自然，更富有情感和生命力。

定制开发才有价值·2025-03-10 14:12

推荐频道