whisper

音频转文字-在线工具包及使用记录

v=L1H5ov4WTBghttps://github.com/openai/whisper//创建虚拟环境python-mvenvmyvnev//激活虚拟环境sourcemyvnev/bin/activatepipinstall

一笑code·2025-06-28 03:02

《Whisper模型版本及下载链接》

Whisper模型版本及下载链接Whisper是OpenAI开发的语音识别模型，以下按模型规模从小到大排列，包含不同语言版本及通用版本：1.Tiny系列（轻量级）tiny.en.pt（英文专用）：https

空云风语·2025-06-23 16:13

《Whisper：开启语音识别新时代的钥匙》

Whisper模型：技术革新的基石在当今科技飞速发展的时代，自动语音识别（ASR）技术作为人工智能领域的关键分支，正深刻地改变着人们的生活与工作方式。

空云风语·2025-06-23 16:10

web3.js 核心包及子模块

包含子模块：web3.eth-以太坊区块链交互web3.utils-辅助工具函数web3.shh-Whisper协议（已废弃）web3.bzz-Swarm去中心化存储（已废弃）web3.net-网络相关功能

阿雄不会写代码·2025-06-20 03:22

19｜Whisper+ChatGPT：请AI代你听播客

他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在

企鹅侠客·2025-06-18 15:08

✨Whisper 官方版本离线安装及断点续传下载 + screen 后台管理全流程指南

Whisper官方版本离线安装及断点续传下载+screen后台管理全流程指南Whisper是OpenAI开源的强大语音识别模型，支持多语言转写。

杨靳言先·2025-06-17 18:16

Whisper（语音识别，语音转文本）本地部署

一、安装好ffmpeg1、安装ffmpeg，这个好像是用于对音频文件解析和处理的，具体不态清楚ffmpeg安装教程2、后面可能出现的问题如果后面运行时，出现系统找不到指定文件的bug时，尝试在上一步添加环境变量中，也添加一个系统变量，并重启一下电脑二、使用Anaconda创建所需的环境1、创建一个新的环境condacreate-nwhisperpython=3.92、判断自己的设备使用什么版本的C

龚子亦·2025-06-16 16:50

whisper相关的开源项目 (asr)

基于Whisper（OpenAI的开源语音识别模型）的开源项目有很多，涵盖了不同应用场景和优化方向。

code-ranger·2025-06-13 22:31

Whisper使AI人工智能语音识别更精准可靠

Whisper使AI人工智能语音识别更精准可靠关键词：Whisper、语音识别、AI模型、自动语音识别(ASR)、深度学习、Transformer、语音处理摘要：本文深入探讨了OpenAI开发的Whisper

AI天才研究院·2025-06-12 23:44

AIGC 与 Whisper：推动语音技术进步

AIGC与Whisper：推动语音技术进步关键词：AIGC（生成式人工智能）、Whisper、语音识别、多模态交互、大语言模型、语音合成、多任务学习摘要：本文深度解析生成式人工智能（AIGC）与OpenAI

AI天才研究院·2025-06-12 23:44

【仿生系统】qwen的仿生机器人解决方案

以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding

DFminer·2025-06-03 04:39

openai-whisper-asr-webservice接入dify

openai-whisper-asr-webservice提供的asr的api其实并不兼容openai的api，所以在dify中是不能直接添加到语音转文字的模型中，对比了下两个api的传参情况，其实只要改动一处

dgiij·2025-05-23 08:10

开源音视频转文字工具：基于 Vosk 和 Whisper 的多语言语音识别项目

技术架构本项目采用双引擎架构，结合了两个优秀的开源语音识别模型：Vosk：专注于离线场景，适合本地快速处理Whisper：OpenAI开源的强大模型，支持多语言识别核心特性多语言支持中文识别：适配中文语音特点英文识别

phper8·2025-05-21 05:09

AIGC 技术解析：Whisper 的低延迟语音识别

AIGC技术解析：Whisper的低延迟语音识别关键词：AIGC、Whisper、语音识别、低延迟、Transformer、端到端学习、语音处理摘要：本文深入解析OpenAIWhisper模型的低延迟语音识别技术

AI大模型应用之禅·2025-05-17 02:01

uDistil-Whisper：低数据场景下基于无标签数据过滤的知识蒸馏方法

uDistil-Whisper:Label-FreeDataFilteringforKnowledgeDistillationinLow-DataRegimes会议：2025年NAACL机构：卡内基梅降大学

tongxianchao·2025-05-15 10:45

在 React Native 中使用 Whisper 进行语音识别

在本文中，我们将使用Whisper创建语音转文本应用程序。Whisper需要Python后端，因此我们将使用Flask为应用程序创建服务器。ReactNative作为构建移动客户端的框架。

pxr007·2025-05-12 20:58

Whisper在AI人工智能多语言语音识别中的应用

Whisper在AI人工智能多语言语音识别中的应用关键词：Whisper、AI人工智能、多语言语音识别、应用、技术原理摘要：本文深入探讨了Whisper在AI人工智能多语言语音识别中的应用。

AI智能探索者·2025-05-10 09:58

实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)

源代码开源在AudioWhisper:实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)(gitee.com)1、声音录制这里有三点需要注意的：1）sampleRate（采样频率

htsitr·2025-05-08 16:22

【语音识别】vLLM 部署 Whisper 语音识别模型指南

目录1.模型下载2.环境安装3.部署脚本4.服务测试语音识别技术在现代人工智能应用中扮演着重要角色，OpenAI开源的Whisper模型以其出色的识别准确率和多语言支持能力成为当前最先进的语音识别解决方案之一

Encarta1993·2025-05-01 12:58

python系列&deep_study系列：Whisper OpenAI开源语音识别模型

WhisperOpenAI开源语音识别模型WhisperOpenAI开源语音识别模型介绍一、Whisper模型及配置Whisper参数评测数据模型测试表原始模型字错率测试表。

坦笑&&life·2025-04-29 06:19

实战指南：封装Faster-Whisper为FastAPI接口并实现高并发处理-附整合包

实战指南：封装Faster-Whisper为FastAPI接口并实现高并发处理-附整合包「faster-whisper」链接：https://pan.quark.cn/s/d4ddffb1b196标题下面提供一个完整的示例

@程序员小袁·2025-04-24 14:54

Whisper 模型压缩技术：轻量级语音识别方案

Whisper模型压缩技术：轻量级语音识别方案关键词：Whisper模型、模型压缩、轻量级语音识别、知识蒸馏、模型量化、剪枝优化、边缘部署摘要：本文深入探讨OpenAIWhisper模型的压缩技术体系，

AI学长带你学AI·2025-04-18 10:16

开源项目faster-whisper和whisper是啥关系

faster‑whisper

@程序员小袁·2025-04-17 21:22

使用faster-whisper音频转srt字幕（亲测可行）

重点说明，下载模型时需科学上网或者用国内huggingface镜像网站下载。fromfaster_whisperimportWhisperModelfrompydubimportAudioSegmentfromzhconvimportconvert#简繁转换库importosimportdatetimeimporttorchdefformat_time(seconds):"""将秒数格式化为SRT

批量小王子·2025-04-13 09:36

多语种语音识别新突破：使用Transformers微调Whisper模型，实现精准识别！

前言本文提供了一个使用HuggingFaceTransformers在任意多语种语音识别(ASR)数据集上微调Whisper的分步指南。

大模型入门学习·2025-04-11 21:39

本地搭建Whisper语音识别模型-超详细教程-亲测可用

前言：在本地搭建Whisper语音识别模型可以让你在没有网络连接的情况下进行语音转文本的处理。1、环境准备步骤1：安装Python确保你的系统中已安装Python3.8或更高版本。

生活De°咸鱼·2025-04-09 22:01

语音识别whisper

Whisper是一个通用的语音识别模型，它使用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的鲁棒性和准确性1。

caridle·2025-04-09 22:59

faster-whisper 开源项目安装与使用指南

faster-whisper开源项目安装与使用指南项目地址:https://gitcode.com/gh_mirrors/fas/faster-whisper1.项目目录结构及介绍faster-whisper

裴进众Serene·2025-04-09 15:47

清华大学推出Dolphin语音识别模型！专攻40种东方语言，方言识别准确率提升54%！

近年来，自动语音识别（ASR）技术已经进入了一个“百模大战”的时代，尤其是Whisper让许多人看到了高质量通用语音识别的可能性。

资源大全免费分享·2025-04-09 12:58

RAGFlow + LlamaIndex 本地知识库RAG增强架构与实现直播智能复盘

以下是完整架构图与技术方案：二、核心模块技术方案1.直播流实时处理（输入层→实时处理层）技术栈流接入：FFmpeg（RTMP推流）、WebRTC（低延迟互动）语音识别：Whisper（本地部署）+NVIDIATriton

每天三杯咖啡·2025-04-06 14:01

python系列&deep_study系列：Whisper——部署fast-whisper中文语音识别模型

Whisper——部署fast-whisper中文语音识别模型Whisper——部署fast-whisper中文语音识别模型环境配置准备tiny模型模型转换代码Whisper——部署fast-whisper

坦笑&&life·2025-04-04 16:25

双向流式AI语音项目教程

bidirectional_streaming_ai_voicePythonscriptstohandleatwowayvoiceconversationwithAnthropicClaude,usingElevenLabs,Faster-Whisper

谢忻含Norma·2025-04-01 14:00

FunASR 中文语音实时识别输出使用示例（准确率比faster-whisper高）

文章目录Github官网简介模型安装非流式应用示例流式应用示例Githubhttps://github.com/modelscope/FunASR官网https://www.funasr.com/#/简介FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教

逢生博客·2025-03-30 16:34

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（四）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提供了便利，让他们能更方便地与外界交流。此外，对于媒体行业、客服行业等都有着广泛的应用，极大地提升了工作流程和服务质量。这篇文章将介绍OpenAI最新开源的W

开源技术探险家·2025-03-29 00:59

Python 几分钟就把视频语音识别为文本了，不到10行代码

Whisper这个方案就是OpenAI开源的Whisper，当然是用Python写的了，只需要简单安装几个包，然后几行代码一写，稍等片刻（根据你的机器性能和音视频长度不一），最终的文本内容就出来了，就是这么简单

奔向理想的星辰大海·2025-03-27 07:02

OpenAI推出新一代语音与转录AI模型

3月20日，人工智能领域迎来重要进展——OpenAI正式推出三款新一代语音与转录AI模型，Whisper-Enhanced、VoiceFlow和TranscribePro。

未来智慧谷·2025-03-26 05:47

Windows faster whisper GUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕]

pwd=vydu#WindowsfasterwhisperGUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕]whisperX+faster-whisper+Demucs把模型下载

私人珍藏库·2025-03-22 16:27

视频转音频, 音频转文字

venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper

言之。·2025-03-20 23:57

服务器、群晖，飞牛NAS等部署Whisper ASR教程来啦！让我们的Nas轻松实现音频转文字服务！

文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR，语音识别soeasy！准备部署使用Python调用示例注意事项⚓️相关链接⚓️介绍最近有人私信我，有没有什么办法能在NAS上搞个语音识别服务，实现将语音或开会录音自动转成文字？那么今天我们就一起来看看如何在服务器或群晖/飞牛等Nas上部署一个语音转文字的服务，让我们的NAS瞬间变身“听译”大师！演示环境本文演示环境如下：群晖系统

xiaoqiangclub·2025-03-07 10:20

使用 Vosk 实现语音识别

在近两年里，如果说想要在本地部署离线语音识别模型，那么Whisper和FunASR肯定是首选项。所以为什么要使用Vosk呢？

分发吧·2025-03-01 15:26

大模型之二十七-语音识别Whisper实例浅析

Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而

shichaog·2025-02-27 01:55

Python+whisper/vosk实现语音识别

目录一、Whisper1、Whisper介绍2、安装Whisper3、使用Whisper-base模型4、使用Whisper-large-v3-turbo模型二、vosk1、Vosk介绍2、vosk安装

唯余木叶下弦声·2025-02-27 01:50

RK3568笔记七十八：PCM转WAV

大概功能是：采用MIC录制5-10秒音频，转成WAV格式，通过RK的Whisper转成文本，把文本传给豆包API，结果通过火山TTS转化在通过喇叭播放。

殷忆枫·2025-02-27 00:48

git拉取大文件

步骤安装lfs正常执行clone命令执行gitlfsfetch执行gitlfscheckout安装lfs执行gitlfsinstall正常执行clone命令比如我要下载huggingface的whisper

Maybe_9527·2025-02-24 06:23

Fastgpt接入Whisper本地模型实现语音识别输入

前言FastGPT默认使用了OpenAI的LLM模型和语音识别模型，如果想要私有化部署的话，可以使用openai开源模型Whisper。

泰山AI·2025-02-20 09:31

SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验

前段时间，带着大家捏了一个对话机器人：手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）其中语音识别（ASR）方案，采用的是阿里开源的FunASR，这刚不久，阿里又开源了一个更强的音频基础模型，该模型具有如下能力：语音识别（ASR）语种识别（LID）语音情感识别（SER）声学事件分类（AEC）声学事件检测（AED）传送门：https://github.com/FunAudio

AI码上来·2025-02-19 23:38

使用Python和OpenAI Whisper实现YouTube视频转文字及问答系统

使用Python和OpenAIWhisper实现YouTube视频转文字及问答系统引言在当今的AI时代,从视频内容中提取有价值的信息变得越来越重要。本文将介绍如何使用Python和OpenAIWhisperAPI将YouTube视频转换为文本,并基于此构建一个简单的问答系统。这个过程不仅能帮助我们更好地理解和分析视频内容,还能为进一步的自然语言处理任务奠定基础。主要内容1.环境准备首先,我们需要安

llzwxh888·2025-02-18 15:12

ASR技术与Whisper引擎

一、ASR技术简介ASR英文全称是AutomaticSpeechRecognition，中文叫做自动语音识别，是利用机器对语音信号进行识别和理解并将其转换成相文本和命令的技术。下面2张图是网上找到的语音识别结构图和流程图。以下为ASR技术的核心技术。特征提取：通过编码将声音转变为数字信号，提取有效的声学特征。梅尔频率倒谱系数MFCC是最经典的语音特征。声学模型：声学模型通过处理编码得到的向量，将相

Catformon·2025-02-17 01:38

WhisperX：革命性的自动语音识别工具

该项目基于OpenAI的Whisper模型，通过引入批量推理、强制音素对齐和语音活动检测等技术，实现了高达70倍的实时转录速度，并提供了准确的单词级时间戳和说话人识别功能。Whis

孔秋宗Mora·2025-02-15 03:14

开源项目实战：Whisper 环境下的语音识别与说话人分离完全指南

开源项目实战：Whisper环境下的语音识别与说话人分离完全指南whisper-diarizationAutomaticSpeechRecognitionwithSpeakerDiarizationbasedonOpenAIWhisper

唐阔清·2025-02-07 23:40

推荐频道