whisper 第2页

20240202在Ubuntu20.04.6下使用whisper.cpp的显卡模式

20240202在Ubuntu20.04.6下使用whisper.cpp的显卡模式2024/2/219:43【结论：在Ubuntu20.04.6下，确认large模式识别7分钟中文视频，需要356447.78ms

南棱笑笑生·2024-02-03 06:55

20240202在Ubuntu20.04.6下使用whisper.cpp的CPU模式

20240202在Ubuntu20.04.6下使用whisper.cpp的CPU模式2024/2/214:15rootroot@rootroot-X99-Turbo:~/whisper.cpp$.

南棱笑笑生·2024-02-03 06:55

20240131在WIN10下配置whisper

20240131在WIN10下配置whisper2024/1/3118:25首先你要有一张NVIDIA的显卡，比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡！】

南棱笑笑生·2024-02-01 07:52

20240131在ubuntu20.04.6下使用whisper不同模式的比对

20240131在ubuntu20.04.6下使用whisper不同模式的比对2024/1/3116:07首先你要有一张NVIDIA的显卡，比如我用的PDD拼多多的二手GTX1080显卡。

南棱笑笑生·2024-02-01 07:22

本地部署whisper模型（语音转文字）

Whisper是OpenAI2022年发布的一款语音预训练大模型，集成了多语种ASR、语音翻译、语种识别的功能。

MaxCode-1·2024-02-01 07:13

20240130在ubuntu20.04.6下给GTX1080安装最新的驱动和CUDA

20240130在ubuntu20.04.6下给GTX1080安装最新的驱动和CUDA2024/1/3012:27缘起，为了在ubuntu20.4.6下使用whisper，以前用的是GTX1080M，装了

南棱笑笑生·2024-01-31 17:21

20240127在ubuntu20.04.6下配置whisper

20240131在ubuntu20.04.6下配置whisper2024/1/3115:48首先你要有一张NVIDIA的显卡，比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡！】

南棱笑笑生·2024-01-31 17:51

20240130在ubuntu20.04.6下卸载NVIDIA显卡的驱动

20240130在ubuntu20.04.6下卸载NVIDIA显卡的驱动2024/1/3012:58缘起，为了在ubuntu20.4.6下使用whisper，以前用的是GTX1080M，装了535的驱动

南棱笑笑生·2024-01-31 17:50

日记2021-3-11

比之前胖了好多，是要好好运动了，今天的上课学习都挺认真的，早上起床挺不错的，又开始觉得自己的时间真的不够用了，明天还有继续加油单词：wet湿的，sex性别，色情，onhand手头现在，whichever无论哪里，whisper

思考z·2024-01-31 05:38

webassembly003 whisper.cpp的python绑定实现+Cython+Setuptools的GUI程序

ps:本来想尝试cdefwhisper_context*whisper_init_from_file_with_params_no_state(char*,whisper_full_params)然后进行调用

FakeOccupational·2024-01-30 12:50

webassembly003 whisper.cpp的main项目-4 一些宏定义细节

标记函数为已弃用宏：WHISPER_DEPRECATED对于GNU编译器（__GNUC__），使用__attribute__((deprecated(hint)))属性将函数标记为已弃用，并附带指定的提示信息

FakeOccupational·2024-01-30 12:49

WhisperBot：整合了Mistral大型语言模型的实时语音转文本系统

Mistral和Whisper都经过优化，可作为TensorRT引擎高效运行，从而最大限度地提高性能和实时处

语音之家·2024-01-30 10:14

OpenAI推出iOS版ChatGPT，支持语音输入

同时，它还集成了开源语音识别系统Whisper，可以实现语音输入。另外，ChatGPTPlus用户在iOS版ChatGPT上也能享受GPT-4的服务，提前获得各种功能和更快的响应时间。

学术头条·2024-01-30 07:15

openai gpt的新的开源项目，支持gpt聊天，识图（gpt4v），文字转语音（tts）和stt（语音转文字），并且易于扩展，使用angular和python

项目地址：GitHub-Basicconstruction/turboUI:使用angular编写的流式gpt代码，可以使用gpt-4-vision,tts,whisper模型百度网盘链接链接：https

枫叶kx·2024-01-29 13:21

webassembly003 whisper.cpp的main项目-3 whispercpp_simple

whispercpp执行cpu推理的最小依赖。(base)pdd@pdd-Dell-G15-5511:~/le/whispercpp_simple1$tree.├──CMakeLists.txt├──README.md├──src│└──main.cpp└──third_party├──common.cpp├──common-ggml.cpp├──common-ggml.h├──common.h├

FakeOccupational·2024-01-29 05:24

Python+whisper.cpp纯本地化语音转文字

想要用Python+whisper.cpp实现纯本地化语音转文字，我的操作环境如下：MacOSVentura13.0Python3.7condaPyAudio一开始打算用PyAudio，解决了头文件找不到的问题

YingCai85·2024-01-28 15:37

webassembly003 whisper.cpp的main项目-2:根据给定的模型文件和参数进行配置

//main.cpp//2.使用whisper初始化上下文，并根据给定的模型文件和参数进行配置structwhisper_context*ctx=whisper_init_from_file_with_params

FakeOccupational·2024-01-28 15:06

webassembly003 whisper.cpp的python绑定实现+Cython+Setuptools

python绑定项目官方未提供python的封装绑定，直接调用执行文件https://github.com/stlukey/whispercpp.py提供了源码和Cpython结合的绑定https://github.com/zhujun1980/whispercpp_py提供了ctype方式的绑定，需要先makelibwhisper.soPybind11bindingsforWhisper.cpp

FakeOccupational·2024-01-28 15:05

20240127如何在线识别德语字幕？

2024/1/2711:421945[科尔贝格]Kolberg01:48:49=接近109分钟德语视频的字幕OCR适配：1、whisper，8:39-8:58，使用GTX1080需要接近20分钟。

南棱笑笑生·2024-01-28 11:09

20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下？

20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下？2024/1/2621:19问GTX1080模式使用large该如何配置呢？

南棱笑笑生·2024-01-27 07:24

webassembly003 whisper.cpp的main项目-1

参数设置/home/pdd/le/whisper.cpp-1.5.0/cmake-build-debug/bin/mainoptions:-h,--help[default]showthishelpmessageandexit-tN

FakeOccupational·2024-01-26 23:22

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr

刘悦的技术分享·2024-01-26 08:50

利用 “diart“ 和 OpenAI 的 Whisper 简化实时转录

利用"diart"和OpenAI的Whisper简化实时转录工作原理Diart是一个基于人工智能的Python库，用于实时记录说话者语言（即"谁在什么时候说话"），它建立在pyannote.audio模型之上

vitaminYZZ·2024-01-25 18:39

20240122在WIN10+GTX1080下使用字幕小工具V1.2的使用总结（whisper）

20240122在WIN10+GTX1080下使用字幕小工具V1.2的使用总结2024/1/2219:52结论：这个软件如果是习作，可以打101分，功能都实现了。如果作为商业软件/共享软件，在易用性等方面，可能就只能有70分了。【百分制】可选的改进部分：0、支持INTEL/AMD/ATI的显卡。并且给NVIDIA的显卡自动安装最新的驱动程序和CUDA版本！【对初学者友好！】1、待转换的音频/视频目

南棱笑笑生·2024-01-24 20:27

20240122在WIN10下给GTX1080配置CUDA驱动

20240122在WIN10下给GTX1080配置CUDA驱动2024/1/2219:09缘起：为了使用openai的whisper识别小语种【非英语】电影的字幕，决定开始折腾CUDA了！

南棱笑笑生·2024-01-24 20:57

20240122让WIN10在启动的时候进入安全模式

20240122让WIN10在启动的时候进入安全模式2024/1/2218:30缘起：为了使用openai的whisper识别小语种【非英语】电影的字幕，决定开始折腾CUDA了！

南棱笑笑生·2024-01-24 20:27

苏州闲话 Whisper of WU Dialect

苏州闲话还是蛮有劲的。有这么一天，办公室刚刚吃好中饭，讲到苏州闲话。正巧我们有一位同事不是苏州人，来了也没有多久，兴致勃勃地想学。从数字开始吧。一二三四，刚到“二”就碰到点问题。在苏州话里，“二”读音比较复杂。像在表示时间2：22的读法中就各不相同。而且就是在报数中，读成”liang“或者”ni“两者也都可以。同事张着嘴，把那读音来回过了过，像是不知道把舌头往哪放似的。可别说她了。就是土生土长的年

吃饭半饱·2024-01-24 12:26

用openai开源的whisper部署自己的语音识别系统秒杀收费产品

openai开源了自己的语音识别项目whisper，可将视频和语音文件转为文字，个人认为效果可以比肩科大讯飞的收费产品，并且无需GPU，普通配置就可以运行。

Java斌·2024-01-24 03:40

AI新工具(20240122)Whisper Speech-开源文本转语音系统；Stable LM 2 1.6B-1.6亿参数稳定语言模型；OpenRouter-开源路由器,连接各种AI模型

WhisperSpeech-开源文本转语音系统WhisperSpeech是一个开源的文本到语音系统，使用了Whisper和EnCodec等开源模型来生成语义标记和执行语音建模。

go2coding·2024-01-23 23:40

GPT的TTS语音对话功能有什么好的用法？

语音对话功能最基本，应该是语音输入以及语音输出，所以会涉及OPENAI另外两个模型：TTS和whisper。whisper，英语翻译“耳语”，是作为语音输入模型；TTS，

俊524·2024-01-19 13:57

当他……

也许他只是把这当做一种消遣吧到了万众簇拥时便会将你推开害怕沾染一丝你身上的尘埃当他冷落寂寞时便会给你颗糖用尽全力剥削尽你的所有当他说需要你时也能感动到你痛哭流涕然后让你滚到不明不白而你也傻傻地把他无聊时的消遣当做坚贞的爱whisper

darkness_·2024-01-19 03:46

openai-whisper

openai-whisper0.参数说明1.视频语音转文字demo1.提取b站视频中的音频,增加到自己的视频里,并且显示字幕1.下载b站视频到电脑2.提取视频中的音频3.音频转文字4.自己的视频去掉音频

GeekPlusA·2024-01-18 12:42

webassembly003 whisper.cpp的项目结构CMakeLists.txt

注：带星号的为非重要部分基础配置cmake_minimum_required(VERSION3.5)project(whisper.cppVERSION1.5.0)#Addpathtomoduleslist

FakeOccupational·2024-01-18 12:40

实战whisper：本地化部署通用语音识别模型

前言Whisper是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。

EelBarb·2024-01-18 12:39

【AI工具】使用 Whisper ASR 和 Pyannote 进行说话人分类

目录前言什么是说话人二值化？什么是扬声器嵌入？扬声器嵌入的关键作用说话人分类系统的工作原理执行

大表哥汽车人·2024-01-18 12:38

《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...

No.60智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。关于周刊本期周刊我们进行了版面调整，将各个方向的研究分别汇总并加

智源社区·2024-01-16 22:10

Whisper——部署fast-whisper中文语音识别模型

whisper：https://github.com/openai/whisper/tree/main参考文章：WhisperOpenAI开源语音识别模型环境配置pipinstallfaster-whispertransformers

Irving.Gao·2024-01-16 22:09

Whisper: openAI开源准确率最高的通用语言语音识别

简介我们研究了仅通过预测大量互联网音频录音的语音处理系统的能力。当扩大到68万小时的多语言和多任务监督时，生成的模型可以很好地泛化到标准基准，而且通常可以与之前的全监督结果相竞争，但在zero-shot识别设置中，无需进行任何微调。与人类相比，这些模型接近他们的准确性和鲁棒性。我们正在发布模型和推理代码，以便为进一步的鲁棒性语音处理工作提供基础。GitHub：https://github.com/

智慧医疗探索者·2024-01-14 04:11

语音识别神器 Whisper 的几个小技巧

1、前言OpenAI开源的免费离线语音识别神器Whisper，我在安装使用后发现一些问题，于是搜了半天最终汇总了这几个主要的小技巧，希望对大家有帮助，不用满世界再搜了。

gootyking·2024-01-14 04:56

一款非常好用的语音转文字工具介绍

最近发现一款非常好用的语音转文字的工具Whisper，支持将视频和语音转换成文字，同时记录语音的位置信息，支持语言的翻译，可以将英文转换成中文。同时支持实时的语音自动采集录制。

AI普惠大师·2024-01-13 16:36

AI语音识别模块--whisper模块

1.下载ffmpeg，挑一个自己电脑系统的版本，下载，如我win64：地址：Releases·BtbN/FFmpeg-Builds·GitHub下载压缩包zip，到·本地解压安装，其实无需安装，只需把对应的目录下的bin，编辑环境变量的path，添加到环境变量即可！！！不能科学的同学，可以到网盘地址，下载压缩包zip链接：https://pan.baidu.com/s/1yBQBs-pUKOpUP

金城武555·2024-01-13 10:43

OpenAI 已为 GPT-5 申请商标，GPT-5 要来了？

多年以来，微软支持的OpenAI已先后发布多种语言模型系统，包括GPT-4（一种可支持文本与图像输入的多模态大模型）、DALL-E（可生成和编辑图像的AI模型）、Whisper（音频到文本模型）、Embeddin

每日值得看·2024-01-12 09:46

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

OpenAI推出的Whisper是一个通用语音转录模型，在各种基准和音频条件下都取得了非常棒的结果。最新的large-v3模型登顶了OpenASR排行榜，被评为最佳的开源英语语音转录模型。

Hugging Face·2024-01-12 07:59

Buzz 离线音频转字幕工具（完全免费，无需登录）

关于BuzzBuzz是一款可以自动识别语音为文本字幕的软件工具，基于OpenAI开源的Whisper自动语音识别模型，可以批量将音频或者是视频中的内容自动转化为带有时间的字幕，速度非常快，是一款能极大提高效率的生产力小工具

這花開嗎·2024-01-11 11:39

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

领先的开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。ParakeetASR模型与Suno.ai合作开发，是语音识别领域的一大突破，为实现更自然高效的人机交互铺平了道路。根据开发人员的说法，这些模型对音乐和静音等非语音片段具有鲁棒性，并且在基准测试中优于OpenAI的Whisperv3。它们

智云研·2024-01-10 23:14

[python]基于faster whisper实时语音识别语音转文本

介绍：Faster-Whisper是一个基于OpenAI的Whisper模型的高效实现。它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎，优化了内存使用效率。

FL1623863129·2024-01-01 07:06

[语音识别]开源语音识别faster-whisper模型下载地址

官方源码：https://github.com/SYSTRAN/faster-whisper模型下载地址：large-v3模型：https://huggingface.co/Systran/faster-whisper-large-v3

小楼先森·2024-01-01 06:47

【Python】本地版 Whisper 自动转录器（附源码网址）

目录一、实时自动语音转录器简介二、开源Whisper实时转录器三、pyinstaller打包发布exe应用程序四、修改版源代码一、实时自动语音转录器简介实时自动语音转录器是一种能够自动将语音信号转换为文字的应用程序

十年一梦实验室·2024-01-01 06:15

[python]基于faster whisper实时语音识别语音转文本

target=https%3A//github.com/SYSTRAN/faster-whisper实现功能：从麦克风获取声音进行实时语音识别转文本

小楼先森·2024-01-01 06:44

[语音识别]开源语音识别faster-whisper模型下载地址

官方源码：https://github.com/SYSTRAN/faster-whisper模型下载地址：large-v3模型：https://huggingface.co/Systran/faster-whisper-large-v3

FL1623863129·2023-12-31 16:44

推荐频道

whisper

20240202在Ubuntu20.04.6下使用whisper.cpp的显卡模式

20240202在Ubuntu20.04.6下使用whisper.cpp的CPU模式

20240131在WIN10下配置whisper

20240131在ubuntu20.04.6下使用whisper不同模式的比对

本地部署whisper模型（语音转文字）

20240130在ubuntu20.04.6下给GTX1080安装最新的驱动和CUDA

20240127在ubuntu20.04.6下配置whisper

20240130在ubuntu20.04.6下卸载NVIDIA显卡的驱动

日记2021-3-11

webassembly003 whisper.cpp的python绑定实现+Cython+Setuptools的GUI程序

webassembly003 whisper.cpp的main项目-4 一些宏定义细节

WhisperBot：整合了Mistral大型语言模型的实时语音转文本系统

OpenAI推出iOS版ChatGPT，支持语音输入

openai gpt的新的开源项目，支持gpt聊天，识图（gpt4v），文字转语音（tts）和stt（语音转文字），并且易于扩展，使用angular和python

webassembly003 whisper.cpp的main项目-3 whispercpp_simple

Python+whisper.cpp纯本地化语音转文字

webassembly003 whisper.cpp的main项目-2:根据给定的模型文件和参数进行配置

webassembly003 whisper.cpp的python绑定实现+Cython+Setuptools

20240127如何在线识别德语字幕？

20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下？

webassembly003 whisper.cpp的main项目-1

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

利用 “diart“ 和 OpenAI 的 Whisper 简化实时转录

20240122在WIN10+GTX1080下使用字幕小工具V1.2的使用总结（whisper）

20240122在WIN10下给GTX1080配置CUDA驱动

20240122让WIN10在启动的时候进入安全模式

苏州闲话 Whisper of WU Dialect

用openai开源的whisper部署自己的语音识别系统秒杀收费产品

AI新工具(20240122)Whisper Speech-开源文本转语音系统；Stable LM 2 1.6B-1.6亿参数稳定语言模型；OpenRouter-开源路由器,连接各种AI模型

GPT的TTS语音对话功能有什么好的用法？

当他……

openai-whisper

webassembly003 whisper.cpp的项目结构CMakeLists.txt

实战whisper：本地化部署通用语音识别模型

【AI工具】使用 Whisper ASR 和 Pyannote 进行说话人分类

《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...

Whisper——部署fast-whisper中文语音识别模型

Whisper: openAI开源准确率最高的通用语言语音识别

语音识别神器 Whisper 的几个小技巧

一款非常好用的语音转文字工具介绍

AI语音识别模块--whisper模块

OpenAI 已为 GPT-5 申请商标，GPT-5 要来了？

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

Buzz 离线音频转字幕工具（完全免费，无需登录）

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

[python]基于faster whisper实时语音识别语音转文本

[语音识别]开源语音识别faster-whisper模型下载地址

【Python】本地版 Whisper 自动转录器（附源码网址）

[python]基于faster whisper实时语音识别语音转文本

[语音识别]开源语音识别faster-whisper模型下载地址