Hugging Face

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

Open AI 推出的 Whisper 是一个通用语音转录模型，在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜，被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据集的 58 种语言中也展现出了强大的多语言性能，在 42 种语言上的单词错误率 (WER) 低于 30％。

尽管转录准确度非常优秀，但推理速度非常缓慢。即使利用 flash attention 、半精度和分块等优化推理技术，1 小时长度的音频在 16GB T4 GPU 上也需要超过 6 分钟的转录时间。

在本文中，我们将演示如何运用推测解码将 Whisper 的推理时间缩减 2 倍，同时在数学上确保完全取得与原模型 相同的输出。因此，这种方法可以完美地替换现有的 Whisper 流水线，因为它可以在不降低准确性的情况下免费获得 2 倍的加速。想要看附带有更简洁解释的全部代码，请参阅配套的 Google Colab。

推测解码

推测解码由 Yaniv Leviathan 等人在 Fast Inference from Transformers via Speculative Decoding 中提出。其思想是，一个更快的 辅助模型 通常会生成和更大的 主模型 相同的 token。

首先，辅助模型会通过自回归生成个 候选 token 序列: 。在下图中，辅助模型生成了一个包含 5 个候选 token 的序列: The quick brown sock jumps 。

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速_第1张图片

尽管这些候选 token 可以快速生成，但它们可能与主模型预测的 token 不同。因此，在第二步中，候选 token 被传入主模型以进行“验证”。主模型将候选 token 作为输入，并执行 单次前馈传播。主模型的输出是每个步骤中“正确”token 的序列。

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速_第2张图片

在上图中，我们看到主模型预测的前三个 token 与辅助模型的 token 一致: The quick brown 但是，辅助模型的第四个候选 token: “ sock”与主模型的正确 token: “ fox”不一致。

我们知道，所有候选 token 一直到第一个不匹配之前都是正确的 ( The quick brown)，因为这些与主模型的预测一致。但是，在第一个不匹配之后，候选 token 开始偏离主模型实际预测的 token。因此，我们可以用主模型的正确 token ( fox) 替换第一个不正确的候选 token ( sock)，并放弃之后所有预测的 token，因为这些已经逐渐偏离主模型的预测。经过校正的序列 The quick brown fox 现在成为辅助模型的新输入:

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速_第3张图片

然后，辅助模型再次通过自回归推理，生成一组新的个候选 token，这些 token 再次通过主模型的单次前馈传播进行验证。

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速_第4张图片

由于我们在生成的时候使用的快速的辅助模型进行自回归，并且缓慢的主模型仅用于验证前馈传播，解码过程将大大加快。此外，经过主模型前馈传播验证后可以确保与仅使用主模型时获得完全相同的输出。这使得推测解码可以完美地替换现有的 Whisper 流水线，因为我们可以确定会取得相同质量的输出。

为了最大限度地减少延迟，辅助模型应该比主模型快得多，同时尽可能频繁地预测相同的 token 分布。实际上，这两个属性之间需要权衡: 模型越快，其准确度越低。然而，由于所有预测 token 中的 70-80％往往是“较易”的 token，此权衡倾向于选择一个更快的模型，而不是一个更准确的模型。因此，辅助模型应该至少比主模型快 3 倍 (越快越好)，同时在示例中正确预测所有较“易”token。剩余的 20-30％更“难”的 token 可以由更大的主模型进行验证。

选择辅助模型的唯一约束是它必须与主模型使用相同的词汇表。也就是说，辅助模型必须使用与主模型完全一对一相同的分词器。因此，如果我们想对诸如 large-v2 (多语言) 的 Whisper 多语言版本使用推测解码，我们需要选择诸如 tiny 的 Whisper 多语言版本作为辅助模型。而如果我们想对诸如 medium.en 的 Whisper 英文版本使用推测解码，我们需要选择诸如 tiny.en 的 Whisper 英文版本作为辅助模型。目前，large-v3 是唯一一个扩展了词汇量的 Whisper 检查点，因此与以前的 Whisper 检查点不兼容。

现在我们已经了解了推测解码背后的原理，我们准备实际实现它。在 Transformers 库中，推测解码被实现为“辅助生成 (Assisted Generation)”推理策略。欲了解更多实现细节，建议读者阅读 Joao Gante 关于辅助生成的精彩博文。

英文语音转录

基准实现

我们首先使用 Whisper large-v2 进行基准测试，以获得推理速度的基准数值。我们可以通过便捷的 AutoModelForSpeechSeq2Seq 和 AutoProcessor 类加载主模型及其对应的处理器。我们将以 float16 精度加载模型，并通过传递 low_cpu_mem_usage=True 确保加载时间尽可能少。此外，我们要确保模型以 safetensors 格式加载，方法是传递 use_safetensors=True。最后，我们将传递参数 attn_implementation="sdpa" ，以通过 PyTorch 的 SDPA 注意力内核进行 Flash 注意力加速。

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v2"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    attn_implementation="sdpa",
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

让我们加载将用于基准测试的英语语音转录数据集。我们将加载 LibriSpeech ASR 中验证数据集的 clean 分组中的 73 个样本组成的小型数据集。这大约有 9MB 的数据，因此非常轻量且可以快速下载到设备上。

from datasets import load_dataset

dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

对于基准测试，我们只想测量生成时间，所以让我们编写一个简短的辅助函数来测量此步骤运行的时间。下面的函数将同时返回解码的 token 和运行模型所需的时间:

import time

def generate_with_time(model, inputs, **kwargs):
    start_time = time.time()
    outputs = model.generate(**inputs, **kwargs)
    generation_time = time.time() - start_time
    return outputs, generation_time

现在我们可以迭代语音数据集中的音频样本，并统计整体生成时间:

from tqdm import tqdm

all_time = 0
predictions = []
references = []

for sample in tqdm(dataset):
    audio = sample["audio"]
    inputs = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt")
    inputs = inputs.to(device=device, dtype=torch.float16)
  
    output, gen_time = generate_with_time(model, inputs)
    all_time += gen_time
    predictions.append(processor.batch_decode(output, skip_special_tokens=True, normalize=True)[0])
    references.append(processor.tokenizer._normalize(sample["text"]))

print(all_time)

Output:

100%|██████████| 73/73 [01:37<00:00, 1.33s/it]
72.99542546272278

很好！我们看到转录 73 个样本花了 73 秒。让我们检查一下预测的 WER:

from evaluate import load

wer = load("wer")
print(wer.compute(predictions=predictions, references=references))

Output:

0.03507271171941831

我们的最终基准数值为 73 秒，WER 为 3.5％。

推测解码

现在让我们加载推测解码的辅助模型。在此示例中，我们将使用 Whisper 蒸馏后的版本 distil-large-v2。蒸馏模型只使用了 Whisper 中 32 个解码器层中的 2 个编码器。因此，它比 Whisper 快 6 倍，同时在分布测试集上的 WER 性能相比于蒸馏前仅下降了 1％。这使其成为理想的辅助模型，因为它在转录准确性和生成速度方面都非常优秀。

我们即将发布 Distil-Whisper 的改进版本，在 token 分布中具有更佳的对齐性，这将进一步提高推测解码性能。关注 Distil-Whisper 存储库来追踪最新的更新信息。

由于 Distil-Whisper 使用与 Whisper 模型完全相同的编码器，我们可以在主模型和辅助模型之间共享编码器。然后，我们只需要从 Distil-Whisper 加载 2 层解码器作为“仅解码器”模型。我们可以通过便捷的 AutoModelForCausalLM 自动类实现这一点。在实践中，相比于仅使用主模型，这仅增加了 8％的 VRAM 占用量。

from transformers import AutoModelForCausalLM

assistant_model_id = "distil-whisper/distil-large-v2"

assistant_model = AutoModelForCausalLM.from_pretrained(
    assistant_model_id,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    attn_implementation="sdpa",
)

assistant_model.to(device)

我们可以为推测解码的基准测试定义一个新的函数。与前面的函数唯一的区别是，我们在对 .generate 的调用中传递辅助模型:

def assisted_generate_with_time(model, inputs, **kwargs):
    start_time = time.time()
    outputs = model.generate(**inputs, assistant_model=assistant_model, **kwargs)
    generation_time = time.time() - start_time
    return outputs, generation_time

让我们使用 Distil-Whisper 作为 Whisper 的助手运行推测解码的基准测试:

all_time = 0
predictions = []
references = []

for sample in tqdm(dataset):
    audio = sample["audio"]
    inputs = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt")
    inputs = inputs.to(device=device, dtype=torch.float16)
  
    output, gen_time = assisted_generate_with_time(model, inputs)
    all_time += gen_time
    predictions.append(processor.batch_decode(output, skip_special_tokens=True, normalize=True)[0])
    references.append(processor.tokenizer._normalize(sample["text"]))

print(all_time)

Outputs:

100%|██████████| 73/73 [00:38<00:00, 1.88it/s]
32.69683289527893

使用推测解码，推理时间仅为 33 秒，比之前快 2.2 倍！让我们验证一下 WER 是否相同:

print(wer.compute(predictions=predictions, references=references))

Outputs:

0.03507271171941831

太完美了！再次达到 3.5％的 WER，因为我们的输出与仅使用主模型的时候完全相同。

推测解码也可以与基础的 Transformers pipeline API 一起用于推理。下面，我们使用模型和处理器实例化管道，然后使用它来转录测试数据集中的第一个样本。这可以扩展为转录任意长度的音频样本，包括进行批处理:

from transformers import pipeline

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=15,
    batch_size=4,
    generate_kwargs={"assistant_model": assistant_model},
    torch_dtype=torch_dtype,
    device=device,
)

sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])

Outputs:

Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.

使用 Whisper 和 Distil-Whisper 运行推测解码的端到端代码示例可在 Distil-Whisper 模型卡中找到。它将本文中涵盖的推理阶段组合成一个代码示例。

多语言语音转录

Distil-Whisper 是英语语音转录的最佳辅助模型，因为它与原始 Whisper 模型的 WER 误差率仅相差 1％，而对短长语音样本的推理速度提高了 6 倍。然而，官方的 Distil-Whisper 检查点仅支持英语，这意味着它们无法用于多语言语音转录。

要使用推测解码进行多语言语音转录，您可以使用官方 Whisper 多语言检查点之一，或者 Whisper 的微调版本。在撰写本文时，Hugging Face Hub 上已有超过 5000 个微调过的 Whisper 检查点，支持超过 100 种语言。这些为选择表现出色的辅助模型提供了极好的起点。在此示例中，我们将使用最小的官方多语言检查点 Whisper tiny。您可以使用任意一个您的语言中微调过的不同检查点！

让我们为新的辅助模型 Whisper tiny 加载权重。由于 Whisper tiny 的编码器与 large-v2 不同，这次我们将使用 AutoModelForSpeechSeq2Seq 类同时加载编码器和解码器:

assistant_model_id = "openai/whisper-tiny"

assistant_model = AutoModelForSpeechSeq2Seq.from_pretrained(
    assistant_model_id,
    torch_dtype=torch_dtype,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    attn_implementation="sdpa",
)

assistant_model.to(device);

我们的基准数据集，将从 VoxPopuli 数据集的荷兰语 (“nl”) 部分中加载 73 个样本:

dataset = load_dataset("sanchit-gandhi/voxpopuli_dummy", "nl", split="validation")

非常好！现在我们可以像前面一样重新运行我们的 Whisper large-v2 模型的基准测试。我们所做的唯一更改是在 generate 函数中传递语言和任务参数，以确保执行语音转录 (而不是语音翻译)。推测解码完全兼容语音转录和翻译任务。只需如下所示设置任务参数即可:

all_time = 0
predictions = []
references = []

for sample in tqdm(dataset):
    audio = sample["audio"]
    inputs = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt")
    inputs = inputs.to(device=device, dtype=torch.float16)
  
    output, gen_time = generate_with_time(model, inputs, language="nl", task="transcribe")
    all_time += gen_time
    predictions.append(processor.batch_decode(output, skip_special_tokens=True, normalize=True)[0])
    references.append(processor.tokenizer._normalize(sample["normalized_text"]))

wer_result = wer.compute(predictions=predictions, references=references)

print("Time:", all_time)
print("WER:", wer_result)

Outputs:

100%|██████████| 73/73 [02:05<00:00, 1.72s/it]
Time: 116.50992178916931
WER: 0.127190136275146

没错！我们的基准时间为 117 秒，WER 为 12.8％。让我们使用推测解码重新运行生成过程:

all_time = 0
predictions = []
references = []

for sample in tqdm(dataset):
    audio = sample["audio"]
    inputs = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt")
    inputs = inputs.to(device=device, dtype=torch.float16)

    output, gen_time = assisted_generate_with_time(model, inputs, language="nl", task="transcribe")
    all_time += gen_time
    predictions.append(processor.batch_decode(output, skip_special_tokens=True, normalize=True)[0])
    references.append(processor.tokenizer._normalize(sample["normalized_text"]))

wer_result = wer.compute(predictions=predictions, references=references)

print("Time:", all_time)
print("WER:", wer_result)

Outputs:

100%|██████████| 73/73 [01:08<00:00, 1.06it/s]
Time: 62.10229682922363
WER: 0.127190136275146

Nice！我们达到了 12.8％的 WER，但这次的推理时间只有 62 秒，表示速度提高了 1.9 倍。考虑到加载辅助模型的低开销和确保获得完全相同输出的数学证明，推测解码为现有的 Whisper 管道提供了完美的即插即用的替代方案。

高效推测解码的策略

在本最终部分，我们将介绍两种策略，以确保使用推测解码时获得可能最快的推理时间。

辅助模型

我们的目标是选择一个至少比主模型快 3 倍并且正确转录至少 70-80％的预测 token (通常是示例中的“更简单”token) 的辅助模型。如果您想要转录某种特定语言，一种有效的策略是训练两个不同大小的 Whisper 模型，并将其中一个用作另一个的辅助模型:

首先，微调 Whisper large-v3 以用作主模型
其次，在同一数据集上蒸馏 Whisper large-v3 以用作快速的辅助模型

微调和蒸馏都可以提高主模型和辅助模型在您选择的语言上的 WER 性能，同时最大化 token 分布的对齐。有关 Whisper 微调的完整指南，请参阅此处，有关蒸馏的指南请参阅此处。

批次大小

值得注意的是，使用推测解码获得的最大速度提升来自批次大小为 1。对于批处理推测解码，批处理中的所有候选 token 必须与验证 token 相匹配，才能被接受。如果批处理中给定位置的 token 不一致，则所有在该位置之前的候选 token 将被丢弃。因此，推测解码更倾向于较小的批次大小。在实践中，我们发现推测解码可以提供速度提升，直到批次大小达到 4 为止。当批次大小超过 4 时，推测解码的推理速度比仅用主模型还要慢。有关完整结果，请参阅 Distil-Whisper 论文的第 D.3 节。

结论

在本博文中，我们介绍了推测解码的推理策略，以及如何将其应用于语音转录的 Whisper 模型。我们展示了如何实现 2 倍的速度提升，同时数学上确保获得与仅使用原始模型相同的输出。我们鼓励您尝试将推测解码用作现有 Whisper 管道的即插即用替代方案，因为使用额外的辅助模型的开销很小，并且可以保证获得相同的转录结果。

致谢

本博客由 Sanchit Gandhi 撰写。非常感谢 Patrick von Platen 和 Pedro Cuenca 的建设性意见，以及 Joao Gante 在 Transformers 中实现辅助生成的贡献。

宝子们可以戳 阅读原文 查看文中所有的外部链接哟！

英文原文: https://hf.co/blog/whisper-speculative-decoding

作者: Sanchit Gandhi

译者: Hu Yaoqi (yaoqi)

19｜Whisper+ChatGPT：请AI代你听播客 _Rye_ AI大模型 whisper chatgpt
今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版，所以这个时候，我们就需要一个能够将语音内容转换成文本的能力。作为目前AI界的领导者，OpenAI自然也不会放过这个需求。他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
音频转文字-在线工具包及使用记录一笑code 音频转文字
资料来源：https://zhuanlan.zhihu.com/p/269603431（多种方案）视频教程：https://www.youtube.com/watch?v=L1H5ov4WTBghttps://github.com/openai/whisper//创建虚拟环境python-mvenvmyvnev//激活虚拟环境sourcemyvnev/bin/activatepipinstall-
《Whisper模型版本及下载链接》空云风语人工智能深度学习神经网络 whisper
Whisper模型版本及下载链接Whisper是OpenAI开发的语音识别模型，以下按模型规模从小到大排列，包含不同语言版本及通用版本：1.Tiny系列（轻量级）tiny.en.pt（英文专用）：https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d
《Whisper：开启语音识别新时代的钥匙》空云风语人工智能深度学习神经网络 whisper 语音识别人工智能
Whisper模型：技术革新的基石在当今科技飞速发展的时代，自动语音识别（ASR）技术作为人工智能领域的关键分支，正深刻地改变着人们的生活与工作方式。从智能语音助手到实时字幕生成，从语音交互设备到智能客服系统，ASR技术无处不在，为人们带来了前所未有的便利与效率提升。而Whisper模型，作为ASR技术中的一颗璀璨明星，以其卓越的性能和独特的技术架构，成为了推动语音识别技术发展的重要力量。Whis
web3.js 核心包及子模块阿雄不会写代码付费刊栏一个收费的FISCO BCOS栏目 web3
.核心包(web3)功能：提供基础连接、工具函数和核心功能。包含子模块：web3.eth-以太坊区块链交互web3.utils-辅助工具函数web3.shh-Whisper协议（已废弃）web3.bzz-Swarm去中心化存储（已废弃）web3.net-网络相关功能web3.contract-智能合约交互web3.accounts-账户管理web3.personal-账户管理（已废弃，推荐使用we
19｜Whisper+ChatGPT：请AI代你听播客企鹅侠客 AI 大模型之美 whisper chatgpt 人工智能 AI
今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版，所以这个时候，我们就需要一个能够将语音内容转换成文本的能力。作为目前AI界的领导者，OpenAI自然也不会放过这个需求。他们不仅发表了一个通用的语音识别模型Whisper，还把对应的代码开源了。在
✨Whisper 官方版本离线安装及断点续传下载 + screen 后台管理全流程指南杨靳言先 python 人工智能 whisper
Whisper官方版本离线安装及断点续传下载+screen后台管理全流程指南Whisper是OpenAI开源的强大语音识别模型，支持多语言转写。本文详细介绍如何在Linux环境下离线安装官方Whisper，如何利用断点续传安全下载大模型，结合screen工具实现后台任务管理，避免断线烦恼。一、环境准备️Whisper依赖Python3和ffmpeg，另外用到wget断点续传和screen任务管理。
Whisper（语音识别，语音转文本）本地部署龚子亦虚拟数字人制作 whisper 语音识别人工智能
一、安装好ffmpeg1、安装ffmpeg，这个好像是用于对音频文件解析和处理的，具体不态清楚ffmpeg安装教程2、后面可能出现的问题如果后面运行时，出现系统找不到指定文件的bug时，尝试在上一步添加环境变量中，也添加一个系统变量，并重启一下电脑二、使用Anaconda创建所需的环境1、创建一个新的环境condacreate-nwhisperpython=3.92、判断自己的设备使用什么版本的C
whisper相关的开源项目 (asr) code-ranger AI 多媒体 whisper asr
基于Whisper（OpenAI的开源语音识别模型）的开源项目有很多，涵盖了不同应用场景和优化方向。以下是一些值得关注的项目：1.核心工具&增强版WhisperOpenAIWhisper由OpenAI开源的通用语音识别模型，支持多语言转录和翻译，基于PyTorch实现。faster-whisper使用CTranslate2加速推理，支持CPU/GPU，速度比原版快4倍，内存占用更低。适合需要高效部
Whisper使AI人工智能语音识别更精准可靠 AI天才研究院 AI大模型企业级应用开发实战人工智能 whisper 语音识别 ai
Whisper使AI人工智能语音识别更精准可靠关键词：Whisper、语音识别、AI模型、自动语音识别(ASR)、深度学习、Transformer、语音处理摘要：本文深入探讨了OpenAI开发的Whisper语音识别系统如何通过创新的深度学习架构显著提升语音识别的准确性和可靠性。我们将从技术原理、模型架构、实现细节到实际应用场景，全面分析Whisper如何克服传统语音识别系统的局限性，以及它为何成
AIGC 与 Whisper：推动语音技术进步 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC whisper ai
AIGC与Whisper：推动语音技术进步关键词：AIGC（生成式人工智能）、Whisper、语音识别、多模态交互、大语言模型、语音合成、多任务学习摘要：本文深度解析生成式人工智能（AIGC）与OpenAI开源的Whisper语音识别系统如何协同推动语音技术进步。通过剖析AIGC的生成能力与Whisper的多语言、多任务处理优势，结合技术原理、算法细节、实战案例与应用场景，揭示两者在语音理解、合成
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
openai-whisper-asr-webservice接入dify dgiij whisper node.js ai docker
openai-whisper-asr-webservice提供的asr的api其实并不兼容openai的api，所以在dify中是不能直接添加到语音转文字的模型中，对比了下两个api的传参情况，其实只要改动一处，就能支持：openai兼容的asr调用中formdata中音频文件是file=XXX这样的，而openai-whisper-asr-webservice提供的asr的api中formdat
开源音视频转文字工具：基于 Vosk 和 Whisper 的多语言语音识别项目 phper8 音视频 whisper 语音识别
背景介绍随着短视频、播客等音视频内容的爆发式增长，快速将音视频内容转换为文字的需求也越来越大。无论是内容创作者需要的字幕，还是企业需要的会议记录，都需要一个可靠的语音转文字解决方案。技术架构本项目采用双引擎架构，结合了两个优秀的开源语音识别模型：Vosk：专注于离线场景，适合本地快速处理Whisper：OpenAI开源的强大模型，支持多语言识别核心特性多语言支持中文识别：适配中文语音特点英文识别：
AIGC 技术解析：Whisper 的低延迟语音识别 AI大模型应用之禅 AIGC whisper 语音识别
AIGC技术解析：Whisper的低延迟语音识别关键词：AIGC、Whisper、语音识别、低延迟、Transformer、端到端学习、语音处理摘要：本文深入解析OpenAIWhisper模型的低延迟语音识别技术。我们将从语音识别的基本原理出发，详细探讨Whisper的架构设计、核心算法、数学模型以及实现细节。文章包含完整的Python代码示例，展示如何在实际项目中应用Whisper进行低延迟语音
uDistil-Whisper：低数据场景下基于无标签数据过滤的知识蒸馏方法 tongxianchao 人工智能机器学习深度学习
uDistil-Whisper:Label-FreeDataFilteringforKnowledgeDistillationinLow-DataRegimes会议：2025年NAACL机构：卡内基梅降大学Abstract近期研究通过伪标签（pseudo-labels）将Whisper的知识蒸馏到小模型中，在模型体积减小50%的同时展现出优异性能，最终得到高效、轻量的专用模型。然而，基于伪标签的蒸
在 React Native 中使用 Whisper 进行语音识别 pxr007 react native whisper 语音识别
在本文中，我们将使用Whisper创建语音转文本应用程序。Whisper需要Python后端，因此我们将使用Flask为应用程序创建服务器。ReactNative作为构建移动客户端的框架。我希望您喜欢创建此应用程序的过程，因为我确实这样做了。让我们直接深入研究它。什么是语音识别？语音识别使程序能够将人类语音处理成书面格式。语法、句法、结构和音频对于理解和处理人类语音至关重要。语音识别算法是计算机科
Whisper在AI人工智能多语言语音识别中的应用 AI智能探索者人工智能 whisper 语音识别 ai
Whisper在AI人工智能多语言语音识别中的应用关键词：Whisper、AI人工智能、多语言语音识别、应用、技术原理摘要：本文深入探讨了Whisper在AI人工智能多语言语音识别中的应用。首先介绍了相关背景，包括语音识别技术的发展以及Whisper出现的意义。接着详细阐述了Whisper的核心概念、算法原理、数学模型等内容。通过项目实战展示了Whisper在实际中的应用，包括开发环境搭建、代码实
实时语音转文字(基于NAudio+Whisper+VOSP+Websocket) htsitr whisper
今天花了大半天时间研究一个实时语音转文字的程序，目的还包括能够唤醒服务，并把命令提供给第三方。由于这方面的材料已经很多，我就只把过程中遇到的和解决方案简单说下。源代码开源在AudioWhisper:实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)(gitee.com)1、声音录制这里有三点需要注意的：1）sampleRate（采样频率）要选择16000，不要选别的，
【语音识别】vLLM 部署 Whisper 语音识别模型指南 Encarta1993 语音语音识别 whisper 人工智能
目录1.模型下载2.环境安装3.部署脚本4.服务测试语音识别技术在现代人工智能应用中扮演着重要角色，OpenAI开源的Whisper模型以其出色的识别准确率和多语言支持能力成为当前最先进的语音识别解决方案之一。本文将详细介绍如何使用vLLM（一个高效的大模型推理和服务框架）来部署Whisper-large-v3-turbo模型，构建一个可扩展的语音识别API服务。vLLM是专为大规模语言模型推理优
python系列&deep_study系列：Whisper OpenAI开源语音识别模型坦笑&&life AI系列 python whisper 语音识别
WhisperOpenAI开源语音识别模型WhisperOpenAI开源语音识别模型介绍一、Whisper模型及配置Whisper参数评测数据模型测试表原始模型字错率测试表。微调[AIShell](https://openslr.magicdatatech.com/resources/33/)数据集后字错率测试表。未加速和加速后的推理速度测试表，使用GPU为GTX3090（24G）。经过处理的数据
实战指南：封装Faster-Whisper为FastAPI接口并实现高并发处理-附整合包 @程序员小袁 AI 大模型开源项目 whisper fastapi python
实战指南：封装Faster-Whisper为FastAPI接口并实现高并发处理-附整合包「faster-whisper」链接：https://pan.quark.cn/s/d4ddffb1b196标题下面提供一个完整的示例，说明如何使用FastAPI封装faster-whisper接口，对外提供RESTAPI服务，并支持一定的并发调用。在这个示例中，我们将使用faster-whisper的Pyth
Whisper 模型压缩技术：轻量级语音识别方案 AI学长带你学AI CSDN whisper 语音识别人工智能 ai
Whisper模型压缩技术：轻量级语音识别方案关键词：Whisper模型、模型压缩、轻量级语音识别、知识蒸馏、模型量化、剪枝优化、边缘部署摘要：本文深入探讨OpenAIWhisper模型的压缩技术体系，系统解析模型量化、结构剪枝、知识蒸馏等核心技术原理。通过数学建模分析压缩过程中的精度-效率平衡问题，结合PyTorch实战案例演示端到端压缩流程。重点阐述如何在保持语音识别精度的前提下，将Whisp
开源项目faster-whisper和whisper是啥关系 @程序员小袁开源项目 AI 大模型 whisper
OpenAIWhisper是OpenAI开源的一款通用语音识别模型，经过在大规模语音数据集（包含680,000小时监督数据）的训练，支持99种语言的识别、翻译及语言识别任务。它在准确率方面表现出色，但同时其参数众多、计算资源占用较大，常常需要GPU才能较快运行；如果直接在CPU上使用，则运行速度较慢，并且在处理长音频时容易出现“幻听”问题（模型生成冗余或不恰当的转写）。faster‑whisper
使用faster-whisper音频转srt字幕（亲测可行）批量小王子 05_python库 whisper 音视频 python
重点说明，下载模型时需科学上网或者用国内huggingface镜像网站下载。fromfaster_whisperimportWhisperModelfrompydubimportAudioSegmentfromzhconvimportconvert#简繁转换库importosimportdatetimeimporttorchdefformat_time(seconds):"""将秒数格式化为SRT
多语种语音识别新突破：使用Transformers微调Whisper模型，实现精准识别！大模型入门学习语音识别 whisper 人工智能 AI产品经理职场和发展大模型 Transformer
前言本文提供了一个使用HuggingFaceTransformers在任意多语种语音识别(ASR)数据集上微调Whisper的分步指南。同时，我们还深入解释了Whisper模型、CommonVoice数据集以及微调等理论知识，并提供了数据准备和微调的相关代码。简介Whisper是一系列用于自动语音识别(automaticspeechrecognition，ASR)的预训练模型，它由来自于OpenA
本地搭建Whisper语音识别模型-超详细教程-亲测可用生活De°咸鱼 AIGC whisper python pip
前言：在本地搭建Whisper语音识别模型可以让你在没有网络连接的情况下进行语音转文本的处理。1、环境准备步骤1：安装Python确保你的系统中已安装Python3.8或更高版本。可以从Python官方网站下载并安装Python。步骤2：安装Git下载并安装Git，以便从GitHub上克隆Whisper仓库。访问Git官网下载并安装。2、克隆Whisper仓库步骤1：打开终端按Ctrl+Alt+T
语音识别whisper caridle python 开发语言
Whisper是一个通用的语音识别模型，它使用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的鲁棒性和准确性1。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务2。Whisper的架构是一个简单的端到端方法，采用了编码器-解码器的Transformer模型，将输入的音频转换为对应的文本序列，并根据特殊的标记来指定不同的任务2。要使用Whisper模型，
faster-whisper 开源项目安装与使用指南裴进众Serene
faster-whisper开源项目安装与使用指南项目地址:https://gitcode.com/gh_mirrors/fas/faster-whisper1.项目目录结构及介绍faster-whisper是一个基于OpenAI的Whisper模型的高效实现，通过CTranslate2引擎加速推理过程。以下是典型的项目目录结构概述，尽管实际项目结构可能会有所调整：faster-whisper/│
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

推测解码

英文语音转录

基准实现

推测解码

多语言语音转录

高效推测解码的策略

辅助模型

批次大小

结论

致谢

你可能感兴趣的:(whisper)