WuJia_

论文阅读《SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING》

《SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING》
链接：https://pan.baidu.com/s/1aYgZxWZuaNba-azxUaAyog
提取码：bo0m

论文题目《端到端自训练半监督ASR》
作者杨晨-俄亥俄州立大学王蔚然-Salesforce研究王超-亚马逊亚历山大

摘要

基于深度学习的端到端自动语音识别（ASR）系统虽然大大简化了建模流程，但存在数据稀疏问题。在这项工作中，我们提出了一个端到端系统的半监督ASR自训练方法。从一个训练在监督数据上的连接主义时态分类（CTC）系统出发，用当前的模型迭代地在一小批无监督话语上生成伪标签，并使用伪标签对监督数据进行扩充，以便立即进行模型更新。我们的方法保留了端到端ASR系统的简单性，可以看作是在定义良好的学习目标上执行交替优化。我们还对我们的方法进行了实证研究，包括数据增加的影响、伪标签生成的解码波束大小以及伪标签的新鲜度。在一个使用WSJ语料库的半监督ASR设置上，我们的方法比一个经过精心训练的数据库系统有14.4%的相对功耗提高，使基本系统和oracle系统的性能差距减少了50%。
关键词: 半监督ASR，自我训练，连接主义时间分类（CTC）

INTRODUCTION

现代ASR系统面临的一个挑战是，随着模型容量的不断扩大，需要大量的标记数据来对其进行彻底的训练。不幸的是，收集和转录庞大的数据集既昂贵又耗时。因此，半监督ASR已成为一个重要的研究方向，其目标是利用大量未标记数据和少量标记数据进行训练。在这种情况下，最简单的方法之一是自训练，它使用解码结果或非监督数据上的伪标签（通常在字级别）来增强有监督的训练。它已被证明对传统的ASR管道非常有效[1,2,3,4]。
在这项工作中，我们提出了一个新颖的端到端自我训练框架。从一个经过精心训练的连接主义时态分类（CTC，[5]）系统开始，我们交替使用以下两个步骤：
1. 在一小批无监督话语上使用令牌级解码器生成伪标签
2. 增加刚刚解码的（输入，伪标签）对进行监督训练
我们证明，这种方法可以通过在声学模型和无观测无监督数据的标签上对统一目标进行交替优化。这两个过程有效地相互加强，导致越来越精确的模型。

我们强调了我们方法的几个重要方面，它将我们的工作与其他人区分开来（关于相关工作的详细讨论稍后提供）：
• 我们使用的伪标签是离散的，令牌级的标签序列，而不是每帧的软概率。
• 伪标签是动态生成的，而不是一次性生成的，因为新标签的质量高于从过时模型生成的标签。
• 我们不仅对有监督的数据，而且对无监督的数据进行数据扩充。

我们的实证结果支持了这些建模选择，这些选择导致了性能优于替代方案。我们在《华尔街日报》（WSJ）语料库上展示了我们的方法。1我们的方法在开发集上的PER提高了31.6%，在经过优化的基础系统的测试集上，我们的PER提高了14.4%，弥补了基本系统和oracle系统之间50%的差距，这些系统都是用所有数据的基本真实标签训练的。在本文的其余部分，我们在第2节回顾了我们的方法的监督部分，在第3节中详细描述了所提出的方法，并与第4节中的半监督ASR的相关工作进行了比较，第5节提供了综合的实验结果，并在第6节中总结了未来的方向。

SUPERVISED LEARNING FOR ASR

2.1 End-to-end ASR with CTC

在描述所提出的方法之前，我们简要回顾了我们的系统中有监督的组件-带数据扩充的CTC。2.1条。端到端ASR，CTC给定输入序列X=（x1，…，xT）和相应的标签序列Y=（y1，…，yL），CTC引入一个额外的标记并定义条件概率

式中，B−1（Y）是移除重复和标记后将减少到Y的所有路径（帧对齐）的集合，P（pj | X）是声学模型在第j帧标记pja的后验概率。基本的假设是，在整个输入序列x的条件下，帧上路径耦合的概率。然后定义一个话语（X，Y）的CTC损失。C（X，Y）=−logP（Y | X）。CTC训练最大限度地减少了一组labeld话语的平均损失。众所周知，经过训练后，声学模型的每帧后验点趋于峰值，最多帧最有可能的标记是高置信度的，表示“没有发射”。

图1：我们的半监督ASR的自训练方法

由上述独立性假设，CTC未明确建模标签之间的转移概率，因此解码（maxY P（Y | X）问题）相对简单。 CTC最简单的译码器是贪婪解码器，它在每一帧选取最有可能的标记，然后通过删除重复和来折叠它们；我们将主要使用这个解码器，因为它非常高效。我们可以通过在每个帧上维护一个W假设列表来改进贪婪解码器，从而得到波束大小为W的波束搜索解码器。当建模单元是子词但需要字级假设时，可以合并词典和语言模型，这可以在WFST框架中高效地实现[6]。我们不使用字级解码器来产生伪标签，因为它比令牌级波束搜索慢得多，而且只用于评估字错误率（WERs）。需要注意的是，我们的自我训练方法也可以利用基于注意力的系统[7,8]。我们使用CTC主要是因为它在解码过程中的简单性和高效性，用于动态生成伪标签。

2.2 Data augmentation

为了缓解数据稀疏的问题，一种不需要无监督数据的自然方法就是用失真的版本对训练数据进行扩充。各种数据增强技术已经证明了ASR的一致性改进[9,10,11,12]。这种获取有监督训练信号的简单方法有助于我们改进我们的基本系统，而这个系统又会在无监督的数据上生成质量更高的伪标签。在这项工作中，我们采用了速度扰动和光谱掩蔽技术。这两种技术都会在频谱图特征级别干扰输入。我们可以把输入的话语看作一个维数为D×T的图像，其中D对应于频率盒的数目，T对应于帧数。速度扰动沿着时间轴执行线性插值，如在图像大小调整操作中；这里使用了两个速度系数0.9和1.1。频谱掩蔽在频率轴上随机选择输入的mF段，其宽度从{0,1。，nF}，并类似地选择时间轴上的mT段，宽度可达nT。我们对有监督的CTC系统进行了超参数的网格搜索，在所有实验中，setmF=1，nF=8，mT=2，nT=16。

LEVERAGING UNSUPERVISED DATA WITH SELF-TRAINING

当一个基本系统在监督数据上得到充分训练后，就可以用来预测原始非转录数据上的标签。如果我们接受有信心的预测并假设它们是正确的，我们可以将输入和预测（伪标签）添加到训练中。如果伪标签中的噪声足够低，声学模型可以从额外的训练数据中获益，以获得更高的精度。我们建议重复伪标签生成和增广训练步骤，使两者相辅相成，并不断改进。在我们的方法中，对于每一次更新，我们使用带波束搜索的当前声学模型生成一小批无监督话语的伪标签，并根据它们的最可能假设计算这些话语的CTC损失。无监督话语的损失通过因子γ>0进行折现，以适应标签噪声，并结合监督数据的CTC损失来推导下一个模型更新。我们的自我训练方法的示意图如图1所示。等效地，我们可以将我们的方法表述为最小化以下目标：

其中L（X，Y）表示CTC损失，我们有nl监督的话语和无监督的话语，Θ表示声学模型中的权重参数，并且我们还将无监督话语的（未观察到的）标签序列{Yj}作为变量。这是一个定义明确的学习目标，我们的方法有效地在小批量的Yj（通过波束搜索）和权重Θ（通过梯度下降）上执行交替优化。此外，我们还可以利用原始数据在失真版本上解码的标签序列对无监督数据进行数据扩充。我们将通过实验证明，增加无监督数据和增加有监督数据一样有效。我们的方法源于半监督学习的无监督数据扩充（UDA，[13]），因为这两种方法都对无监督数据使用伪标签和数据扩充。但两者之间有一个关键的区别：UDA使用软目标（以前的模型输出）来计算无监督损失，这使得模型不会偏离上一步的结果，事实上，如果不增加数据，则无监督数据的损失将为零，对学习没有影响；相反，我们使用波束搜索译码器的离散标签序列输出对每个无监督话语的软目标，提供更强的监督信号。虽然[13]没有研究序列数据，但是我们已经实现了一个序列版本，它使用每帧的后验概率作为软目标，并使每个帧处的软目标和模型输出之间的交叉熵损失最小化；否则UDA的实现与我们的方法是一致的。如后所述，我们的方法在很大程度上优于UDA。考虑到CTC模型的峰值每帧后验分布，我们认为我们的方法的优点是伪标签是自然的高置信度预测，从而避免了软概率离散化的阈值。虽然非代币的对齐或位置在CTC系统中可能不精确，但这不是一个问题，因为我们在计算无监督的CTC损失时只使用标签序列，而不使用其对齐方式，这会将所有可能的对齐边缘化。在这方面，端到端系统提供了一个更优雅的自我训练公式，而传统的混合系统依赖于对齐。

RELATED WORK

半监督ASR的研究由来已久，自训练是传统ASR系统中最成功的方法之一（见文献[1,2,3]及相关文献）。我们发现，在自我训练中，伪标签的质量起着至关重要的作用，而且很多研究都致力于测量伪标签的可信度，并选择高可信度的标签进行监督训练[2,3]。基于LSTM的声学模型具有较高的记忆能力，因此标签质量的问题变得更加突出[14]。本着类似的精神，[4]在混合系统上采用了学生-教师的学习方法，以提高学生使用教师在一百万小时非转录数据上提供的软目标的准确性。除了自我训练外，循环一致性正则化[15,16]也被应用于半监督的ASR。[17，18，19，20，21]通过将ASR与文本到语音（TTS）模块相结合，利用未配对的语音和文本数据，训练损失鼓励来自ASR的伪标签与TTS系统很好地重建音频特征，TTS输出将由ASR识别。作者提出了不同的技术，允许梯度反向传播通过模块，并减轻音频信息在文本解码过程中的损失。或者，[22]将音频数据与ASR模型的编码器映射，并将具有另一编码器的文本映射到公共空间，从该公共空间使用共享解码器预测文本（从ASR侧）或重建（从文本侧）；使用附加的正则化项来鼓励成对音频和文本的表示相似。这些工作背后的共同直觉是自动编码器，这是无监督学习最直接的方法。另一方面，[23]使用对抗性训练，鼓励非监督数据上的ASR输出具有与未成对文本数据相似的分布，并使用批评语言模型。我们的模型比上述模型简单得多，因为我们没有额外的文本模态神经网络模型，而是使用一个高效的解码器来离散声学模型输出，并立即将伪标签作为目标应用于声学模型训练。

在我们提交论文之前，我们注意到了这项工作[24]，它也采用了端到端的自我培训方法。我们的工作与[24]的一些不同之处在于：首先，我们使用基于CTC的ASR模型来评估我们的方法，而他们使用的是基于注意力的模型；其次，我们对有标记和未标记的数据都使用了数据扩充，并证明两者都是有用的，而它们都不是；第三，我们的方法更简单，因为我们既没有使用字级语言模型，也没有使用集成方法来生成伪标签；最后，我们的伪标签是动态生成的，它们在整个未标记的数据集上生成一次伪标签。

EXPERIMENTS

接下来，我们在《华尔街日报》语料库上展示了上述技术。我们使用si84分区（7040个话语）作为监督数据，si284分区（37.3K个话语）作为无监督数据。dev93分区（503个语句）用作所有超参数调整的开发集，eval92分区（333个语句）用作测试集。该设置通常用于演示半监督ASR[19，20，22]。对于输入特征，我们从录音中提取窗长为25ms、跳长为10ms的40维LFBEs，并对每个说话人的平均值进行归一化处理。此外，我们每3个连续的输入帧进行叠加，以减少输入序列的长度（数据扩充后），从而加快训练和解码速度。我们的CTC声学模型使用的令牌集是351个位置相关的电话以及由Kaldi s5配方生成的符号[25]。声学模型训练是用Tensorflow[26]实现的，我们使用它的波束搜索生成伪标签（具有波束大小W）和用于评估开发/测试中的PER的算法（固定波束大小为20）。为了报告评估集上的字错误率（WER），我们采用基于WFST的框架[6]和词典提供的词汇量为20K的三元语言模型，并使用beamsize 20更快地使用Kaldi的解码进行波束搜索。在字解码之前，将同一手机的不同位置版本合并在一起，并使用si84计算出的电话计数将后验概率（声学模型输出）转换为似然。在整个实验中，我们的声学模型由4个双向LSTM层组成[27]，每个方向有512个单元。对于模型训练，我们使用ADAM[28]，初始学习率由网格搜索调整。我们应用dropout[29]，其速率调整在{0.0、0.1、0.2、0.5}以上，从而不断提高精确度。我们使用在每个训练周期结束时评估的dev set PER作为超参数搜索和模型选择的标准。

图2：我们的方法在不同γ的dev集上的性能。

5.1. Base system with data augmentation

如前所述，带数据扩充的基本系统，我们将使用一个只对监督数据进行训练的基础系统来启动半监督训练。对于这个系统，我们将小批量大小设置为4，每个模型被训练到40个纪元。我们应用第节中描述的数据扩充。2.2，由于速度扰动，有效地产生了3x的大监督集。在表1中，我们给出了基本系统和另一个未经增强训练的PER。观察到数据扩充提供了一个相当大的增益超过培训纯数据（开发PER的收益为18.52％，而开发PER的收益为16.83％），导致更高的伪标签质量。从现在起，我们将始终对监督数据使用数据扩充。

5.2. Continue with self-training

继续从基本系统初始化的自训练，我们现在继续训练我们的半监督目标（1）。每个模型更新都是用8个监督语句和32个无监督语句计算的（si284大约是si84的4倍）。通过网格搜索，我们将辍学率设置为0.2，初始学习率设置为0.0001，这比训练初始基本模型时的学习率小5倍，从而抑制了模型偏离基本模型太多的效果。每一个模型都被训练到另外30个时代。我们首先设置与贪婪解码器相对应的波束大小W=1，以便动态生成伪标签。我们训练了两组模型，一组对无监督话语进行数据增强，另一组没有；但是我们在两种情况下都对有监督的话语进行了扩充。图2中给出了权衡参数γ的不同值的偏差，γ=0对应于基本系统。我们的方法在较宽的γ范围内表现良好。最佳γ值在表1中：不同方法的性能（按百分比衡量）。

图3：γ=1.0时，不同方法对dev集的学习曲线。半监督学习从基础模型的第36个时代开始

在这两种设置下都是1.0，并且性能在γ>1时不会降低太多，这表明伪标签中的噪声在很大程度上是可以容忍的。此外，增加无监督数据大大提高了最终精度。为了说明伪标签生成和带伪标签的监督训练相互加强，我们在图3中提供了γ=1.0的模型的dev PER.epoch的学习曲线。随着时间的推移，dev-set的精确度稳步提高，在基础模型的最初几个时期，每次都有显著的降低。

5.3. Effect of beam size W

光束尺寸W的影响我们现在探讨更大的W的影响，这将直观地给出更高的伪标签质量。对于这个实验，我们将其他超参数固定到W=1处的值。在表2中，我们给出了dev PER，以及W在{1，5，10，15}中的训练时间。图3绘制了W=15的学习曲线。结果是，随着W的增大，我们可以稍微提高最终的PER，但代价是更长的训练时间（主要来自波束搜索）。因此，我们建议使用小W和一个好的基础模型。

5.4Comparison with UDA

通过与UDA的比较，我们发现硬标签比软目标更有用，UDA用以前模型的后验信息计算交叉熵来代替无监督数据的CTC损失。我们还对无监督数据使用数据增广，后验点的插值方法与输入速度扰动中的插值方法相同。我们通过网格搜索调整折衷参数γ，性能最好的模型（γ=0.1）的偏差率为14.56%，学习曲线如图3所示。

5.5. Comparison with one-shot pseudo-labels

为了进一步证明新的伪标签的重要性，我们比较了一种更广泛使用的方法，即在整个无监督数据集上使用基本模型生成一次伪标签。我们用一个大的解码波束大小W=20，然后从目标（1）的基本模型继续训练，而不需要再次更新伪标签。这种方法确实比基本系统有明显的改进，其开发效率为13.68%，但不如我们的W=1方法。它的学习曲线如图3所示，并且曲线比我们的方法更快地达到平稳。5.6条。结果汇总表3给出了不同的评估方法。最近的工作[30]也包括了使用相同的数据分区来进行注意模型的半监督学习。为了将我们的结果放在更紧密的背景下，我们将[31]中的CTC模型仅包含在si84上。为了获得半监督ASR的性能上界，我们在完整的si284分区上训练了一个具有地面真实转录的模型，测试WER为8.15%，接近[6]的7.87%，尽管管道不同。我们的方法W=1时，每减少一个相对31.6%的dev（16.83%→11.51%），测试功耗相对减少14.4%（11.43%→9.78%），有效地将基本系统（11.43%）和oracle系统（8.15%）之间的性能差距缩小了50%。

5.6. Results summary

在表3中，我们在eval92上给出了不同方法的WER。还包括使用相同数据分区进行注意力集中的半监督学习的最新工作[30]。为了将结果紧密地结合在一起，我们仅包括了在si84上训练的[31]中的CTC模型。为了获得半监督ASR的性能上限，我们在完整的si284分区上训练了具有地面实况转录的模型，尽管管道有所不同，但测试WER为8.15％，接近[6]的7.87％。与经过精心训练的，具有数据增强功能的基本系统相比，我们的W = 1的方法相对于经过精心培训的基础系统，可将dev PER降低31.6％（16.83％！11.51％），相对14.4％的WER降低（11.43％！9.78％）。基本系统（11.43％）与oracle系统（8.15％）之间的性能差距降低了50％。

未来方向

关于未来方向，我们认为结合词典和语言模型的词级解码可以在将单词序列转换回令牌序列后进一步提高伪标签的质量（参见，例如，[32]），而代价是解码时间较长。在我们的方法中使用的另一个有前途的模型是rnntransfucer[33]，它有一个内置的RNN LM来对标签依赖性建模，并改进令牌级解码。此外，对于更大的W，可以考虑前几个假设，并使用所有这些假设来计算无监督数据的损失[34，24]。

论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
【软件系统架构】系列四：嵌入式软件-NPU（神经网络处理器）系统及模板
目录一、什么是NPU？二、NPU与CPU/GPU/DSP对比三、NPU的工作原理核心结构：数据流架构：四、NPU芯片架构（简化图）五、NPU的优势六、NPU应用场景视觉识别语音识别自动驾驶智能监控AIoT设备七、主流NPU芯片/架构实例八、开发者工具生态（通用）九、NPU集成建议（嵌入式开发场景）十、NPU芯片选型对比+模型部署流程+嵌入式工程模板1.主流NPU芯片选型对比表2.模型部署流程（以T
DIY语音控制车辆玩具全攻略：从硬件组装到功能实现欧阳天羲硬件工程语音识别自动驾驶
一、设备清单与成本估算1.1硬件组件列表组件名称价格（元）备注ArduinoUno兼容板7.04控制核心，支持多传感器接入DFRobot离线语音识别模块105支持10条自定义语音指令L298N电机驱动板5双路电机驱动，带散热片直流减速电机×2（JGB37-520）3012V供电，150转/分钟SG90微型舵机5控制前轮转向HC-SR04超声波传感器2.45测距范围2-400cm18650锂电池（3
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
数字人分身系统源码搭建定制化开发，支持OEM
在人工智能技术蓬勃发展的今天，数字人分身系统凭借其独特的交互性和广泛的应用场景，成为了众多企业和开发者关注的焦点。从虚拟主播、智能客服到数字员工，数字人分身系统正逐渐渗透到各个领域。本文将详细阐述数字人分身系统源码搭建与定制化开发的全流程，为技术爱好者和企业开发者提供全面的技术参考。一、数字人分身系统概述数字人分身系统是一个综合性的技术解决方案，它融合了计算机图形学、人工智能、语音识别与合成、自然
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
【造工具-2】用SenceVoice，实现本地的语音转文本小工具 zhulangfly AI AI STT ASR
说到语音转文本，有两种说法，自动语音识别（ASR，AutomaticSpeechRecognition）和语音转文本（STT，Speech-to-Text），本质上都是通过算法将语音信号转化为可处理的文本形式的技术，两者的核心功能和应用目标完全一致。‌‌如果有区别的话，ASR更常见于学术研究和技术文档中，STT则更多应用于产品功能描述。ASR常与其他模块（如VAD、说话人分离）并列描述，体现其在技
华为Pura 70怎么语音翻译？语音翻译详解 C_19870 华为经验分享
在智能手机功能日益丰富的今天，语音翻译已成为许多手机用户的重要需求之一。华为Pura70，作为华为系列中的一款高端机型，其内置的语音翻译功能在准确性和便捷性上都表现出色。本文将详细介绍华为Pura70在语音翻译方面的表现、操作步骤，并探讨其他可实现语音翻译操作的软件，特别是“同声传译王”。华为Pura70手机在语音翻译时的表现华为Pura70内置的语音翻译功能凭借其先进的语音识别和翻译技术，为用户
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model 论文阅读钟屿论文阅读人工智能深度学习学习图像处理计算机视觉
Diff-Retinex：用生成式扩散模型重新思考低光照图像增强摘要本文中，我们重新思考了低光照图像增强任务，并提出了一种物理可解释的生成式扩散模型，称为Diff-Retinex。我们的目标是整合物理模型和生成网络的优点。此外，我们希望通过生成网络补充甚至推断低光照图像中缺失的信息。因此，Diff-Retinex将低光照图像增强问题表述为Retinex分解和条件图像生成。在Retinex分解中，我
利用FunASR搭建自己的语音转文本服务器（有手就行）
提示：利用阿里巴巴开源的FunASR工具包，搭建语音转文本服务，通过网页实现免费的语音转文本服务。目录前言一、FunASR是什么？二、服务搭建2.1服务器准备2.2安装docker2.3下载并启动镜像2.4启动ASR服务三、下载客户端开始工作总结前言语音转文本是我们经常面对的日常任务，都=是智能客服、会议记录、实时字幕等场景核心的功能。然而，传统语音识别系统往往面临高延迟、低准确率或复杂部署的挑战
【使用Unimrcp和Funasr构建呼叫中心语音识别服务端】 cc_ai_cn 呼叫中心语音识别语音识别人工智能
使用Unimrcp和Funasr构建呼叫中心语音识别服务端1.编译及运行unimrcp2.新增funasr-recog，支持funasr识别3.启动unimrcp4.启动funasr5.freeswitch呼叫测试1.编译及运行unimrcp此次使用的是unimrcp1.6版本，先下载unimrcp-deps-1.6.0以及unimrcp-1.6.0进行构建，此处不过多赘述。2.新增funasr-
第9章：听声辨味的玄机——语音识别如何破解厨房噪音难题
第9章：听声辨味的玄机——语音识别如何破解厨房噪音难题声学特征解析、深度降噪与工业部署全链路解密工业级挑战场景：在上海四季酒店中央厨房的热浪区域（平均声压92dB），行政主厨需同时管理六口燃气灶、两台对流烤箱和三台洗碗机。当他在油烟机轰鸣中喊出"三号灶文火收汁"时，噪音包含：炒锅爆炒声（65-85dB@4-8kHz）高压蒸汽喷射（75-90dB@2-4kHz）金属撞击噪声（80-95dB@1-8k
世界因你不同：李开复自传浦东新村轱天乐读书笔记职场发展
读完后闭上眼睛想一想，为什么李开复值得学习？第一，他工作能力很强。他并不只是在名校、名企呆过，而是最后都做到了很高的位置。11岁从台湾去美国读书，博士在CMU，毕业后先后在苹果、微软、谷歌工作过。CMU读博期间开发了基于统计方法的语音识别技术，拿到了CMU终身教职后，放弃这一职位加入了苹果。微软时期牵头成立了微软中国研究院（后改名微软亚洲研究院），这个传奇的地方在深度学习大火之后，诞生出了很多牛人
开发者注意：鸿蒙APP语音识别常见问题全解析（含可跑Demo） harmonyos
摘要在鸿蒙（HarmonyOS）应用开发中，语音识别是很多智能功能的核心入口，比如语音助手、语音输入、语音搜索等。但不少开发者会遇到"语音识别无法使用"的问题：调用没反应、识别不返回、报权限错误……这篇文章将从权限配置、API调用、设备支持、网络状态等多个角度入手，结合实际代码和典型使用场景，帮你一条一条查清楚到底问题出在哪。引言随着语音交互逐渐成为主流，鸿蒙系统也提供了对ASR（Automati
开源(离线)中文语音识别ASR(语音转文本)工具整理切糕师学AI #语音识别asr与语音合成STT 语音识别人工智能深度学习
开源(离线)中文语音识别ASR(语音转文本)工具整理目录文章目录目录@[toc]openai的开源工具：whisperwhisper介绍引用ASRT语音识别项目ASRT介绍引用微软语音服务(付费)微软语音服务介绍实时语音转文本批量转录自定义语音引用PaddleSpeechPaddleSpeech介绍引用openai的开源工具：whisperwhisper介绍OpenAI在2022年9月21日开源了
HarmonyOS SDK:Image Classification 能力进行图片识别
在鸿蒙应用开发中，HarmonyOSSDK提供了丰富的AI能力接口，开发者可以快速集成语音识别、图像识别、自然语言处理等智能功能到自己的应用中。作为一名鸿蒙开发者，在实际项目中我深刻体会到这些AI能力对提升用户体验和产品智能化水平的重要性。以图像识别为例，借助HarmonyOSSDK中的ImageClassificationAPI，我们可以轻松实现图片内容的自动识别与分类。通过调用系统提供的AI引
《Whisper模型版本及下载链接》空云风语人工智能深度学习神经网络 whisper
Whisper模型版本及下载链接Whisper是OpenAI开发的语音识别模型，以下按模型规模从小到大排列，包含不同语言版本及通用版本：1.Tiny系列（轻量级）tiny.en.pt（英文专用）：https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d
《Whisper：开启语音识别新时代的钥匙》空云风语人工智能深度学习神经网络 whisper 语音识别人工智能
Whisper模型：技术革新的基石在当今科技飞速发展的时代，自动语音识别（ASR）技术作为人工智能领域的关键分支，正深刻地改变着人们的生活与工作方式。从智能语音助手到实时字幕生成，从语音交互设备到智能客服系统，ASR技术无处不在，为人们带来了前所未有的便利与效率提升。而Whisper模型，作为ASR技术中的一颗璀璨明星，以其卓越的性能和独特的技术架构，成为了推动语音识别技术发展的重要力量。Whis
用Google Cloud Speech-to-Text API进行音频转录 huluwaqimotuo 音视频
###技术背景介绍随着人工智能技术的不断发展，语音识别已成为我们生活中不可或缺的一部分。GoogleCloudSpeech-to-TextAPI是其中的佼佼者，能够从音频文件中提取文本信息，减少人工转录的麻烦。这篇文章将指导你如何使用`GoogleSpeechToTextLoader`来加载和转录音频文件。###核心原理解析`GoogleSpeechToTextLoader`是一个工具，它通过调用
微服务及时通讯系统-服务端-开发阶段与功能介绍 C++忠实粉丝微服务及时通讯系统 -后台服务器实现微服务架构云原生
个人主页：C++忠实粉丝欢迎点赞收藏✨留言✉加关注本文由C++忠实粉丝原创微服务及时通讯系统-服务端-开发阶段与功能介绍收录于专栏[微服务及时通讯系统-后台服务器实现]目录开发阶段与功能介绍聊天室后台服务器实现：功能需求确定阶段：框架设计：聊天室子服务拆分：消息转发子服务：消息存储子服务：语音识别子服务：文件管理子服务：宝子们！！！我又开始新的专栏啦~这一次你们可以跟着我一步一步完成这个开源项目！
【论文阅读】人工智能在直升机航空电子系统中的应用肥鼠路易论文阅读人工智能航空电子系统应用
人工智能在直升机航空电子系统中的应用论文摘要文章结构参考文献论文摘要论文摘要:在现代战争形势日趋信息化、智能化的背景下，将人工智能应用于武器装备已经是大势所趋。针对直升机飞行任务的特征，对其发展状况进行了描述，并对其作业能力进行了分析，探索了人工智能技术在直升机航电系统中的应用方向，为推进人工智能在直升机上的转化与应用奠定基础。通过对国外先进直升机智能技术的运用现状及对其作业能力的要求进行分析，探
[特殊字符] 一键搭建AI语音助理：基于DashScope+GRadio的智能聊天机器人技术全解来自于狂人人工智能机器人
一、项目核心技术架构（图1）交互层核心模块pyaudio实时采集流式响应PCM编码GRadio界面状态控制实时对话展示语音输出历史记录管理ASR回调类ASR语音识别聊天处理引擎GPT大模型处理语音合成回调TTS语音合成语音输入DashScopeAPI二、四大核心技术实现1.智能语音识别引擎（附关键源码注释）classASRCallback(TranslationRecognizerCallback
华小妹 AI 数字人又来添新功能，突破语言边界广州华锐视点人工智能
华小妹AI数字人功能强大，不是徒有其表的花瓶。作为一款极具创新性的AI数字人，华小妹AI数字人擅长跳舞，能精准介绍产品，可通过虚拟场景带客户参观各类场所，还能用丰富肢体语言交流，具备空间定位能力，语音识别技术先进，能精准识别各种语音指令。如今华小妹AI数字人上新了支持多语言交流的功能，涵盖常见和小众语言，打破语言障碍，拓展了应用场景和服务范围。华小妹AI数字人上新的多语言交流功能堪称一大亮点，支持
[论文阅读] 人工智能+软件工程 | 用大语言模型架起软件需求形式化的桥梁张较瘦_ 前沿技术人工智能论文阅读软件工程
用大语言模型架起软件需求形式化的桥梁：一篇ACM调查草案的深度解读论文信息arXiv:2506.14627ACMSurveyDraftonFormalisingSoftwareRequirementswithLargeLanguageModelsArshadBeg,DiarmuidO’Donoghue,RosemaryMonahanComments:22pages.6summarytablesSu
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默