字节跳动技术团队

ICASSP 2023 | 解密实时通话中基于 AI 的一些语音增强技术

‍

动手点关注

干货不迷路

背景介绍

实时音视频通信 RTC 在成为人们生活和工作中不可或缺的基础设施后，其中所涉及的各类技术也在不断演进以应对处理复杂多场景问题，比如音频场景中，如何在多设备、多人、多噪音场景下，为用户提供听得清、听得真的体验。作为 RTC 方案中不可或缺的技术，语音增强技术正从传统的基于统计学习的方案向基于深度学习的方案融合演进，利用 AI 技术，可以在语音降噪、回声消除、干扰人声消除等方面实现更好的语音增强效果，为用户提供更舒适的通话体验。

作为语音信号处理研究领域的旗舰国际会议，ICASSP (International Conference on Acoustics, Speech and Signal Processing) 一直代表着声学领域技术最前沿的研究方向。ICASSP 2023 收录了多篇和音频信号语音增强算法相关的文章，其中，火山引擎 RTC 音频团队共有 4 篇研究论文被大会接收，论文方向包括特定说话人语音增强、回声消除、多通道语音增强、音质修复主题。本文将介绍这 4 篇论文解决的核心场景问题和技术方案，分享火山引擎 RTC 音频团队在语音降噪、回声消除、干扰人声消除领域的思考与实践。

《基于频带分割循环神经网络的特定说话人增强》

论文地址：

https://ieeexplore.ieee.org/abstract/document/10097252

实时特定说话人语音增强任务有许多问题亟待解决。首先，采集声音的全频带宽度提高了模型的处理难度。其次，相比非实时场景，实时场景下的模型更难定位目标说话人，如何提高说话人嵌入向量和语音增强模型的信息交互是实时处理的难点。受到人类听觉注意力的启发，火山引擎提出了一种引入说话人信息的说话人注意力模块（Speaker Attentive Module，SAM），并将其和单通道语音增强模型-频带分割循环神经网络（Band-split Recurrent Neural Network，BSRNN) 融合，构建特定人语音增强系统来作为回声消除模型的后处理模块，并对两个模型的级联进行优化。

模型框架结构

频带分割循环神经网络（BSRNN）

频带分割循环神经网络（Band-split RNN, BSRNN）是全频带语音增强和音乐分离的 SOTA 模型，其结构如上图所示。BSRNN 由三个模块组成，分别是频带分割模块（Band-Split Module）、频带序列建模模块（Band and Sequence Modeling Module）和频带合并模块（Band-Merge Module）。频带分割模块首先将频谱分割为 K 个频带，每个频带的特征通过批归一化（BN）后，被 K 个全连接层（FC）压缩到相同的特征维度 C 。随后，所有频带的特征被拼接为一个三维张量并由频带序列建模模块进一步处理，该模块使用 GRU 交替建模特征张量的时间和频带维度。经过处理的特征最后经过频带合并模块得到最后的频谱掩蔽函数作为输出，将频谱掩蔽和输入频谱相乘即可得到增强语音。我们在每一个频带序列建模模块后添加了说话人注意力模块以构建特定人语音增强模型。

说话人注意力机制模块 (SAM)

说话人注意力模块（Speaker Attentive Module）的结构如上图。其核心思想是使用说话人嵌入向量 e 作为语音增强模型中间特征的吸引子，计算其和中间特征所有时间和频带上的相关度 s，称作注意力值。该注意力值将被用于对中间特征 h 进行缩放规整。其具体公式如下：

首先通过全连接和卷积将 e 和 h 变换为 k 和 q：

k 和 q 相乘得到注意力值：

最后通过该注意力值缩放原始特征：

模型训练数据

关于模型训练数据，我们采用了第五届 DNS 特定说话人语音增强赛道的数据以及 DiDispeech 的高质量语音数据，通过数据清洗，得到约 3500 个说话人的清晰语音数据。在数据清洗方面，我们使用了基于 ECAPA-TDNN[1]说话人识别的预训练模型来去除语音数据中残留的干扰说话人语音，同时使用第四届 DNS 挑战赛第一名的预训练模型来去除语音数据中的残留噪声。在训练阶段，我们生成了超过 10 万条 4s 的语音数据，对这些音频添加混响以模拟不同信道，并随机和噪声、干扰人声混合，设置成一种噪声、两种噪声、噪声和干扰说话人以及仅有干扰说话人 4 种干扰场景。同时，为了模拟不同大小的输入，含噪语音和目标语音电平也会被随机缩放。

《融合特定说话人提取与回声消除技术方案》

论文地址：

https://ieeexplore.ieee.org/abstract/document/10096411

回声消除一直是外放场景中一个极其复杂且至关重要的问题。为了能够提取出高质量的近端干净语音信号，火山引擎提出了一种结合信号处理与深度学习技术的轻量化回声消除系统。在特定说话人降噪（Personalized Deep Noise Suppression, pDNS ) 基础上，我们进一步构建了特定说话人回声消除（Personalized Acoustic Echo Cancellation, pAEC）系统，其包括一个基于数字信号处理的前处理模块、一个基于深度神经网络的两阶段模型和一个基于 BSRNN 和 SAM 的特定说话人语音提取模块。

特定说话人回声消除总体框架

基于数字信号处理线性回声消除的前处理模块

前处理模块主要包含两部分：时延补偿（TDC）和线性回声消除（LAEC），该模块均在子带特征上进行。

基于信号处理子带线性回声消除算法框架

时延补偿

TDC 基于子带互相关，其首先分别在每个子带中估计出一个时延，然后使用投票方法来确定最终时间延迟。

线性回声消除

LAEC 是一种基于 NLMS 的子带自适应滤波方法，由两个滤波器组成：前置滤波器（Pre-filter）和后置滤波器（Post-filter），后置滤波器使用动态步长进行自适应更新参数，前置滤波器是状态稳定的后置滤波器的备份。通过比较前置滤波器和后置滤波器的输出的残余能量，最终选择误差信号。

LAEC 处理流程图

基于多级卷积-循环卷积神经网络（CRN）的两阶段模型

为了减轻模型建模负担，我们主张将 pAEC 任务解耦为“回声抑制”和“特定说话人提取”两个任务。因此，后处理网络主要由两个神经网路模块组成：用于初步回声消除和噪声抑制的基于 CRN 的轻量级模块，以及用于更好的近端语音信号重建的基于 pDNS 的后处理模块。

第一阶段：基于CRN的轻量级模块

基于 CRN 的轻量级模块由一个频带压缩模块、一个编码器、两个双路径 GRU、一个解码器和一个频带分解模块组成。同时，我们还引入了一个语音活动检测（Voice Activity Detection, VAD）模块用于多任务学习，有助于提高对近端语音的感知。CRN 以压缩幅度作为输入，并输出初步的目标信号复数理想比掩码（cIRM）和近端 VAD 概率。

第二阶段：基于pDNS的后处理模块

这个阶段的 pDNS 模块包括了上述介绍的频带分割循环神经网络 BSRNN 和说话人注意力机制模块 SAM，级联模块以串联的方式接在轻量级 CRN 模块之后。由于我们的 pDNS 系统在特性说话人语音增强任务上达到了较为优异的性能，我们将一个预训练好的 pDNS 模型参数作为模型的第二阶段初始化参数，对前一阶段的输出进一步处理。

级联系统训练优化损失函数

我们对两阶段模型进行级联优化，让模型在第一阶段预测近端语音，在第二阶段预测近端特定说话人语音。同时，我们还引入了一个近端 VAD 罚项，增强模型对近端语音的感知。具体损失函数定义如下：

其中，分别对应模型第一阶段和第二阶段预测的 STFT 特征，分别表示近端语音和近端特定说话人语音的 STFT 特征，分别表示模型预测和目标 VAD 状态。

模型训练数据

为了使回声消除系统可以处理多设备，多混响，多噪音采集场景的回声，我们通过混合回声和干净语音，得到 2000+ 小时的训练数据，其中，回声数据使用 AEC Challenge 2023 远端单讲数据，干净语音来自 DNS Challenge 2023 和 LibriSpeech，用于模拟近端混响的 RIR 集合来自 DNS Challenge。由于 AEC Challenge 2023 远端单讲数据中的回声存在少量噪声数据，直接用这些数据作为回声容易导致近端语音失真，为了缓解这个问题，我们采用了一种简单但有效的数据清理策略，使用预训练的一个 AEC 模型处理远端单讲数据，将具有较高残余能量的数据识别为噪声数据，并反复迭代下图清洗流程。

级联优化方案系统效果

这样的一套基于融合回声消除与特定说话人提取的语音增强系统在 ICASSP 2023 AEC Challenge 盲测试集 [2] 上验证了它在主客观指标上的优势——取得了 4.44 的主观意见分（Subjective-MOS）和 82.2%的语音识别准确率（WAcc）。

《基于傅立叶卷积注意力机制的多通道语音增强》

论文地址：

https://ieeexplore.ieee.org/document/10095716

基于深度学习的波束权值估计是目前解决多通道语音增强任务的主流方法之一，即通过网络求解波束权值来对多通道信号进行滤波从而获得纯净语音。与传统波束形成算法求解空间协方差矩阵的原理类似，频谱信息和空间信息在波束权值的估计中也起着重要作用。然而，现有许多神经波束形成器都无法对波束权值进行最优估计。为处理这一挑战，火山引擎提出了一种傅里叶卷积注意力编码器（Fourier Convolutional Attention Encoder, FCAE），该编码器能在频率特征轴上提供全局感受野，加强对频率轴上下文特征的提取。同时，我们也提出了一种基于 FCAE 的卷积循环编解码器（Convolutional Recurrent Encoder-Decoder, CRED）的结构用来从输入特征中捕捉频谱上下文特征和空间信息。

模型框架结构

波束权值估计网络

该网络借助嵌入波束网络（Embedding and Beamforming Network，EaBNet）的结构范式，将网络分为嵌入模块和波束模块两个部分，嵌入模块用来提取聚合频谱和空间信息的嵌入向量，并将该嵌入向量送入波束部分导出波束权值。这里采用一个 CRED 结构来学习嵌入张量，多通道输入信号经过 STFT 变换后，送入一个 CRED 结构提取嵌入张量，该嵌入张量类似传统波束形成中的空间协方差矩阵，包含可区分语音和噪声的特征。嵌入张量经过 LayerNorm2d 结构，再经过两层堆叠的 LSTM 网络，最后通过一个线性层导出波束权值。我们对该波束权值作用于多通道输入频谱特征上，进行滤波求和操作，最后得到纯净语音谱，经过 ISTFT 变换即可得到目标时域波形。

CRED结构

我们采用的 CRED 结构如上图所示。其中，FCAE 为傅里叶卷积注意力编码器，FCAD 为与 FCAE 对称的解码器；循环模块采用深度前馈顺序记忆网络（Deep Feedward Sequential Memory Network，DFSMN）对序列的时序依赖进行建模，在不影响模型性能的基础上减小模型尺寸；跳连接部分采用串联的通道注意力（Channel Attention）和空间注意力（Spatial Attention）模块，用来进一步提取跨通道间的空间信息，并连接深层特征与浅层特征，方便信息在网路中的传输。

FCAE结构

傅里叶卷积注意力编码器（FCAE）的结构如上图所示。该模块受傅里叶卷积算子[3]的启发，利用离散傅里叶变换在变换域上的任意一点的更新将会对原始域的信号产生全局影响的特点，对频率轴特征进行一维 FFT 变换，即可在频率轴上获得全局感受野，进而加强对频率轴上下文特征的提取。此外，我们引入了空间注意力模块和通道注意力模块，进一步增强卷积表达能力，提取有利的频谱-空间联合信息，增强网络对纯净语音和噪声可区分特征的学习。在最终表现上，该网络以仅 0.74M 的参数量取得了优异的多通道语音增强效果。

模型训练数据

数据集方面，我们采用了 ConferencingSpeech 2021 比赛提供的开源数据集，纯净语音数据包含 AISHELL-1、AISHELL-3、VCTK 以及 LibriSpeech(train-clean-360)，挑选其中信噪比大于 15dB 的数据用于生成多通道混合语音，噪声数据集采用 MUSAN、AudioSet。同时，为了模拟实际多房间混响场景，通过模拟改变房间尺寸、混响时间、发声源，噪声源位置等方式将开源的数据与超过 5000 个房间脉冲响应进行卷积，最终生成 6 万条以上多通道训练样本。

《基于两阶段神经网络模型的音质修复系统》

论文地址：

https://ieeexplore.ieee.org/document/10094827

除了特定说话人增强，回声消除及多通道语音增强几个方向，火山引擎也在音质修复方向上做了一些尝试。实时通信过程中存在的各种失真会影响语音信号的质量，使语音信号的清晰度和可懂度下降。火山引擎提出了一个两阶段模型，该模型使用阶段性的分治策略来修复影响语音质量的多种失真。

模型框架结构

下图为两阶段模型整体框架构图，其中，第一阶段模型主要修复频谱缺失的部分，第二阶段模型则主要抑制噪声、混响以及第一阶段模型可能产生的伪影。

第一阶段模型：Repairing Net

整体采用深度复数卷积循环神经网络 (Deep Complex Convolution Recurrent Network, DCCRN）[4]架构，包括 Encoder、时序建模模块和 Decoder 三个部分。受图像修复的启发，我们引入了 Gate 复值卷积和 Gate 复值转置卷积代替 Encoder 和 Decoder 中的复值卷积和复值转置卷积。为了进一步提升音频修补部分的自然度，我们引入了 Multi-Period Discriminator和 Multi-Scale Discriminator 用于辅助训练。

第二阶段模型：Denoising Net

整体采用 S-DCCRN 架构，包括 Encoder、两个轻量级 DCCRN 子模块和 Decoder 三个部分，其中两个轻量级 DCCRN 子模块分别进行子带和全带建模。为了提升模型在时域建模方面的能力，我们将 DCCRN子模块中的 LSTM 替换为 Squeezed Temporal Convolutional Module(STCM)。

模型训练数据

这里用来训练来音质修复的干净音频、噪声、混响均来自 2023 DNS 竞赛数据集，其中干净音频总时长为 750 小时，噪声总时长为 170 小时。在第一阶段模型的数据增广时，我们一方面利用全带音频与随机生成的滤波器进行卷积， 20ms 为窗长将音频采样点随机置零和对音频随机进行降采样来模拟频谱缺失缺陷，另一方面在音频幅度频与音频采集点上分别乘以随机尺度；在第二阶段的数据增广时，我们利用第一阶段已经生成的数据，再卷积各种类型的房间冲激响应得到不同混响程度的音频数据。

音频处理效果

在 ICASSP 2023 AEC Challenge中，火山引擎 RTC 音频团队，在通用回声消除 (Non-personalized AEC) 与特定说话人回声消除 (Personalized AEC) 两个赛道上荣获冠军，并在双讲回声抑制，双讲近端语音保护、近端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍，达到国际领先水平。

我们来看一下经过上述技术方案后，火山引擎 RTC 在不同场景下的语音增强处理效果。

不同信噪回声比场景下的回声消除

下面两个例子分别展示了回声消除算法在不同信号回声能量比例场景下处理前后的对比效果。

中等信回声比场景

超低信回比场景对回声消除的挑战性最大，此时我们不仅需要有效去除大能量的回声，还需要同时最大程度保留微弱的目标语音。如下样本中，女声为目标说话人语音，男生为非目标说话人语音（回声），目标语音几乎被非目标语音完全覆盖了。

超低信回声比场景

不同背景干扰说话人场景下的说话人提取

下面两个例子分别展示了特定说话人提取算法在噪音与背景人干扰场景下处理前后的对比效果。

如下样本中，特定说话人既有类似门铃的噪声干扰，又有背景人说话噪声干扰，仅使用 AI 降噪只能去除门铃噪声，因此还需要针对特定说话人进行人声消除。

目标说话人与背景干扰人声及噪音

当目标说话人声和背景干扰人声的声纹特征很接近时，此时对于特定说话人提取算法的挑战更大，更能考验特定说话人提取算法鲁棒性。如下样本中，目标说话人和背景干扰人声是两个相似的女声。

目标女声与干扰女声混合

总结与展望

上述介绍了火山引擎 RTC 音频团队基于深度学习在特定说话人降噪，回声消除，多通道语音增强等方向做出的一些方案及效果，未来场景依然面临着多个方向的挑战，如语音降噪如何自适应噪音场景，音质修复如何在更广范围对音频信号进行多类型修复以及怎么样各类终端上运行轻量低复杂度模型，这些挑战点也将会是我们后续重点的研究方向。

参考文献

[1] B. Desplanques, J. Thienpondt, and K. Demuynck, “ECAPATDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification” In Interspeech, 2020, pp. 3830–3834.

[2] 盲测试集链接：https://github.com/microsoft/AEC-Challenge/tree/main/datasets/blind_test_set_icassp2023

[3] Chi L, Jiang B, Mu Y. Fast Fourier Convolution. Advances in Neural Information Processing Systems. 2020(3) : 4479 – 4488.

[4] Hu Y, Liu Y, Lv S, et al. DCCRN: Deep Complex Convolution Recurrent Network for Phase-aware Speech Enhancement[J]. arXiv preprint arXiv:2008.00264, 2020.

加入我们

火山引擎 RTC，致力于提供全球互联网范围内高质量、低延时的实时音视频通信能力，帮助开发者快速构建语音通话、视频通话、互动直播、转推直播等丰富场景功能，目前已覆盖互娱、教育、会议、游戏、汽车、金融、IoT 等丰富实时音视频互动场景，服务数亿用户。

音频开发工程师和音频资深算法工程师热招中！扫描下方二维码，或点击阅读原文投递，欢迎同学们加入！

点击「阅读原文」一键投递！ 点击「阅读原文」一键投递！ 点击「阅读原文」一键投递！ 点击「阅读原文」一键投递！ 点击「阅读原文」一键投递！‍

AIGC开启人工智能新时代靖节先生人工智能
AIGC：开启智能生成内容的全新时代在数字化技术飞速发展的当下，AIGC（ArtificialIntelligence-GeneratedContent）横空出世，宛如一颗璀璨的新星照亮了内容创作领域的天空。它正以不可阻挡之势重塑着我们的生活、工作与娱乐方式，成为众多行业创新发展的重要驱动力。一、AIGC的概念AIGC，即人工智能生成内容，是指利用人工智能技术自动生成各类内容的过程。它依托机器学习
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
RK3588+昇腾AI｜40TOPS算力AI盒子设计方案 ARM+FPGA+AI工业主板定制专家 AI盒子瑞芯微人工智能
综合视频智能AI分析系统介绍以计算机视觉技术为基础，AI赋能千行百业，依托人工智能视觉分析技术以及强大的“端+边”算力支撑，实时分析烟火，入侵等事件，同时结合云上预警业务平台，实现事件发现、预警、处置全流程闭环。设计架构系统架构视频智能识别系统自下而上分为“感知层、网络层、支撑层、应用层”四层，系统逻辑架构如下图所示：感知层对接前端感知设备，如视频监控、NVR、和其他物联感知设备，对重要通道和场所
计算机视觉中图像的基础认知全栈你个大西瓜人工智能计算机视觉人工智能图像基本属性 RGB 三通道彩色单通道灰度图像 OpenCV Matplotlib
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中，图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。宽度（W）和高度（H）定义了图像的像素分辨率，单位通常是像素。例如，一张1920x1080的图像有1920列（
深入了解与全面使用DeepSeek：从基础到高级应用一位卑微的码农人工智能大数据 java-ee spring boot
引言随着AI技术的发展，DeepSeek作为一款先进的智能助手，为用户提供了强大的文本生成、代码分析、数学公式处理等能力。本文将详细介绍DeepSeek的基础知识、安装配置、API调用方法以及高级应用技巧，帮助你充分挖掘这一工具的潜力。一、认识DeepSeek1.1DeepSeek简介DeepSeek是由深度求索公司开发的人工智能平台，它支持三种主要模式：基础模型（V3）、深度思考（R1）和联网搜
人工智能的发展领域之GPU加速计算的应用概述、架构介绍与教学过程 m0_74824592 面试学习路线阿里巴巴人工智能架构
文章目录一、架构介绍GPU算力平台概述优势与特点二、注册与登录账号注册流程GPU服务器类型配置选择指南内存和存储容量网络带宽CPU配置三、创建实例实例创建步骤镜像选择与设置四、连接实例SSH连接方法远程桌面配置一、架构介绍GPU算力平台概述一个专注于GPU加速计算的专业云服务平台，隶属于软件和信息技术服务业。主要面向高校、科研机构和企业用户。该平台提供多种NVIDIAGPU选择，适用于机器学习、人
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
【深度学习基础】什么是注意力机制我的青春不太冷深度学习人工智能注意力机制
文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中，注意力机制（AttentionMechanism）的引入堪称一场革命。它不仅解决了传统模型的根本性缺陷，更通过动态聚焦关键信息的能力，重塑了人工智能处理复杂任务的范式。本文
【第15章：量子深度学习与未来趋势—15.3 量子深度学习在图像处理、自然语言处理等领域的应用潜力分析】再见孙悟空_ #【深度学习・探索智能核心奥秘】深度学习机器学习人工智能音视频自然语言处理量子深度学习量子学习未来
一、开篇：为什么我们需要关注这场"量子+AI"的世纪联姻？各位技术爱好者们，今天我们要聊的这个话题，可能是未来十年最值得押注的技术革命——量子深度学习。这不是简单的"1+1=2"的物理叠加，而是一场可能彻底改写AI发展轨迹的范式转移。想象这样一个场景：你现在训练一个GPT-5级别的模型，不需要耗费价值上亿美元的算力资源，不需要等待数周的训练时间，甚至不需要纠结于模型参数是否过拟合。这就是量子深度学
【第15章：量子深度学习与未来趋势—15.1 量子计算基础与量子机器学习的发展背景】再见孙悟空_ #【深度学习・探索智能核心奥秘】机器翻译自然语言处理计算机视觉量子计算人工智能深度学习机器学习
想象一下，你正在用ChatGPT生成一篇小说，突然它卡在"主角穿越虫洞"的情节上——这不是因为想象力枯竭，而是传统计算机的晶体管已经烧到冒烟。当前AI大模型的参数规模每4个月翻一番，但摩尔定律的终结让经典计算机的算力增长首次跟不上AI的进化速度。这时候，量子计算带着它的"超能力"登场了：1台50量子位的量子计算机，处理某些问题的速度可达超级计算机的1亿倍。这场算力革命，正在改写深度学习的游戏规则。
语音与自然语言处理（NLP）：智能交互的核心技术给生活加糖！热门知识自然语言处理交互人工智能
随着人工智能（AI）技术的飞速发展，语音识别与自然语言处理（NaturalLanguageProcessing,NLP）成为了智能交互系统的核心技术。它们不仅改变了人们与计算机、设备的交互方式，也推动了众多行业的革新。从智能助手（如苹果的Siri、亚马逊的Alexa）到机器翻译、自动客服系统，语音和NLP技术正逐步融入日常生活，改善我们与数字世界的沟通方式。一、什么是语音识别与自然语言处理（NLP
基于深度学习YOLOv10的PCB板缺陷检测系统（附完整资源+PySide6界面+训练代码）人工智能_SYBH 深度学习 YOLO 人工智能目标检测 python
引言：在现代制造业中，电子元件和PCB（印刷电路板）是非常重要的基础设施。PCB缺陷检测是生产过程中至关重要的一步。传统的缺陷检测方法主要依靠人工检查，这不仅效率低，而且容易受到人眼疲劳的影响。随着深度学习技术的不断发展，基于深度学习的自动化缺陷检测已成为研究的热点，尤其是在计算机视觉领域。YOLO（YouOnlyLookOnce）系列算法凭借其高速和高精度的优势，成为了目标检测领域的佼佼者。本文
DeepSeek 混合专家（MoE）架构技术原理剖析计算机学长通用大语言模型人工智能架构
DeepSeek混合专家（MoE）架构技术原理剖析在人工智能快速发展的当下，大规模语言模型不断突破创新，DeepSeek混合专家（MoE）架构脱颖而出，成为业内关注焦点。本文将深入剖析其技术原理，为大家揭开它的神秘面纱。一、MoE架构概述（一）基本概念混合专家（MixtureofExperts，MoE）架构，简单来说，就像是一个专家团队。在这个团队里，每个专家都是一个小型神经网络，各自擅长处理特定
【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略 X_taiyang18 人工智能
【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations）被誉为“深度学习的顶级会议”。自2013年由深度学习三巨头中的YoshuaBengio和YannLeCun创办以来，ICLR迅速崛起，成为全球科研人员争相投稿的学术盛会。那么，ICLR
使用多模态大语言模型进行深度学习的图像、文本和语音数据增强数行天下人工智能语言模型深度学习人工智能自然语言处理
在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。本文通过探索利用多模态LLMs进行图像、文本和语音数据增强的最新文献，填补了
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入理解TensorFlow中的形状处理函数 SEVEN-YEARS tensorflow 人工智能 python
摘要在深度学习模型的构建过程中，张量（Tensor）的形状管理是一项至关重要的任务。特别是在使用TensorFlow等框架时，确保张量的形状符合预期是保证模型正确运行的基础。本文将详细介绍几个常用的形状处理函数，包括get_shape_list、reshape_to_matrix、reshape_from_matrix和assert_rank，并通过具体的代码示例来展示它们的使用方法。1.引言在深
本地部署 DeepSeek：环境准备 + 详细步骤 + 高级部署方案 + 可视化工具集成 + 故障排除手册 + 性能优化建议 Katie。人工智能技术发展 ai deepseek 人工智能人工智能大模型
前言随着人工智能技术的迅猛发展，大语言模型（LLM）在多个行业中的应用日益广泛，从自然语言处理、内容生成到智能客服、医疗诊断等领域，AI正在深刻改变传统的工作方式和业务流程。DeepSeek作为一家新兴的AI公司，凭借其高效的AI模型和开源的优势，迅速在竞争激烈的AI市场中脱颖而出。其模型不仅在性能上表现出色，还通过开源策略吸引了大量开发者和企业的关注，形成了一个活跃的社区生态。然而，随着AI技术
数字内容体验未来趋势：五大平台横向对比与深度解析清风徐徐de来其他
内容概要当前，企业数字化转型的核心战场正逐步向数字内容体验的精细化运营转移。随着用户行为碎片化与需求多元化趋势加剧，AI驱动的智能推荐系统、基于数据决策的动态优化能力，以及跨渠道的品牌一致性维护，已成为衡量内容平台竞争力的三大核心维度。本文将围绕这三大支柱，通过横向对比主流平台的技术架构与落地实践，揭示未来数字内容体验的演进方向。首先，AI驱动不仅改变了内容分发的效率，更通过深度学习算法实现用户行
DeepSeek底层揭秘——多头潜在注意力MLA 9命怪猫 AI ai 人工智能大模型
目录1.多头潜在注意力（MLA）2.核心功能3.技术要素4.难点挑战暨含解决方案5.技术路径6.应用场景7.实际案例：DeepSeek8.最新研究与技术进展9.未来趋势猫哥说1.多头潜在注意力（MLA）(1)定义“多头潜在注意力（Multi-HeadLatentAttention,MLA）”是一种基于注意力机制的深度学习方法，旨在通过多个注意力头（Multi-HeadAttention）对潜在空间
全面解析：AI大模型入门教程，让你的学习之路不再迷茫，这个大模型学习路线非常详细收藏这篇就够了！ AGI大模型老王人工智能学习大模型 AI大模型大模型学习大模型教程大模型入门
前言AI大模型，作为当前人工智能领域的热点，凭借其强大的处理复杂数据和任务的能力，受到广泛的关注和应用。无论你是技术小白还是有一定基础的开发者，本教程都将带你从入门到实践，逐步掌握AI大模型的核心技术。基础知识大模型概述定义：AI大模型是一种拥有海量参数和强大计算能力的神经网络模型，能够处理复杂的数据和任务。应用：广泛应用于自然语言处理、图像识别、生成等领域。学习大模型的意义提升技术能力：掌握大模
SaaS+AI工具推荐：最适合智能化转型的解决方案 saas
不论是传统软件还是SaaS，其核心目标始终如一——帮助企业解决问题、提升效率。然而，随着技术的飞速发展，SaaS正在超越传统模式，尤其是在与AI（人工智能）的深度融合中展现出了强大的潜力。这种“智能化”的转型不仅让企业获得了更具针对性和效率的服务，还让解决问题的方式更加灵活和高效。下面我们将从“更好的解决方案”和“智能化技术应用”两个层面，探讨SaaS在企业问题解决中的新路径。SaaS+AI：智能
第2节课：深度学习基础python代码 Lips611 李哥深度学习 python 深度学习神经网络
目录编译环境：代码：文件：ds_0.py小结：python声明不需要定义，整型和浮点型都是直接给予值，字符串的[-2]代表是列表倒数的某值;同一列表里面可以有各种类型的变量;哈希表的键值对在打印时是调用字典[key]，然后输出对应的value文件：judge_0.py小结：python相对于c语言，是将（）换成空格和“：”，与此同时判断语句if和else的缩进不同对应着不同层次的判定条件，约等于“
深度学习在蛋白质-蛋白质相互作用（PPI）领域的研究进展（2022-2025） AndrewHZ 深度学习人工智能 transformer 算法科技
一、蛋白质-蛋白质相互作用（PPI）的定义与生物学意义蛋白质-蛋白质相互作用（Protein-ProteinInteraction,PPI）是指两个或多个蛋白质通过物理结合形成复合物，进而调控细胞信号传导、代谢、免疫应答等生命活动的过程。PPI是生物体内复杂功能网络的核心，例如酶与底物的结合、抗体与抗原的识别、受体与配体的信号传递等均依赖于此。据估计，人类蛋白质组中约80%的功能通过PPI实现，其
DeepSeek 引领的 AI 范式转变与存储架构的演进星辰@Sea 人工智能其他人工智能
引言在过去的几十年中，人工智能（AI）技术经历了翻天覆地的变化，从最初的符号主义到连接主义，再到现在的深度学习，每一次技术革新都推动了AI能力的显著提升。而在这场变革中，DeepSeek作为一股不可忽视的力量，正在引领AI范式的转变，并深刻影响着存储架构的发展。在这篇博客中，我们将深入探讨DeepSeek如何推动AI范式的转变，以及这种转变对存储架构带来的深远影响。通过分析当前AI技术的发展趋势，
第N11周：seq2seq翻译实战-Pytorch复现计算机真好丸 pytorch 人工智能 python
文章目录一、前期准备1.搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五、总结本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备from__future__importunicode_literals,print_fu
第N5周：Pytorch文本分类入门计算机真好丸 pytorch 分类人工智能
文章目录一、前期准备1.环境安装2.加载数据3.构建词典4.生成数据批次和迭代器二、准备模型1.定义模型2.定义实例三、训练模型1.拆分数据集并运行模型2.使用测试数据集评估模型本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备1.环境安装确保安装了torchtext与portalocker库2.加载数据importtorch#强制使用CPUdevice=torch.devi
第TR5周：Transformer实战：文本分类计算机真好丸 transformer 分类深度学习
文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型3.4定义训练函数3.5定义评估函数4.训练模型4.1模型训练5.总结：本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.准备环境1.1环境安装这是一个使用PyTorch通过Tran
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
DeepSeek进阶开发与应用1：DeepSeek框架概述与基础应用 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 spring 自然语言处理
引言在当今的人工智能领域，深度学习技术已经成为了推动技术进步的核心动力之一。DeepSeek作为一个先进的深度学习框架，旨在为开发者和研究人员提供一个高效、灵活且易于扩展的平台，以便于他们能够快速地实现和部署各种深度学习模型。本文将深入探讨DeepSeek框架的核心架构、基础应用以及如何通过代码实现一个简单的深度学习模型。DeepSeek框架概述DeepSeek框架的设计理念是简洁而强大。它提供了
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

ICASSP 2023 | 解密实时通话中基于 AI 的一些语音增强技术

背景介绍

《基于频带分割循环神经网络的特定说话人增强》

模型框架结构

频带分割循环神经网络（BSRNN）

说话人注意力机制模块 (SAM)

模型训练数据

《融合特定说话人提取与回声消除技术方案》

基于数字信号处理线性回声消除的前处理模块

时延补偿

线性回声消除

基于多级卷积-循环卷积神经网络（CRN）的两阶段模型

第一阶段：基于CRN的轻量级模块

第二阶段：基于pDNS的后处理模块

级联系统训练优化损失函数

模型训练数据

级联优化方案系统效果

模型框架结构

波束权值估计网络

CRED结构

FCAE结构

模型训练数据

《基于两阶段神经网络模型的音质修复系统》

模型框架结构

第一阶段模型：Repairing Net

第二阶段模型：Denoising Net

模型训练数据

音频处理效果

不同信噪回声比场景下的回声消除

不同背景干扰说话人场景下的说话人提取

总结与展望

参考文献

加入我们

你可能感兴趣的:(人工智能,语音识别,计算机视觉,深度学习)