字节跳动技术团队

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

背景介绍

为了应对处理各类复杂音视频通信场景，如多设备、多人、多噪音场景，流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验，使用户听得清、听得真，流媒体音频技术方案融合了传统机器学习和基于AI的语音增强方案，利用深度神经网络技术方案，在语音降噪、回声消除、干扰人声消除和音频编解码等方向，为实时通信中的音频质量保驾护航。

作为语音信号处理研究领域的旗舰国际会议，Interspeech一直代表着声学领域技术最前沿的研究方向，Interspeech 2023 收录了多篇和音频信号语音增强算法相关的文章，其中，火山引擎流媒体音频团队共有 4 篇研究论文被大会接收，论文方向包括语音增强、基于AI编解码 、回声消除、无监督自适应语音增强。

值得一提的是，在无监督自适应语音增强领域，字节跳动与西工大联合团队在今年的CHiME (Computational Hearing in Multisource Environments) 挑战赛子任务无监督域自适应对话语音增强（Unsupervised domain adaptation for conversational speech enhancement, UDASE) 获得了冠军(https://www.chimechallenge.org/current/task2/results)。CHiME挑战赛是由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起的一项重要国际赛事，重点围绕语音研究领域极具挑战的远场语音处理相关任务，今年已举办到第七届。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院等国际著名高校和研究机构，以及清华大学、中国科学院大学、中科院声学所、西工大、科大讯飞等国内顶尖院校和研究所。

本文将介绍这 4 篇论文解决的核心场景问题和技术方案，分享火山引擎流媒体音频团队在语音增强，基于AI编码器，回声消除和无监督自适应语音增强领域的思考与实践。

基于可学习梳状滤波器的轻量级语音谐波增强方法

论文地址：https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html

背景

受限于时延和计算资源，实时音视频通信场景下的语音增强，通常使用基于滤波器组的输入特征。通过梅尔和ERB等滤波器组，原始频谱被压缩至维度更低的子带域。在子带域上，基于深度学习的语音增强模型的输出是子带的语音增益，该增益代表了目标语音能量的占比。然而，由于频谱细节丢失，在压缩的子带域上增强的音频是模糊的，通常需要后处理以增强谐波。RNNoise和PercepNet等使用梳状滤波器增强谐波，但由于基频估计以及梳状滤波增益计算和模型解耦，它们无法被端到端优化；DeepFilterNet使用一个时频域滤波器抑制谐波间噪声，但并没有显式利用语音的基频信息。针对上述问题，团队提出了一种基于可学习梳状滤波器的语音谐波增强方法，该方法融合了基频估计和梳状滤波，且梳状滤波的增益可以被端到端优化。实验显示，该方法可以在和现有方法相当的计算量下实现更好的谐波增强。

模型框架结构

基频估计器（F0 Estimator）

为了降低基频估计难度并使得整个链路可以端到端运行，将待估计的目标基频范围离散化为N个离散基频，并使用分类器估计。添加了1维代表非浊音帧，最终模型输出为N+1维的概率。和CREPE一致，团队使用高斯平滑的特征作为训练目标，并使用Binary Cross Entropy作为损失函数：

可学习梳状滤波器（Learnable Comb Filter）

对上述每一个离散基频，团队均使用类似PercepNet的FIR滤波器进行梳状滤波，其可以表示为一个受调制的脉冲串：

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第1张图片

在训练时使用二维卷积层（Conv2D）同时计算所有离散基频的滤波结果，该二维卷积的权重可以表示为下图矩阵，该矩阵有N+1维，每一维均使用上述滤波器初始化：

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第2张图片

通过目标基频的独热标签和二维卷积的输出相乘得到每一帧基频对应的滤波结果：

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第3张图片

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第4张图片

谐波增强后的音频将和原始音频加权相加，并和子带增益相乘得到最后的输出：

在推断时，每一帧仅需要计算一个基频的滤波结果，因此该方法的计算消耗较低。

模型结构

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第5张图片

团队使用双路卷积循环神经网络（Dual-Path Convolutional Recurrent Network, DPCRN）作为语音增强模型主干，并添加了基频估计器。其中Encoder和Decoder使用深度可分离卷积组成对称结构，Decoder有两个并行支路分别输出子带增益G和加权系数R。基频估计器的输入是DPRNN模块的输出和线性频谱。该模型的计算量约为300 M MACs，其中梳状滤波计算量约为0.53M MACs。

模型训练

在实验中，使用VCTK-DEMAND和DNS4挑战赛数据集进行训练，并使用语音增强和基频估计的损失函数进行多任务学习。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第6张图片

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第7张图片

实验结果

流媒体音频团队将所提出的可学习梳状滤波模型和使用PercepNet的梳状滤波以及DeepFilterNet的滤波算法的模型进行对比，它们分别被称作DPCRN-CF、DPCRN-PN和DPCRN-DF。在VCTK测试集上，本文提出的方法相对现有方法均显示出优势。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第8张图片

同时团队对基频估计和可学习的滤波器进行了消融实验。实验结果显示，相对于使用基于信号处理的基频估计算法和滤波器权重，端到端学习得到的结果更优。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第9张图片

基于Intra-BRNN 和GB-RVQ 的端到端神经网络音频编码器

论文地址：https://www.isca-speech.org/archive/pdfs/interspeech_2023/xu23_interspeech.pdf

背景

近年来，许多神经网络模型被用于低码率语音编码任务，然而一些端到端模型未能充分利用帧内相关信息，且引入的量化器有较大量化误差导致编码后音频质量偏低。为了提高端到端神经网络音频编码器质量，流媒体音频团队提出了一种端到端的神经语音编解码器，即CBRC（Convolutional and Bidirectional Recurrent neural Codec）。CBRC使用1D-CNN（一维卷积）和Intra-BRNN（帧内双向循环神经网络）的交错结构以更有效地利用帧内相关性。此外，团队在CBRC中使用分组和集束搜索策略的残差矢量量化器（Group-wise and Beam-search Residual Vector Quantizer，GB-RVQ）来减少量化噪声。CBRC以20ms帧长编码16kHz音频，没有额外的系统延迟，适用于实时通信场景。实验结果表明，码率为3kbps的 CBRC编码语音质量优于12kbps的Opus。

模型框架结构

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第10张图片

CBRC总体结构

Encoder和Decoder网络结构

Encoder采用4个级联的CBRNBlocks来提取音频特征，每个CBRNBlock由三个提取特征的ResidualUnit和控制下采样率的一维卷积构成。Encoder中特征每经过一次下采样则特征通道数翻倍。在ResidualUnit中由残差卷积模块和残差双向循环网络构成，其中卷积层采用因果卷积，而Intra-BRNN中双向GRU结构只处理20ms帧内音频特征。Decoder网络为Encoder的镜像结构，使用一维转置卷积进行上采样。1D-CNN和Intra-BRNN的交错结构使Encoder和Decoder充分利用20ms音频帧内相关性而不引入额外的延时。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第11张图片

CBRNBlock结构

分组和集束搜索残差矢量量化器 GB-RVQ

CBRC使用残差矢量量化器（Residual Vector Quantizer，RVQ）将编码网络输出特征量化压缩到指定比特率。RVQ以多层矢量量化器（Vector Quantizer，VQ）级联来压缩特征，每层VQ对前一层VQ量化残差进行量化，可显著降低同等比特率下单层VQ的码本参数量。团队在CBRC中提出了两种更优的量化器结构，即分组残差矢量量化器（Group-wise RVQ）和集束搜索残差矢量量化器（Beam-search RVQ）。

分组残差矢量量化器 Group-wise RVQ	集束搜索残差矢量量化器 Beam-search RVQ

Group-wise RVQ将Encoder输出进行分组，同时使用分组的RVQ对分组后特征进行独立量化，随后分组量化输出拼接输入Decoder。Group-wise RVQ以分组量化方式降低了量化器的码本参数量和计算复杂度，同时降低了CBRC端到端训练难度进而提升了CBRC编码音频质量。

团队将Beam-search RVQ引入到神经音频编码器端到端训练中，使用Beam-search算法选择RVQ中量化路径误差最小的码本组合，以降低量化器的量化误差。原RVQ算法在每层VQ量化中选择误差最小的码本为输出，但每层VQ量化最优的码本组合后不一定是全局最优码本组合。团队使用Beam-search RVQ，在每层VQ中以量化路径误差最小准则保留k个最优的量化路径，实现在更大的量化搜索空间中选择更优的码本组合，降低量化误差。


Beam-search RVQ算法简要过程： 1、每层VQ输入前层VQ的个候选量化路径，得到个候选量化路径。 2、从个候选量化路径中选择个量化路径误差最小的个量化路径作为当前VQ层输出。 3、在最后一层VQ中选择量化路径误差最小的路径作为量化器的输出。

模型训练

在实验中，使用LibriTTS数据集中245小时的16kHz语音进行训练，将语音幅度乘以随机增益后输入模型。训练中损失函数由频谱重建多尺度损失，判别器对抗损失和特征损失，VQ量化损失和感知损失构成。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第15张图片

实验结果

主客观得分

为了评估CBRC编码语音质量，构建了10条多语种音频对比集，在该对比集上与其他音频编解码器进行了对比。为了降低计算复杂的影响，团队设计了轻量化的CBRC-lite，其计算复杂度略高于Lyra-V2。由主观听感比较结果可知，CBRC在3kbps上语音质量超过了12kbps的Opus，同样超过了3.2kbps的Lyra-V2，这表明所提出方法的有效性。https://bytedance.feishu.cn/docx/OqtjdQNhZoAbNoxMuntcErcInmb中提供了CBRC编码后音频样音。

客观分	主观听感得分

消融实验

团队设计了针对Intra-BRNN、Group-wise RVQ 和 Beam-search RVQ的消融实验。实验结果表明在Encoder和Decoder使用Intra-BRNN均可明显提升语音质量。此外，团队统计了RVQ中码本使用频次并计算熵解码以对比不同网络结构下码本使用率。相比于全卷积结构，使用Intra-BRNN的CBRC将潜在编码比特率从4.94kbps提升到5.13kbps。同样，在 CBRC中使用Group-wise RVQ 和 Beam-search RVQ均能显著提升编码语音质量，且相比于神经网络本身的计算复杂度， GB-RVQ带来的复杂度增加几乎可忽略。

样音

原始音频

CBRC 3kbps

CBRC-lite 3kbps

基于两阶段渐进式神经网络的回声消除方法

论文地址：https://www.isca-speech.org/archive/pdfs/interspeech_2023/chen23e_interspeech.pdf

背景

在免提通信系统中，声学回声是令人烦恼的背景干扰。当远端信号从扬声器播放出来，然后由近端麦克风记录时，就会出现回声。回声消除 (AEC) 旨在抑制麦克风拾取的不需要的回声。在现实世界中，有很多非常需要消除回声的应用，例如实时通信、智能教室、车载免提系统等等。

最近，采用深度学习 (DL) 方法的数据驱动 AEC 模型已被证明更加稳健和强大。这些方法将 AEC 表述为一个监督学习问题，其中输入信号和近端目标信号之间的映射函数通过深度神经网络 (DNN) 进行学习。然而，真实的回声路径极其复杂，这对 DNN 的建模能力提出了更高的要求。为了减轻网络的建模负担，大多数现有的基于 DL 的 AEC 方法采用一个前置的线性回声消除（LAEC）模块来抑制大部分回声的线性分量。但是，LAEC 模块有两个缺点：1）不合适的 LAEC 可能会导致近端语音的一些失真，以及 2）LAEC 收敛过程使线性回声抑制性能不稳定。由于 LAEC 是自优化的，因此 LAEC 的缺点会给后续的神经网络带来额外的学习负担。

为了避免 LAEC 的影响并保持更好的近端语音质量，本文探索了一种新的基于端到端 DL 的两阶段处理模式，并提出了一种由粗粒度 (coarse-stage) 和细粒度 (fine-stage) 组成的两阶段级联神经网络(TSPNN) 用于回声消除任务。大量的实验结果表明，所提出的两阶段回声消除方法能够达到优于其他主流方法的性能。

模型框架结构

如下图所示，TSPNN 主要由三个部分组成：时延补偿模块 (TDC)、粗粒度处理模块 (coarse-stage) 和细粒度处理模块 (fine-stage)。TDC 负责对输入的远端参考信号 (ref) 和近端麦克风信号 (mic) 进行对齐，有利于后续模型收敛。coarse-stage 负责将大部分的回声 (echo) 和噪声 (noise) 从 mic 中去除，极大减轻后续 fine-stage 阶段模型学习负担。同时，coarse-stage 结合了语音活跃度检测 (VAD) 任务进行多任务学习，强化模型对近端语音的感知能力，减轻对近端语音的损伤。fine-stage 负责进一步消除残余回声和噪声，并结合邻居频点信息来较好地重构出近端目标信号。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第20张图片

为了避免独立优化每个阶段的模型而导致的次优解，本文采用级联优化的形式来同时优化 coarse-stage 和 fine-stage，同时松弛对 coarse-stage 的约束，避免对近端语音造成损伤。此外，为了让模型能够具有感知近端语音的能力，本发明引入了 VAD 任务进行多任务学习，在损失函数中加入 VAD 的 Loss。最终损失函数为：

其中分别表示目标近端信号复数谱、coarse-stage 和 fine-stage 估计的近端信号复数谱；分别表示coarse-stage估计的近端语音活跃状态、近端语音活跃检测标签；为一个控制标量，主要用于调节训练阶段对不同阶段的关注程度。本发明限制来松弛对 coarse-stage 的约束，有效避免 coarse-stage 对近端的损伤。

实验结果

实验数据

火山引擎流媒体音频团队所提两阶段回声消除系统还与其他方法做了比较，实验结果表明，所提能够达到优于其他主流方法的效果。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第21张图片

具体例子

实验结果 Github 链接：https://github.com/enhancer12/TSPNN
双讲场景效果表现：

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第22张图片

CHiME-7 无监督域自适应语音增强（UDASE）挑战赛冠军方案

论文地址:https://www.chimechallenge.org/current/task2/documents/Zhang_NB.pdf

背景：

近年来，随着神经网络和数据驱动的深度学习技术的发展，语音增强技术的研究逐渐转向基于深度学习的方法，越来越多基于深度神经网络的语音增强模型被提出。然而这些模型大多基于有监督学习，都需要大量的配对数据进行训练。然而在实际场景中，无法同时收录到嘈杂场景的语音和与之配对的不受干扰的干净语音标签，通常采用数据仿真的形式，单独采集干净语音与各种各样的噪声，将其按照一定信噪比混合得到带噪音频。这导致了训练场景与实际应用场景的不匹配，模型性能在实际应用中有所下降。

为了更好的解决以上域不匹配问题，利用真实场景中大量无标签数据，无监督、自监督语音增强技术被提出。CHiME挑战赛赛道2旨在利用未标记的数据来克服在人工生成的标记数据上训练的语音增强模型因训练数据与实际应用场景的不匹配导致的性能下降问题，研究的重点在于如何借助目标域的无标签数据和集外的有标签数据来提升目标域的增强结果。

模型框架结构：

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第23张图片

无监督域自适应语音增强系统流程图

如上图所示，所提框架是一个教师学生网络。首先在域内数据上使用语音活动检测、UNA-GAN、仿真房间冲击响应、动态加噪等技术生成最接近目标域的有标签数据集，在该域外有标签数据集上预训练教师降噪网络Uformer+。接着在域内无标签数据上借助该框架更新学生网络，即利用预训练的教师网络从带噪音频中估计干净语音和噪声作为伪标签，将他们打乱顺序重新混合作为学生网络输入的训练数据，利用伪标签有监督的训练学生网络。使用预训练的MetricGAN判别器估计学生网络生成的干净语音质量评分，并与最高分计算损失，以指导学生网络生成更高质量的干净音频。每训练一定步长后以一定权重将学生网络的参数更新到教师网络中，以获取更高质量的监督学习伪标签，如此重复。

Ufomer+网络

Uformer+是在Uformer网络基础上加入MetricGAN改进得到的。Uformer是一个基于 Unet 结构的复数实数双路径conformer网络，它具有两条并行的分支，幅度谱分支和复数谱分支，网络结构如下图所示。幅度分支用于进行主要的噪声抑制功能，能够有效抑制大部分噪声。复数分支作为辅助，用于补偿语谱细节和相位偏差等损失。MetricGAN的主要思想是使用神经网络模拟不可微的语音质量评价指标，使其可以被用于网络训练中，以减少训练和实际应用时评价指标不一致带来的误差。这里团队使用感知语音质量评价（PESQ）作为MetricGAN网络估计的目标。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第24张图片

Uformer网络结构图

RemixIT-G框架

RemixIT-G是一个教师学生网络，首先在域外有标签数据上预训练教师Uformer+模型，使用该预训练教师模型解码域内带噪音频，估计噪声和语音。接下来在同一批次内打乱估计的噪声和语音的顺序，重新将噪声和语音按打乱后的顺序混合成为带噪音频，作为训练学生网络的输入。由教师网络估计的噪声和语音作为伪标签。学生网络解码重混合的带噪音频，估计噪声和语音，与伪标签计算损失，更新学生网络参数。学生网络估计的语音被送入预训练的MetricGAN判别器中预测PESQ，并与PESQ最大值计算损失，更新学生网络参数。

所有训练数据完成一轮迭代后根据如下公式更新教师网络的参数：，其中为训练第K轮教师网络的参数，为第K轮学生网络的参数。即将学生网络的参数以一定权重与教师网络相加。

数据扩充方法 UNA-GAN

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第25张图片

UNA-GAN结构图

无监督噪声自适应数据扩充网络UNA-GAN是一种基于生成对抗网络的带噪音频生成模型。其目的是在无法获取独立的噪声数据的情况下，只使用域内带噪音频，直接将干净语音转化为带有域内噪声的带噪音频。生成器输入干净语音，输出仿真的带噪音频。判别器输入生成的带噪音频或真实的域内带噪音频，判断输入的音频来自真实场景还是仿真生成。判别器主要根据背景噪声的分布来区分来源，在这个过程中，人类语音被视为无效信息。通过执行以上对抗训练的过程，生成器试图将域内噪声直接添加在输入的干净音频上，以迷惑判别器；判别器试图尽力区分带噪音频的来源。为了避免生成器添加过多噪声，覆盖掉输入音频中的人类语音，使用了对比学习。在生成的带噪音频、和输入的干净语音对应位置采样256个块。相同位置的块的配对被视为正样例，不同位置的块的配对被视为负样例。使用正负样例计算交叉熵损失。

实验结果

结果表明所提出的Uformer+相比基线Sudo rm-rf具有更强的性能，数据扩充方法UNA-GAN也具有生成域内带噪音频的能力。域适应框架RemixIT基线在SI-SDR上取得了较大提升，但在DNS-MOS上指标较差。团队提出的改进RemixIT-G同时在两个指标上都取得了有效提升，并在竞赛盲测集上取得了最高的主观测听MOS打分。最终测听结果如下图所示。

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码_第26张图片

总结与展望

上述介绍了火山引擎流媒体音频团队基于深度学习在特定说话人降噪，AI编码器，回声消除和无监督自适应语音增强方向做出的一些方案及效果，未来场景依然面临着多个方向的挑战，如怎么样在各类终端上部署运行轻量低复杂度模型及多设备效果鲁棒性，这些挑战点也将会是流媒体音频团队后续重点的研究方向。

加入我们

火山引擎流媒体团队，致力于提供全球互联网范围内高质量、低延时的实时音视频通信能力，帮助开发者快速构建语音通话、视频通话、互动直播、转推直播等丰富场景功能，目前已覆盖互娱、教育、会议、游戏、汽车、金融、IoT 等丰富实时音视频互动场景，服务数亿用户。

音频开发工程师和音频资深算法工程师热招中，欢迎同学们加入！

扫描二维码 or 点击阅读原文了解更多职位信息~

Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
InnoDB引擎行存储结构
InnoDB引擎行存储结构文章目录InnoDB引擎行存储结构1.存储引擎2.InnoDB页的概念3.InnoDB行格式3.1指定行格式3.2COMPACT格式3.3REDUNDANT行格式3.4溢出列3.5DYNAMIC行格式和COMPRESSED行格式1.存储引擎[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7BY5kOU-1643188470321)(C:\U
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
树莓派 —— 在树莓派4b板卡下编译FFmpeg源码，支持硬件编解码器（mmal或openMax硬编解码加速）信必诺 FFmpeg 树莓派 FFmpeg 编译源码 mmal openMax 树莓派树莓派4b
FFmpeg相关音视频技术、疑难杂症文章合集（掌握后可自封大侠⓿_⓿）（记得收藏，持续更新中…）正文 1、准备工作（1）树莓派烧录RaspberryPi系统（2）树莓派配置固定IP（文末）（3）xshell连接树莓派（4）
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
NodeJS VM2沙箱逃逸漏洞分析【CVE-2023-29199】 R3s3arcm NodeJS漏洞分析 node.js 安全安全威胁分析
NodeJSVM2沙箱逃逸漏洞分析【CVE-2023-29199】简介Node.js是一个基于V8引擎的开源、跨平台的JavaScript运行环境，它可以在多个操作系统上运行，包括Windows、macOS和Linux等。Node.js提供了一个运行在服务器端的JavaScript环境，使得开发者可以编写并发的、高效的服务器端应用程序。Node.js使用事件驱动、非阻塞I/O模型来支持并发运行。它
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
在ARM46+KylinOS下安装配置Docker的详细步骤 Q_Daniooi docker 容器运维
目录一、安装前准备（一）环境检查（二）依赖准备二、Docker安装步骤（一）添加Docker官方源（以Debian分支银河麒麟为例，RPM系类似调整）（二）安装Docker引擎（三）启动与基础配置三、Docker优化配置（可选但推荐）（一）镜像加速（二）存储驱动优化四、注意事项（一）系统兼容性（二）网络与镜像源（三）权限与安全（四）ARM架构特殊点五、经常遇见的问题及解决方法六、学习经验分享一、前
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

背景介绍

基于可学习梳状滤波器的轻量级语音谐波增强方法

背景

模型框架结构

基频估计器（F0 Estimator）

可学习梳状滤波器（Learnable Comb Filter）

模型结构

模型训练

实验结果

基于Intra-BRNN 和GB-RVQ 的端到端神经网络音频编码器

背景

模型框架结构

Encoder和Decoder网络结构

分组和集束搜索残差矢量量化器 GB-RVQ

模型训练

实验结果

主客观得分

消融实验

样音

基于两阶段渐进式神经网络的回声消除方法

背景

模型框架结构

实验结果

实验数据

具体例子

CHiME-7 无监督域自适应语音增强（UDASE）挑战赛冠军方案

背景：

模型框架结构：

Ufomer+网络

RemixIT-G框架

数据扩充方法 UNA-GAN

实验结果

总结与展望

加入我们

你可能感兴趣的:(火山引擎,音视频,人工智能)