Aidanmomo

Wavesplit: End-to-End Speech Separation by Speaker Clustering

0. Abstract

本文提出了一种端到端声源分离系统，Wavesplit。从混合语音中，模型推断每个声源的表示，然后根据每个声源的特征表示进一步估计声源，该模型经过训练，可以从原始波形中联合执行这两项任务。Wavesplit通过聚类推断一组声源的特征表示，其解决了声源分离的基本排列问题。在语音分离任务中，本文工作对长语音序列具有更加稳健的分离性能。本文模型在2人/3人纯净语音(WSJ0-2/3mix)，以及带噪语音、混响语音数据集都获得STOA性能。

1. Introduction

设计的模型能够保持真实声源和预测声源之间的一致性分配，对局具有相似声源的任务至关重要（解决排列置换问题）。

本文工作旨在从混合信号中分离出具有相同性质的源（声源）。本文工作除了用于解决语音分离问题，还可应用于分离胎儿和母体心率。本文提出的Wavesplit用于解决说话人无关的语音分离问题，测试集中的声源未在训练时出现。具体来说，我们用于说话人识别和语音分离的联合训练程序不同于先前的研究。训练目标期望能够识别瞬时说话人的特征表示，以便(i) 这些表示可以分组到单个说话人集群中，并且 (ii) 集群质心为重建单个源提供长期说话人表示（long-term speaker representation）。对于每个声源的显式、长期表示的提取是一项新工作，其有利于语音和非语音的分离，这种表示限制了真实声源和预测声源之间不一致的问题。

本文贡献：

（1）实现说话人无关训练。
（2）aggregate information about sources over the whole input mixture which limits channel-swap.
（3）本文使用聚类获得输出集合的声源表示（与顺序无关的预测）
（4）在多个语音分离任务中获得STOA性能。for clean（WSJ0-2/3mix, Libri2/3mix clean） and noisy settings (WHAM and WHAMR, Libri2/3mix noisy)
（5）分析了方法的经验优势和缺点
（6）本文模型具有一定的通用性，也可应用到母体和胎儿的心率分离工作中。

2. Related work

2.1 Deep clustering approaches

这些方法设计了一种用于掩蔽的聚类模型：模型学习每个时频点的潜在特征表示，使得来自同一声源的时频点之间的距离低于来自不同声源的时频点之间的距离。然后通过聚类将这些特征表示聚类到组时频点。Deep Attractor Network 采用了类似的思路，并为每个源学习潜在吸引子特征表示，以便为每个时频点分配一个接近其源吸引子的表示【22，23】。论文【24】通过引入k-means的可微展开版本在训练时执行聚类。Wavesplit同样依赖于聚类来推断源的特征表示，但是这些特征表示不依赖频率点，且不执行掩码。该表示的作用为：
（1）预测训练说话者的身份
（2）为本文的分离卷积网络提供条件变量

[23] Y. Luo, Z. Chen, and N. Mesgarani, “Speaker-independent speech separation with deep attractor network,” IEEE/ACMTrans. Audio, Speech Lang. Process., vol. 26, no. 4, pp. 787–796, Apr. 2018.
[24] J. R. Hershey, J. L. Roux, S. Watanabe, S. Wisdom, Z. Chen, and Y. Isik, “Novel deep architectures in speech processing,” New Era Robust SpeechRecognition, ExploitingDeep Learn., 2017, pp. 135–164. [Online]. Available: https://doi.org/10.1007/978-3-319-64680-0_6

2.2 Permutation-Invariant Training

置换不变训练方法不需要聚类，而是直接预测多个掩码。通过搜索声源的不同排列，将预测与真实掩码进行比较，所有排列中，误差最小的一种用于模型训练。Wavesplit与PIT方法一样，在时域上对信号进行处理，但是本文方法在信号估计之前解决了标签置换问题：训练时，在调节分离网络之前对潜在声源的特征表示进行排序，从而与标签最佳匹配。

2.3 Discriminative speaker representations

论文【14】从纯净语音序列中提取目标说话人的特征表示，然后从混合语音中分离出该说话人。很多已有工作都是用于处理说话人相关的语音分离任务，wavesplit在训练中不需使用测试集中出现的说话人语音，即可实现语音分离。

2.4 Speaker separation in constrained settings

分离方法可能用于解决在线分离问题，这对于基于聚类的方法存在挑战性（效率限制因素）。此外，嘈杂环境中的语音分离同样是一个重要的应用领域。本文方法对于带噪以及混响环境数据集，实现了STOA性能。

2.5 Separation of fetal and maternal heart rates

3. Wavesplit

Wavesplit 包含两个卷积子网络：speaker stack 和 separation stack。speaker stack将混合语音映射到一组用于表示说话人的向量。后者处理混合语音以及speaker stack输出的说话人表示集合，进而产生分离语音。

后者是一种常用模型，类似于基于预训练的说话人向量【14】，或使用PIT训练的架构【11】。本文贡献的核心是speaker stack，该部分与后者进行联合训练。训练时，说话人标签用于学习每个说话人的向量表示，使得不同说话人之间的距离很大，而说话人内的距离很小。同时，这种特征表示还用于separation stack部分重建纯净信号。在测试阶段，speaker stack依赖于聚类来识别每个说话人的质心的表示。

3.1 Problem setting & notations

单声道语音的信号用向量 $y^i \in \chi^{1, T}$ 表示，其中 $\in [1, N]$ ，表示声源索引，T表示序列长度。混合语音信号用 $\sum_{i=1}^{N}y^i$ 。

分离模型 $f$ 预测每个源的估计值，将其与参考值 $\{y^i\}^N_{i=1}$ 进行比较来评估质量：

其中q表示质量评价指标， $S_N$ 表示[1, N]上的排列空间。因为源的顺序是随机的，因此上式取所有排列的最大值。这里采用SDR（Signal-to-Distortion Ratio）作为评测指标。SDR定义式如下所示：
$SDR(\hat{y}, y)=-10log_{10}(||y-\hat{y}||^2)+10log_{10}(||y||^2)$

3.2 Model Architecture

Wavesplit是具有两个子网络（或堆栈）的残差卷积网络。第一个子网络将混合语音信号转化为每个说话人的特征表示，第二个子网络将混合输入信号转换为多个以说话者特征表示为条件的独立语音信号。

3.2.1 Speaker stack

该部分网络在每个时间步生成说话人的特征表示，然后对整个序列进行聚合。该子网络首先将输入信号 $x=x^T_{t=1}$ 映射到N个相同长度的维度为d的向量序列，例如：

其中N表示说话人数量，d是通过交叉验证选择的超参数。h为每个说话人在每个时间步生成一个特征表示，这里h不需要在序列中对说话人进行排序，例如，一个给定的说话人在时刻t可能用第一个向量 $h^1_t$ 表示，而在时刻 $t^{'}$ 用第二个向量 $h^2_{t'}$ 表示。序列结束时，聚合步骤按说话者对所有向量进行分组，并为整个序列输出N个汇总向量。使用K-means聚类处理这些聚合向量，并返回N个聚类的中心：

**训练期间，不使用聚类。**说话人中心是通过说话人身份对说话人向量进行分组得出的，其依赖于Section III-C中描述的说话人训练目标。

3.2.2 Separation stack

该子网络将混合信号x和说话人中心c映射到一个N通道信号 $\hat{y}$ ：

两个子网络使用残差卷积架构实现，每个残差块由一个扩张卷积dconv，一个非线性层nl和层归一化lnorm组成：

nl层使用参数化整流线性单元(PReLU, parametric rectified linear units)实现。第一部分子网络的最后一层使用Euclidean normalization处理说话人向量。

第二个子网络的残差块由依赖于（FiLM, Feature-wise Linear Modulation）的说话人中心进行调节。

其中 $a = l i n (c), b = l i n^{'} (c)$ 表示c的不同线性映射。

3.3 Model training objective

模型训练有两个目标：
（1）学习说话人向量，这些向量可以通过说话人身份聚类成不同的簇。
（2）优化从聚合的说话人向量中重建分离信号

Wavesplit假设训练数据使用有限的M个说话者身份进行注释，在测试时不需要对说话者进行注释。说话者身份信息在很多数据集中进行了标注，Wavesplit利用这些信息来构建每个声源的内部模型，并改善long-term separation。

speaker vector objective旨在让第一个子网络的输出实现同一说话人的距离尽量小，不同说话人的距离尽量大的目标。说话人损失函数定义如下，其有利于在每个时间步t正确识别说话人：

其中 $l_{speaker}$ 在向量 $R^d$ 和说话人身份[1, M]之间定义了一个损失函数。取最小值的操作针对不同的排列组合情况，每个时间步的最佳排列用于按照与训练标签一致的顺序对说话人向量进行重新排序。这种方式在训练时对源自同一说话人的说话人向量进行平均，与k-means聚类相比，这种优化方式更加简单。每个时间步的这种排列与PIT不同：模型不需要在输出源上选择单个排序，因为最终在说话人向量级别的源交换将通过k-means进行校正。此外，第二个子网络是从相同标签的不同排列中训练出来的。

本文为 $l_{speaker}$ 探索了三种替代方案，每种方案在训练说话人上都维护了一个embedding 表 $\in R^{M \times d}$ 。第一种， $l_{speaker}^{dist}$ 是一种距离目标，该损失函数将让相同说话人的向量或对应嵌入向量的距离尽量小，同时令不同说话人的向量距离大于边界值1。

第二种， $L_{speaker}^{local}$ 是一种局部分类器目标，用于区分序列中存在的说话者，其依赖于说话人向量和嵌入向量之间距离的log softmax。

其中：

表示用学习的标量 $\alpha > 0和 \beta$ 重新调整的平方欧几里得距离。

第三种，全局分类器目标 $l_{speaker}^{global}$ 与第二种类似，区别在于分配函数是在训练中所有说话人上计算的。

第一部分子网络使用 $L_{speaker}$ 损失函数进行训练更新。

第二部分子网络使用reconstruction objective进行优化更新，定义如下：

与PIT方法相比，该表达式不需要对置换空间进行搜索，因为质心c与标签的顺序一致。对于 $l_{reconstr}$ ，我们使用带有剪枝 $\tau$ 的负SDR来限制最佳训练预测的影响。

我们在第二个子网络的每一层计算 $L_{reconstr}$ ，取所有层计算值的平均作为重构损失。

本文考虑使用不同形式的正则化来提高对新说话人的泛化能力。训练阶段，为每个说话人质心添加高斯噪声，用零替换full centroids（speaker dropout）,此外，用来自同一batch的其它质心的线性组合来替换一些质心（speaker mixup）。无论序列中有多少说话人，speaker dropout操作最多删除一个质心。此外，我们支持使用熵正则化的well separated embeddings for training speakers：

3.4 Training Algorithm

模型的损失函数为 $L_{speaker}和L_{reconstr}$ 的加权和，利用Adam对模型进行优化训练。

3.5 Data augmentation with dynamic mixing

采用类似论文【63，64】中的数据增强方法对训练集进行增强，在生成训练集时，采用随机窗口对训练集数据进行采样，并通过随机增益对不同的采样进行求和的方法获得新的训练集样本。

[63] S. Uhlich et al., “Improving music source separation based on deep neural networks through data augmentation and network blending,” in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2017, pp. 261–265.
[64] A. Défossez, N. Usunier, L. Bottou, and F. Bach, “Demucs: Deep extractor for music sources with extra unlabeled data remixed,” 2019, arXiv:1909.01174.

4. Experiments & Results

本文大多数实验都是根据论文【10】中介绍的LDC WSJ-0数据集构建的说话人分离数据集。采样率8kHz，包含2个或者3个说话人。

此外，我们依据WHAM！和WHAMR！分别构建带噪环境数据集和带噪以及混响环境数据集。本文还在不同的损失函数，不同的网络架构下进行了实验，分析了对整体性能有较大负面影响的小部分序列。本文还在最近发布的LibriMix数据集上进行了实验，采样率与之前相同。

本文的评价指标为SDR 和 SI-SDR。

4.1 Hyperparameter Selection

两个子网络的特征维度均为512，扩张卷积的内核大小为3，步长为1，所有层都保留了输入信号的时间分辨率，并且在输出端不需要进行上采样。膨胀系数随着网络深度进行改变，speaker子网络网络深度为14层，因此膨胀系数从 $2^0到2^{13}$ 。separation子网络深度为40层，膨胀系数为 $\delta_l=2^{l mod 10}$ 。

训练过程中，学习率为1e-3，speaker 损失权重为2。对于正则化，距离正则化权重为0.3，高斯噪声的标准差为0.2，speaker dropout rate为0.4，speaker mixup rate为0.5。负SDR损失中的 $\tau$ 对于纯净语音设置为30，带噪数据设置为27。对于 $L_{speaker}$ ，选用全局分类器效果最好。

4.2 Clean setting

对于WSJ0-2mix，表3分析了误差分布情况

4.3 Noisy and Reverberated settings

4.4 Large scale experiments on Librimix

4.6 消融实验

基准模型：无动态混合数据增强，使用全局分类器损失（公式4）

BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
pytorch安装(windows) m0_62244898 windows 人工智能
（1）下载pycharmPyCharm:thePythonIDEforProfessionalDevelopersbyJetBrains(2)下载anacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform(3)创建一个新环境：torchcondacreate-ntorch-y(4)进入新环境condaactivatetorch(5)加入清华源
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
解决ModuleNotFoundError: No module named ‘torch的方法梅菊林各种问题解决方案开发语言
ModuleNotFoundError:Nomodulenamed‘torch’错误是Python在尝试导入名为torch的模块时找不到该模块而抛出的异常。torch是PyTorch深度学习框架的核心库，如果你的Python环境中没有安装这个库，尝试导入时就会遇到这个错误。文章目录报错问题报错原因解决方法报错问题当你尝试在Python脚本或交互式环境中执行以下命令时：importtorch如果Py
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
Python中item()和items()的用处 ~|Bernard| 深度学习疑点总结 python pytorch 深度学习
item()区别一:在pytorch训练时，一般用到.item()。比如loss.item()。我们可以做个简单测试代码看看它的区别:importtorchx=torch.randn(2,2)print(x)print(x[1,1])print(x[1,1].item())运行结果:tensor([[-2.0743,0.1675],[0.7016,-0.6779]])tensor(-0.6779)
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
QLoRa使用教程云帆@ 训练 peft 人工智能
一、定义定义案例1二、实现定义QLoRa:量化+LoRa.网址：https://huggingface.co/docs/peft/main/en/developer_guides/quantization案例11.4bit量化+LoRaimporttorchfromtransformersimportBitsAndBytesConfigconfig=BitsAndBytesConfig(load_
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name