vits 第3页

so-vits-svc4.0 中文详细安装、训练、推理使用教程【克隆声音】

文章目录项目环境准备在这里插入图片描述[pytorch的各种版本](https://pytorch.org/get-started/previous-versions/)![在这里插入图片描述](https://img-blog.csdnimg.cn/58930fe66bb64b73b5a7d54490eb68b3.png#pic_center)验证是否安装成功![在这里插入图片描述](https

think_张大彪·2023-06-07 14:57

so-vits-svc环境安装和AI训练

So-VITS-SVC4.0新版整合包使用教程So-VITS-SVC项目一直都有在更新，B站视频（指4月26日换源前的视频）里的版本已经比较落后了，并且原版整合包因为做的匆忙，有很多地方做得比较粗糙，所以痛定思痛重写了一个新的真

c2a2o2·2023-06-07 14:52

so-vits-svc4.0 中文详细安装、训练、推理使用教程

SO-VITS-SVC4.0详细安装、训练、推理使用步骤本帮助文档为项目so-vits-svc4.0的详细中文安装、调试、推理教程，您也可以直接选择官方README文档撰写：Sucial点击跳转B站主页写在开头

Sucial·2023-06-07 14:43

变换器鲁棒性-2：On the Adversarial Robustness of Vision Transformers

在各种白盒和迁移攻击设置下进行测试，我们发现ViTs与卷积神经网络（CNN）相比具有更好的对抗鲁棒性。这一观察结果也适用于certifiedrobustnes

Vinteuil·2023-04-19 08:58

改进YOLO系列 | YOLOv5 更换骨干网络之 ConvNeXt

arxiv.org/pdf/2201.03545.pdf代码地址：https://github.com/facebookresearch/ConvNeXt视觉识别的“Roaring20年代”始于视觉变换器（ViTs

迪菲赫尔曼·2023-04-18 08:25

手把手教你声音克隆（so-vits-svc）

小半-AI合成视频里所使用的技术是so-vits-svc，是音频

Yunlord·2023-04-13 15:19

YoloV8改进策略：Conv2Former与YoloV8深度融合，极简网络，极高性能

卷积神经网络2.2、VisionTransformers2.3、其他方法3、模型设计3.1、架构3.2、卷积调制块3.3、Micro设计4、实验4.1实验设置4.2、与其他方法的比较4.3、方法分析4.4、ViTs

AI浩·2023-04-12 22:18

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning（TubeViT论文翻译）

RethinkingVideoViTs:SparseVideoTubesforJointImageandVideoLearningAJPiergiovanniWeichengKuoAneliaAngelova论文链接Abstract我们提出了一个将ViT编码器变成一个有效的视频模型的方法，它可以无缝地处理图像和视频输入。通过对输入进行稀疏采样，该模型能够从图像和视频输入中进行训练和推理。该模型易于

v1dv1dv1d·2023-04-06 19:37

自用教程-VITS语音在线合成-本地部署

文章目录**第1步：从huggingface把代码下载到本地****第2步：下载安装MicrosoftC++生成工具**下载地址：https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/**第3步：打开命令提示符****第4步：升级pip至最新版本（我的版本23.0.1）****第5步：安装requirements.txt

影风2712·2023-04-01 16:57

中文语音合成开源模型总结

近段时间一直忙于语音开源克隆模型的尝试，现总结如下:MockingBird:特点是克隆的声音音色比较像，缺点也很明显，速度慢，5秒左右，可以优化到0.4-1.2秒左右，MOS值偏低；Vits：特点是目前公开

wxl781227·2023-04-01 16:56

如何用vits训练模型

要用VitisAI训练模型，需要以下步骤：准备数据集：需要一个训练数据集和一个验证数据集。选择模型：可以选择预训练模型或自定义模型。配置训练环境：需要安装VitisAI，并配置好CUDA和cuDNN。定义训练任务：需要定义损失函数、优化器和评估指标。训练模型：可以使用VitisAI的训练工具进行训练。评估模型：可以使用VitisAI的评估工具对模型进行评估，并确定是否需要进一步调整参数。保存模型：

美丽回忆一瞬间·2023-04-01 16:12

原神语音本地搭建教程文字、语音转语音

搭建教程GitHub-Stardust-minus/vits:VITS:ConditionalVariationalAutoencoderwithAdversarialLearningforEnd-to-EndText-to-Speech

O丶ne丨柒夜·2023-04-01 15:43

基于VITS 快速微调的本地环境配置、本地训练以及本地推理的教程

该教程能教会读者如何使用本地服务器使用VITS微调训练自己的想要的角色的声音并且本地推理，注意只能使用linux版本进行训练，但是推理可以在windows上完成。

cf2xh123·2023-04-01 15:01

so-vits-svc3.0 中文详细安装、训练、推理使用教程

SO-VITS-SVC3.0详细安装、训练、推理使用步骤2023-3-12文档更新说明：由于特殊原因，本项目文档将停止更新，详情请见原作者首页，感谢各位的支持！

Sucial·2023-04-01 15:41

[NAS2](2022CVPR)TF-NAS: Training Free Transformer Architecture Search

先贴一张流程图：Abstract研究背景：ViT已经在几个计算机视觉任务实现了很好的效果，其成就和架构设计高度相关，因此很值得提出TransformerArchitectureSearch(TAS)自动搜索更好的ViTs

Eavan努力努力再努力·2023-03-28 07:09

有可能代替Transformer吗？Image as Set of Points 论文阅读笔记

ImageasSetofPoints论文阅读笔记一、Abstract二、引言三、相关工作图像处理中的聚类ConvNet\&ViTs最近的进展四、方法4.1上下文聚类流程从图像到点集采用图像点集的特征提取特定任务上的应用

乄洛尘·2023-03-22 11:52

【自监督论文阅读笔记】Emerging Properties in Self-Supervised Vision Transformers

除了使自监督方法适应这种架构的效果特别好之外，我们还进行了以下观察：首先，自监督的ViT特征包含关于图像语义分割的显式信息，这在有监督的ViTs和卷积网络中都没有那么明显。

YoooooL_·2023-03-09 10:52

微软提出 TinyMIM，首次用掩码预训练改进小型 ViT

出品人：Towhee技术团队顾梦佳掩码图像建模（MIM）在预训练的大型视觉Transformer（ViTs）中表现强劲，然而实际生产中更实用的小模型却依然受益不显。

·2023-02-02 18:01

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

MOBILE-FRIENDLYVISIONTRANS-FORMERWITHSIMPLEANDEFFECTIVEFUSIONOFLOCAL,GLOBAL(一)、引言(二)、实现细节(三)、模型构建块(四)、实验(一)、分类(二)、与vits

小小小~·2023-02-02 13:48

VITS论文阅读

论文链接：ConditionalVariationalAutoencoderwithAdversarialLearningforEnd-to-EndText-to-Speech文章目录摘要简介方法VariationalInference概述重建损失KL散度AlignmentEstimation单调对齐搜索/MONOTONICALIGNMENTSEARCH基于文本的持续时间预测对抗训练最后的损失模型

zzfive·2023-01-15 07:11

计算机视觉论文速递（一）SepViT：Separable Vision Transformer 可分离视觉Transformer

计算机视觉论文速递（一）SepViT：SeparableVisionTransformer可分离视觉Transformer1.摘要2.简介3.相关工作3.1ViTs3.2轻量化模型4.SepViT4.1

Jasper0420·2022-12-25 18:22

#今日论文推荐# Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

wwwsxn·2022-12-16 08:34

论文笔记《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》

Abstract由于复杂的注意机制和模型设计，现有的大多数视觉变形器(ViTs)在现实工业部署场景中无法像卷积神经网络(CNNs)那样高效，如TensorRT和CoreML。

MarvinP·2022-12-16 08:30

论文阅读-主干网络(2022)-ConvNext:下一代卷积网络

ConvNext论文：AConvNetforthe2020s地址：https://paperswithcode.com/paper/a-convnet-for-the-2020s论文阅读 ConvNext指出虽然ViTs

不会算命的赵半仙·2022-12-15 21:37

AdaVITS—基于VITS的小型化说话人自适应模型

当前主流的实现小样本音色克隆的可靠方式是说话人自适应(speakeradaption)技术，该技术通常通过在预训练的多说话人文语转换(TTS)模型上使用少量的目标说话人数据进行微调而获得目标说话人的TTS模型。在这一任务上已经有很多相关工作，然而很多时候说话人自适应模型需要运行在手机等资源有限的设备上，需要轻量化的方案。近期，由西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯CSIG合作的

语音之家·2022-12-02 16:49

vits复现gituhb项目--数据处理

在完成VITS论文学习后，对github上的官方仓库进行学习，帮助理解算法实现过程中的一些细节；仓库代码基于pytorch实现，链接为https://github.com/jaywalnut310/vits

zzfive·2022-12-02 14:16

Positional Encodings in ViTs 近期各视觉Transformer中的位置编码方法总结及代码解析 1

PositionalEncodingsinViTs近期各视觉Transformer中的位置编码方法总结及代码解析最近CV领域的VisionTransformer将在NLP领域的Transormer结果借鉴过来，屠杀了各大CV榜单。对其做各种改进的顶会论文也是层出不穷，本文将聚焦于各种最新的视觉transformer的位置编码PE（positionalencoding）部分的设计思想及代码实现做一些

Adenialzz·2022-12-02 14:14

史上训练最简单，音质最好的语音合成系统

vits实现的中文TTSGitHub-jaywalnut310/vits:VITS:ConditionalVariationalAutoencoderwithAdversarialLearningforEnd-to-EndText-to-Speech

dtx525942103·2022-12-02 14:05

VITS 语音合成完全端到端TTS的里程碑

目录概览：突破点：highlevel的优缺点总结：VITS优点缺点：模型详解：看懂需要的前置知识，推荐苏神

Terry_ZzZzZz·2022-12-02 14:34

vits复现gituhb项目--模型构建

在完成VITS论文学习后，对github上的官方仓库进行学习，帮助理解算法实现过程中的一些细节；仓库代码基于pytorch实现，链接为https://github.com/jaywalnut310/vits

zzfive·2022-12-02 14:02

ConvNext 原文翻译

摘要：视觉识别的“兴盛的20年代”始于VisionTransformer(VITS)的引入，它很快取代了ConvNets，成为最先进的图像分类模型。

早起学习晚上搬砖·2022-12-01 07:38

【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

本文提出了一种使用分层VisionTransformer(ViTs)，例如SwinTransformer[43]，进行掩码图像建模(MIM)的有效方法，允许分层ViT丢弃掩码patches，只对可见patches

YoooooL_·2022-11-30 22:15

vits复现gituhb项目--模型训练

在完成VITS论文学习后，对github上的官方仓库进行学习，帮助理解算法实现过程中的一些细节；仓库代码基于pytorch实现，链接为https://github.com/jaywalnut310/vits

zzfive·2022-11-30 11:45

MPViT : Multi-Path Vision Transformer for Dense Prediction详解

ViTs构建了一个简单的多阶段结构（即精细到粗糙），用于使用单尺度patch的多尺度表示。而作者

樱花的浪漫·2022-11-26 09:08

[Transformer] Next-ViT: Next Generation Vision Transformer

NextGenerationVisionTransformerforEfficientDeploymentinRealisticIndustrialScenarioshttps://arxiv.org/abs/2207.05501introduction由于复杂的注意力机制和模型设计，大多数现有的ViTs

Cherry_qy·2022-11-23 12:10

VITS 模型踩坑记录

fgo玉藻前训练集:wav_trans:480条wav_val:25条训练效果不算很满意，主要原因应该是训练集数量不够损失函数从57k开始收敛。后面迭代到了150k次，与前面并无明显差别。500条左右的训练集差不多这样就是极限了还有一点猜测：mooncell玉藻前玉藻前的语音集语调变化明显。语气词、高音也较多，部分语音推测后明显有爆音的音频。训练集text符号没有完全处理？可能这类语调明显的游戏音

团子Yui·2022-11-23 03:38

ICLR2022《HOW DO VISION TRANSFORMERS WORK?》

论文链接：https://arxiv.org/abs/2202.06709代码链接：https://github.com/xxxnell/how-do-vits-work1.动机多头自注意力(MSAs)

Love向日葵的兮兮子·2022-11-21 10:58

【读点论文】A ConvNet for the 2020s，结合swin transformer的结构设计和训练技巧调整resnet网络，在类似的FLOPs和参数量取得更好一点的效果

AConvNetforthe2020sAbstract视觉识别的“咆哮的20年代”始于视觉transformer(ViTs)的问世，它迅速取代ConvNets成为最先进的图像分类模型。

羞儿·2022-11-21 10:27

全面分析Vision Transformer如何work的、优势（从低层原理角度）

论文链接：https://arxiv.org/abs/2202.06709代码链接：https://github.com/xxxnell/how-do-vits-work读论文有感，总结一下，经典好文，

showfaker_·2022-11-21 10:51

【论文笔记】Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial

NextGenerationVisionTransformerforEfficientDeploymentinRealisticIndustrialScenarios收录于：ECCV2022论文地址：https://arxiv.org/abs/2207.05501摘要由于复杂的注意力机制和模型设计，大多数现有的ViTs

m0_61899108·2022-11-19 13:59

Fast-ParC学习笔记

在计算机视觉领域，视觉变压器(ViTs)也成为卷积神经网络(ConvNets)的有力替代品，但由于卷积神经网络和视觉变压器都有各自的优点，所以它们无法取代卷积神经网络。例如，vit善于利用注意机制提取

麻花地·2022-11-14 13:11

即插即用 | Fast-ParC：CNN和ViT通用Trick！即插即涨，即提速！

在计算机视觉领域，视觉Transformer（ViTs）也成为卷积神经网络（ConvNets）的有力替代品，但它们还无法取代ConvNet，因为两者都有各自的优点。例如

自动驾驶之心·2022-11-14 13:39

MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER通过transformer简化cnn计算

为了学习全局表示，采用了基于自我注意的视觉transformer(ViTs)。与cnn不

羞儿·2022-10-28 05:02

医学影像等小数据集能否用Transformer替代CNN？ICCV 2021 Workshop

本文研究比较了CNN和ViTs在三种不同初始化策略下在医学图像任务中的表现，研究了自监督预训练对医学图像领域的影响，并得出了三个结论。IsitTim

Amusi（CVer）·2022-10-16 08:36

ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer？

本文研究比较了CNN和ViTs在三种不同初始化策略下在医学图像任务中的表现，研究了自监督预训练对医学图像领域的影响，并得出了三个结论。

CV技术指南(公众号)·2022-10-16 08:36

【MobileViT】

MobileViTv1轻量级的卷积神经网络在空间上局部建模，如果想要学习全局表征，可以采用基于自注意的视觉Transformer（ViT），但ViTs的参数量比较大，因此作者提出了MobileViT。

小橘AI·2022-09-07 10:11

三星提出XFormer | 超越MobileViT、DeiT、MobileNet等模型

ViTs可以通过其self-attention机制学习全局表示，但它们通常是heavy-weight的，不适合移动设备。在本文中提出了CrossFeatureAttention(X

Tom Hardy·2022-09-07 10:38

A ConvNet for the 2020s 论文阅读

Aconvnetforthe2020s代码摘要：VisionTransformers(ViTs)的引入很快取代了ConvNets，成为最先进的图像分类模型。

Mick..·2022-07-27 07:46

【读点论文】ViTGAN: Training GANs with Vision Transformers 将视觉transformer和gan结合起来

ViTGAN:TrainingGANswithVisionTransformersAbstract最近，VisionTransformers(vits)在图像识别方面表现出了具有竞争力的性能，需要较少的视觉特定的归纳偏差

羞儿·2022-05-04 07:42

轻量化网络结构MobileViT

ANDMOBILE-FRIENDLYVISIONTRANSFORMERGithub：https://github.com/chinhsuanwu/mobilevit-pytorch2021，苹果公司传统的视觉transformers（ViTs

watersink·2022-05-01 11:01

推荐频道

vits

so-vits-svc4.0 中文详细安装、训练、推理使用教程【克隆声音】

so-vits-svc环境安装和AI训练

so-vits-svc4.0 中文详细安装、训练、推理使用教程

变换器鲁棒性-2：On the Adversarial Robustness of Vision Transformers

改进YOLO系列 | YOLOv5 更换骨干网络之 ConvNeXt

手把手教你声音克隆（so-vits-svc）

YoloV8改进策略：Conv2Former与YoloV8深度融合，极简网络，极高性能

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning（TubeViT论文翻译）

自用教程-VITS语音在线合成-本地部署

中文语音合成开源模型总结

如何用vits训练模型

原神语音本地搭建教程 文字、语音转语音

基于VITS 快速微调的本地环境配置、本地训练以及本地推理的教程

so-vits-svc3.0 中文详细安装、训练、推理使用教程

[NAS2](2022CVPR)TF-NAS: Training Free Transformer Architecture Search

有可能代替Transformer吗？Image as Set of Points 论文阅读笔记

【自监督论文阅读笔记】Emerging Properties in Self-Supervised Vision Transformers

微软提出 TinyMIM，首次用掩码预训练改进小型 ViT

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

VITS论文阅读

计算机视觉论文速递（一）SepViT：Separable Vision Transformer 可分离视觉Transformer

#今日论文推荐# Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》

论文阅读-主干网络(2022)-ConvNext:下一代卷积网络

AdaVITS—基于VITS的小型化说话人自适应模型

vits复现gituhb项目--数据处理

Positional Encodings in ViTs 近期各视觉Transformer中的位置编码方法总结及代码解析 1

史上训练最简单，音质最好的语音合成系统

VITS 语音合成完全端到端TTS的里程碑

vits复现gituhb项目--模型构建

ConvNext 原文翻译

【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

vits复现gituhb项目--模型训练

MPViT : Multi-Path Vision Transformer for Dense Prediction详解

[Transformer] Next-ViT: Next Generation Vision Transformer

VITS 模型踩坑记录

ICLR2022《HOW DO VISION TRANSFORMERS WORK?》

【读点论文】A ConvNet for the 2020s，结合swin transformer的结构设计和训练技巧调整resnet网络，在类似的FLOPs和参数量取得更好一点的效果

全面分析Vision Transformer如何work的、优势（从低层原理角度）

【论文笔记】Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial

Fast-ParC学习笔记

即插即用 | Fast-ParC：CNN和ViT通用Trick！即插即涨，即提速！

MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER通过transformer简化cnn计算

医学影像等小数据集能否用Transformer替代CNN？ICCV 2021 Workshop

ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer？

【MobileViT】

三星提出XFormer | 超越MobileViT、DeiT、MobileNet等模型

A ConvNet for the 2020s 论文阅读

【读点论文】ViTGAN: Training GANs with Vision Transformers 将视觉transformer和gan结合起来

轻量化网络结构MobileViT

原神语音本地搭建教程文字、语音转语音

论文笔记《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》