PaperWeekly

近年图像翻译先进模型小结

©PaperWeekly 原创 · 作者｜武广

学校｜合肥工业大学硕士生

研究方向｜图像生成

计算机视觉下的任务纷繁庞大，除了熟悉的目标检测、图像识别、图像分类等常见的视觉应用，还有着图像翻译、图像分割和图像超分辨率等十分具有研究和应用价值的方向。本文就近年（2019 和 2020 年）图像翻译下的先进模型进行典型性介绍，一起梳理下图像翻译的发展和未来研究的趋势。

图像翻译的发展

图像翻译旨在通过设计端到端的模型将源域图像转换到目标域图像，通常源域提供图像的内容，目标域提供图像的“风格”(可以是图像属性或图像风格)，在源域内容下实现目标域的“风格”化，从而实现源域图像到目标域图像的转换。

说的通俗点图像翻译可以是标签图到场景图的转换、线条轮廓到色彩图像转换、图像的风格转换，春夏场景的变换，人脸的属性变换，也可以是白昼交替的转换。只要符合上述端到端转换的任务，都可以通过图像翻译实现。引用 pix2pix [1] 中的经典插图，一起看下图像翻译的实际应用。

▲ 图1.图像翻译的不同任务场景

图像翻译自深度学习应用下便得到了快速的发展，尤其是随着生成对抗网络（GAN）的提出，大大加速了图像翻译的演进。从早期的 pix2pix、CycleGAN [2]、UNIT [3] 到较为成熟的 StarGAN [4] 都是图像翻译在上几年较为成功和经典的模型。

这些模型实现了从源域图像到目标域图像的转换，但这往往需要一定的标签参与或者需要建立源域和目标域各自的生成器，同时任务往往实现的是单目标域的转换。

随着发展到 MUNIT [5]、DRIT [6] 以及 UGATIT [7] 则进一步实现了由源域到多目标域的转换，也有利用语义 mask 图像实现无条件图像翻译的 SPADE [8]。

StyleGAN [9] 实现了高质量的图像风格转换，这无疑于 StyleGAN 的细致的架构，逐步分辨率的阶段性生成、自适应实例正则化（AdaIN）和风格空间的应用。

StyleGAN2 [10] 在 StyleGAN 的基础上进一步对 AdnIN 进行修正，demodulation 操作应用于每个卷积层相关的权重，并且通过 skip generator 代替 progressive growing，实现了更为细致的图像转换。这些基础性的图像转换架构对于近年来的图像翻译任务提供价值性的指导。

近年来，图像翻译实现了更加细致的任务实现，StarGAN v2 [11] 在 StarGAN 的基础上实现了多源域到多目标域的图像转换；ALAE [12] 将自编码器拓展到高精致的图像转换。

HiDT [13] 提供了多域图像转换下对图像翻译下的网络逻辑和损失函数做了细致的总结；ConSinGAN [14] 代表了一众单幅图像训练的先进模型，实现了单幅图像训练下的图像转换任务。本文将以这 4 篇论文进行介绍，对近年图像翻译模型进行分析和小结。

图像翻译模型

2.1 StarGAN v2

论文标题：StarGAN v2: Diverse Image Synthesis for Multiple Domains

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/1912.01865

代码链接：https://github.com/clovaai/stargan-v2

StarGAN v2 针对 StarGAN 存在的仅能在单目标域下转换和需要标签信息参与的两个问题，提出了目标域下多风格图像的转换。如何实现多目标域的转换呢？StarGAN v2 设计了 Mapping Network 用于生成风格编码，从而为目标域下提供多类型的风格表示而不需要额外的标签，模型的整体结构如图 2 所示。

▲ 图2.StarGAN v2模型整体结构

可以看出 StarGAN v2 由四部分组成，生成器，映射网络，风格编码器判别器。我们先捋一下整个过程，首先映射网络学习到目标域图像的风格编码，其中，这是映射网络学习到的目标域图像的风格编码。

而作为参照真实目标域图像的风格编码由风格编码器得到，得到了风格编码结合源域输入图像便可送入到生成器，生成器输出的就是转换后的目标域图像，而判别器则为了区分生成的目标域图像是否是真实来源于真实目标域。

StarGAN v2 中映射网络、风格编码器和判别器的输出都是多分支的，因为文章的目的是进行多目标域的转换，这里的多分支就是不同的目标域的表示，对于映射网络和风格编码器，多分支表示的是多个目标域图像的风格表示，对于判别器多分支则是代表不同目标域的判别真假情况，作者在附录中用表示分支数。

图 3 展示了 StarGAN v2 的较为详细的网络设计。

▲ 图3.StarGAN v2模型设计结构

至于损失函数上，值得一提的是风格表示上的风格重构损失

和映射网络丰富化的

（使得目标风格表示之间边界分明，产生多目标转换结果，最大化），还有就是较为熟悉的对抗损失和循环一致损失，在最终的损失优化上：

实验上，在图像转换上展示了优越的效果。

▲ 图4.StarGAN v2定性对比结果

2.2 ALAE

论文标题：Adversarial Latent Autoencoders

论文链接：https://arxiv.org/abs/2004.04467

代码链接：https://github.com/podgorskiy/ALAE

自编码器能否具有像 GAN 那样的生成能力呢？ALAE 给出了肯定的答案，ALAE 算是建立在 StyleGAN 基础之上，具备与 GAN 相当的生成能力，且能够学习解耦表征，在人脸属性变换上展示了优越的效果。

ALAE 采用自编码器架构，将 GAN 中的生成器和判别器分解为两个网络，生成器对应着和，判别器对应着和，先从整体架构来看一下 ALAE 模型。

▲ 图5.ALAE模型结构

在训练阶段，随机噪声经过网络，将随机噪声映射到数据的潜在空间，网络则负责将数据潜在空间和风格变量映射到数据空间。此时输入的经过和得到图像输出，判别部分由网络和组成，网络将数据编码到潜在空间并且与投影得到的做分布拉近，理想状态下。

网络是个新颖的设计，它并没有严格的目的性也就是并没有强调和约束数据的潜在空间分布，而是由全局优化下自动学习数据的潜在空间。也正因为存在了数据的潜在空间的刻画，ALAE 才可以说是建立在自编码器下结构下的模型。

在测试阶段，由网络和构成了自编码器的编码器和解码器，构成 Encoder-Decoder 的结构，由可以控制图像属性从而实现图像翻译任务。

损失设计上除了对抗损失，还有就是潜在空间分布下的拉近，这也是文章称为为对抗性潜在自动编码器（ALAE）的原因。ALAE 在设计上借鉴了 StyleGAN 的结构并称之为 StyleALAE，整体的架构如图 6 所示。

▲ 图6.StyleALAE网络架构

作者使用 MNIST 数据集训练 ALAE，并使用特征表示来执行分类、重建和分析解耦能力的任务，与已有的自编码器模型对比结果存在优势，ALAE 最让人印象深刻的就是 StyleALAE 在 FFHQ 上的生成效果，真是将自编码器做到了 GAN 的高精度生成。

▲ 图7.StyleALAE的生成效果

本文围绕着图像翻译展开，ALAE 当然适用于图像翻译任务，在人脸属性的转换上也做到了优越的转换效果。

▲ 图8.StyleALAE人脸属性变换

2.3 ConSinGAN

论文标题：Improved Techniques for Training Single-Image GANs

论文链接：https://arxiv.org/abs/2003.11512

代码链接：https://github.com/tohinz/ConSinGAN

近年有部分研究者将目光投入到单幅图像训练网络上，ICCV 2019 best paper SinGAN [15] 便是一个代表作，此处要介绍的 ConSinGAN 则是在 SinGAN 的基础上的升级版。

受限于数据样本和网络训练时长，单幅图像训练的模型存在着很大的应用意义。要介绍清 ConSinGAN 则必须要提一下 SinGAN，本质上 ConSinGAN 就是并行的 SinGAN，缩写中不同的 Con 就是指 Concurrent 的意思。

SinGAN 按照不同分辨率分阶段训练生成器和判别器，在串行的阶段训练上，当前生成器将前一个生成器生成的图像作为输入，在此基础上生成比当前还要高分辨率的图像，此时不同阶段的生成器都是单独训练的，这也意味着在训练当前生成器时，之前的生成器的权重都保持不变，这个过程由图 9 所示。

▲ 图9.SinGAN训练过程

ConSinGAN 指出每个分辨率下仅训练一个生成器而固定前面的生成器的参数，这仅仅将前一阶段生成器输出作为当前的输入，这一定程度上限制了不同阶段生成器之间的交互。

ConSInGAN 设计了对生成器进行端到端的训练，也就是说，在给定时间内可以训练多个生成器，每个生成器将前一个生成器生成的特征（而不是图像）作为输入。这种训练是对多个阶段下的生成器同时进行的，也称之为并行训练的方式，这个过程如图 10 所示。

▲ 图10.ConSinGAN训练过程

然而训练多个分辨率下的生成器将会导致另一个问题，那就是过拟合，也就是最后得到的图像失去了多样性，为了解决这个问题，ConSinGAN 提出了 2 个应对方案。

在任意给定时间内，只训练一部分生成器
在训练一部分生成器时，还要对不同的生成器使用不同的学习率，对于低分辨率阶段的生成器使用较小的学习率

文章和源码中默认最多同时训练 3 个生成器，此时对前两阶段的生成器采用当前学习率的和，这个过程图 11 进行展示。

▲ 图11.ConSinGAN训练不同生成器不同学习率

实验发现如果对早阶段的生成器采用较高的学习率，那么生成的图像质量会高些，但是差异性较弱。相反，如果对早阶段的生成器采用较小的学习率，那么生成图像的差异性会丰富一些。

在进行图像翻译任务时，ConSinGAN 进行了图像协调实验，主要与 SinGAN 进行对比，得到的对比结果如图 12 所示。

▲ 图12.ConSinGAN在图像协调下的转换结果

2.4 HiDT

论文标题：High-Resolution Daytime Translation Without Domain Labels

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/2003.08791

最后来分析下 High-Resolution Daytime Translation Without Domain Labels (HiDT)，这篇文章虽然做的是高清自然场景时移变换，但是确实将图像翻译的训练逻辑和损失函数介绍的非常清晰的文章，HiDT 也是 CVPR 2020 oral 的一篇文章，在这里梳理一下 HiDT 对图像翻译的设计逻辑和损失函数的设计。

▲ 图13.HiDT网络优化过程

先交代下符号，表示源域输入图像，表示内容编码器相对应的为内容编码，表示风格编码器相对应的为风格编码，为生成器，为目标域风格编码，为风格编码的先验分布，为在风格编码的先验分布下随机采样的风格编码。生成器不光光输出的是转换后的图像，同时也输出相对应的风格掩码图。

从上到下分析，随机风格采样与内容编码生成，此时的风格取决于随机风格，掩码则是受内容的影响，对继续进行内容和风格编码得到，将馈送到生成器得到重构的，为什么说是重构呢？

因为此时输入的风格是自身的风格编码；中间一路就是对进行编码后再重构得到；最下面一路则是先根据源域内容编码与目标域风格编码生成得到目标域图像和分割掩码，再由编码得到的内容编码与风格编码得到最原始源域图像，由于给出的损失为，这里推测风格编码就是源域图像的风格表示。

上述分析，总结起来就是模型在优化阶段由三种模式，一是随机风格的转换和重构，二是原始图像的重构，三是目标域图像转换和循环一致的转换。

最后就是如何对模型进行损失优化，正由图 13 中所展示的，重构损失，风格掩码损失，内容编码损失，风格编码损失，风格编码下趋紧先验分布的损失以及循环一致损失，由此衍生的也是一样的含义，图 13 中省略了对抗损失，对抗损失主要是对转换后的和进行优化。

重构损失为损失，即，类似的有，循环一致损失也是采用损失。对于分割掩码损失则是采取交叉熵损失：

则有：

由于风格编码的维度较低，此时可以通过均值和方差拉向正态分布，达到风格编码向先验分布靠近：

对于内容编码损失和风格编码损失，则是通过损失一致性优化，即：

总的损失可变式为：

其中为超参数。HiDT 的模型优化算是对图像翻译下的损失进行了一个系统的介绍，同时也是我认为在不系统阅读代码下对图像翻译下的逻辑介绍最为清晰的一篇文章。

总结

近年来图像翻译的文章还有很多，本文仅仅是笔者选摘的有代表性的几篇文章，图像翻译已不再是简单的图像风格变换或是源域到目标域的转换，而是上升到多源域到多目标域图像的转换。

同时基于 GAN，基于自编码器，基于 pixelCNN 的模型也是十分丰富。从庞大的数据集进行训练，到可以由单幅图像的训练，对于训练的样本要求也在逐步降低。

总的来说，图像翻译向着更加系统和全面的方向有序进展，虽然模型做到了多源域到多目标域图像的转换，但是这个过程仍存在很多的限制，限制于数据集和各目标域间的标注，同时不同目标域间的差距仍不能做到很大，one for all 的理念仍是一个很值得研究和迈进的方向。

参考文献

[1] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.

[2] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

[3] Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation networks[C]//Advances in neural information processing systems. 2017: 700-708.

[4] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8789-8797.

[5] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image-to-image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 172-189.

[6] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]. International Journal of Computer Vision, 2020: 1-16.

[7] Kim J, Kim M, Kang H, et al. U-GAT-IT: unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[J]. arXiv preprint arXiv:1907.10830, 2019.

[8] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.

[9] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4401-4410.

[10] Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of stylegan[J]. arXiv preprint arXiv:1912.04958, 2019.

[11] Choi Y, Uh Y, Yoo J, et al. StarGAN v2: Diverse Image Synthesis for Multiple Domains[J]. arXiv preprint arXiv:1912.01865, 2019.

[12] Pidhorskyi, Stanislav and Adjeroh, Donald A and Doretto, Gianfranco, et al. Adversarial Latent Autoencoders[J]. arXiv preprint arXiv:2004.04467, 2020.

[13] Anokhin I, Solovev P, Korzhenkov D, et al. High-Resolution Daytime Translation Without Domain Labels[J]. arXiv preprint arXiv:2003.08791, 2020.

[14] Hinz T, Fisher M, Wang O, et al. Improved Techniques for Training Single-Image GANs[J]. arXiv preprint arXiv:2003.11512, 2020.

[15] Rott Shaham T, Dekel T, Michaeli T. SinGAN: Learning a Generative Model from a Single Natural Image[J]. arXiv preprint arXiv:1905.01164, 2019.

点击以下标题查看更多往期内容：

CVPR 2020 | 自适应聚合网络：更高效的立体匹配
CVPR 2020最新热点：物体位姿估计
格“物”致知：多模态预训练再次入门
对比学习（Contrastive Learning）相关进展梳理
CVPR 2020 Oral | 无域标签下高清场景时移变换
CVPR 2020 | 商汤TSD目标检测算法解读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
跨境电商多账号管理革命！2025年团队协作工具深度解析跨境卫士萌萌跨境电商大数据人工智能业界资讯经验分享
跨境电商多账号管理革命！2025年团队协作工具深度解析引言：跨境电商团队协作的新挑战近年来，全球跨境电商市场持续高速增长，企业面对的竞争也愈加激烈。随着亚马逊、eBay、Shopify等多个平台的布局需求增加，商家需要管理多个卖家账号。然而，新规则的不断更新、多账户风控的升级，使得团队在运营过程中面临诸多挑战。如何高效管理多账号？如何避免IP关联、账号封禁？如何提升团队协作效率？2025年，随着多
A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用王金-太想进步了语言模型人工智能自然语言处理
应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见。在现实世界的应用中，这些不足显得尤为重要，因为在这些场景中，精确性、可靠性和伦理一致性是至关重要的。这些问题引发了一些根本性的探讨：(1)如何系统地提高LLM的表现以满足特定领域的需求？(2)在实
计算机技术：哈佛架构 InnoLink_1024 操作系统嵌入式架构
1.哈佛架构简介哈佛架构（HarvardArchitecture）是一种计算机设计模型，与冯诺伊曼架构不同，其核心特征是将程序指令和数据分开存储和传输。这一架构最早起源于哈佛大学的MarkI计算机，因此得名。2.核心特点独立的存储器哈佛架构中，指令存储器和数据存储器是分开的。这意味着：指令和数据各自拥有独立的存储空间。它们通过不同的总线进行传输，不共享带宽。独立的总线哈佛架构采用两套总线系统：一条
斩获 44K 星！让 DeepSeek 控制你的浏览器，绝了开源项目精选人工智能
Browser-Use的开源框架，是一个能让电脑自动操作网页的智能工具。能处理动态加载的内容（比如广告弹窗、实时更新的图表），遇到网页元素位置变化还会自己调整策略，减少人工干预。Stars数46046Forks数4735主要特点强大的浏览器自动化功能：BrowserUse将先进的AI能力与强大的浏览器自动化技术相结合，为AI智能体实现流畅无缝的网页交互体验。视觉感知与HTML结构提取：将视觉理解能
计算机网络丸子猪的dady 计算机网络计算机网络发展史 OSI参考模型 TCP/IP通用协议计算机网络分类计算机网络节点计算机网络的定义组成及其功能
计算机网络计算机网络发展史有4个阶段在第3阶段：OSI开放式系统互联架构，确立了TCP/IP作为通用协议。OSI参考模型应用层表示层会话层传输层网络层数据链路层物理层TCP/IP通用协议组成：参考了OSI的七层模型，但简化为四层：应用层、传输层、网络层和链路层应用层：直接为应用进程提供服务，常见协议有HTTP、FTP、SMTP等。传输层：提供端到端的通信服务，主要协议有TCP和UDP。TCP是面向
【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破寻道AI小兵 AI大模型前沿技术追踪人工智能语言模型 AIGC
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破目录系列篇章前言一、项目概述二、技术原理（一）异构低秩适应（H-LoRA）（二）分层视觉感知（HVP）（三）三阶段学习策略（TLS）三、
前端 Blob 详解 yqcoder 前端 javascript 开发语言
前端Blob详解1.什么是Blob？Blob（BinaryLargeObject）表示二进制大对象，用于存储二进制数据。在前端开发中，Blob常用于处理文件、图像、视频等二进制数据。2.创建Blob可以通过Blob构造函数创建Blob对象。constblob=newBlob(array,options);array:数组，包含要放入Blob的数据。可以是字符串、ArrayBuffer、ArrayB
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
Spring 基础框架-- Ruoyi 权限管理架构详解 dazhong2012 开源项目 spring clould springboot spring 架构 java
一、权限管理整体架构若依的权限管理架构基于用户-角色-权限的RBAC模型，并扩展了数据权限控制。核心架构可分为以下四层：数据范围控制用户层角色层权限层数据过滤层菜单/按钮/接口权限角色关联部门/数据范围二、核心模块详解1.基础权限模型（RBAC）用户（sys_user）：通过dept_id关联部门表，支持多角色分配角色（sys_role）：data_scope字段定义数据权限范围（1-全部，2-自
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
【论文精读】SCINet-基于降采样和交互学习的时序卷积模型打酱油的葫芦娃时序预测算法时序预测 SCINet TCN
《SCINet:TimeSeriesModelingandForecastingwithSampleConvolutionandInteraction》的作者团队来自香港中文大学，发表在NeurIPS2022会议上。动机该论文的出发点是观察到时间序列数据具有独特的属性：即使在将时间序列下采样成两个子序列后，时间关系（例如数据的趋势和季节性成分）也基本上得以保留。这个观察启发了作者去设计一种新型的神
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
迁移学习基础知识 zhooooooou 深度学习迁移学习人工智能机器学习
简介使用迁移学习的优势：1、能够快速的训练出一个理想的结果2、当数据集较小时也能训练出理想的效果。注意：在使用别人预训练的参数模型时，要注意别人的预处理方式。原理：对于浅层的网络结构，他们学习到的角点信息和纹理信息都是通用的，将学习好的浅层网络的信息迁移到新的网络中，这样新的网络也拥有了识别底层通用特征的能力，从而能加快网络学习新的数据集的高维特征。常见的迁移学习的方式：1、载入权重后训练所有参数
AUTOSAR与arxml的文档解析 dont__cry c语言 autosar
如下是文档脑图一、文档概述该文档是AUTOSAR经典平台的应用接口用户指南，主要解释**AlTable（应用接口表）**的结构、方法论及相关技术细节，帮助开发者理解如何通过标准化接口实现软件组件的互操作性。关键内容目的：定义并发布稳定、广泛接受的汽车电子系统应用接口，支持跨厂商软件组件的通信。结构：包含元模型表示、兼容性管理、生命周期状态、视图概念及XML生成规则等。二、核心概念与示例1.AUTO
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
通用具身智能机器人首次进厂造芯！量子位
在全球半导体产业竞争日益激烈的背景下，半导体生产在部分高度依赖人力的生产环节，传统的智能化生产模式仍暴露出效率瓶颈与污染问题。人工操作易导致污染，且效率不高、污染控制难度大。如今，随着通用智能机器人的应用，这一难题正迎来全新解决方案。3月18日，国内领先的具身智能机器人公司智平方与全球知名科技创新企业吉利科技集团旗下浙江晶能微电子有限公司正式签署战略合作协议。双方将基于智平方自研的端到端具身大模型
代练代打护航系统小程序源码：游戏生态的“双刃剑” vue.jsmysql
近年来，随着游戏产业的蓬勃发展，代练代打行业也逐渐兴起。代练代打护航系统小程序的出现，为这一行业提供了一个新的平台，也引发了关于其利弊的讨论。本文将深入分析代练代打护航系统小程序源码，探讨其对游戏生态的影响。源码获取地址！！！！请点击！！！代练代打护航系统小程序通常包含以下功能模块：用户模块:用户注册、登录、个人信息管理、实名认证等。订单模块:玩家发布订单、代练接单、订单管理、交易担保等。评价模块
HarmonyNext实战：基于ArkTS的高性能数据流处理系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能数据流处理系统开发引言在HarmonyNext生态系统中，数据流处理是一个关键的技术领域。本文将深入探讨如何使用ArkTS构建一个高性能的数据流处理系统，重点讲解流式数据处理、并发模型、内存管理以及性能优化等高级主题。我们将通过一个实际的案例——实时日志分析系统，来展示如何将这些技术应用到实际工程中。系统架构设计我们的实时日志分析系统需要处理来自多
鸿蒙Next，图片上传01（扩展02截图保存到相册）-组件截图另通过沙箱保存到相册 harmonyos
1.componentSnapShot组件截图的get方法，得到PixelMap像素图像数据@ohos.arkui.componentSnapshot(组件截图)-UI界面-ArkTSAPI-ArkUI（方舟UI框架）-应用框架-华为HarmonyOS开发者//进行截图constpixelMap=awaitcomponentSnapshot.get('share')2.ImagePacker打包P
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
复旦：LLM不同层位置编码缩放大模型任我行大模型-结构原理人工智能自然语言处理语言模型论文笔记
标题：Layer-SpecificScalingofPositionalEncodingsforSuperiorLong-ContextModeling来源：arXiv,2503.04355摘要尽管大型语言模型（LLM）在处理长上下文输入方面取得了重大进展，但它们仍然存在“中间丢失”问题，即上下文中间的关键信息往往不足或丢失。我们广泛的实验表明，这个问题可能源于旋转位置嵌入（RoPE）的快速长期衰
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
Python的ORM框架SQLAlchemy入门教程 searchwang
SQLAlchemy是python操作数据库的一个库。能够进行orm映射，SQLAlchemy“采用简单的Python语言，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型”SQLAlchemy的理念是，SQL数据库的量级和性能重要于对象集合；而对象集合的抽象又重要于表和行。一安装SQLAlchemy复制代码代码如下:pipinstallsqlalchemy导入如果没有报错则安装成功复制
基于粒子滤波与卡尔曼滤波的锂离子电池放电时间预测与使用特征研究算法如诗电池建模(RUL BC)粒子滤波锂离子电池放电时间预测
基于粒子滤波与卡尔曼滤波的锂离子电池放电时间预测与使用特征研究一、研究背景与意义锂离子电池作为现代储能系统的核心组件，其放电时间（End-of-DischargeTime,EOD）的准确预测对电池管理系统（BMS）的可靠性和安全性至关重要。传统方法（如安时积分法）易受噪声、温度漂移等因素干扰，而基于状态估计的滤波算法（粒子滤波/PF、卡尔曼滤波/KF）通过动态更新模型参数，能显著提升预测精度。二、
Linux 权限详解（带实战案例）可问可问春风 Linux从新手到入门 linux 运维服务器
Linux权限是系统安全的核心机制，本文通过权限模型分解+20个实战案例，带你彻底掌握文件权限的控制逻辑。一、Linux权限基础模型权限三要素：user(u)：文件所有者group(g)：所属用户组others(o)：其他用户权限类型：r(read)读权限→4w(write)写权限→2x(execute)执行权限→1二、查看文件权限#查看详细信息（第一个字符为文件类型，后续9个字符为权限）$ls-
HarmonyOS Next 用户认证应用架构教育
随着HarmonyOSNext的不断发展，其用户认证功能在安全性、个性化和分布式场景中的应用展现了强大的扩展性和适应性。本文将从进阶功能、分布式场景应用以及定制与优化案例三个方面，深入探讨HarmonyOSNext用户认证的创新与优势。一、HarmonyOSNext用户认证的进阶功能生物特征认证的高级特性HarmonyOSNext在生物特征认证方面引入了多项先进技术。指纹认证通过活体检测技术，能够
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

近年图像翻译先进模型小结

2.2 ALAE

2.3 ConSinGAN

2.4 HiDT

你可能感兴趣的:(近年图像翻译先进模型小结)