javastart

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好

导语：从风格迁移到特征解耦、语言概念解耦，研究人员正通过数学和语言逐步改善GAN的功能。

作者 | 莓酊

编辑 | 青暮

首先想让大家猜一猜，这四张图中你觉得哪张是P过的？小编先留个悬念不公布答案，请继续往下看。

生成对抗网络(Generative Adversarial Network, GAN)是通过让两个神经网络对抗学习生成数据的方法。GAN从伊始到现在发展“壮大”，比如我们熟悉的PGGAN和StyleGAN，已经可以生成高质量、高分辨率的图片。最近英伟达、多伦多大学和麻省理工大学的研究者们为GAN“家族”又添一员—— EditGAN。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第2张图片

大多数基于 GAN 的图像编辑都需要在具有语义分割注释的大规模数据集上训练，并只提供极少的修改，或仅在不同图像之间进行插值。

而EditGAN作为一种高质量、高精度语义图像编辑的新模型，允许通过修改高精细度零件的分割掩码（Segmentation mask）来编辑图像。简而言之，EditGAN能自己P图，而且还P得特别好。就如上图所示，除了第一张是小哥原版的“邪魅笑容”，其余都是EditGAN的作品，请问你猜对了吗？

EditGAN是建立在GAN框架上，该框架是对图像及其语义分割 (DatasetGAN) 进行联合建模，只需要少量标记数据就能训练，进而成为可扩展的编辑工具。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第3张图片

使用 EditGAN 进行高精度语义图像编辑

在动图中可以更直观地观察到EditGAN的修图效果：

具体来说，就是将图像嵌入到GAN潜在空间中，并根据分割编辑执行潜在的代码优化从而高效地修改图像。为了摊销优化，研究人员在潜在空间中找到编辑向量，并允许任意数量的编辑向量以交互速率直接应用于其他图像。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第4张图片

以可爱猫猫的“张嘴编辑”为例：

横向第一排是图像和学习编辑向量的蒙版，编辑前后的对比及原图的分割掩码和手动修改后的目标分割掩码。第二排是EditGAN将学习提炼到的编辑应用于新图像的前后对比。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第5张图片

实验证明，EditGAN 可以用前所未有的细节自由度操作图像，同时保持高质量的完整度。而且还可以轻松组合多个编辑，在 EditGAN 的训练数据之外执行合理的图像修改。

目前只有EditGAN可以达到这样的效果！大多数基于GAN 的图像编辑方法，有的依赖于GAN对类标签或像素级语义分割注释的调节，其他则需要辅助属性分类器指导合成编辑图像。而且训练它们必须背靠大型标记数据集，导致这些方法目前仅适用于大型注释数据集的图像类型。除此之外，即使注释可用，但由于注释只包含高级别全局属性或相对粗略的像素分割，大多数技术只提供有限编辑操作。

而EditGAN的“制胜法宝”就在于：高精度的分割掩码（Segmentation mask）。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第6张图片

详细的面部标记，连鱼尾纹、法令纹都有属于自己的语义模块，其实大可不必这么真实的。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第7张图片

汽车、鸟和猫的部分标记模版也是无比精细了。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第8张图片

在EditGAN的交互式演示工具中，通过调整相应部位的分割掩码就修改图像。

还能同时应用多个编辑，并利用预定义的编辑向量生成新图像。

EditGAN在绘画作品上的泛化应用也很出色。

可以说，EditGAN是第一个GAN驱动的图像编辑框架，它能提供非常高精度的编辑，只需要很少带注释的训练数据（并且不依赖于外部分类器），运行实时交互，允许多个编辑的直接组合，并适用于真实嵌入、GAN生成图像，甚至是域外图像。

GAN框架下的编辑图像发展

计算机视觉（Computer Vision, 简称CV）领域取得了许多进展。2012年之前，人工设计（hand-designed）是计算机视觉的主要研究方法。2012年，深度神经网络（Deep Neural Network, DNN）在ImageNet的分类任务上发挥了巨大作用，热门研究如：自动驾驶，物体识别，对人体的理解等等。直到2014年，计算机科学家Ian Goodfellow发表生成对抗网络（GAN）的开创性论文，开启了深度学习的变革，取得了很多技术上的重大突破。虽然生成对抗网络原先是为了无监督学习提出的，它也被证明对半监督学习、完全监督学习、强化学习是有用的。在一个2016年的研讨会，杨立昆描述生成式对抗网络是“机器学习这二十年来最酷的想法”。

GAN包含了两个神经网络，生成器G（Generator）和鉴别器D（Discriminator），生成器的作用是生成图片，鉴别器则接收图片作为输入对象，随后对图像的真假进行辨别，输出1为真，输出0则为假。在博弈的过程中两者都在不断变强，即生成器产出的图像愈发“惟妙惟肖”，鉴别器也更加“火眼金睛”。训练效果达到峰值后，这时再把D直接拿来作为图片生成器。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第9张图片

下面我们将从风格迁移、特征解耦和语言概念解耦三个方面，向大家展示GAN框架之下的视觉生成发展历程。

风格迁移

这一阶段的图像生成技术继承自CycleGAN、pix2pix等经典模型，属于条件生成，也就是基于确定的输入来得到输出，而不是像GAN那样通过随机采样生成，从而输出更加可控，或者得以实现对输入的风格化编辑。

在此基础上，人们按照“输入-输出”配对的套路开发出了各种不同的玩法，比如漫画真人化、风景动漫化、静物变“动物”、2D变3D等等。

“纸片人”变“真人”

YouTube博主AIみかん通过机器学习生成灌篮高手里各角色的真人版，80后90后泪目直呼“爷青回”。他使用的正是由艺术家Joel Simon在2018年创建的Artbreeder。Artbreeder是基于StyleGAN和bigGAN的在线图像生成网站（曾被GANBreeder），人们使用它已经创造了超过5400万张图像。除了可将漫画人物转化为真人，还有肖像，风景，建筑等图片生成模式，网址：https://artbreeder.com/browse。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第10张图片

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第11张图片

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第12张图片

现实变“漫画风”

由清华大学，卡迪夫大学的研究人员提出的CartoonGAN，作者们设计了一个GAN网络框架，用非成对图像训练GAN模型，能够使用漫画风格直接重现现实世界的场景。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第13张图片

论文链接：https://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_CartoonGAN_Generative_Adversarial_CVPR_2018_paper.pdf

研究人员提出了损失函数，在生成器里VGG网络中引入高阶特征映射稀疏正则化以保证现实照片和生成漫画之间风格差。在鉴别器里提出推进边缘的对抗损失，以确保生成边缘清晰的图片。CartoonGAN有四种训练好的模型：宫崎骏风、细田守风、今敏风和新海诚风。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第14张图片

“静物”变“动态”

2020年大谷老师使用四个AI模型“复活”了兵马俑。分别是基于StyleGan2的Artbreeder、First-order-model、DAIN、Topaz Labs，都是训练好的模型。

在整个修复过程中，每张图都要按照顺序用这4个AI模型进行处理。其中，Artbreeder把角色从绘画转成写实风格，First-order-model生成人物动态，DAIN进行补帧（60fps），最后用Topaz Labs提升分辨率，使用的显卡是Nvidia 2080Ti。

大谷老师其他“神笔马良”作品。

“2D”变“3D”

上海交通大学和华为公司联合提出基于GAN的感知生成器CIPS- 3D，使用单视角图片，无需采集样本，就能生成视觉立体图像。CIPS- 3D在浅层使用的是主负责把人像从2D变3D的NeRF（Neural Radiance Fields，隐式神经表达法），在深层网络设置为能让合成图像保真的INR（Implicit Neural Representations，神经辐射场）。为解决镜像对称问题，研究人员在神经网络中添加了一个鉴别器，用以辅助甄别镜像问题。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第15张图片

论文地址：https://arxiv.org/pdf/2110.09788.pdf

不支持在 Docs 外粘贴 block

当然，这种图像生成或编辑模式比较单一，通常一个模型只能实现一个功能。

人们开始思考，是否可以实现一个模型、多种PS？当然可以，秘密藏在向量空间的特征解耦中。

特征解耦

特征解耦就是，在神经网络的输入层和输出层之间的编码层，也就是向量空间中，将图像的不同特征分解开来，从而改变一个特征的时候，不会影响另一个特征。这正是实现一个模型、多种PS的必要条件。

比如由加州大学伯克利分校提出的InfoGAN。InfoGAN可以在向量空间控制生成图像的不同变量，并且不会互相干扰，比如MNIST数据集中的数字类型、旋转角度，以及人脸生成中的五官控制等等。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第16张图片

论文链接：https://arxiv.org/pdf/1606.03657.pdf

在标准的GAN中，生成数据的来源一般是一段连续单一的噪声z，这会导致Generator会将z高度耦合处理，z将不可解释。作者对GAN的目标函数进行改进，让网络学习拥有可解释的特征表示。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第17张图片

在InfoGAN中，模型的输入就被分成了两部分：

（1）不可压缩的 z，该部分不存在可以被显式理解的语义信息。

（2）可解释的隐变量 c，该部分包含我们关心的语义特征（如 MNIST 数据集中数字的倾斜程度、笔画的粗细），与生成的数据之间具有高相关性（即二者之间的互信息越大越好）。

对于可解释的部分，另一篇论文在特征空间层面给出了更加具体的解释。

香港中文大学助理教授周博磊在CVPR2020提出了一个叫InterFaceGAN的方法，这个方法就是为了在隐空间跟最后输出图片的语义空间建立联系。这个方法本身非常简单，但是很有效。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第18张图片

具体步骤是，训练好了生成模型过后，就得到了一个隐空间。然后可以从隐空间里面进行采样，把这些采样出来的向量放到生成器之中，进行图片生成，后面可以再接一个现有的分类器，给生成的图片打上一个具体的语义标签（比如性别标签）。

这样就可以把预测出来的标签当做隐空间向量的真实标签，从而进一步再回到隐空间，把预测的标签当成真实标签，然后训练一个分类器，对隐空间向量进行分类。

研究发现，在隐空间里面，GAN其实已经把隐空间的向量变得非常解耦。只需要用一个线性分类器，就可以在隐空间里实现90%左右的二分分类准确率。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第19张图片

在训练了一个线性分类器后可在隐空间里得到了一个子空间，这个子空间就对应了生成图片的性别。

当然，要实现这种有明确语义的编辑方式，除了依靠数学的力量，也可以借助语言的魔法。比如，OpenAI在2021年初提出的DALL·E就通过直接的文本-图像映射，实现了视觉效果惊艳，同时语义对应上接近填空的控制力。

比如输入“竖琴状的蜗牛”，AI可以生成这样的图像：

要知道，这些图像在训练集中是不存在的，不得不令人怀疑AI获得了人类般的概念组合能力，也就是基于语言思维的概念解耦能力。

语言概念解耦

StyleCLIP进一步将这个能力精细化，当然这个模型也比DALL·E好实现多了。

由自希伯来大学、特拉维夫大学、Adobe 等机构的学者们提出了名为StyleCLIP模型，它可以只“听”文字指令就能“画”出你想要的图片。

StyleCLIP是StyleGAN 和 CLIP 两种模型的“进化体”。它既保留了预训练 StyleGAN 生成器的生成能力，也拥有CLIP 的视觉语言能力。

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第20张图片

论文地址：https://arxiv.org/pdf/2103.17249.pdf

论文中有3种结合StyleGAN和CLIP的方法：

Optimizer：以文本为指导的latent优化，其中 CLIP 模型被用作损失网络。

Mapper：训练一个特定文本提示的latent残差映射器，使潜在向量与特定文本一一对应。

Global dir：一种在StyleGAN的style space中将文本描述映射到输入图像的全局方向（global direction），提供了对操作强度和解耦的控制。

尾声

从风格迁移到特征解耦、语言概念解耦，研究者们正通过数学和语言逐步改善GAN的功能，无论是从基本能力上，还是从功能精细化上，我们也在这个过程中不断增进对GAN的理解。当然，这两个方向并无优劣之分，未来皆可期。

链接：

https://arxiv.org/pdf/2111.03186.pdf

https://mp.weixin.qq.com/s/h5gZCKRGZlG03DZL-2FWIw

https://tandon-a.github.io/Image-Editing-using-GAN/

https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247571522&idx=1&sn=380ab14b7cf34783fd412e60713b6b48&chksm=9095d1d1a7e258c79fbfda93ac25b66f651af60b77e28c4c17855aecfc1979471a03205e1e55&token=1979387772&lang=zh_CN#rd

https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247629931&idx=1&sn=3ee515e9f3e618c4cd05bb5841a96ecc&chksm=909af5f8a7ed7ceebfcc48fd9e38140412b6244de846b6bd11e800f3f65b0985dfa4f674c927&token=1979387772&lang=zh_CN#rd

https://arxiv.org/pdf/2103.17249.pdf

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好_第21张图片

【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
java实现卷积神经网络CNN（附带源码） Katie。 Java 实战项目 java
Java实现卷积神经网络（CNN）项目详解目录项目概述1.1项目背景与意义1.2什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析3.1项目目标3.2功能需求分析3.3性能与扩展性要求3.4异常处理与鲁棒性考虑系统设计与实现思路
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
遗传算法与深度学习实战（2）——生命模拟及其应用盼小辉丶遗传算法与深度学习实战深度学习人工智能遗传算法
遗传算法与深度学习实战（2）——生命模拟及其应用0.前言1.康威生命游戏1.1康威生命游戏的规则1.2实现康威生命游戏1.3空间生命和智能体模拟2.实现生命模拟3.生命模拟应用小结系列链接0.前言生命模拟是进化计算的一个特定子集，模拟了自然界中所观察到的自然过程，例如粒子或鸟群的聚集方式。生命模拟只是用来探索和优化问题的模拟形式之一，还有很多其他形式的模拟，可以更好地建模各种过程，但它们都源于康威
PyTorch从入门到精通：探索深度学习新境界 lmtealily 深度学习 pytorch 人工智能
引言PyTorch作为当前最受欢迎的深度学习框架之一，凭借其动态计算图的独特设计和与Python生态的无缝集成，正重塑着人工智能开发的新范式1。从NVIDIA的研究实践到Meta的产业应用，PyTorch的价值已渗透至学术研究、工业部署的每个角落。本文将带领您从张量操作基础开始，逐步探索GPU加速、动态图机制、框架生态集成等高级主题，最终实现理论与实战的双重突破。一、PyTorch核心基础构建1.
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
PyTorch 实现 Conditional DCGAN（条件深度卷积生成对抗网络）进行图像到图像转换的示例代码 max500600 算法 python YOLO 深度学习人工智能
以下是一个使用PyTorch实现ConditionalDCGAN（条件深度卷积生成对抗网络）进行图像到图像转换的示例代码。该代码包含训练和可视化部分，假设输入为图片和4个工艺参数，根据这些输入生成相应的图片。1.导入必要的库importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionimporttorchvision.
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
DeepSeek：技术教育领域的AI变革者——从理论到实践的全面解析量子纠缠BUG DeepSeek DeepSeek部署 AI 人工智能 python
一、技术教育为何需要DeepSeek？在数字化转型的浪潮下，技术教育面临着知识更新快、实践门槛高、个性化需求强三大核心挑战。传统的教学模式难以满足开发者快速掌握前沿技术、构建复杂系统能力的需求。DeepSeek作为国产开源大模型的代表，凭借其推理能力、多模态支持与低成本部署的特性，正在为技术教育带来突破性解决方案。二、DeepSeek赋能技术教育的核心技术优势1.推理能力驱动深度学习思维链（CoT
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
一文搞懂 AI Agent 与 AI 大模型的区别 a小胡哦人工智能 Manus Ai agent
在人工智能蓬勃发展的当下，新术语和新技术层出不穷。AIAgent和AI大模型便是其中的“明星”，但不少人对它们的区别感到困惑。今天，我们就以Manus这类AIAgent为例，深入剖析AIAgent与一般AI大模型的不同之处。Manus：Manus定义与核心能力AI大模型AI大模型是基于深度学习架构，通过海量数据训练得到的复杂模型，像GPT-4、文心一言等。它们具备强大的知识储备和语言理解生成能力，
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
Spring深度学习 — 关于 Spring 搬运Gong Spring spring
前言作为一名Java程序猿，相信对Spring都不陌生，那么我们经常使用的Spring的发展史大家都了解过吗？它是如何来的？又是如何一步一步成长到了现在这种不可替代的重要地位？下面将对Spring进行一个整体认知和学习，对后面的深度学习起到铺垫作用。本文意在对知识点的温顾，如文中有写的不对的地方，还望不吝指教。一、Spring的发展史相信经历过不使用框架开发Web项目的70后、80后都会高如此感触
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线云梦优选计算机数据库大数据计算机视觉学习人工智能
一、基础准备1.数学基础线性代数深入矩阵运算，理解矩阵乘法、转置、逆等基本概念。掌握特征值与特征向量的几何意义，理解其在图像压缩、特征提取中的应用。学习奇异值分解（SVD）及其在降维和数据压缩中的具体应用。概率与统计熟悉贝叶斯定理及其在分类任务中的应用，如朴素贝叶斯分类器。理解常见概率分布（如正态分布、二项分布）及其性质。学习统计推断方法，如假设检验、置信区间估计，以评估模型性能。微积分掌握梯度、
Python--读取mat文件一头大学牲程序--编程记录 python 开发语言深度学习机器学习
最近在进行学习深度学习过程中，遇到了以MATLAB的.mat格式存储的数据，需要用python读取出来处理，于是就找到了以下比较方便的三种python读取mat文件的方法：使用hdf5库来读取mat文件1.使用scipy.io来读取1.5知识小插曲2.使用hdf5来读取3.使用mat73来读取1.使用scipy.io来读取-如果你的matlab的版本比较旧，保存的.mat格式为‘-v7.3’以前的
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
Manus（一种AI代理或自动化工具）与DeepSeek（一种强大的语言模型或AI能力）结合使用任务自动化和智能决策 zzlyx99 人工智能自动化语言模型
一、Manus与DeepSeek差异十分好奇DeepSeek和Manus究竟谁更厉害些，DeepSeek是知识型大脑，Manus则是全能型执行者。即DeepSeek专注于语言处理、知识整合与专业文本生成。其核心优势在于海量参数支持的深度学习和知识推理能力，例如撰写论文、润色法律合同、解答专业问题等。Manus则更强调从规划到交付的闭环能力。它通过工具链调用（如浏览器、代码编辑器）自主执行复杂任务，
深度学习处理时间序列（2） yyc_audio 深度学习笔记深度学习人工智能
在数据中寻找周期性在多个时间尺度上的周期性，是时间序列数据非常重要且常见的属性。无论是天气、商场停车位使用率、网站流量、杂货店销售额，还是健身追踪器记录的步数，你都会看到每日周期性和年度周期性（人类生成的数据通常还有每周的周期性）。探索数据时，一定要注意寻找这些模式。（让人想到波，想到傅里叶变换）对于这个数据集，如果你想根据前几个月的数据来预测下个月的平均温度，那么问题很简单，因为数据具有可靠的年
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
基于深度学习的个性化新闻推荐系统设计与实现计算机毕设 sj52abcd 深度学习课程设计人工智能毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着互联网技术的发展和普及,人们越来越依赖互联网获取信息。然而,随着信息量的不断增加,用户在查找新闻时面临着信息过载的问题。为了解决这个问题,个性化新闻推荐系统被广泛应用。个性化新闻推荐系
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

GAN“家族”又添新成员——EditGAN，不但能自己修图，还修得比你我都好

你可能感兴趣的:(深度学习,生成对抗网络,深度学习,计算机视觉)