陈城南

【城南】如何识别AI生成图？视觉AIGC伪造检测技术综述

图片无法加载可参考阅读：知乎文章

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ry2Qw8uO-1685675351028)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MWFkNzMyZjcyYTE4YzJkM2MxYzVlMTQ1MzQzNDAxNTZfc01xTFVyMks3SnJFTFNWVFd1WHB2dmFIblpuT2o3ZWxfVG9rZW46RDZtaGJDRXpob2doNUN4U2h5VmNBZWdobkpkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

如何识别 AI 生成图片？or 如何识别 AIGC 图？or 如何识别 AI 换脸？or AI生成图伪造检测？

类似的说法有很多种，总之就是利用AI技术来鉴别一张图是不是AI生成的，这种AI技术就是本文的内容。

朋友好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师，带来最新的前沿AI知识和工具，欢迎大家交流~，后续我还会分享更多 AI 有趣工具和实用玩法，包括 ChatGPT、AI绘图等。

公众号「陈城南」或加「cchengnan113」备注AI交流群
知乎账号「陈城南」

视觉AIGC识别

现阶段视觉AIGC（AI-generated Content，人工智能生产内容）主要包括图片（Image）和视频（Video），视频的本质是连续的图片帧，忽略其音频信息的情况下，视频生成则是图片生成的延伸。因此，视觉AIGC识别主要聚焦在AIG图片的识别。

在AIGC这个概念爆火之前，图片生成的应用一直存在，比如利用GAN进行AI换脸等。因为AI绘图和ChatGPT等大规模语言模型（LLMs）分别在两个领域表现出惊人的效果并成功出圈，AIGC这一概念才开始被大家熟知。本文所说的「视觉AIGC识别」则同时包含AI换脸等前AIGC时代的检测，也包含Midjourney、SD等AI绘图场景的识别。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kz4DFNG7-1685675351030)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MzkwZmRmODRmYmU0YjI1ZmYzOTM5ZGEzNzU4ODI2ODRfZFFXaEZlZk5VWUdqd2RYRzFBR0VZWHlEVTVQcFVjZGdfVG9rZW46Tk9tM2JxUWxkb0hOZFZ4a3hLUWN6ZFRvbk5iXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

由于AI换脸等人脸伪造技术在应用和负面影响上较大，技术相对成熟，其识别难度也较大，识别的相关研究也便相对集中。因此，本文根据已有的研究工作调研，将视觉AIGC识别粗略划分为：

人脸伪造检测（Face Forgery Detection）：包含人脸的AIG图片/视频的检测，例如AI换脸、人脸操控等。此类方法主要关注带有人脸相关的检测方法，检测方法可能会涉及人脸信息的先验。
AIG整图检测（AI Generated-images Detection）：检测一整张图是否由AI生成，检测更加的泛化。这类方法相对更关注生成图与真实图更通用的底层区别，通常专注于整张图，比如近年爆火的SD、Midjounery的绘图；
其他类型假图检测（Others types of Fake Image Detection）：此类方法更偏向于局部伪造、综合伪造等一系列更复杂的图片造假，当然人脸伪造也属于局部、复杂，但是是人脸场景。将AIG图与真实图拼凑、合成的图片识别也属于这一类。

这三种类型之间划分并不明晰，很多方法同时具有多种检测能力，可划分为多种类型。严格意义上说AIG整图和其他造假图检测类型可能都会包含人脸信息，但三种类型方法往往技术出发点也不同。

生成式模型总览

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3zEeoTBe-1685675351033)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmM0Y2Y5YzViOWYwZWRkNGYwZGJkNjQ2MjQ1YjhkZjJfa25TYVd0YjJLUFF1bTdKZ0VCSnc3cERENjlhMEE4djVfVG9rZW46Qkd1RmJ5QjZkbzhUc0J4YTloU2NaUUFQbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

图片生成模型比较受欢迎的主要有3种基础架构[0]，变分自动编码器VAE系列（Variational Automatic Encoder）、对抗生成网络GAN系列（Generation Adversarial Network）和扩散模型DM系列（Diffusion Model）。其中AI绘图以2020年的去噪扩散概率模型DDPM（Denoising Diffusion Probabilistic Model）为一个较大的里程碑，在此之前的生成模型主要以GAN居多。当下最火的开源AI绘画模型 Stable Diffusion 则为扩散模型，据悉 MidJourney 是变形注意力GAN的变体[1]。

人脸伪造检测（Face Forgery Detection）

特指包含涉及人脸相关内容生成的图片/视觉生成，例如AI换脸、人脸操控等；

人脸伪装图生成

了解人脸伪装检测技术前，需要先了解人脸造假图片生成的技术有哪些，不同的生成技术/场景可能有不同的检测方法。基于论文ForgeryNet[2]中的内容，人脸伪装图片生成的相关方法（截止2021年前）可以总结如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gw4ly6We-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTJkMjc3ZDliYjliZTg0ZGY5ZWIxODY5ZjZjZDM1Y2Zfd2ticXo1Yk9Wam0xNWl4VVlpMkt4S3BuTFZGTFhKS1lfVG9rZW46Q2lNOWJkNWUxb0Y4SDd4WGIxZGM1YjlMblNjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

其中，StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)

人脸伪装图根据身份信息是否更改划分为身份信息不变类和身份替换类。

身份不变类伪造图在图片修改/生成时不修改图片中人物的身份信息，包括：

人脸编辑：编辑人脸的外部属性，如年龄、性别或种族等。
人脸再制定：保留源主体的身份，但操纵其口部或表情等固有属性；
- https://github.com/harlanhong/awesome-talking-head-generation
- https://github.com/Rudrabha/Wav2Lip

身份替换类伪造图在图片修改时同时改变其中人的身份信息：

人脸转移：它将源脸部的身份感知和身份不相关的内容（例如表情和姿势）转移到目标脸部，换脸也换表情等等，相当于把自己脸贴在别人的头上；
换脸：它将源脸部的身份信息转移到目标脸部，同时保留身份不相关的内容。即换脸，但不换表情，自己的脸在别人脸上做不变的事情；
人脸堆叠操作（FSM）：指一些方法的集合，其中部分方法将目标图的身份和属性转移到源图上，而其他方法则在转移身份后修改交换后图的属性，多种方法的复合；

伪造图检测方法

本部分主要为相关检查方法的部分论文简介。

【综述】GAN-generated Faces Detection: A Survey and New Perspectives

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j5cJQrcI-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmUyYTNlMmFiMTk3ZjA4ZWY2OTk1MjcxZjBiYjkzYTFfRlRWd3h6a0kwR0U4a0FlZ09CbVBrWnhJYVdsbkJCeGZfVG9rZW46QXJyUmJnOTRPb2RTckN4aDIxQWNFTVgzbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

Arxiv 2023 工作，介绍了DL方法、物理学方法（Physical-based Methods）、生理学方法（Physiological-based Methods）的检测方法，同时给出了不同生成模型的时间线（上图）。文章指出根据调研显示，GAN-face现在AI检测性能高于人，因为有些图一眼看过去非常真，人的识别准确率也只有50%~60%。在这三类方法中

DL方法的图片识别（分类）可解释性不太行，如果人看不出来，AI识别出来但又没有原因，比较难解释；
基于物理的方法通过寻找人工信息或面部与物理世界之间的不一致，例如透视中的照明和反射，来识别gan-face；
基于生理学的方法研究人脸的语义方面[14]，包括对称性、虹膜颜色、瞳孔形状等线索，其中识别的伪像用于暴露gan人脸。

作者还给出了归类的不同方法及性能（如下），但我分析后发现这个表存在不足：
作者在第3章提到的很多DL方法的结果没有出现在此表中；
该表格的测试集不统一，每个方法的结果不能与其他方法公平的比较，无法较高凸显性能优劣；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-54pVYdSE-1685675351035)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTUyY2Y3ODgwMzliOTQ4ZTk1NTM3M2Q5Nzc1ZjZhNzFfeXpUQW1MczdTa0NNVndDVWtDc2hKcnZyd2VJTkFRREtfVG9rZW46QXJXMWJlZzBib3JXNFN4cjhIc2NMNHZvbkRkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

【音画不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HY9BSC7u-1685675351036)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=YTU4ZmY2ZWRiYjM1ZWY1YjE0YTYxNTNhYTU5MzNhNjNfQjhrbzNkRU9FV2l5bjFHNTlkWHo0VlhZbHY0dHk3RmtfVG9rZW46TXdTa2J1QlBob2dPUEx4WGVsUWNOZVVIbnhkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

MM 2020 工作，针对虚假视频问题，作者给视频定义了模态失调得分（Modality Dissonance Score, MDS) 来衡量其音画同步的程度。

视频支路 3D ResNet，把连续视频切成n个Seg，每个Seg又有m个帧，最终经过3D特征抽为 n 个特征；
音频支路，把连续声音1-秒间隔转化为 MFCC特征（一种音频的热力图），然后同样是送入卷积网络得到n个音频特征。
然后两个特征进行对比学习，对于Fake video最大化不一致得分MDS，Real video最小化不一致得分MDS。另外还有分类损失进行分类。

该方法太依靠同步信息了，很多网络延迟引起音画不同步、或者视频中环境声较大的情况…都不能使用；

可检测场景：换脸、人脸操纵等；

【唇部变化识别】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wVaw0wwX-1685675351037)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MGMwNmZlMGQ3ZmU5YTMyZDg3ZDY0ZjQ4MmM5OTM5NThfUFVRVlZzSG5nV1drZEhkaGtpNDBqbXlmaGZlMXNvT21fVG9rZW46QWdYZ2JVenI4b2tSZWx4VW1FN2NPYnJibkNBXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR2021 工作，该文章也针对视频检测，利用唇部运动进行检测，是文章最大的亮点。

在lipreading任务上预训练CNN（freeze框内），作者称根据之前经验“在正常任务上训模型能提高模型对异常值（虚假）的敏感性”，事实上他的实验证实了这一点，lipreading的预训练任务能大幅提升其结果；
在虚假检测（也就是假脸检测）任务上finetune 时空网络（我个人理解这里的时空网络其实就是一个多帧特征融合，直接用个Transformer应该效果一样甚至更优）
损失用交叉熵做 2 分类；

预处理方面细节：

使用25帧图作为输入，使用RetinaFace[16]检测每一帧的脸，只提取最大的脸同时Crop 1.3 倍防止丢失信息；
用FAN[15]计算脸部 landmarks 进行唇部的裁剪，同时还做了对齐，作为模型输入；

实验：

lipreading的预训练任务能大幅提升其结果
在其他数据集上泛化性也比较好，毕竟主要针对唇部还用其他模型做了对齐，泛化性好可以理解；

【削弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

旷视科技的CVPR2023工作，开源在其官方github中，落地性应该有背书，属于训练复杂推理简单的。

通常用一个二分类训deepfake模型时可能存在一个问题，模型会把身份信息也学到，导致在鉴别fake图片时借用了id信息来辅助判决（比如某ID的脸都是真脸，模型通过记住ID来检测真假）。这些泄露的ID信息会在unseen数据上误导判决，这显然是不利于模型泛化的。作者将这一现象称为 隐式身份泄露（Implicit Idenetity Leakage）。

作者认为ID信息通常是由全局信息反应的，局部特征比较难反映出这些信息（比如单独的嘴、鼻子等），因此为了防止“隐式身份泄露”，作者干了两件事：

提出人工伪装检测模型（Artifact Detection Module，ADM）来使模型聚焦于局部信息；
同时为了配合ADM训练，设计了多尺度的面部交换方法（Multi-scale Facial Swap，MFS）来生成具有不同尺度的人工伪造信息（Artifact）的图片，增强数据集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0tw3Xw0F-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Y2YwYmI4YzA4MjFjYTEzNDU5OWUzMmE1ODkwYWUyMTJfdFFGbmlxT29nNmZPV05Fc2pjWElTSFhSMW56WmdjMjZfVG9rZW46S1ZSWWJaYkJhb2FndHN4UGlPeWNMMlIzbk1oXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

实验效果：

比上面的 LipForensices 在 FF++ 数据集上鲁邦性效果好；
在FF++，Celeb-DF 上效果略优于 SBI[17]

【自监督对抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4miNYkV7-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=M2IwNzhjN2RhYjQ3Njk1ODNhMmY0OGQ2NGQ5NzY0ZWJfOXEweHpRanJiamdZU0hrSmc3ajJwZ1Y5QW02V2lTNVdfVG9rZW46RGwxYmJMN2pnb0U4TWF4OWNvM2NVd2NsbjBmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR 2022 工作，论文通过3个角度来提高检测器的泛化能力（A数据训 B数据集测），泛化能力也是论文的主要卖点。如上图，训练框架由合成器G、图片合成和判别器 D 组成，形成对抗训练。

合成器：生成配置参数，用来合成更丰富的自监督样本数据（注意是生成配置的参数）
1. 原生假图：不处理，即不进入合成器，直接用来训判别器；
2. 原生真图：不增广的真图不进入合成器，直接训判别器；
3. 合成假图：有一定概率与一个随机图（Reference）进行增广，形成局部虚假的假图；
图片合成：合成器G会生成配置方案（区域选择10个；混合blending类型选择；以及合成比例选择ratio），基于此进行合成（即数据增广）
1. 其中合成器输出区域的下标index，具体的区域需要利用 landmarks 网络生成该脸的 landmarks并进行选取；
判别器G：对图片进行分类，同时添加辅助任务，用合成器的G的输出作为label
1. 区域预测：分割Loss，label就是 landmarks 组成的掩码；
2. Blending type：分类loss
3. Blending ratio：L1距离loss；

因此，3个角度为：1. 合成数据，数据量大；2. 对抗训练，优化配置和判别器；3. 辅助任务且自监督；

其他可参考论文/项目

人脸伪装检测的论文太多了，上面总结的也只是其中一角，包含的类别也不够多。

比较全的Github，包含各种数据集、方法等：https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection
Survey：https://github.com/clpeng/Awesome-Face-Forgery-Generation-and-Detection
Detecting and Grounding Multi-Modal Media Manipulation, CVPR 2023: Paper Github
End-to-End Reconstruction-Classification Learning for Face Forgery Detection (2022 CVPR) [Paper] [Code]
Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (2022 CVPR) [Paper] [Code]
OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training, NIPS 2022: Paper Github；该作者代码基于上面的Self-supervised方法；
Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection, CVPR 2022: Paper
Detecting Deepfakes with Self-Blended Images, CVPR 2022: Paper Github
Multi-Attentional Deepfake Detection, CVPR 2021: Paper Github
鲁邦的二分类：https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

AIG整图检测（AI Generated-images Detection）

检测一张图是否由AI生成，即是否为 VAE、GAN、扩散模型DM生成的图（后简称为VAE图、GAN图和DM图）。通常这种判断是整图粒度的，但如果某个图的部分区域为生成图片，部分方法也是可以识别的。

本类识别生成图的方法大体上遵循一个整体的思路：将真实图（Real）和生成图（Fake）送到深度网络进行特征提取，并基于此构建一个二分类模型来进行最终的判断，细节差异在于：

模型不同。不同的方法采用不同的模型提取真实图/生成图的特征，从而性能不同。
特征不同。不同的方法使用不同的特征参与训练。
1. 一些模型使用纯视觉信息区分真假图，包括伪影[8][9]、混合边界[10]、全局纹理一致性[11]等；
2. 一些模型引入图频率信息[12][13]，通过额外的频率信息区分真假图；
3. 一些模型通过重建待检测图来发现生产网络的固有属性[14]，利用重建图和待检测图间的差异来训练模型进行判断，以获取更泛化的检测方法；
数据不同。
1. 一些方法通过对抗手段生成更hard的图片，从而增强模型识别能力；

目前这些大部分方法均有一个共同的不足：跨模型检测泛化性差。具体来说，训练集中的生成图（Fake）由特定的生成器G产生，检测器在检测同为生成器G生成的图片时表现很好，而对于新生成器生成的图片检测器表现会差很多。

举例说明：现在有图片生成器GAN-1，生成了一批数据Data-1参与检测器Det的训练，则Det在GAN-1的另一批数据Data-1’上表现会很好。可是如果有新的生产器GAN-2或者DM-1产生数据Data-2，在Det对Data-2的检测性能就会差很多。

GAN图识别

在扩散模型出现之前，检测方法大多是针对GAN图的。

【二分类】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

CVPR 2020工作（github） Baseline方法

该方法使用最朴素的二分类网络训练思路构建了一个“universial”检测器，在不同的网络结构上均能取得较好的结果，具体的：

二分类网络为 ResNet50；
训练集使用ProGAN进行图片生成，为了凸显其对不同结构的泛化性，测试集使用了 ProGAN，StyleGAN，BigGAN，Deepfakse等11个网络的生成图片。
数据增广使用了无增广、高斯模型、JPEG压缩和模糊+JPEG压缩等多个增广。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8m08C05-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZmRjNWVhNDg3MmM0MzZkM2QzZjc3NGE3ZjI0NDdkYTRfUEtlc2Y5TE44Ukt0d0xXbGxxVEpBRUhlU3dHZGx4TlNfVG9rZW46VEs3QmJrSUtFb0lGcGp4TXhGSGNyb1FpbnhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

通过实验证明：

数据增广通常能有效提高检测器泛化性和鲁邦性；
1. 高斯模糊可能会掉点，比如SAN（超分辨模型）的生成图中高频信息比较重要，使用高斯模糊的训练集会降低检测器对高频信息的获取，则效果变差。
在构建训练集时，更丰富数据多样性能提高检测器的能力；

【二分类plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art

ICME 2021，Github

该方法延续了CNNDetection中的思路对现有的检测方法进行了分析，在其基础上，

将ResNet50改为 XceptionNet 和 Efficient-B4；
对 XceptionNet 和 EffectionNet 不进行第一个Down-sampling的Trick，简称No-down，这个trick对性能提升挺大的（论文中称这个idea引用自steganalysis问题，“to preserve features related to noise residual, it performs no down-sampling in the first layers of the network”, 在我看来其实是从网络最初去掉了一个降采样，增大了特征图的大小，细粒度特征更多）。
1. 代码实验：就是把 https://github.com/grip-unina/GANimageDetection/blob/main/resnet50nodown.py#L87 的步长 stride 由2改为1

【频率特征】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VnQ5jQ27-1685675354325)(null)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dbOPLBWo-1685675351050)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OGZhZTA3ZTM1MjcyYzZlZTFmODIyNmE5YjUwYTM1NGRfWXdhRG5jZmlvcDF6VzFTZTVkc2NTdmdTM1Z5U0Jsc0xfVG9rZW46QVMzcmJ6Yndtb0RGUG54bEJROWM1Z2xUblRiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

WACV 2022 工作

作者认为频率空间也有人工信息，并构建了上述模型进行人工信息提取和证明。

利用可学习的人工压缩映射（ACM）模块压缩频率空间的人工信息，与判别器组成对抗学习进行训练，最终训练好的ACM就能提取出伪影区域。
通过分析，作者得出结论：伪影在高频分量中有很大的幅度；伪影位于图像的周围背景，而不是中心区域；

基于这些分析，作者提出 双边机制高通滤波器(BiHPF) 对原图进行处理，它能放大了生成模型合成图像中常见的频率级伪影的影响。BiHPF由两个高通滤波器(HPF)组成:

频率级HPF用于放大高频分量中伪像的幅度；
像素级HPF用于在像素主体中强调周围背景中的像素值。

最终将处理后的增强图片进行分类训练。

【频率扰动】FrepGAN: Robust deepfake detection using frequency-level perturbations

AAAI 2022 工作

作者发现**忽略频率的人工信息能提供检测模型对不同GAN模型的泛化能力，**而直接训一个分类器容易对训练集过拟合，所以要在训练集上做频率扰动；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y81KQYPy-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjY0NTYyZmVlNGQ2MTYxYzVmNzhmODZmZTNhYjdlMWJfWlM2R2RBaDJJMllXTnpRbGRzRE5KV1VNRGw2UUhOUlRfVG9rZW46WUFNRWJFeTVZb0tRc094UVM0VmNpNUllbldmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

核心思路是在Fake图片生成时，同时让频率信息参与，这样生成图的频率就被扰动了，并用此来训练检测分类器。检测分类器从而提高对频率的抗干扰能力。
频率扰动生成器G：让频率信息参与图片生成。具体来说，输入图片 $x$ 经过快速傅里叶变换（Fast Fourier Transform, FFT）得到 $x$ ，其size为hw2c，通道数为2倍。通过一个image-to-image的生成器H，得到输出 $z$ ，再经过逆FFT。通过这种方式，频率信息在生成时也被考虑，生成图G(x)（称为扰动特征图）就具有频率信息。整体的频率扰动生成器为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AG5aiAh1-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZDhmMDc5ZWY5M2EyMDRiYzk4OWFkMmNkNzUzMzIzNWJfV2ZoeklKdWpvR0dXcERVeXNzcm12OEl4Zkt2WEljaDZfVG9rZW46S2FNMWJBWG5ub0tXWDN4UkswcmNmaFNUbmRlXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

扰动判别器D（Perturbation Discriminator）：标准的对抗生成思路，用来强化G(x)假图，使其生成的图片不能被识别出来，这样的话频率信息参与了生成，但生成的图与真实图无法被视觉区分。
检测识别器C：让图片x和其扰动特征G(x)一起当做输入进行二分类，这样频率信息就能被考虑进去并忽略。

【梯度特征】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ELt2VGx2-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmExZmE5NGMxOTQ0YTA4M2IwMWNhNjMwYjVmNWQzMTRfVThGYm1lRzFZM0FnVlRJcHRtUTZKajdJbTRsbDE0YUZfVG9rZW46QVZ6NmJwTkFKbzllOFZ4ZVRsdmNWR3M1bjRjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR2023，Github

使用Transformation model （转换模型，预训练的CNN模型，各种现有的模型都行，VGG，ResNet50，ProGAN的判别器，StyleGAN等等）将图片转化为梯度图，作为该图的人工特征；
将梯度图送进分类器进行分类训练，判断其是否伪造；

跨模型能力对比

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SSTBy6TC-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmJhODA5MjhkMmIzOGU0ZWE3MDhiYjA0MjJhMGM4NTNfelM5dmRNdjRKcE42ejJDeVZYNG50OHoxa3JFdWhJVU9fVG9rZW46U2JDTWJWMURqb2xWNmF4S09NTmNkWHEwbkxmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

Wang42是CNNDetection 2分类，比起纯2分类要好很多，也比频率方法也好。
其中StyleGAN-badroom作为转换模型最优；

TransformationModel对比

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KwAVFqAF-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZGE3NzZjOGJjMGFhN2JiNDY0MGQzYmJlNWIxNWE1ODJfYWlvQ2ZaTXppRmxaTE9JWVpZRm12MXNlTzRoenR5TzZfVG9rZW46Umo0cGJKQXdYb1JXdEx4RGdaU2NEWmNvbmVNXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

TransModel使用不同模型效果不一样，StyleGAN-Bedroom相对最优；

DM图识别

扩散模型的生成图识别属于探索阶段，偏探索性的论文也较多。

【DM图与GAN图检测可行性分析】Towards the Detection of Diffusion Model Deepfakes

ICLR 2023 在投，Github

这篇文章作者探索了之前的GAN识别方法（CNNDetection, Grag[4] 等模型）能否用于 DM 模型图的识别，是否有统一的检测器可以识别两种模型生成的图：

使用的数据集是LSUN Bedroom[6]，包括卧室（Bedroom）、客厅（Living Room）、餐厅（Dining Room）、办公室（Office）、厨房（Kitchen）、街景（Street View）等场景。
测了5个GAN和5个DM模型，发现GAN上的模型直接用在DM模型的图上检测效果会变差很多，但Finetune一下性能就会恢复；
相比于GAN图，DM图在频率人工信息更少；
DM图识别比GAN图识别更难；

【DM图检测分析】On the detection of synthetic images generated by diffusion models

Arxiv 2023，Github

该文章也是做检测分析的，通过频域分析、模型检测能力分析（将之前GAN识别的CNNDetection[3]模型和 Grag[4] 模型用于 DM检测，当做鲁邦的二分类进行）。论文通过实验分析认为：

相同网络结构生成的图片有相似的痕迹（比如DM图的阴影和反射不对称等等），这些痕迹有些在空间域可以发现；
通过对现有的12个检测器进行训练和测试（真实数据源自COCO、ImageNet和UCID；合成图来自COCO的langage prompts使用ProGAN生成），结果表明现有模型的泛化性能依然有限，比如在DM上训，在DM的图上测试，效果还可以，但跨模型测就不行了。
另外，如果图片经过二次处理（比如压缩等社交媒体的变换），这些生成图就更难判断了，因为压缩会损失一些痕迹（比如高频信息等）。

作者还用了一些训练方法（Platt scaling method [34]），在多模型融合基础上，比单个模型性能要好。在作者测试的几个模型中，Grag2021[4]单模型最优（使用了No-down ResNet）；这些篡改模型部分来自于IEEE VIP Cup [5]比赛。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qlAJRHmE-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NmJjMGE5NzY3MGVlZjE1ZmU5ZWUzMWVhNTVkOWRhY2ZfNjlXb2pIWDF1TEFlUklkMHFTdFd3SldGbWNsbmlrZWNfVG9rZW46V3JlRGJkbWk4b3RoaHh4Yk9EWWNic1FPbjJkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

ProGAN上训，跨模型测，发现在众多模型中，DALL·E 2 和 ADM 的泛化能力最差。这一难度也从频域的指纹分析上可以看出，ADM和DALL · E 2 的频率特征与其他模型的差别最大。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TCPnFSBV-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Njg0OGI2NTRlMTBlZGJiMDFhZDgyMmFiZjk5Mzg4OTRfeWU5OUNNdWpJZXhGM1BacVRuUnlGMDM4V0N6Y0lxYmtfVG9rZW46WkxwQ2J6dVJxbzZ0a094VzVVcGNBN2lYbk9lXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

【误差特征】DIRE for Diffusion-Generated Image Detection

Arxiv 2023

作者发现DM 图可以被近似地被扩散模型重建，但真实图片不行。将重建图和原图的图片差异记为扩散重建差（DIffusion Reconstruction Error，DIRE），则DIRE可以作为特征进行2分类训练，判断是否虚假，泛化性会高很多；

重建图像差DIRE可以区分真实图和合成图的原因如下图：

合成图在重建后变化往往较小；
真实图在重建后变化相对较大；

我得理解是，真实图在重建时会丢失很多信息，而生成图由于本身就是模型生成的，重建时信息变化相对不大。因此差异可以反映其真假。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aoqDHm9A-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjBmYzc0MTFjZjBlODljMWNhMjgxYjE4YWE3ZjViZGVfNU44UVJQMFZaNEV2UG5qZVRxYnVVZzYxbEZUVzVHdzdfVG9rZW46SXE1UGJDTDlxb0ZaT1Z4cXZTemNPNFZTbmhmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cLd8iUvP-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NDdiYzYyMGRmY2RmZjAzMmEyNjdhZjAyMzdjMmQ2ZWVfcklDUmlpTmJ2TE1KRDdGYmhaUDlQb3A2ZVE3NlNWWHVfVG9rZW46V1VFdGJmMGVUb05naTh4TXhxbWMxNTFObnliXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

该方法通过预训练的扩散模型（Denoising Diffusion Implicit Models，DDIMs[7]）对图片进程重建，测量输入图像与重建图像之间的误差。其实这个方法和上面梯度特征的方法LGrad很像，区别在于上面是通过 Transformation Model转换模型获得图像梯度，这里通过 DDIM 重建图计算差。

此外，作者提出了一个数据集 DiffusionForensics，同时复现了8个扩散模型对提出方法进行识别（ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion）；

跨模型泛化较好：比如ADM的DIRE 对 StyleGAN 也支持，
跨数据集泛化：LSUN-B训练模型在ImageNet上也很好；
抗扰动较好：对JPEG压缩和高斯模糊的图，性能很好；

最后看下实验指标，看起来在扩散模型上效果很好，这ACC/AP都挺高的，不知道在GAN图上效果如何。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aKmWh4h9-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTczMjAyYTk4ZGU0MDRjMjk0ZGZmN2JiZTUzMmFkMzJfYWJJWER3RkpGaTFwdWpBYUhqOVVvdzl4VHhVczJBUjNfVG9rZW46SmdqSmJaV2Jrb3hmR0p4NnhXdWNZNkszbjhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

其他可参考论文/项目

DM检测的二分类baseline代码：https://github.com/jonasricker/diffusion-model-deepfake-detection
生成模型综述：https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
Papers with Code - Detecting Images Generated by Diffusers
https://github.com/davide-coccomini/detecting-images-generated-by-diffusers

其他类型假图检测（Others types of Fake Image Detection）

社交媒体中发的篡改图：Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
通用图片造假检测（局部造假等）：Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github

Reference

[0] AIGC图像生成模型发展与高潜方向

[1] 绘图软件midjourney的底层模型是什么？ - 互联网前沿资讯的回答 - 知乎 https://www.zhihu.com/question/585975898/answer/3013595427

[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva, “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,” in IEEE ICME, 2021.

[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva, “IEEE Video and Image Processing Cup,” https://grip-unina.github.io/vipcup2022/, 2022.

[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.

[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.

[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.

[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.

[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.

[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.

[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.

[13] FrepGAN: Robust deepfake detection using frequency-level perturbations

[14] DIRE for Diffusion-Generated Image Detection

[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.

[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.

[17] Detecting Deepfakes with Self-Blended Images

你可能感兴趣的:(AI,计算机视觉,人工智能,AIGC)

c++中如何排查死锁三月微风 c++java 开发语言
排查死锁（deadlock）是多线程C++开发中的一项核心调试技能，死锁通常是因为多个线程交叉持有资源而相互等待导致程序卡死。下面详细讲讲如何排查和预防死锁：一、死锁的常见成因锁获取顺序不一致（最常见）多个互斥量之间相互等待一个线程尝试多次加锁同一个非递归互斥锁忘记释放锁条件变量使用错误（如wait时未持锁）二、排查死锁的方法✅1.日志调试法在加锁和解锁前后打日志，确认：哪些线程获取了锁哪个线程卡
Xcode 26 现已发布，并支持代码智能它与基于 Cursor 和 AI Agent 的工作流程相比如何？知识大胖 SwiftUI源码大全 xcode macos ide
简介Xcode26昨天发布了！惊喜的是，它支持macOS15，但要使用新的ChatGPT助手，你需要macOS26Tahoe。所以我把我的M3MaxMacBookPro升级到了Tahoe。我不是说你应该升级，但我这么做是为了测试Xcode的新功能并与大家分享！值得注意的是，这是迄今为止最小的Xcode版本（下载大小）！正如Apple在Xcode新功能会话视频（我建议您观看）中所说的那样，这是一项巨
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
OpenWebUI系列之如何通过docker自动将其更新到OpenWebUI最新版本知识大胖 NVIDIA GPU和大语言模型开发教程 docker llm openwebui
实战需求OpenWebUI是一个可扩展、功能丰富且用户友好的自托管WebUI，旨在完全离线运行。它支持各种LLM运行器，包括Ollama和OpenAI兼容API。如何通过docker自动将其更新到OpenWebUI最新版本？系列文章《OpenWebUI系列之如何通过docker更新到OpenWebUI的最新版本》权重0，本地类、opewebui类《OpenWebUI系列之如何通过docker自动将
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
远程登录docker执行shell报错input is not a terminal问题
背景最近要远程去k8sdocker里面获取信息，于是，写了一个如下的命令，执行完之后，报错了。ssh192.168.100.2sudocrictlexec-itxxx.docker/usr/bin/lscpu--online--extended错误信息如下：time=“2025-07-11T21:00:39+08:00”level=fatalmsg=“execingcommandincontain
基于 openEuler 24.03 (LTS-SP1)：彻底解决 containerd 拉取私有仓库镜像时的 x509 自签证书报错问题 gs80140 各种问题 ansible ssl x509
目录基于openEuler24.03(LTS-SP1)：彻底解决containerd拉取私有仓库镜像时的x509自签证书报错问题摘要❗️问题背景✅解决方案（官方推荐根证书信任法）步骤一：准备自签CA文件步骤二：复制证书至系统信任目录步骤三：刷新系统信任根证书步骤四：重启containerd服务步骤五：验证拉取是否成功故障排查建议参考配置（非必须）✅总结基于openEuler24.03(LTS-SP
C++中的智能指针
智能指针是C++中用于自动化管理动态内存的类模板，通过封装原生指针，并利用RAII（资源获取即初始化）技术，确保内存的自动释放，从而避免内存泄漏和悬空指针问题。它是现代C++内存管理的核心工具之一。原生指针的缺陷：1.内存泄漏：忘记调用delete2.悬空指针：释放后仍访问指针3.重复释放：同一内存被多次delete智能指针的优势：1.自动释放内存，不需手动delete，超出作用域自动释放2.防止
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
C语言手写一个简易 DNS 客户端（Charon）服务器 linux 网络
本文聚焦讲解如何通过C语言构造并发送一个最小化的DNS请求，特别以dns_client_commit()函数为主线，带你一步步理解DNS请求的构造过程。为什么要学习DNS报文构造？我们平时在浏览器里输入一个网址（比如www.baidu.com），浏览器其实背后会通过操作系统的DNS模块发送一个查询请求，将域名解析为IP地址。而如果我们手动用C语言自己构造DNS请求，我们可以更深刻地理解底层网络通信
解决Linux绑定失败地址已使用(端口被占用)的问题誰能久伴不乏 linux 服务器网络
文章目录解决`bindfailed:Addressalreadyinuse`问题一、问题原因1.**端口已经被其他程序占用**2.**端口处于`TIME_WAIT`状态**3.**未正确关闭套接字**二、如何排查和解决问题1.**确认端口是否被占用**2.**查找并杀掉占用端口的进程**3.**等待端口释放（`TIME_WAIT`状态）**4.**强制重用端口**（仅限开发环境）5.**使用其他端
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
性能狂飙 Gooxi 8卡5090服务器重新定义高密度算力 Gooxi国鑫服务器运维
国鑫Intel®EagleStream平台8卡RTX5090AI服务器性能到底有多强？小编一文带你看懂个中奥妙。国鑫Intel®EagleStream平台8卡RTX5090AI服务器如图，国鑫Intel®EagleStream平台8卡RTX5090AI服务器（SY6108G-G4）只有6U高度，但“貌美”不是重点，重点在于它闪亮的外表下“狂飙”的算力性能。极致性能国鑫SY6108G-G4可搭载1-
Spring Boot基础小李是个程序 spring boot 后端 java
5.SpringBoot配置解析5.1.基础服务端口：server.port=8080（应用启动后监听8080端口）应用名称：spring.application.name=Chat64（注册到服务发现等场景时的标识）5.2.数据库连接（MySQL）URL：jdbc:mysql://localhost:3306/ai-chat（连接本地3306端口的ai-chat数据库，含时区、编码等参数）驱动：
搜广推校招面经九十三 Y1nhl 搜广推面经机器学习人工智能 python 算法推荐算法 pytorch 搜索算法
字节懂车帝一面一、NDCG（NormalizedDiscountedCumulativeGain）的计算NDCG是信息检索和排序任务中常用的评价指标，用于衡量模型预测的排序质量与真实相关性排序的一致程度。1.1.DCG@k（DiscountedCumulativeGain）DCG@k=∑i=1krelilog⁡2(i+1)\text{DCG@k}=\sum_{i=1}^{k}\frac{rel_i
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

【城南】如何识别AI生成图？视觉AIGC伪造检测技术综述

视觉AIGC识别

生成式模型总览

人脸伪造检测（Face Forgery Detection）

人脸伪装图生成

伪造图检测方法

【综述】GAN-generated Faces Detection: A Survey and New Perspectives

【音画不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

【唇部变化识别】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection

【削弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

【自监督对抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

其他可参考论文/项目

AIG整图检测**（AI Generated-images Detection）**

GAN图识别

【二分类】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

【二分类plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art

【频率特征】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

【频率扰动】FrepGAN: Robust deepfake detection using frequency-level perturbations

【梯度特征】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

DM图识别

【DM图与GAN图检测可行性分析】Towards the Detection of Diffusion Model Deepfakes

【DM图检测分析】On the detection of synthetic images generated by diffusion models

【误差特征】DIRE for Diffusion-Generated Image Detection

其他可参考论文/项目

其他类型假图检测（Others types of Fake Image Detection）

Reference

你可能感兴趣的:(AI,计算机视觉,人工智能,AIGC)

AIG整图检测（AI Generated-images Detection）