上海小胖

如果我来做个「ZAO」换脸 app，全网最硬核换脸技术简析 (万字长文)

原文链接： https://mp.weixin.qq.com/s?__biz=Mzg4ODE1MjU4Ng==&mid=2247487015&idx=2&sn=c07be05a9b3ae7e221aa63ab6fe808db&chksm=cffe3942f889b054357f537cb9a3b35887a3c308d597a8ca17ac0cf6e6d8f0a7753b95c7d16c&token=694530096&lang=zh_CN#rd

文末混脸熟活动不停，走心留言直接送书

简介

最近，一款名为「ZAO」的 AI 换脸应用火爆了起来，在各大网站和朋友圈都看见它的身影，它可以通过用户上传的一张带有人脸的照片替换到视频的人脸中，效果非常逼真，引起轰动。

因为「ZAO」团队并没有公开该软件使用的技术，所以我无法确切的判断「ZAO」使用了什么具体的技术，而本篇文章的重点不是剖析「ZAO」应用的技术，而是介绍如何通过已知的技术实现一个自己的「ZAO」，简而言之，就是分析当前的换脸技术。

本篇文章会尝试使用最简单的语句让大家理解其中的关键概念，会从最基本的神经网络开始介绍，让没有任何概念的朋友可以轻易食用。

大致内容：

(1) 什么是神经网络？
(2) 怎么训练神经网络？
(3) 使用卷积神经网络识别图像
(4) MTCNN 人脸检测技术
(5) VAE 与 GAN 简介
- 变分自动编码器 VAE 简介
- 生成对抗网络 GAN 简介
(6) Pix2Pix 替换人脸
(7) CycleGAN 替换人脸
(8) Faceswap-GAN 换脸应用
(9) 一张图像实现视频换脸
(10) 这种技术带来的威胁
(11) AI 对 AI，识破假视频
- 使用循环神经网络识别视频
- 通过眨眼生理信号识别视频
- 通过肖像中的生物信息识别视频
(12) 结尾
(13) 参考

别慌，你是可以懂的。

文章前半部分的内容都是用于铺垫，从而让你有背景知识可以明白换脸究竟是怎么回事。

注意文章标题，使用「简析」，即只能简单的分析，因为细节之多，一文难以全部叙述完，这里尽量不涉及太多细节与公式推导，但这也会带来一定的「知识失真」。

文章的图像、训练数据、代码、Paper 等，都会在最后一节参考中给出。

1. 什么是神经网络？

神经网络 (Neural Network,NN) 是一种数据模型，更具体而言，就是一个函数。

在 20 世纪，心理学家 McCulloch 和数学家 Pitts 受生物神经元结构的启发提出了 MP 模型。

MP 模型抽象简化了生物神经元结构的细节，它的出现为神经网络打下了一个基础。

生物神经元会接收到其他神经元的电信号输入，在进行简单的处理后，会将处理后的信息传递给其他生物神经元，而 MP 模型也一样，它会接受到其他模型的信号 x1,...,xi，然后与权重相乘，并通过某个函数运算后获得新的信号 O_j，最后将其传递给下一个神经元，公式如下：

$$ oj = f(\sum{i=0}^n(w{ij}xi)) $$

MP 模型可以算是最初的开始，但与现在的神经网络有非常大的差异，现在的神经网络中通常会涉及神经元、层与权重的概念，一个简单神经网络模型如下：

图中的每个圆，可以看做是一个「神经元」，每个神经元本身可以看做是一个函数，神经元被多个带箭头的线连接，这些线表示着数据流向，即函数的输入数据与输出数据的流向。

从图中也可以看出，多个神经元会组成列，每一列中的神经元是没有被带箭头的线相连接的，这其实就构成了「层」。

通常，不同的「层」会因功能不同而叫法不同，如神经网络的第一层，通常称为「输入层」，因为第一层要负责接收外面数据的输入，而神经网络中的最后一层，通常称为「输出层」，因为会将整个神经网络处理后的数据输出，而「输入层」与「输出层」之间的层，就称为「隐藏层」。

权重，就是带箭头线上的值，某个神经元输出的内容会与对应的权重做运算，运算的结果会作为下一层中某个神经元的输入。

2. 怎么训练神经网络？

简单明白了神经网络的结构后，接着要思考的问题是，人们常说的训练神经网络是什么？要怎么才能训练神经网络？

训练神经网络分为大体可以分为 2 大阶段，第一个阶段，称为「前向传播」，第二阶段称为「反向传播」。

在前向传播阶段中，数据会从输入层一直向下一层传递，直到传递到输出层，然后输出一个结果，前向传播的本质就是矩阵运算，依旧是该图。

从图中可以看出，该神经网络具有一个输入层，由 3 个神经元组成，有一个隐藏层，由 4 个神经元组成，最后就是输出层，由 2 个神经元组成。

首先输入层会接收到要输入神经网络的数据，输入层会对其进行预处理，使输入数据成为 3 维的列向量，因为输入层只有 3 个神经元。

为输入层的数据预处理函数，为输入层预处理后得到的 3 维列向量。

随后，会与权重矩阵相乘，其结果传递给相应的激活函数，获得结果。

这里的 $f$ 函数表示的是隐藏层的激活函数，是输入层的输出数据，这里作为隐藏层的输入数据传入，是隐藏层的权重矩阵，公式运算的结果就是隐藏层的输出。从上面的神经网络结构图可以看出权重矩阵是一个 4*3 的矩阵。

最后，会作为输出层的输入，经过类似的运算获得该神经网络的最终输出结果

为输出层的权重矩阵，从上图可以看出它是一个 2*4 的矩阵。

可以总结出前向传播算法普遍公式：

当前向传播阶段的矩阵计算完成后，神经网络会输出一个结果，这个结果并不一定是正确的结果，这是当前神经网络输出的结果，比如，输入的数据是一张人手写的数字 1 时，我们希望神经网络可以输出数字 1 作为结果，但神经网络并不一定会按我们的期望输出 1，它更大的概率是输出其他的内容。

为了让神经网络输出正确结果，就要量化的表示出当前的输出结果与正确结果之间的差距，这种差距通常称为损失，比如，正确结果是数字 1，而神经网络输出的数字 9，此时数字 1 与数字 9 之间就有一个损失，定义损失的方式有很多种，会涉及不同的损失函数，比较常见的有均方差损失 (MSE)、交叉熵损失等。

有了损失后，就需要进行反向传播，所谓反向传播其实就是损失反向传递到神经网络的神经元中，调整带线箭头中的权重，这样的调整最终会影响到神经网络的输出。

在反向传播的过程中，有分为 2 大步骤，第一步是利用反向传播算法去计算每个神经元对最终损失的贡献度，这个贡献度通常被称为「梯度」，第二步就是通过梯度下降算法将「梯度」运用到不同神经元上，从而实现对其权重的修改。

这里需要强调一下，反向传播算法仅指计算梯度的方法，而随机梯度下降才是使用梯度进行学习的，这点很多博客与书籍都混淆了。如有疑问，请阅读 Lan Goodfellow 等人著的经典书籍《Deep Learning》的「6.5 反向传播和其他的微分算法」章节内容。

因为反向传播过程涉及较多微积分 (偏导数、方向导数等) 概念，本文不再深究。

简单总结，神经网络的输入层会接收到输入的数据，然后通过「前向传播」的过程获得一个输出值，将输出值与标准答案进行「损失」的计算，接着将计算出的损失通过「反向传播」的过程作用到神经网络的神经元上，改变神经网络中的结构，我们可以将神经网络整体看成一个函数 f，改变其中神经元的权重，相当于改变了函数 f 的参数，一个函数的参数被改变了，其输出的结果当然也会跟着改变，而这种改变是有方向性的，每次的改变是为了让神经网络输出的值更接近与正确值，通过成千上万次的训练，每次都会通过相同的方式去修正神经网络的参数，最终获得一个可以输出正确值的神经网络模型，这个过程就是完整的训练过程。

需注意，文中的「反向传播」指的是一个过程，包含使用「反向传播算法」与「梯度下降算法」的过程，而不是指「反向传播算法」。

注意，本节谈及的「训练」只指有监督学习中的训练。

3. 使用卷积神经网络识别图像

卷积神经网络 (Convolutional Neural Network, CNN) 是一种擅长处理图形数据的神经网络结构，深度学习中很多图像识别、图像处理相关的应用都有 CNN 的影子。

对于一张图像，我们人类可以很快的识别出图像中的东西，但对于于计算机来说，它们看到的只是一堆数字，根本不能直观的理解这些数学背后表示的图像。要让计算机可以识别图像，第一步要做的就是让计算机可以理解代表图像的这些数字，如下图，我们可以很快的看出图中有三只短腿小狗，而计算机却不能。

解决这个问题的灵感也来自于生物本身，生物是怎么「理解」看见世界的？对生物而言，它们看到的只是光线照射到某个物体上带来的像素信息，这些信息并没有告诉我们图中有 3 只小狗。

其中的关键在于，生物可以很轻松的通过很底层的基础信息获得这些信息背后的抽象认知，如人类看见小狗的图像其实就是对大量像素信息这一类底层信息抽象得到图中小狗的。

而卷积神经网络 (CNN) 原理其实也是这样，将信息抽象成更高的信息，然后更高的信息再进一步抽象。

简单而言就是通过一种叫做过滤器的矩阵 (本质就是一个二维数组) 与图像中的数据进行运算，获得抽象层，抽象层中的信息就是更高一层的信息，然后以同样的方式再通过过滤器与当前抽象层进行运算，获得下一个更高信息维度的抽象层。

这样，一层层的将信息抽取出来，最终获得可以判断当前物体是什么的信息。

例如，要「看见」图像中的建筑，一开始输入的建筑图像对计算机而言只是一堆看似无用的数字，然后通过一层层的抽象，如第一层抽象，从无用的数字中过滤出了线条，然后再抽象，从线条这个抽象层中抽象出了矩形，然后再抽象，获得长方体，最终获得建筑的轮廓。

具体怎么做到的？

比如要判断图中是否存在老鼠，首先定义出一个过滤器矩阵，它可以从原始图像数据中判断出曲线。

接着让过滤器扫描老鼠图像。

如果曲线过滤器在图像中遇到了曲线，则进行矩阵点积运算时，会获得一个比较大的值，作为下一层中某个神经元的输入。

如果曲线过滤器遇到其他形状，此时矩阵点积运算时，会获得一个较小的值。

通过曲线过滤器完整扫描完老鼠图像后，就获得曲线的抽象层了，上面只演示了一种过滤器的情况，一般会有多个基本的过滤器去扫描图像，从而获得不同的特征 (卷积层的深度就是过滤器的个数 x 过滤器的深度)。

这里只是提及了卷积神经网络的大致原理，要深入理解，还需要理解卷积层、池化层 / 采样层、步数、填充等概念。

4.MTCNN 人脸检测技术

要实现换脸，通常第一步就要检测出图像中人脸的位置，而视频中人脸的检测与在图像中检测的原理是相同的，只是视频需要逐帧去检测。

人脸检测的方式有多种，这里主要介绍 MTCNN，主要是因为 Faceswap-GAN 这款开源的换脸应用使用了 MTCNN，其基础就是 CNN 识别图像中的数据。

MTCNN (Multi-task Cascaded Convolutional Networks) 是 2016 年提出的人脸检测模型，它由 3 个 CNN 构成，3 个不同的 CNN 负责不同的功能，实现对图像中的人脸进行检测和特征点的识别。

这 3 个 CNN 在 MTCNN 的论文中分别被称为 P-Net、R-Net 与 O-Net。

上图表明了 MTCNN 的大致流程：

(1) 构成图像金字塔 (Image Pyramid): 重塑输入的图像，获得不同尺寸的图像，将不同尺寸的图像从大到小的堆叠在一起，类似于金字塔形状，这一步相当于数据的预处理，将原始的图像数据处理成图像金字塔，再使用该数据进行训练。

(2) 第一步：使用提案网络 (Proposal NetWork, P-Net) 获取图像中所有可能含有人脸的部分，即绘制出候选边界框 (Proposal Bounding boxes，直译为提案边界框，为了方便理解，这里使用候选边界框，两者含义相同)，这些边界框由相应的算法完整扫描完图像后产生，通常会产生非常多的边界框，这是为了避免图像中人脸很小或者人脸没有完全显示等各种情况以及这样可以增强神经网络的鲁棒性，接着使用了 NMS (非极大值抑制算法) 或 Bounding-box regression (边框回归) 去除多余的框，从而得到初步的人脸检测候选边界框。这一步是 MTCNN 中最耗时的，也是 MTCNN 慢的原因。

(3) 第二步：将 P-Net 获得的人脸图像输入到精细网络 (Refinement NetWork, R-Net) 中，R-Net 会进一步去除多余的框，从而得到更加精细准确而且冗余更少的候选框。

(4) 第三步：将 R-Net 获得的人脸图像输入到输出网络 (Output Network, O-Net) 中，O-Net 进一步对人脸候选框进行细化，并且绘制出人脸中的 5 个关键点 (左眼、右眼、鼻子、左嘴角、右嘴角) 对应的坐标。

MTCNN 训练时，第一步会消耗大约整个训练过程中 3/4 的时间，是非常耗时的，其原因在于：

1. 要生产图像金字塔，这需要扫描完整的图像，然后逐个运算生产；
2. 生产图像金子塔后，每种不同尺寸的图像都要输入模型进行训练，这相当于一张原始图像要进行多次模型的推断；

已经有一些方法被提出，尝试改善训练的耗时。

上图总结了几种多尺度对象提案网络 (Multi-scale Object Proposal Network) 的方式，MTCNN 第一步使用的就是其中的 (a)。

目标检测的本质其实就是图像目标区域内容的特征与学习模板权重这两个矩阵之间的点积运算，如果学习模板的尺寸与目标区域的尺寸匹配，就会有比较高的识别率。

而上图中的 (a)，构成图像金字塔，目的是通过图像的多次缩放，实现训练单个分类器可以匹配所有不同尺寸大小的图像，这种策略需要在多个图像尺寸间进行特征计算，运算量大，导致运行慢。

所以就有另一种方法，即使用多个分类器应用于单个输入的图像，如上图中的 (b)，这种方式避免了重复的特征计算，但检测效果并不好。

随后就有综合 (a)、(b) 两种方法的 (c)，即减少图像缩放的次数以及增加分类器的个数。

更进一步，如上图中的 (d)，先进行少量的缩放，然后自行插入缺失的特征映射，这种方式相当大程度的加快了运行速度并且也可以获得适度的精确度。

上图中还有多种方法，感兴趣可以阅读参考小结中的「论文 2」。

MTCNN 的训练方式与第二节中介绍的训练方式一样，MTCNN 人脸检测网络主要使用了 WIDERFace 开源人脸检查数据，该数据提供了不同类别的人脸图像数据，这些图像中的人脸都被标注出了正确位置，这并不是指，图像中存在绿色人脸标记框，而是每张图像有对应标签，标签中包含了当前图像中，人脸标记框的左上角坐标以及标记框的宽与高，通过标签中的这些数据可以绘制出标记框。

MTCNN 训练时，会获取 WIDERFace 中的人脸图像数据，然后尝试给出图像中人脸的标记框，接着计算这个标记框的位置与当前输入图像对应标签中真实标记框的位置的损失，通过损失来完善 MTCNN 模型，直到 MTCNN 可以标记出人脸的位置。

MTCNN 除了可以标记人脸，还可以获得人脸中的 5 个关键点，它使用了 CNN_FacePoint 数据集中的人脸数据。

训练原理是相同的。

3 个 CNN 的大致结构如下 (有相关经验的人可以明白其大致网络结构，不明白的跳过则可)

5.VAE 与 GAN 的简介

了解了人脸检测后，接着就是人脸生成了，更广义的说，其实就是图像生成，而变分自编码器 (Variational Auto-Encoder，VAE) 与生成对抗网络 (Generative Adversarial Network，GAN) 是这一领域的好手。

变分自编码器 VAE 简介

先从 VAE 开始，要理解 VAE，有必要理解 AE (Auto-Encoder，自编码器)，所谓 Auto-Encoder 其实很好理解，它的本质依旧是一个神经网络，只是这个神经网络有编码器 (Encoder)、Bottleneck (瓶口) 与解码器 (Decoder) 构成。

输入真实的图像数据给编码器 Encoder 进行编码操作，所谓编码操作可以理解成抽取图像数据中的特征信息，相当于做了一个压缩的过程，这些特征信息的数据量会明显少于原始图像的数据量，抽取出的特征数据会放在 Bottleneck 中。

Bootleneck 并不会做什么处理，只是用于存储特征数据的网络结构，它会将数据直接传递给解码器 Decoder，解码器就会尝试利用这些特征信息还原会图像数据，即从少量关键数据中还原出原始的图像 (这个过程也被称为重构)。

自编码器的训练过程也很好理解，一开始整个自编码器网络还原出的数据会与原本传入的真实数据存在较大的差距，这就是损失，通过「反向传播过程」去优化整个网络结构，让损失最小则可 (但通常难以获得全局最优值，只是获得局部最优)。

这种神经网络能干什么？

将一个图像编码后又解码，似乎没什么作用？

非也，Google 就尝试使用这种简单的技术来提升自己的服务质量。

比如，现在要看一张高清大图，服务器直接将大图数据传递过去会耗费大量的带宽，用户也需要较长时间去等待图像的加载。

此时就可以训练好一个自编码器，将自编码器的结构简单拆分，服务器上用编码器对原始图像进行编码获得特征信息，服务器只需要将少量的特征信息传递给用户的客户端，而客户端就可以使用解码器，通过少量的特征数据运算还原出高清大图了，虽然此图非彼图，通过这种方式，就可以减少宽带的使用。

其实稍微调整一下思路，就可以获得一个可以去除图像杂质或马赛克的网络，如下图：

上图中，并没有直接向编码器中传入原始的正常图像数据，而是传入添加了噪音的数据，然后再通过自编码器还原数据，而还原数据直接与原始的正常图像数据做损失运算，这样训练出来的自编码器就具有去除噪音的能力了，而去除马赛克的思路是完成相同的。

但现实是残酷的，这种方式虽然简单，但模型的泛化能力并不好，还原后的图像还是有较大的瑕疵。

自编码器无法「创造」逼真的图像数据，我们训练的时候，都是给出一张图像，然后它会还原出一张图像，但是它无法「创造」，所以出现了变分自编码器。

变分自编码器与自编码器不同之处仅在于 Bottleneck 向量处，它相比自编码多了均值向量 (mean vector) 与标准差向量 (standard deviation vector)。

VAE 经过一定的训练后，就可以向均值向量与标准差向量定义出的样本空间进行采样，将采样获得的数据传入解码器，此时解码器就会通过解码还原数据，此时还原出的数据是真实世界中不存在的，这是因为我们传入给解码器的特性信息是从采样空间随机采样的，并不是某张真实图像的特征信息。

通常，在训练 VAE 时会约束均值向量与标准差向量构成的样本空间分布，使其服从正态分布，即均值向量为 0，标准差向量为 1。这一点从它的损失函数也可以看出 (神经网络输出的值与真实值的损失通过某个函数来定义，这个函数被称为损失函数)。

VAE 损失函数如下：

如果有信息论基础的朋友可以看出，VAE 的损失函数由一个期望值与 KL 散度这两部分构成，其中 KL 散度的目的就是约束样本空间，使其服从正态分布。

对于 VAE 的很多细节，这里展示不去讨论。

有了上面的概念，就可以来讨论如何使用自编码器 (AE) 来替换人脸了。

从图中可以看出，我们需要通过两堆不同的数据训练两个 AE，一个 AE 用于自动编码女孩照片数据，第二个 AE 用于自动编码尼古拉斯・凯奇 (那个男孩) 的照片数据，但需要注意的是，两个 AE 的编码器共享的部分参数，这样做会让编码器找出两堆不同数据的共同特征。

完成训练流程后，使用编码器对女孩的数据进行编码，获得对应的编码器特征，因为训练时，共享了部分参数，所以这些特征中包含了一些共同的特征，此时再用解码器去解码这些特征，就会获得一个换脸后的人了。

这样之所以可行是因为人脸有很多潜在的相同特征，如眼睛的数量位置、鼻子的数量位置等等，通过共享参数的方式，让两个 AE 的编码器中的部分参数共享，让其可以找到人脸图像中共同的特征数据，此时使用不同的解码器就实现了人脸的替换。

但 AE 或 VAE 有一个致命的缺陷就是生成的图像会比较模糊，下面来讨论一下生成对抗网络 GAN。

生成对抗网络 GAN 简介

生成对抗网络 (Generative Adversarial NetWork，GAN) 的核心思想很简单，传统的 GAN 其神经网络主要有生成网络 (Generator Network) 与判别网络 (Discriminator Network) 构成，两者相互对抗、博弈，最终让生成器 (生成网络的别名) 可以生成逼真的图像。

举个具体的例子，明白其原理。

小吕是艺术学院的学生，廖老师是学校的老师。

小吕虽然考入的艺术学院，但绘画能力还比较差劲，而廖老师看过很多优秀的画作，知道优秀的画作应该具有什么特点。

小吕每天画一副画交个廖老师看，廖老师会更具自己的经验给出其改进意见，小吕会吸取这些经验，在明天将画画的更好，就这样，小吕一天天的进步，直到一天画出的画与廖老师印象中的名画没有明显的差异时，小吕就算出师了。

GAN 也就是这样，其中生成器就是小吕，而判别器就是廖老师，一开始，生成器获取一堆噪音数据 (即无用的随机生成的数据) 去生成一张图像，生成的图像会交给判别器判别真假，即判别器会根据自己的经验判断传入的这张图像是真实存在的图像还是生成的图像。

一开始，判别器自己并没有「真实图像」的概念，它同样是通过训练来获得这样的概念的，具体而言就是将真实图像作为判别器的输入，让判别器输出 1，通过一轮训练后，判别器此时就有了「真实图像」的简单概念了。

生成器的目标其实就是让自己生成的图像与真实图像相似，从而让判别器无法判别出自己生成的图像是真实图像还是生成图像。

GAN 大致训练流程如下，以训练 GAN 生成图片为例

第一步：初始化生成器和判别器，模型结构中的参数随机生成则可第二步：在每一轮训练中，执行如下步骤：

1. 固定生成器的参数，训练判别器的参数，让判别器有「真实图像」的概念，具体而言
- 1.1 因为生成器的参数被固定了，此时生成器的参数没有收敛，生成器通过未收敛参数生成的图片就不会特别真实
- 1.2 从准备好的图片数据库中选择一组真实图片数据
- 1.3 通过上面两步操作，此时就有了两组数据，一组是生成器生成的图片数据，另一组是真实图片数据，通过这两组数据训练判别器，让其对真实图片赋予高分，给生成图片赋予低分
2. 固定判别器，训练生成器，让生成器在判别器的指导下优化自己，具体而言
- 2.1 随机生成一组噪声喂养给生成器，让生成器生成一张图片
- 2.2 将生成的图片传入判别器中，判别器会给该图片一个分数，比如 0.22，生成器的目标就是使这个分数更高，生成出判别器可以赋予高分的图片

GAN 简化后的训练过程如下图

图中有 3 种线，分别是：

黑线虚线：真实数据的分布。
蓝色虚线：判别器的判别分数
绿线：生成器生成的数据分布

从图中可以看出，一开始 (图 a)，代表真实数据分布的黑虚线与代表生成数据分布的线差异较大，此时代表判别器分数的蓝虚线可以比较准确的判断出真实数据和生成数据，它给真实数据赋予了较高的分值，而给生成数据赋予较低的分值。

随着 GAN 训练次数的增加，生成器为了生成出可以让判别器赋予高分的数据，生成器生成数据的分布渐渐向真实数据的分布靠拢 (图 b-c)，当生成器完全学习到真实数据的分布情况时，判别器就无法分辨他们的了，也就是无论是真实数据还是生成数据都赋予相同的分数 (图 d)。

上图中，真实数据的分布是从判别器学习而来的，所以在训练 GAN 时要先训练判别器，让其获得真实数据的分布作为一个 “标准”。

从数学角度来解释：

1. 从数据库中拿出真实数据 x，将其放到判别器中 D (x)，目标是让其 D (x) 输出的值接近 1。
2. 输入随机噪音 z 给生成器 G (z)，生成器希望判别器给自己生成的数据输出的值接近 1，D (G (z) 输出接近 1，而判别器希望自己给生出数据输出的值接近 0，D (G (z)) 输出接近 0。

通过公式表达，就可以获得 GAN 的公式：

上述公式中，将 D 定义为判别器，G 定义为生成器。

将上面公式拆分来看：

先看前半段,其中表示期望 x 从分布中获取，x 表示真实数据，$P{data}$ 表示真实数据的分布，这段公式的意思是：判别器要判别出真实数据的概率，判别器的目标就是要最大化这一项。

接着看后半段，其中表示期望 z 从分布中获取，z 表示生成数据，$pz (z)$ 表示生成数据的分布，对判别器 D 而言，如果向其输入的是生成数据，即，判别器的目标就是最小化，即判别器希望最大化。

但对生成器而言，它去希望最小化，这就与判别器的目标相冲突的，这也是这种神经网络被称为生成对抗网络的原因。

传统的 GAN 有较多的缺陷，如生成器与判别器能力失衡造成训练不稳定，模型整体难以收敛 (简单而言，就是训练过程不稳定)，此外还容易产生模式崩溃或梯度消失的问题，但近年经过各方的努力，GAN 展示出了巨大的力量。下图展示了这几年，GAN 在人脸生成的上的进步 (算力需求也大幅提高，个人玩家几乎玩不起)。

除了在图像生成上，利用 GAN 还可以做很多有趣的事情。

比如智能 PS。

比如通过一张图片生成一段视频。

6.Pix2Pix 替换人脸

有了 GAN 的基本概念后，Pix2Pix 就不难理解了。

与传统 GAN 不同，Pix2Pix 中的判别器要判断输入的两张图像是否是真实的一对图像，而生成器也不是从噪音数据中生成图像，而是从某一张图像生成另一张图像，如下图：

判别器的目的除了判断生成的图像是否真实外，还需要判断生成的图像是否与另一张图像可以组成正常的一对图像。

Pix2Pix 除了使用标准 GAN 损失函数外，还使用生成图像与对应真实图像之间的 L1 距离作为损失，从其论文描述中可知，Pix2Pix 利用 GAN 损失捕捉图像中的高频特征，而利用 L1 损失捕捉图像中的低频特征。

此外，为了让生成器更加容易生成与输入图像相关的图像，采用了 U 型网络结构 (Unet)。

U 型网络中使用了 Skip-Connection，简单来说就是将前面层中的一些数据不经过后面层的运算处理 (运算会丢失细节)，而直接交由较后面的层直接使用。这很大程度让生成器网络结构中的后面几层也得到了很多细节数据，从而让生成器更容易生成与输入图像相关的数据。

训练好 Pix2Pix 后，就可以实现图像的双域转换了，所谓域指的就是某种类型的图像。

Pix2Pix 的整体思想比较简单，但有一个缺陷，就是训练数据不好找，比如我想利用 Pix2Pix 黑夜转白天的效果，就需要准备一堆黑夜的数据以及对应的一堆白天的数据，一对图像，你就需要在同一个地方，白天拍摄一张，晚上拍摄一张，有很多对这样的图像，才能训练出具有比较好效果的 Pix2Pix，但这明显不现实。

但有些需求数据是很好找的，比如去除马赛克，只需要找到一张图像，然后为其打上马赛克就可以构成一对数据了，Pix2Pix 可以实现效果不错的马赛克去除工具，比如下面对某些植物进行马赛克的去除，取得不俗的效果。

对真人呢？

而替换人脸其实也是类似的思路，下图就是 Brannon Dorsey 使用 Pix2Pix 实现 Person-to-Person 的效果，虽然看上去不咋样。

原始的 Pix2Pix 难以产生高清的图像，所以 Pix2PixHD 被提出，它在保持了原始 Pix2Pix 能力的前提下提高了其生成高质量的图像的能力。

7.CycleGAN 替换人脸

因为训练 Pix2Pix 需要成对的图像，而很多时候，成对的数据是难以获得的，而 CycleGAN 可以解决这个问题，实现两个域内的图像相互转换的目的。

在训练 CycleGAN 时，并不需要使用成对的数据，这是怎么做到的？

一个直观的想法就是先通过生成器获取域 X 中的图像，将其转换为域 Y 中的图像，然后再将其转换回来，形象如下图：

其中域 X 为马的图像，域 Y 为斑马的图像。

一开始，通过生成器，将马转换成斑马，即 G (X->Y)，接着再通过另外一个生成器，将斑马转换为马，即 G (Y->X)。

简单而言，生成器接收马的图像生成斑马，然后另外一个生成器接受斑马的图像生成马，此时可以计算原始的马图像与还原生成马图像的损失，论文中将这种损失称为循环一致性损失。

单单这样做还不行，因为在训练过程中，神经网络很有可能发现，你就是想将图像还原回输入图像的样子，那么它会慢慢倾向于不做什么有价值的操作，直接将输入图像的大部分数据直接还原，这并不是我们想要的，所以还需要另外一个损失来判断中间状态的生成的斑马是否真实。

再多加一个相似的结构，就可以构成 CycleGAN 了

如果觉得上图有些难理解，可以看到下图：

CycleGAN 为了让模型训练的更加稳定，相比此前的 GAN 模型 CycleGAN 做了如下改变：

1.Instance normalization 代替 Batch normalization
2. 目标损失函数使用了 LSGAN 平方差损失代替传统的 GAN 损失
3. 生成器中使用了残差网络，可以更好的保存图像的语义
4. 使用缓存历史图像来训练生成器，减小训练时的震荡，让模型更加稳定

下图就是我通过 CycleGAN 训练出的效果。

通过 CycleGAN 对人进行换脸本质依旧是不同域图像之间的转换。

此外，通过这种技术，还可以做一些变态的事情了，如给女优脱衣。

如果你还记得「DeepNude」这款给女性脱衣的应用，此时你应该可以明白其背后技术了 (利用 Pix2Pix 或 CycleGAN 理论上都可以实现 DeepNude 这类应用)。

声明：这对女性是极其不尊重的，也不是技术应该使用的地方，在本文「10. 威胁」中会简单的讨论一下这类技术产生的风波。

CycleGAN 已经可以比较好的实现双域图像的转换的，那如何比较好的实现多域图像的转换呢？可以搜索阅读 StarGAN 相关的资料，因为与本文主题无关，就不多讨论了。

下图是我通过 StarGAN 模型得到的效果，StarGAN 可以实现图像的多域转换，下图的每一列表示不同的域不同域即不同的效果，其中分布是：原图、黑发、金发、褐色头发、反性化、老年化。

可以看出，早些时候在国外社交媒体火爆的 FaceApp 背后的技术其实也是 GAN，将 StarGAN 完善一下，让模型具有工业级的参数规模 (以及工业级的训练数据与算力支持)，一个 FaceApp 就被弄出来了。

8.Faceswap-GAN 换脸应用

前面讨论了这么多，是否已经有开源实现好的项目呢？

当然有，我们来看一下 Faceswap-GAN，它是最初换脸项目 deepfakes_faceswap 的升级版。

deepfake_faceswap 虽然实现了人脸替换，但还是有一些问题，比如原版中使用了 dlib 人脸识别库，该库在非「全脸」或脸比较偏的时候，人脸识别率就不高了，而 Faceswap-GAN 使用了 MTCNN 来作为人脸识别引擎，代价就是慢。

我们可以通过下面几张图片来理解 Faceswap-GAN 大致的实现思路，需要注意，Faceswap-GAN 具体的实现细节与图中的流程并不完全相同。

从图中可以看出，在训练阶段，首先输入带有人脸的图像 Person A，然后通过 MTCNN 人脸识别获得真脸图像 Real face A，接着将 Real face A 进行扭曲操作得到 Warped face A (注意，扭曲只对人脸周围扭曲，不对人脸特征扭曲，如眼睛、鼻子等，这种做法与往图像上添加马赛克没有本质区别)，然后通过自编码器将扭曲后的人脸图像还原，从而获得重建后的人脸 Reconstructed face A。

deepfake_faceswap 项目使用了自编码器，但改进后的 Faceswap-GAN 通过 GAN 实现了相同的过程。

获得了 Reconstructed face A 后并没有结束，它还会获得人脸特征面具，图中称为 Segmentation mask，人脸特征面具会与重建后的脸做运算，目的是只获取人脸的特征，特征外的其他部分不再需要，接着将人脸特征域用于扭曲后人脸 Warped face A 从而获得最终的结果 Masked face A。

而在测试阶段，流程也是相同的，传入带有人脸的图像 Person B，然后 MTCNN 识别人脸，随后直接将人脸传入，不需要进行扭曲造成，因为我们训练时，使用了 Person A，此时使用 Person B 的真实人脸，自编码器会将其认为是扭曲后的人脸 A，即 Warped A，此时会进行重建操作，然后再通过相同的方式将人脸特征面具与还原重构后的人脸运算获得仅需要的人脸特征部分，再与 Real face B 融合就可以获得最终的结果 face B，但因为它的五官有 face A 的特点，所以看起来像 face A。

Faceswap-GAN 使用了 3 种不同的损失来训练整个神经网络，分别是重建损失 (reconsturction loss)、对抗损失 (Adversarial loss) 与感性损失 (Perceptual loss)。

重建损失：对比重建后的人脸与真实人脸之间的差距，具体而言，就是使用平均绝对误差 (MAE) 对图像中的每一个像素进行计算，希望随着训练，将这个损失降低到最小。

对抗损失：判别器判断数据是真实数据还是虚假数据，对于生成器而言，它希望判别器给它生成的数据标记为真实数据，而对判别器而言，它希望给生成器生成的数据标记为虚假数据，两者博弈产生的损失。

感性损失：用于改善生成图像中眼球的方向，使生成的图像更加真实，并且可以平滑处理生成图像中可能产生的伪影，该损失使用了 VggFace 模型 (VggFace 使用了 VGG16 实现人脸识别的模型)

Faceswap-GAN 还使用了很多技巧来完善生成的数据，并且它还提供了可以在 Google 的 colab 上直接执行的代码，使得使用门槛进一步降低 (colab 最长只能运行 12 个小时，这份代码只能生成一个轻量的 Faceswap-GAN)。

最后提一句：Faceswap-GAN 背后采用的是 CycleGAN。

9. 一张图像实现视频换脸

聪明的读者可以发现了，前面的方式很酷，但似乎与「ZAO」的不一样，「ZAO」似乎只用上传一张图像就是实现换脸了。

比如 Faceswap-GAN，想通过它进行换脸，就需要准备两个人的大量图像，然后经过一定时长的训练，从而实现两者的换脸，此时如果传入第三者的脸 (未经过训练) 进行换脸操作，效果是不好的。

那「ZAO」是如何只通过一张图像就实现换脸的呢？

具体我也不清楚，因为「ZAO」团队没有说是通过什么技术实现的，但可以确定，并不是利用 AutoEncoder、Pix2Pix 或 CycleGAN 之类的，即与 DeepFace 或 Faceswap 使用的技术不同。

虽然不知道「ZAO」如何实现，但想要实现这种的效果可以通过 Meta-GAN 的思路，即元学习 + GAN。

在 2019 年的 5 月，三星给出了《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》论文。

在论文中，提供了通过少量图像甚至一张图像就可以实现人物换脸效果的思路，其中主要的就是元学习 + GAN。

元学习简单而言就是学习如何学习，这涉及了大量的话题 (本人对元学习所知也不多)，本文不深入探讨，这里简单的讨论一下论文的大体思路：

1. 通过基于 GAN 的元学习，在大量的视频数据中训练获得模型
2. 训练完后，元学习会获得一个映射矩阵，元学习可以为 GAN 的生成器与判别器自动初始为适合目标人脸的参数，从而实现少量图像甚至一张图像就可以换脸的效果。

其模型的大致结构如下：

从论文描述可知，Embedder 嵌入器会将头像以及面部标记数据都映射到嵌入向量中，该向量包含了与姿势无关的信息。

生成器会利用输入的面部标记数据去生成数据，生成器的卷积层会通过 AdaIN 获取嵌入向量中的信息 (人脸特征信息) 来生成人脸。

判别器由两步构成，一步是通过编码网络将三种图像编码为向量，然后与 W 矩阵相乘从而获得最终得分。

通过论文中的思路构建神经网络可以实现惊人的效果，比如通过一张蒙拉丽莎的图片，让她活过来给你讲故事。

10. 威胁

这种技术的兴起也带来了坏的一面，如 DeepNude (脱去女性衣服)，此外国内很多人闻风而起，搭建了各种 DeepFace 网站，在降低使用技术门槛的同时，也更容易被一些心怀不轨的人利用。

这种技术在国外大多是被批评的，你无法想象，犯罪分子利用这种技术合成勒索视频给你父母、你的前任将你的脸合成到低俗视频中带来的影响。

人的脸不再属于自己是可怕的。

不要觉得受害的只是明星，我们要抵制技术使用到这种方面。

11.AI 对 AI，识破假视频

知道了一些换脸的技术以及明白了它会带来的危害，那如何识别假视频呢？

现在生成的视频通过肉眼已经难以分辨出真假了，难道只能坐以待毙？

下面介绍一下我看见的几种识别假视频的方法。

使用循环神经网络来识别视频

目前大多数生成视频都是利用 DeepFace 相关的技术，其背后就是 AutoEncoder、Pix2Pix 或者 CycleGAN，但单纯的使用这一类技术实现人脸的替换会存在一些小问题，具体而言，就是视频的当前帧与前一帧之间是独立的，这样前一帧的一些重要信息就无法用于当前帧，当视频中画面光源有所变化时，通过这种方式生成的视频就会有「闪屏现象」，这里说的闪屏不是我们常说的闪屏，而是通过人眼难以观察到的像素异常变化。

此时训练一个模型来观察则可，如果视频中连贯的部分存在这种现象，则可能是生成的造假视频，这就需要视频时间维度上的信息 (当前帧的画面受上一帧的影响)。

谈论到时间维度，自然会想到循环神经网络 RNN、LSTM、GRU 之类的，这里以 LSTM 作为代表来简单介绍一下。

RNN 在时间维度较长的数据上使用容易出现梯度消失的现象，人话说就是 RNN 不适合处理太长的数据，比如一段话，一段话中的每个词都是与前一个词或后一个词是相关的，而 RNN 要处理一段话中比较后面的词汇时，容易「忘记」这段话中排的比较前的词汇 (梯度消失)，后来就提出了 LSTM、GRU 等模型来避免这类问题。

LSTM 模型结构如下，其中 t 表示时间，本质就对数据进行运行，从而决定模型应该记住什么，应当忘记什么，最终让模型记住重要的信息。

LSTM 常用于 NLP 领域，现在用于视频检测，其本质并没有改变，都是将当前时间节点之前的信息传递到当前时间节点。

更多细节可以参考论文 8。

通过眨眼生理信号来识别视频

通过标题就明白具体的识别方法了，如果是真实的视频，视频中的人物通常会有眨眼这种生理信号，而换脸后生成的虚假视频并不会有这样的生理特征。

此时可以利用 CNN+LSTM 的形式，通过判断视频图像中人物是否存在眨眼情况，来判断当前视频是真实视频还是生成视频。

论文中将这种方法称为 LRCN 方法。

其中 (a) 是原始的视频序列，(b) 是做了面部对齐后的序列，LRCN 方法会基于 (b) 中眼睛周围 p1~6，这 6 个标签来提取特征、进行序列学习与进行眼睛状态的预测。

值得一提的是，LRCN 方法并不是简单的判断视频中人像的眨眼次数，而是会通过视频每一帧中眼睛的状态来判断眼睛在下一帧是否会眨眼，比如人物在当前帧的眼睛是关闭的，那么在下一帧其睁开的概率就会比较大。

如下图，第一行是原始视频，存在眨眼，而第二行是生成的虚假视频，其中人物没有进行眨眼。

更多细节可以参考论文 9。

使用肖像中的生物信息识别视频

简单而言就是利用视频中人脸的各种动作来捕捉其中的生物信息，而这些信息在生成视频中是不会存在的，或者是不符合规律的。

没细看论文，不多言，感兴趣可以参考论文 10。

12. 结尾

本文只是抛砖迎玉，很多细节并没有讨论，如果文中有不妥之处欢迎各位留言斧正，最后希望这些技术可以用到正途之上。

写作不易，如果喜欢，欢迎点好看。

13. 参考

Paper

1.Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks:https://kpzhang93.github.io/MTCNNfacedetection_alignment/paper/spl.pdf

2.A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection:http://www.svcl.ucsd.edu/publications/conference/2016/mscnn/mscnn.pdf

3.Auto-Encoding Variational Bayes:https://arxiv.org/pdf/1312.6114.pdf

4.Generative Adversarial Nets:https://arxiv.org/pdf/1406.2661.pdf

5.Image-to-Image Translation with Conditional Adversarial Networks:https://arxiv.org/pdf/1611.07004.pdf

6.Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkshttps://arxiv.org/pdf/1703.10593.pdf

7.Few-Shot Adversarial Learning of Realistic Neural Talking Head Models:https://arxiv.org/pdf/1905.08233.pdf

8.Deepfake Video Detection Using Recurrent Neural Networks:https://engineering.purdue.edu/~dgueraco/content/deepfake.pdf

9.In Ictu Oculi: Exposing AI Created Fake Videos by Detecting Eye Blinkinghttps://ieeexplore.ieee.org/document/8630787

10.FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signalshttps://arxiv.org/pdf/1901.02212.pdf

数据集

1.WIDER FACE: A Face Detection Benchmark:http://shuoyang1213.me/WIDERFACE/

2.Deep Convolutional Network Cascade for Facial Point Detection:http://mmlab.ie.cuhk.edu.hk/archive/CNN_FacePoint.htm

代码

1.MTCNNfacedetectionalignment：https://github.com/kpzhang93/MTCNNfacedetectionalignment

2.pix2pix：https://phillipi.github.io/pix2pix/

3.faceswap-GAN：https://github.com/shaoanlu/faceswap-GAN

你可能感兴趣的:(大数据,Python专栏)

大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
企业信息化5：后勤管理系统 mosquito_lover1 制造业企业全业务流程信息化 python flask 开源
前言：随着企业各业务板块在信息化的浪潮中积极转型升级，后勤板块往往成为了一个企业信息化的短板，后勤业务大数据无法融入企业信息化数据湖，进而影响企业整体运营的效率和质量。后勤运营信息化管理对于企业后勤管理的提升、成本控制、信息管理和业务水平的提升都将起到积极促进作用。业务需求：后勤管理系统业务需求报告1.项目概述1.1项目背景随着企业规模的不断扩大，传统的后勤管理方式已无法满足现代企业的管理需求。为
大数据Lambda架构奋进学堂系统架构设计师考试架构
Lambda架构介绍Lambda是用于同时处理离线和实时数据，可容错、可扩展的分布式系统架构。有批处理层、加速层、服务层。同时以流计算和批处理计算合并视图。Lambda架构的批处理层采用不可变存储模型，不断地往主数据集后追加新的数据。Lambda架构优缺点<
Lambda架构 leveretz 大数据 lambda
原文地址：https://www.cnblogs.com/xiaodf/p/11642555.html首先我们来看一个典型的互联网大数据平台的架构，如下图所示：在这张架构图中，大数据平台里面向用户的在线业务处理组件用褐色标示出来，这部分是属于互联网在线应用的部分，其他蓝色的部分属于大数据相关组件，使用开源大数据产品或者自己开发相关大数据组件。你可以看到，大数据平台由上到下，可分为三个部分：数据采集
ES聚合分析原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
ES聚合分析原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业级应用需要处理的数据量呈爆炸式增长。如何从海量数据中快速、高效地提取有价值的信息，成为了数据分析和处理领域的重要课题。Elasticsearch（简称ES）作为一种高性能、可扩展的全文搜索引擎，在处理海量数据、进行高效数
大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别 2401_84181501 大数据架构
Lambda架构缺点：虽然Lambda架构使用起来十分灵活，并且可以适用于很多的应用场景，但在实际应用的时候，Lambda架构也存在着一些不足，主要表现在它的维护很复杂。（1）同样的需求需要开发两套一样的代码：这是Lambda架构最大的问题，两套代码不仅仅意味着开发困难（同样的需求，一个在批处理引擎上实现，一个在流处理引擎上实现，还要分别构造数据测试保证两者结果一致），后期维护更加困难，比如需求变
Redis线上阻塞要如何排查思静鱼 #Redis-缓存 redis 数据库缓存
一、指令阻塞其他指令因为Redis执行指令是单线程的，因为单次执行速度会非常快，但是如果你让单次执行变慢了，那么也会阻塞后续的指令执行。哪些情况会让指令变慢：1.指令获取的数据很多，比如大数据量下执行keys、hgetall、smembers等指令。我们可以通过查看Redis的慢查找到问题，不要去执行慢查操作2.大Key，我单次查询的的数据过大，也会导致单次执行变慢。所以我们需要拆分大key。ke
Apache Hive 聚合函数与 OVER 窗口函数：从基础到高级应用大鳥 sql hive apache hive hadoop
在大数据时代，ApacheHive是处理和分析海量数据的强大工具。Hive提供了丰富的聚合函数和强大的OVER窗口函数，能够帮助我们高效地进行数据分析。本文将综合介绍Hive的聚合函数和OVER窗口函数，结合实际使用场景和代码示例，帮助读者深入理解这些功能，尤其是它们在时间序列分析中的应用。一、Hive聚合函数基础聚合函数是Hive中用于对一组数据进行计算并返回单个值的函数。它们在数据分析中非常常
大数据治理实战指南：数据质量、合规与治理架构一ge科研小菜鸡大数据大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着企业数字化转型的加速，大数据已成为驱动业务决策的核心资产。然而，数据治理的缺失或不完善，可能导致数据质量问题、合规风险以及业务价值的流失。大数据治理的目标在于确保数据的可用性、完整性、安全性和合规性，支撑企业的智能化发展。本教程将系统讲解大数据治理的关键概念、技术方法，并提供实际应用案例，帮助企业构建高效的数据治理体系。1.大数据治理概述
Redis学习笔记 csdn_bobo_6 redis 学习数据库
认识NoSQLNoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。NoSQL特点方便扩展（
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
Lambda离线实时分治架构深度解析与实战喜欢猪猪架构
一、引言在大数据技术日新月异的今天，Lambda架构作为一种经典的数据处理模型，在应对大规模数据应用方面展现出了强大的能力。它整合了离线批处理和实时流处理，为需要同时处理批量和实时数据的应用场景提供了成熟的解决方案。本文将对Lambda架构的演变、核心组件、工作原理及痛点进行深度解析，并通过Java代码实现一个实战实例。二、Lambda架构的演变Lambda架构是由Storm的作者NathanMa
“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce 绒绒毛毛雨大数据挖掘数据挖掘 mapreduce 人工智能
文章目录O背景知识1数据挖掘2邦费罗尼原则3TF.IDF4哈希函数5分布式文件系统一、MapReduce基本介绍1.Map任务2.按键分组3.Reduce任务4.节点失效处理5.小测验：在一个大型语料库上有100个map任务和若干reduce任务：二、基于MapReduce的基本运算1.选择（Selection）2.交（Intersection）3.并（Union）4.补（Difference）5
基于大数据的电影数据分析可视化系统设计与应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于大数据的电影数据分析可视化系统设计与应用作者：禅与计算机程序设计艺术1.背景介绍1.1大数据时代的电影行业随着互联网技术和数字化的发展,电影行业已经进入大数据时代。每天都有海量的电影相关数据在各个平台上生成,包括票房数据、评分数据、影评数据等。这些数据蕴含着巨大的价值,如果能够有效地分析和利用,将为电影行业的发展提供重要的决策支持。1.2电影数据分析与可视化的意义1.2.1洞察电影市场趋势通过
Command Center AI 由数入道应急管理人工智能机器学习智能体
CommandCenterAI是一种先进的智能决策支持系统，专门用于应急指挥和资源调度管理，尤其在高压、复杂的环境中，如自然灾害应对、军事指挥、城市公共安全等领域，帮助决策者做出快速、有效的响应。它集成了大数据处理、实时情报分析、优化调度、决策模拟等功能，为指挥官提供多维度的决策支持。1.CommandCenterAI的核心功能1.1实时数据整合与情报分析CommandCenterAI需要从多个数
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
Github上最热门的11个Java开源项目你会了吗 Java小叮当项目 Github 项目 java 程序员 IT
前言4月份GitHub上最热门的Java开源项目排行已经出炉啦，一起来看看吧！1JimuReport（地址见文末）这是一款免费的数据可视化工具，报表与大屏设计！类似于excel操作风格，在线拖拽完成报表设计！功能涵盖:报表设计、图形报表、打印设计、大屏设计等，永久免费！2dolphinscheduler（地址见文末）ApacheDolphinScheduler是一个可视化的分布式大数据工作流任务调
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分长风清留扬最新Python入门基础合集 python 笔记学习异常处理改行学it 异常 BUG
本文是第二部分，第一部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论异常类型IndexError
有史以来最全的异常类讲解没有之一！第三部分爆肝4万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第三部分长风清留扬最新Python入门基础合集 python 面试异常处理 BUG 异常类型职场和发展改行学it
本文是第三部分，第一第二部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实
还在为Python“运算符”中遇到的BUG而发愁吗？，变量相关的问题和解决办法看这篇文章就够了！长风清留扬 android python bug 运算符
博客主页：长风清留扬-CSDN博客系列专栏：Python疑难杂症百科-BUG编年史每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论关于运算符中常见的问题和解决方法在Python编程的浩瀚宇宙中，变量如同星辰般璀璨，它们承载着数据，驱动着程序的运行。然而，即便是这些看似简单的构建块，也时常隐藏着令
金融数据有哪些，有用的股票API接口数据 nance99 金融 python git
一、金融数据有哪些，有用的股票API接口行情数据金融大数据是为金融机构、个人投资者以及金融应用开发者提供专业的数据和行情报价API服务，满足不同用户在投资过程中丰富多样的行情数据分析和投资研究，以API接口形式为用户提供行情数据API服务，提供的数据包括市场行情、财报、宏观等，还有基于文本分析的股票关联数据。对金融机构或者投资者而言，金融数据是企业财富。实时数据对企业成功至关重要，股票行情数据种类
2024 年 MathorCup 数学应用挑战赛——大数据竞赛赛道 B：电商品类货量预测及品类分仓规划思路和代码持续更新中 2025年数学建模美赛数学建模 2024年大数据第五届MathorCup B题
2024年所有数学建模类比赛的个人思路和代码都会发布到专栏内,会结合最新的chatgpt发布思路,开赛一天后恢复原价99,不代写论文,不回复私信.没有群,只需订阅一次目录问题分析与解决思路问题1：货量预测模型问题2：一品一仓分仓规划问题3：一品多仓分仓规划总结这类大数据竞赛的重点在于构建一个全面的预测和优化模型，通过数据处理、时间序列分析以及运筹优化来完成货量预测和分仓规划。下面是一个解决问题的整
基于知识图谱的用户画像构建与应用 cooldream2009 AI技术知识图谱知识图谱人工智能
目录前言1.知识图谱在用户画像中的作用1.1数据整合与清洗1.2多维关系挖掘1.3动态更新能力1.4可解释性2.用户画像构建过程中的知识图谱应用2.1数据采集2.2知识图谱构建2.2.1实体节点构建2.2.2关系建模2.3用户画像生成2.3.1静态特征2.3.2动态特征2.3.3关系网络3.基于知识图谱的用户画像应用场景3.1精准营销3.2内容推荐3.3用户需求预测3.4风险控制结语前言随着大数据
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
第11篇：你知道ElasticSearch聚合分析能力有多强? 老王随聊 elasticsearch 搜索引擎大数据
背景：目前国内有大量的公司都在使用Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、ElasticStack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领域。本节内容：ElasticSearch强悍聚合分析能力详解。目录1、ES的聚合Aggregations
Elasticsearch聚合分析：未来发展趋势 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1大数据时代的分析需求随着互联网、物联网、移动互联网等技术的快速发展，全球数据量呈现爆炸式增长，我们正步入一个前所未有的大数据时代。海量数据的背后蕴藏着巨大的商业价值，如何高效地存储、管理、分析和挖掘这些数据，成为企业和组织面临的重大挑战。1.2Elasticsearch：分布式搜索和分析引擎Elasticsearch作为一个开源的分布式搜索和分析引擎，凭借其高性能、可扩展性和易用
软件工程之信息系统集成我叫吴桂鑫计算机基础知识软件工程信息系统集成
现在的软件开发工作大多数是集成，所有部分都从头开发效率会很低，问题也会更多，成本也会更高。系统集成就是将各类资源有机、高效地整合到一起，形成一个完整的系统。信息系统集成包括网络集成、数据集成和应用集成等。网络集成、数据集成和应用集成分别用于解决系统的互连性、互通性和互操作性。（1）网络集成（企业局域网）重点是系统中异构网络的互连。（2）数据集成（大数据）重点是系统中异构数据集的互通使用和统一管理。
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str