羞儿

【读点论文】Image Style Transfer Using Convolutional Neural Networks（将卷积特征图提取语义信息，融合内容和风格的做法）

Image Style Transfer Using Convolutional Neural Networks

以不同风格呈现图像的语义内容是一项困难的图像处理任务。可以说，以前的方法的一个主要限制因素是缺乏明确表示语义信息的图像表示，从而允许将图像内容与样式分开。在这里，本文使用的图像表示来自卷积神经网络优化对象识别，使高层次的图像信息明确。

本文介绍了一种艺术风格的神经算法，可以分离和重组自然图像的图像内容和风格。该算法允许产生高感知质量的新图像，该图像将任意照片的内容与众多知名艺术品的外观相结合。产生的结果为卷积神经网络学习的深层图像表示提供了新的见解，并展示了它们在高级图像合成和处理方面的潜力。

2016年的CVPR论文，本文章用CNN网络来做图像风格迁移，作者是Gatys。Gatys在2015年的时候就发过一篇关于图像风格迁移的文章：A Neural Algorithm of Artistic Style，这两篇文章的内容很相似。

Introduction

将样式从一幅图像转移到另一幅图像可以被认为是纹理转移的问题。在纹理传递中，目标是从源图像合成纹理，同时约束纹理合成，以便保留目标图像的语义内容。
对于纹理合成，存在大量强大的非参数算法，这些算法可以通过对给定源纹理的像素进行重采样来合成照片般逼真的自然纹理。大多数先前的纹理传递算法依赖于这些用于纹理合成的非参数方法，同时使用不同的方法来保持目标图像的结构。
Efros和Freeman引入了一个对应图，其中包括目标图像的特征，如图像强度，以约束纹理合成过程。Hertzman等人使用图像类比将纹理从已经样式化的图像转移到目标图像上。Ashikhmin专注于传输高频纹理信息，同时保留目标图像的粗糙尺度。Lee等人通过向纹理传递额外通知边缘方向信息来改进该算法。
尽管这些算法取得了显著的效果，但它们都有相同的基本限制:它们只使用目标图像的低层图像特征来实现纹理传递。然而，理想地，风格迁移算法应该能够从目标图像(例如，对象和一般场景)中提取语义图像内容，然后实现纹理转移过程以源图像的风格呈现目标图像的语义内容。
因此，一个基本的先决条件是找到图像表示，独立地模拟语义图像内容及其呈现风格的变化。这种因式分解的表示以前仅针对自然图像的受控子集实现，例如不同照明条件下的人脸和不同字体风格的字符或手写数字和门牌号。
从自然图像中分离内容和风格仍然是一个极其困难的问题。然而，深度卷积神经网络的最新进展已经产生了强大的计算机视觉系统，该系统可以学习从自然图像中提取高级语义信息。研究表明，在特定任务(如对象识别)中使用足够的标记数据进行训练的卷积神经网络可以学习提取通用特征表示中的高级图像内容，这些特征表示可以概括数据集，甚至可以用于其他视觉信息处理任务，包括纹理识别和艺术风格分类。
在这项工作中，本文展示了高性能卷积神经网络学习的通用特征表示如何用于独立处理和操作自然图像的内容和风格。本文介绍了一种艺术风格的神经算法，一种新的图像风格转换算法。从概念上讲，它是一种纹理传递算法，通过来自最新卷积神经网络的特征表示来约束纹理合成方法。
由于纹理模型也基于深度图像表示，风格转移方法优雅地简化为单个神经网络内的优化问题。通过执行前图像搜索以匹配示例图像的特征表示来生成新图像。这种通用方法以前已经在纹理合成的环境中使用过，用于提高对深层图像表示的理解。事实上，本文的风格迁移算法结合了基于卷积神经网络的参数纹理模型和反转其图像表示的方法。

Deep image representations

在VGG网络的基础上生成的，该网络被训练来执行对象识别和定位，并且在原始工作中被广泛描述。本文使用由VGG-19网络的16个卷积层和5个池层的标准化版本提供的特征空间。
通过缩放权重来归一化网络，使得每个卷积滤波器在图像和位置上的平均激活等于1。可以在不改变其输出的情况下对VGG网络进行这种重新缩放，因为它仅包含校正线性激活函数，而没有归一化或池化特征图。不使用任何完全连接的层。
该模型是公开可用的，可以在caffe框架中进行研究。对于图像合成，发现用平均池替换最大池操作会产生稍微更吸引人的结果，这就是为什么显示的图像是用平均池生成的（和A Neural Algorithm of Artistic Style表述一模一样）。
Content representation（和A Neural Algorithm of Artistic Style运用的方法一模一样）
- 通常，网络中的每一层都定义了一个非线性滤波器组，其复杂度随着该层在网络中的位置而增加。因此，给定的输入图像 $\overrightarrow{x}$ 通过对该图像的滤波器响应而在卷积神经网络的每一层中被编码。具有 $N_l$ 个不同过滤器的图层具有 $N_l$ 个大小为 $M_l$ 的特征图，其中 $M_l$ 是特征图的高度乘以宽度。第L层中的响应可以存储在矩阵 $F_l∈R_{N_l×M_l}$ 中，其中 $F^l_{ij}$ 是层l中位置j处的第i个滤波器的激活。
- 为了可视化在层级的不同层编码的图像信息，可以对白噪声图像执行梯度下降，以找到与原始图像的特征响应相匹配的另一个图像。设 $\overrightarrow{p}$ 和 $\overrightarrow{x}$ 是原始图像和生成的图像， $P_l$ 和 $F_l$ 是它们在层l中各自的特征表示。然后定义两个特征表示之间的平方误差损失
  - $L_{content}(\overrightarrow{p},\overrightarrow{x},l)=\frac{1}{2}\sum_{i,j}(F_{ij}^l-P_{ij}^l)^2$
  - ```
  def _content_loss(self, P, F):
      """
      计算content loss
      :param P: 内容图像的feature map
      :param F: 合成图片的feature map
      """
      self.content_loss = tf.reduce_sum(tf.square(F - P)) / (4.0 * P.size)
      #reduce_sum() 是求和函数，为压缩求和，用于降维
```
- 这个损失相对于层l中的激活的导数等于
  - $\frac{\partial{L_{content}}}{\partial{F_{ij}^l}}=\begin{cases} (F^l-P^l)_{ij} &{if \space F^l_{ij}>0}\\ 0 &{if \space F^l_{ij}<0}\\ \end{cases}$
- 由此可以使用标准误差反向传播来计算相对于图像 $\overrightarrow{x}$ 的梯度。因此，可以改变最初的随机图像 $\overrightarrow{x}$ ，直到它在卷积神经网络的某一层中产生与原始图像 $\overrightarrow{p}$ 相同的响应。
- 当卷积神经网络在对象识别上被训练时，它们开发了图像的表示，使得对象信息沿着处理层级越来越明显。因此，沿着网络的处理层次，输入图像被转换成对图像的实际内容越来越敏感的表示，但是对其精确的外观变得相对不变。
- 因此，网络中的较高层根据对象及其在输入图像中的排列来捕获高级内容，但是不太约束重建的精确像素值。相比之下，较低层的重建只是复制了原始图像的精确像素值。因此，将网络高层中的特征响应称为内容表示。
Style representation
- 为了获得输入图像风格的表示，使用了一个被设计用来捕捉纹理信息的特征空间。这个特征空间可以建立在网络的任何层中的滤波器响应之上。它由不同滤波器响应之间的相关性组成，其中期望是在特征图的空间范围上获得的。这些特征相关性由Gram矩阵 $G_l∈R^{N_l×N_l}$ 给出，其中 $G^l_{ij}$ 是层l中的矢量化特征图i和j之间的内积:
  - $G_{ij}^l=\sum_k{F^l_{ik}F^l_{jk}}$
  - ```
      def _gram_matrix(self, F, N, M):
          """
          构造F的Gram Matrix（格雷姆矩阵），F为feature map，shape=(widths, heights, channels)
          :param F: feature map
          :param N: feature map的第三维度
          :param M: feature map的第一维 乘 第二维
          :return: F的Gram Matrix
          """
          F = tf.reshape(F, (M, N))
          return tf.matmul(tf.transpose(F), F)
```
- 通过包括多层的特征相关性，获得了输入图像的静态、多尺度表示，其捕获了其纹理信息，但没有捕获全局排列。可以通过构建一个与给定输入图像的风格表示相匹配的图像，将这些建立在网络不同层上的风格特征空间捕获的信息可视化。这是通过使用来自白噪声图像的梯度下降来最小化来自原始图像的Gram矩阵和要生成的图像的Gram矩阵的条目之间的均方距离来实现的。
- 设 $\overrightarrow{a}$ 和 $\overrightarrow{x}$ 是原始图像和生成的图像， $A_l$ 和 $G_l$ 是它们在层l中各自的风格表示。则该层对总损失的贡献 $E_l$ 和总损失L如下
  - $E_l=\frac{1}{4N^2_lM^2_l}\sum_{i,j}(G_{ij}^l-A_{ij}^l)^2\\ L_{style}(\overrightarrow{a},\overrightarrow{x})=\sum_{l=0}^L{w_lE_l}$
  - ```
      def _single_style_loss(self, a, g):
          """
          计算单层style loss
          :param a: 当前layer风格图片的feature map
          :param g: 当前layer生成图片的feature map
          :return: style loss
          """
          N = a.shape[3]
          M = a.shape[1] * a.shape[2]
          # 生成feature map的Gram Matrix
          A = self._gram_matrix(a, N, M)
          G = self._gram_matrix(g, N, M)
          return tf.reduce_sum(tf.square(G - A)) / ((2 * N * M) ** 2)
```
- 其中 $w_l$ 是每层对总损失的贡献的加权因子。 $E_l$ 相对于层l中激活的导数可以解析地计算:
  - $\frac{\partial{E_L}}{\partial{F_{ij}^l}}=\begin{cases} \frac{1}{N^2_lM^2_l}((F^l)^T-(G^l-A^l))_{ij} &{if \space F^l_{ij}>0}\\ 0 &{if \space F^l_{ij}<0}\\ \end{cases}$
- 使用标准误差反向传播可以容易地计算 $E_l$ 相对于像素值 $\overrightarrow{x}$ 的梯度
Style transfer
- 为了将艺术作品 $\overrightarrow{a}$ 的风格转移到照片 $\overrightarrow{p}$ 上，合成了一个新的图像，它同时匹配 $\overrightarrow{p}$ 的内容表示和 $\overrightarrow{a}$ 的风格表示(见下图)。
  - Style transfer algorithm.首先提取并存储内容和风格特征。样式图像 $\overrightarrow{a}$ 通过网络传递，并且计算和存储它在包括的所有层上的样式表示 $A^l$ (左图)。内容图像 $\overrightarrow{p}$ 通过网络传递，存储一层中的内容表示 $P^l$ (右图)。
  - 然后，使随机白噪声图像 $\overrightarrow{x}$ 通过网络，并计算其风格特征 $G^l$ 和内容特征 $F^l$ 。在包括在样式表示中的每个层上，计算 $G^l$ 和 $A^l$ 之间的元素方式均方差，以给出样式损失 $L_{style}$ (左图)。此外，计算 $F^l$ 和 $P^l$ 之间的均方差，以给出内容损失 $L_{content}$ (右图)。
  - 总损失 $L_{total}$ 是内容和风格损失之间的线性组合。它相对于像素值的导数可以使用误差反向传播来计算(中间)。这个梯度用于迭代更新图像 $\overrightarrow{x}$ ，直到它同时匹配样式图像 $\overrightarrow{a}$ 的样式特征和内容图像 $\overrightarrow{p}$ 的内容特征(中间，底部)。
- 联合最小化白噪声图像的特征表示与卷积神经网络的一层中的照片的内容表示和多层上定义的绘画的风格表示之间的距离。最小化的损失函数是：
  - $L_{total}(\overrightarrow{p},\overrightarrow{a},\overrightarrow{x})=αL_{content}(\overrightarrow{p},\overrightarrow{x})+βL_{style}(\overrightarrow{a},\overrightarrow{x})$
    - def losses(self): """ 模型总体loss """ with tf.variable_scope("losses"): # contents loss with tf.Session() as sess: sess.run(self.input_img.assign(self.content_img)) #tensorflow的构建视图、构建操作... 都只是在预定义一些操作/一些占位，并没有实际的在跑代码，一直要等到 session.run 才会实际的去执行某些代码 gen_img_content = getattr(self.vgg, self.content_layer) content_img_content = sess.run(gen_img_content) self._content_loss(content_img_content, gen_img_content) # style loss with tf.Session() as sess: sess.run(self.input_img.assign(self.style_img)) style_layers = sess.run([getattr(self.vgg, layer) for layer in self.style_layers]) self._style_loss(style_layers) # 加权求得最终的loss self.total_loss = self.content_w * self.content_loss + self.style_w * self.style_loss
  - 其中α和β分别是内容和风格重建的加权因子。相对于像素值 $\frac{∂Ltotal}{∂\overrightarrow{x}}$ 的梯度可以用作一些数值优化策略的输入。这里我们使用L-BFGS [32]，发现它最适合图像合成。
  - 为了在可比较的尺度上提取图像信息，在计算其特征表示之前，总是将样式图像调整到与内容图像相同的大小。最后，注意与[Understanding Deep Image Representations by Inverting Them.]不同的是，没有用图像先验来正则化合成结果。然而，来自网络中较低层的纹理特征充当风格图像的特定图像先验。此外，由于本文使用不同的网络架构和优化算法，预计图像合成会有一些差异。

Results

本文的主要发现是卷积神经网络中内容和风格的表示是很好分离的。也就是说，可以独立地操作这两种表征来产生新的、感知上有意义的图像。为了演示这一发现，本文生成了混合了来自两个不同源图像的内容和样式表示的图像。特别是，将一张描绘德国图宾根内卡河河岸的照片的内容表示与取自不同艺术时期的几幅著名艺术作品的风格表示进行了匹配(见下图【与2015年的论文一模一样】)。
- 将一张照片的内容与几幅著名艺术作品的风格相结合的图像。通过找到同时匹配照片的内容表示和艺术品的风格表示的图像来创建图像。
- 描绘德国图宾根Neckarfront的原始照片显示在A中(摄影:Andreas Praefcke)。为相应生成的图像提供样式的绘画显示在每个面板的左下角。B是J.M.W. Turner于1805年所作的《弥诺陶洛斯的沉船》。C是文森特·梵高1889年创作的《星夜》。D是爱德华·蒙克1893年的《画报》。E是巴勃罗·毕加索1910年创作的《被遗弃的女人》。F是瓦西里·康丁斯基1913年创作的Composition VII。

上图所示的图像是通过匹配层conv4_2上的内容表示和层conv1_1、conv2_1、conv3_1、conv4_1和conv5_1上的风格表示合成的(在这些层中wl = 1/5，在所有其他层中wl = 0)。比值α/β为 $1×10^{-3}$ (B)、 $8×10^{-4}$ ©、 $5×10^{-3}$ (D), $5×10^{-4}$ (E、F)。

# 定义提取特征的层（与论文的内容呼应）
self.content_layer = "conv4_2"
self.style_layers = ["conv1_1", "conv2_1", "conv3_1", "conv4_1", "conv5_1"]
##匹配了层“conv4_2”上的内容表示和层conv1_1、conv2_1、conv3_1、conv4_1和conv5_1上的样式表示
# 定义content loss和style loss的权重，根据论文可自调整
self.content_w = 0.001
self.style_w = 1
##可自调整测试实验效果
self.style_layer_w = [0.5, 1.0, 1.5, 3.0, 4.0]
#不同style layers的权重，层数越深权重越大

Trade-off between content and style matching
- 当然，图像内容和风格不能完全分开。当合成将一个图像的内容与另一个图像的风格相结合的图像时，通常不存在同时完美匹配两个约束的图像。
- 然而，由于在图像合成过程中最小化的损失函数是分别针对内容和风格的损失函数之间的线性组合，所以可以平滑地调节对重建内容或风格的强调(见下图)。
  - 各个源图像的匹配内容和风格的相对权重。匹配内容和匹配样式之间的比率α/β从左上到右下增加。**对风格的高度强调有效地产生了风格图像的纹理版本(左上)。对内容的高度强调产生了一个只有很少风格化的图像(右下)。**实际上，人们可以在两个极端之间平滑地插值。
- 对风格的强烈强调将产生与艺术品外观相匹配的图像，有效地给出其纹理版本，但几乎不显示照片的任何内容(α/β= $1×10^{-4}$ ，上图，左上角)。当重点强调内容时，人们可以清楚地识别照片，但绘画风格不太匹配(α/β= $1×10^{-1}$ ，上图，右下方)。对于特定的一对内容和样式图像，可以调整内容和样式之间的折衷，以创建视觉上吸引人的图像。
Effect of different layers of the Convolutional Neural Network
- 图像合成过程中的另一个重要因素是选择与内容和风格表示相匹配的层。如上所述，风格表示是包括多层神经网络的多尺度表示。这些层的数量和位置决定了风格匹配的局部尺度，导致不同的视觉体验。
- 将样式表示匹配到网络中的更高层会在越来越大的范围内保持局部图像结构，从而导致更平滑和更连续的视觉体验。因此，视觉上最吸引人的图像通常是通过将样式表示与网络中的高层相匹配来创建的，这就是为什么对于所示的所有图像，本文都在网络的层“conv1_1”、“conv2_1”、“conv3_1”、“conv4_1”和“conv5_1”中匹配样式特征。
- 为了分析使用不同图层来匹配内容特征的效果，提供了一个样式转换结果，该结果是通过使用相同的插图和参数配置(α/β= $1×10^{-3}$ )对照片进行样式化而获得的，但其中一个图层与图层“conv2_2”上的内容特征相匹配，另一个图层与图层“conv4_2”上的内容特征相匹配(见下图)。
  - 在网络的不同层中匹配内容表示的效果。匹配图层“conv2_2”上的内容保留了原始照片的大部分精细结构，合成图像看起来好像绘画的纹理简单地混合在照片上(中间)。
  - 匹配图层“conv4_2”上的内容时，绘画的纹理和照片的内容会融合在一起，这样照片的内容就会以绘画的风格显示出来(上图底部)。两幅图像均采用相同的参数选择(α/β= $1×10^{-3}$ )生成。左下角显示的是作为风格图像的画作，由利奥尼·法宁格于1915年命名为耶稣会士三世。
- 当在网络的较低层上匹配内容时，该算法匹配照片中的许多细节像素信息，并且生成的图像看起来好像艺术品的纹理仅仅混合在照片上(上图，中间)。相比之下，当在网络的较高层上匹配内容特征时，照片的详细像素信息没有被强烈地约束，并且艺术作品的纹理和照片的内容被适当地合并。也就是说，改变图像的精细结构，例如边缘和彩色图，使得它在显示照片内容时与艺术品的风格一致(上图，底部)。
Initialisation of gradient descent
- 已经用白噪音初始化了目前显示的所有图像。然而，也可以用内容图像或风格图像来初始化图像合成。研究了这两种选择(见下图 A，B):虽然它们使最终图像偏向初始化的空间结构，但是不同的初始化似乎对合成过程的结果没有强烈的影响。应该注意的是，只有带噪声的初始化才允许生成任意数量的新图像(见下图 C)。用固定图像初始化总是确定地导致相同的结果(直到梯度下降过程中的随机性)。
  - 梯度下降的初始化。A:从内容映像初始化的。B:从样式图像初始化。C:从不同的白噪声图像初始化的四个图像样本。对于所有图像，比值α/β等于 $1×10^{-3}$ 。
Photorealistic style transfer
- 到目前为止，本文的重点是艺术风格的转移。不过一般来说，该算法可以在任意图像之间转换风格。作为一个例子，把纽约夜晚的照片风格转换成伦敦白天的图像(见下图)。虽然照片真实感没有完全保留，但合成的图像类似于风格图像的许多颜色和闪电，并在某种程度上显示了伦敦的夜景。
  - 照片真实感风格转移。这种风格从一张展示纽约夜景的照片转移到一张展示伦敦夜景的照片上。图像合成从内容图像初始化，比率α/β等于 $1×10^{-2}$ .

Discussion

本文演示了如何使用高性能卷积神经网络的特征表示来在任意图像之间传递图像风格。虽然能够显示高感知质量的结果，但是该算法仍然存在一些技术限制。
可能最大的限制因素是合成图像的分辨率。优化问题的维数以及卷积神经网络中的单元数量都随着像素数量线性增长。因此，合成过程的速度很大程度上取决于图像分辨率。本文中展示的图像是以大约512 × 512像素的分辨率合成的，合成过程可能需要在Nvidia K40 GPU上花费长达一个小时的时间(取决于确切的图像大小和梯度下降的停止标准)。虽然这种性能目前阻碍了本文的风格转移算法的在线和交互式应用，但很可能深度学习的未来改进也将提高这种方法的性能。
另一个问题是，合成图像有时会受到一些低水平噪声的影响。虽然这在艺术风格转换中不是什么大问题，但是当内容和风格图像都是照片并且合成图像的真实感受到影响时，问题就变得更加明显了。然而，噪声是非常典型的，看起来像网络中单元的滤波器。因此，有可能构建有效的去噪技术来在优化过程之后对图像进行后处理（从问题提出未来研究方向）。
传统上，图像的艺术风格化是在非真实感渲染的标签下在计算机图形学中研究的。除了在纹理传递方面的工作，普通的方法在概念上与我们的工作有很大的不同，因为它们给出了专门的算法来以一种特定的风格渲染源图像。关于该领域的最新综述，可以参阅[A Taxonomy of Artistic Stylization Techniques for Images and Video.]。
图像内容与风格的分离不一定是一个明确定义的问题。这主要是因为不清楚到底是什么定义了图像的风格。它可能是绘画中的笔触、彩色地图、某些主要的形式和形状，也可能是场景的构成和图像主题的选择——可能是所有这些的混合，甚至更多。
因此，通常不清楚图像内容和风格是否可以完全分离——如果可以，如何分离？例如，如果没有类似星星的图像结构，就不可能以梵高的《星夜》的风格来呈现图像。在本文的工作中，如果生成的图像“看起来”像样式图像，但显示了内容图像的对象和风景，则样式转换是成功的。但是，充分意识到，这一评估标准在数学上既不精确，也没有得到普遍认可。
然而，发现真正令人着迷的是，一个被训练来执行生物视觉核心计算任务之一的神经系统自动学习图像表示，这种表示允许——至少在某种程度上——图像内容与风格的分离。一种解释可能是，当学习对象识别时，网络必须变得对保持对象身份的所有图像变化不变。分解图像内容的变化和图像外观的变化的表示对于这项任务来说是非常实用的。
鉴于性能优化的人工神经网络和生物视觉之间惊人的相似性，因此很容易推测，人类从风格中提取内容的能力——以及我们创造和欣赏艺术的能力——也可能主要是人类视觉系统强大推理能力的卓越标志。

代码复现调试

##main文件
# coding: utf-8
import os
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "2"
##TF_CPP_MIN_LOG_LEVEL=0,输出所有信息，0也是默认值
##TF_CPP_MIN_LOG_LEVEL=1,屏蔽通知信息
##TF_CPP_MIN_LOG_LEVEL=2,只显示warning和error
##TF_CPP_MIN_LOG_LEVEL=3,只显示error
import numpy as np
##数值计算库
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
##由于本机装的是Tensorflow2.0+,源程序是Tensorflow1.0版本，为了兼容相关操作进行的修改
import load_vgg
#工程自编写的文件
import utils
#工程自编写的工具文件
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
#urllib.error.URLError: 
##取消SSL的证书验证。
def setup():
    """
    新建存储模型的文件夹 checkpoints 和存储合成图片结果的文件夹 outputs
    """
    utils.safe_mkdir("checkpoints")
    utils.safe_mkdir("outputs")
class StyleTransfer(object):
    def __init__(self, content_img, style_img, img_width, img_height):
        """
        初始化
        :param content_img: 待转换风格的图片（保留内容的图片）
        :param style_img: 风格图片（保留风格的图片）
        :param img_width: 图片的width
        :param img_height: 图片的height
        """
        # 获取基本信息
        self.content_name = str(content_img.split("/")[-1].split(".")[0])
        # 获取内容图片的文件名，去掉图片文件的后缀
        self.style_name = str(style_img.split("/")[-1].split(".")[0])
        # 获取样式图片的文件名，去掉图片文件的后缀
        self.img_width = img_width
        self.img_height = img_height
        # 规范化图片的像素尺寸
        self.content_img = utils.get_resized_image(content_img, img_width, img_height)
        self.style_img = utils.get_resized_image(style_img, img_width, img_height)
        self.initial_img = utils.generate_noise_image(self.content_img, img_width, img_height)
        # 定义提取特征的层（与论文的内容呼应）
        self.content_layer = "conv4_2"
        self.style_layers = ["conv1_1", "conv2_1", "conv3_1", "conv4_1", "conv5_1"]
        ##匹配了层“conv4_2”上的内容表示和层conv1_1、conv2_1、conv3_1、conv4_1和conv5_1上的样式表示
        # 定义content loss和style loss的权重，根据论文可自调整
        self.content_w = 0.001
        self.style_w = 1
        ##可自调整测试实验效果
        self.style_layer_w = [0.5, 1.0, 1.5, 3.0, 4.0]
        #不同style layers的权重，层数越深权重越大
        # global step和学习率
        self.gstep = tf.Variable(0, dtype=tf.int32, trainable=False, name="global_step")  # global step
        self.lr = 2.0
        utils.safe_mkdir("outputs/%s_%s" % (self.content_name, self.style_name))
    def create_input(self):
        """
        初始化图片tensor
        """
        with tf.variable_scope("input"):
            self.input_img = tf.get_variable("in_img", 
                                             shape=([1, self.img_height, self.img_width, 3]),
                                             dtype=tf.float32,
                                             initializer=tf.zeros_initializer())
    def load_vgg(self):
        """
        加载vgg模型并对图片进行预处理
        """
        self.vgg = load_vgg.VGG(self.input_img)#实例化load_vgg
        self.vgg.load()#调用其中的load方法
        # mean-center，内容图片和风格图片去均值
        self.content_img -= self.vgg.mean_pixels
        self.style_img -= self.vgg.mean_pixels
    def _content_loss(self, P, F):
        """
        计算content loss
        :param P: 内容图像的feature map
        :param F: 合成图片的feature map
        """
        self.content_loss = tf.reduce_sum(tf.square(F - P)) / (4.0 * P.size)
        #reduce_sum() 是求和函数，为压缩求和，用于降维，乘数4与论文本身呼应
    def _gram_matrix(self, F, N, M):
        """
        构造F的Gram Matrix（格雷姆矩阵），F为feature map，shape=(widths, heights, channels)
        :param F: feature map
        :param N: feature map的第三维度
        :param M: feature map的第一维 乘 第二维
        :return: F的Gram Matrix
        """
        F = tf.reshape(F, (M, N))
        return tf.matmul(tf.transpose(F), F)
        #将矩阵 a 乘以矩阵 b,生成a * b
    def _single_style_loss(self, a, g):
        """
        计算单层style loss
        :param a: 当前layer风格图片的feature map
        :param g: 当前layer生成图片的feature map
        :return: style loss
        """
        N = a.shape[3]
        M = a.shape[1] * a.shape[2]
        # 生成feature map的Gram Matrix
        A = self._gram_matrix(a, N, M)
        G = self._gram_matrix(g, N, M)
        return tf.reduce_sum(tf.square(G - A)) / ((2 * N * M) ** 2)
    def _style_loss(self, A):
        """
        计算总的style loss
        :param A: 风格图片的所有feature map
        """
        # 层数（我们用了conv1_1, conv2_1, conv3_1, conv4_1, conv5_1）
        n_layers = len(A)
        # 计算loss
        E = [self._single_style_loss(A[i], getattr(self.vgg, self.style_layers[i]))
             for i in range(n_layers)]
        # 加权求和
        self.style_loss = sum(self.style_layer_w[i] * E[i] for i in range(n_layers))
    def losses(self):
        """
        模型总体loss
        """
        with tf.variable_scope("losses"):
            # contents loss
            with tf.Session() as sess:
                sess.run(self.input_img.assign(self.content_img))
                #tensorflow的 构建视图、构建操作... 都只是在预定义一些操作/一些占位，并没有实际的在跑代码，一直要等到 session.run 才会 实际的去执行某些代码
                gen_img_content = getattr(self.vgg, self.content_layer)
                content_img_content = sess.run(gen_img_content)
            self._content_loss(content_img_content, gen_img_content)
            # style loss
            with tf.Session() as sess:
                sess.run(self.input_img.assign(self.style_img))
                style_layers = sess.run([getattr(self.vgg, layer) for layer in self.style_layers])                              
            self._style_loss(style_layers)
            # 加权求得最终的loss
            self.total_loss = self.content_w * self.content_loss + self.style_w * self.style_loss
    def optimize(self):
        self.optimizer = tf.train.AdamOptimizer(self.lr).minimize(self.total_loss, global_step=self.gstep)
        #AdamOptimizer是TensorFlow中实现Adam算法的优化器。Adam即Adaptive Moment Estimation（自适应矩估计），是一个寻找全局最优点的优化算法，引入了二次梯度校正。
    def create_summary(self):
        with tf.name_scope("summary"):
            tf.summary.scalar("contents loss", self.content_loss)
            #用来显示标量信息
            tf.summary.scalar("style loss", self.style_loss)
            tf.summary.scalar("total loss", self.total_loss)
            self.summary_op = tf.summary.merge_all()
    def build(self):
        self.create_input()
        self.load_vgg()
        self.losses()
        self.optimize()
        self.create_summary()
    def train(self, epoches=300):
        skip_step = 1
        with tf.Session() as sess:
            sess.run(tf.global_variables_initializer())
            #初始化模型的参数。
            writer = tf.summary.FileWriter("graphs/style_transfer", sess.graph)
            #用于在给定目录中创建事件文件并向其添加摘要和事件。该类异步更新文件内容。这允许训练程序调用方法，直接从训练循环将数据添加到文件中，而不会减慢训练速度。
            sess.run(self.input_img.assign(self.initial_img))
            saver = tf.train.Saver()
            ckpt = tf.train.get_checkpoint_state(os.path.dirname("checkpoints/%s_%s_style_transfer/checkpoint" %
                                                                 (self.content_name, self.style_name)))
            #通过checkpoint文件找到模型文件名。
            #其中model_checkpoint_path保存了最新的tensorflow模型文件的文件名，all_model_checkpoint_paths则有未被删除的所有tensorflow模型文件的文件名。
            if ckpt and ckpt.model_checkpoint_path:
                print("You have pre-trained model, if you do not want to use this, please delete the existing one.")
                saver.restore(sess, ckpt.model_checkpoint_path)
                #restore()只是保存了session中的相关变量对应的值，并不涉及模型的结构
                #Restore则是将训练好的参数提取出来。Saver类训练完后，是以checkpoints文件形式保存。提取的时候也是从checkpoints文件中恢复变量。
            initial_step = self.gstep.eval()
            for epoch in range(initial_step, epoches):
                # 前面几轮每隔10个epoch生成一张图片
                if epoch >= 5 and epoch < 20:
                    skip_step = 10
                # 后面每隔20个epoch生成一张图片
                elif epoch >= 20:
                    skip_step = 20
                sess.run(self.optimizer)
                if (epoch + 1) % skip_step == 0:
                    gen_image, total_loss, summary = sess.run([self.input_img,
                                                               self.total_loss,
                                                               self.summary_op])
                    # 对生成的图片逆向mean-center，即在每个channel上加上mean
                    gen_image = gen_image + self.vgg.mean_pixels 
                    writer.add_summary(summary, global_step=epoch)
                    print("Step {}\n   Sum: {:5.1f}".format(epoch + 1+"   Loss: {:5.1f}".format(total_loss), np.sum(gen_image)))
                    #print("   Loss: {:5.1f}".format(total_loss))
                    filename = "outputs/%s_%s/epoch_%d.png" % (self.content_name, self.style_name, epoch)
                    utils.save_image(filename, gen_image)
                    # 存储模型
                    if (epoch + 1) % 20 == 0:
                        saver.save(sess,
                                   "checkpoints/%s_%s_style_transfer/style_transfer" %
                                   (self.content_name, self.style_name), epoch)
if __name__ == "__main__":
    setup()
    # 指定图片
    content_img = "contents/scenery.jpg"
    style_img = "styles/pattern.jpg"
    # 指定像素尺寸
    img_width = 400
    img_height = 300
    # style transfer
    style_transfer = StyleTransfer(content_img, style_img, img_width, img_height)
    style_transfer.build()
    style_transfer.train(100)

下载vgg预训练模型，从零开始训练对算力和数据的要求相对比较高

"""
This file is used to load pre-trained VGG model
"""
# coding: utf-8
import numpy as np
import scipy.io
#import tensorflow as tf
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
import utils
# VGG-19 parameters file
VGG_DOWNLOAD_LINK = "http://www.vlfeat.org/matconvnet/models/imagenet-vgg-verydeep-19.mat"
VGG_FILENAME = "imagenet-vgg-verydeep-19.mat"
EXPECTED_BYTES = 534904783  # 文件大小
#自设置模型的大小，通过查找网页中size参数获得
class VGG(object):
    def __init__(self, input_img):
        # 下载文件
        utils.download(VGG_DOWNLOAD_LINK, VGG_FILENAME, EXPECTED_BYTES)
        # 加载文件
        self.vgg_layers = scipy.io.loadmat(VGG_FILENAME)["layers"]
        #加载 MAT文件。mat 文件的名称(如果 appendmat==True，则不需要 .mat 扩展名)。也可以通过打开的file-like 对象。
        self.input_img = input_img
        # VGG在处理图像时候会将图片进行mean-center，所以我们首先要计算RGB三个channel上的mean
        self.mean_pixels = np.array([123.68, 116.779, 103.939]).reshape((1, 1, 1, 3))
    def _weights(self, layer_idx, expected_layer_name):
        """
        获取指定layer层的pre-trained权重
        :param layer_idx: VGG中的layer id
        :param expected_layer_name: 当前layer命名
        :return: pre-trained权重W和b
        """
        W = self.vgg_layers[0][layer_idx][0][0][2][0][0]
        #从预训练模型中读取权重
        b = self.vgg_layers[0][layer_idx][0][0][2][0][1]
        # 从预训练模型中读取偏置
        layer_name = self.vgg_layers[0][layer_idx][0][0][0][0]
        # 从预训练模型中读取当前层的名称
        assert layer_name == expected_layer_name, print("Layer name error!")
        #assert当表达式为真时，程序继续往下执行；当表达式为假时，抛出AssertionError错误，并将参数输出
        return W, b.reshape(b.size)
    def conv2d_relu(self, prev_layer, layer_idx, layer_name):
        """
        采用relu作为激活函数的卷积层
        :param prev_layer: 前一层网络
        :param layer_idx: VGG中的layer id
        :param layer_name: 当前layer命名
        """
        with tf.variable_scope(layer_name):
            # 获取当前权重（numpy格式）
            W, b = self._weights(layer_idx, layer_name)
            # 将权重转化为tensor（由于我们不需要重新训练VGG的权重，因此初始化为常数）创建数值常量
            W = tf.constant(W, name="weights")
            b = tf.constant(b, name="bias")
            # 卷积操作
            conv2d = tf.nn.conv2d(input=prev_layer,
                                  filter=W,
                                  strides=[1, 1, 1, 1],
                                  padding="SAME")
            # 激活
            out = tf.nn.relu(conv2d + b)
        setattr(self, layer_name, out)
        #用于设置属性值，该属性不一定是存在的。object -- 对象。name -- 字符串，对象属性。value -- 属性值。
    def avgpool(self, prev_layer, layer_name):
        """
        average pooling层（这里参考了原论文中提到了avg-pooling比max-pooling效果好，所以采用avg-pooling）
        :param prev_layer: 前一层网络（卷积层）
        :param layer_name: 当前layer命名
        """
        with tf.variable_scope(layer_name):
            # average pooling
            out = tf.nn.avg_pool(value=prev_layer,
                                 ksize=[1, 2, 2, 1],
                                 strides=[1, 2, 2, 1],
                                 padding="SAME")

        setattr(self, layer_name, out)
    #加载模型本身
    def load(self):
        """
        加载pre-trained的数据
        """
        self.conv2d_relu(self.input_img, 0, "conv1_1")
        self.conv2d_relu(self.conv1_1, 2, "conv1_2")
        self.avgpool(self.conv1_2, "avgpool1")
        self.conv2d_relu(self.avgpool1, 5, "conv2_1")
        self.conv2d_relu(self.conv2_1, 7, "conv2_2")
        self.avgpool(self.conv2_2, "avgpool2")
        self.conv2d_relu(self.avgpool2, 10, "conv3_1")
        self.conv2d_relu(self.conv3_1, 12, "conv3_2")
        self.conv2d_relu(self.conv3_2, 14, "conv3_3")
        self.conv2d_relu(self.conv3_3, 16, "conv3_4")
        self.avgpool(self.conv3_4, "avgpool3")
        self.conv2d_relu(self.avgpool3, 19, "conv4_1")
        self.conv2d_relu(self.conv4_1, 21, "conv4_2")
        self.conv2d_relu(self.conv4_2, 23, "conv4_3")
        self.conv2d_relu(self.conv4_3, 25, "conv4_4")
        self.avgpool(self.conv4_4, "avgpool4")
        self.conv2d_relu(self.avgpool4, 28, "conv5_1")
        self.conv2d_relu(self.conv5_1, 30, "conv5_2")
        self.conv2d_relu(self.conv5_2, 32, "conv5_3")
        self.conv2d_relu(self.conv5_3, 34, "conv5_4")
        self.avgpool(self.conv5_4, "avgpool5")

在vgg模型需要使用一些网络文件爬取的准备，以及对数据进行预处理的操作

# coding: utf-8
import os
from PIL import Image, ImageOps
import numpy as np
import scipy.misc
import imageio
from six.moves import urllib
def download(download_link, file_name, expected_bytes):
    """
    下载pre-trained VGG-19
    :param download_link: 下载链接
    :param file_name: 文件名
    :param expected_bytes: 文件大小
    """
    #检查VGG预训练模型是否下载完成，如果已经完成了下载，那么就不用再次下载，
    if os.path.exists(file_name):
        print("VGG-19 pre-trained model is ready")
        return
    print("Downloading the VGG pre-trained model. This might take a while ...")
    file_name, _ = urllib.request.urlretrieve(download_link, file_name)
    #urlretrieve自动的将求请地址得到的响应体保存到指定文件中
    file_stat = os.stat(file_name)
    #os.stat() 方法用于在给定的路径上执行一个系统 stat 的调用。返回值的内容很丰富
    if file_stat.st_size == expected_bytes:
        print('Successfully downloaded VGG-19 pre-trained model', file_name)
    else:
        raise Exception('File ' + file_name +
                        ' might be corrupted. You should try downloading it with a browser.')
    #建议直接到load_vgg文件中的VGG_DOWNLOAD_LINK的网址下在，然后把预训练模型直接放在工程目录下
def get_resized_image(img_path, width, height, save=True):
    """
    对图片进行像素尺寸的规范化
    :param img_path: 图像路径
    :param width: 像素宽度
    :param height: 像素高度
    :param save: 存储路径
    :return: 
    """
    image = Image.open(img_path)
    # PIL is column major so you have to swap the places of width and height
    image = ImageOps.fit(image, (width, height), Image.ANTIALIAS)
    #返回图像的大小和裁剪后的版本，裁剪为请求的宽高比和大小。method是用于重采样的方法。默认值为Image.NEAREST。
    if save:
        image_dirs = img_path.split('/')
        image_dirs[-1] = 'resized_' + image_dirs[-1]
        out_path = '/'.join(image_dirs)
        if not os.path.exists(out_path):
            image.save(out_path)
    image = np.asarray(image, np.float32)
    return np.expand_dims(image, 0)
def generate_noise_image(content_image, width, height, noise_ratio=0.6):
    """
    对原图片增加白噪声
    :param content_image: 内容图片
    :param width: 图片width
    :param height: 图片height
    :param noise_ratio: 噪声比例
    :return: 带有噪声的内容图片
    """
    noise_image = np.random.uniform(-20, 20, (1, height, width, 3)).astype(np.float32)
    #这个方法就是生成一个随机数，这个随机数>=第一个参数，小于第二个参数 ，(1, height, width, 3)3通道
    return noise_image * noise_ratio + content_image * (1 - noise_ratio)
def save_image(path, image):
    image = image[0]
    image = np.clip(image, 0, 255).astype('uint8')
    #截取，超出的部分就把它强置为边界部分。
    imageio.imsave(path, image)
def safe_mkdir(path):
    """ Create a directory if there isn't one already. """
    try:
        os.mkdir(path)
    except OSError:
        pass

本文主要是对代码的一些调试和对与本机兼容的一些代码调整及部分的注释，整体逻辑框架来自朋友分享内容

内容图片
风格图片
第10轮训练结果
第100轮训练结果

你可能感兴趣的:(论文笔记,深度学习,计算机视觉,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key