有些代码不应该被忘记

多图｜一文看懂25个神经网络模型

在深度学习十分火热的今天，不时会涌现出各种新型的人工神经网络，想要实时了解这些新型神经网络的架构还真是不容易。光是知道各式各样的神经网络模型缩写（如：DCIGN、BiLSTM、DCGAN……还有哪些？)，就已经让人招架不住了。

因此，这里整理出一份清单来梳理所有这些架构。其中大部分是人工神经网络，也有一些完全不同的怪物。尽管所有这些架构都各不相同、功能独特，当我在画它们的节点图时……其中潜在的关系开始逐渐清晰起来。

把这些架构做成节点图，会存在一个问题：它无法展示神经网络架构内部的工作原理。举例来说，变分自编码机（VAE：variational autoencoders ）看起来跟自编码机（AE：autoencoders）差不多，但它们的训练过程却大不相同。训练后的模型在使用场景上差别更大：VAE是生成器，通过插入噪音数据来获取新样本；而AE仅仅是把他们所收到的任何信息作为输入，映射到“记忆中”最相似的训练样本上。

在介绍不同模型的神经元和神经细胞层之间的连接方式前，我们一步一步来，先来了解不同的神经元节点内部是如何工作的。

神经元

对不同类型的神经元标记不同的颜色，可以更好地在各种网络架构之间进行区分。但是，这些神经元的工作方式却是大同小异。在下图的基本神经元结构后面，你会看到详细的讲解：

基本的人工神经网络神经元（basic neural network cell）相当简单，这种简单的类型可以在常规的前馈人工神经网络架构里面找到。这种神经元与其它神经元之间的连接具有权重，也就是说，它可以和前一层神经网络层中的所有神经元有连接。

每一个连接都有各自的权重，通常情况下是一些随机值（关于如何对人工神经网络的权重进行初始化是一个非常重要的话题，这将会直接影响到之后的训练过程，以及最终整个模型的性能）。这个权重可以是负值，正值，非常小，或者非常大，也可以是零。和这个神经元连接的所有神经元的值都会乘以各自对应的权重。然后，把这些值都求和。

在这个基础上，会额外加上一个bias，它可以用来避免输出为零的情况，并且能够加速某些操作，这让解决某个问题所需要的神经元数量也有所减少。这个bias也是一个数字，有些时候是一个常量（经常是-1或者1），有些时候会有所变化。这个总和最终被输入到一个激活函数，这个激活函数的输出最终就成为这个神经元的输出。

卷积神经元（Convolutional cells）和前馈神经元非常相似，除了它们只跟前一神经细胞层的部分神经元有连接。因为它们不是和某些神经元随机连接的，而是与特定范围内的神经元相连接，通常用来保存空间信息。这让它们对于那些拥有大量局部信息，比如图像数据、语音数据（但多数情况下是图像数据），会非常实用。

解卷积神经元恰好相反：它们是通过跟下一神经细胞层的连接来解码空间信息。这两种神经元都有很多副本，它们都是独立训练的；每个副本都有自己的权重，但连接方式却完全相同。可以认为，这些副本是被放在了具备相同结构的不同的神经网络中。这两种神经元本质上都是一般意义上的神经元，但是，它们的使用方式却不同。

池化神经元和插值神经元（Pooling and interpolating cells）经常和卷积神经元结合起来使用。它们不是真正意义上的神经元，只能进行一些简单的操作。

池化神经元接受到来自其它神经元的输出过后，决定哪些值可以通过，哪些值不能通过。在图像领域，可以理解成是把一个图像缩小了（在查看图片的时候，一般软件都有一个放大、缩小的功能；这里的图像缩小，就相当于软件上的缩小图像；也就是说我们能看到图像的内容更加少了；在这个池化的过程当中，图像的大小也会相应地减少）。这样，你就再也不能看到所有的像素了，池化函数会知道什么像素该保留，什么像素该舍弃。

插值神经元恰好是相反的操作：它们获取一些信息，然后映射出更多的信息。额外的信息都是按照某种方式制造出来的，这就好像在一张小分辨率的图片上面进行放大。插值神经元不仅仅是池化神经元的反向操作，而且，它们也是很常见，因为它们运行非常快，同时，实现起来也很简单。池化神经元和插值神经元之间的关系，就像卷积神经元和解卷积神经元之间的关系。

均值神经元和标准方差神经元（Mean and standard deviation cells）（作为概率神经元它们总是成对地出现）是一类用来描述数据概率分布的神经元。均值就是所有值的平均值，而标准方差描述的是这些数据偏离（两个方向）均值有多远。比如：一个用于图像处理的概率神经元可以包含一些信息，比如：在某个特定的像素里面有多少红色。举个例来说，均值可能是0.5，同时标准方差是0.2。当要从这些概率神经元取样的时候，你可以把这些值输入到一个高斯随机数生成器，这样就会生成一些分布在0.4和0.6之间的值；值离0.5越远，对应生成的概率也就越小。它们一般和前一神经元层或者下一神经元层是全连接，而且，它们没有偏差（bias）。

循环神经元（Recurrent cells ）不仅仅在神经细胞层之间有连接，而且在时间轴上也有相应的连接。每一个神经元内部都会保存它先前的值。它们跟一般的神经元一样更新，但是，具有额外的权重：与当前神经元之前值之间的权重，还有大多数情况下，与同一神经细胞层各个神经元之间的权重。当前值和存储的先前值之间权重的工作机制，与非永久性存储器（比如RAM）的工作机制很相似，继承了两个性质：

第一，维持一个特定的状态；
第二：如果不对其持续进行更新（输入），这个状态就会消失。

由于先前的值是通过激活函数得到的，而在每一次的更新时，都会把这个值和其它权重一起输入到激活函数，因此，信息会不断地流失。实际上，信息的保存率非常的低，以至于仅仅四次或者五次迭代更新过后，几乎之前所有的信息都会流失掉。

长短期记忆神经元（Long short term memory cells）用于克服循环神经元中信息快速流失的问题。

LSTM是一个逻辑回路，其设计受到了计算机内存单元设计的启发。与只存储两个状态的循环神经元相比，LSTM可以存储四个状态：输出值的当前和先前值，记忆神经元状态的当前值和先前值。它们都有三个门：输入门，输出门，遗忘门，同时，它们也还有常规的输入。

这些门它们都有各自的权重，也就是说，与这种类型的神经元细胞连接需要设置四个权重（而不是一个）。这些门的工作机制与流门（flow gates）很相似，而不是栅栏门（fence gates）：它们可以让所有的信息都通过，或者只是通过部分，也可以什么都不让通过，或者通过某个区间的信息。

这种运行机制的实现是通过把输入信息和一个在0到1之间的系数相乘，这个系数存储在当前门中。这样，输入门决定输入的信息有多少可以被叠加到当前门值。输出门决定有多少输出信息是可以传递到后面的神经网络中。遗忘门并不是和输出神经元的先前值相连接，而是，和前一记忆神经元相连接。它决定了保留多少记忆神经元最新的状态信息。因为没有和输出相连接，以及没有激活函数在这个循环中，因此只会有更少的信息流失。

门控循环神经元（Gated recurrent units (cells)）是LSTM的变体。它们同样使用门来抑制信息的流失，但是只用两个门：更新门和重置门。这使得构建它们付出的代价没有那么高，而且运行速度更加快了，因为它们在所有的地方使用了更少的连接。

从本质上来说LSTM和GRU有两个不同的地方：

第一：GRU神经元没有被输出门保护的隐神经元；
第二：GRU把输出门和遗忘门整合在了一起，形成了更新门。核心的思想就是如果你想要一些新的信息，那么你就可以遗忘掉一些陈旧的信息（反过来也可以）。

神经细胞层(Layers)

形成一个神经网络，最简单的连接神经元方式是——把所有的神经元与其它所有的神经元相连接。这就好像Hopfield神经网络和玻尔兹曼机（Boltzmann machines）的连接方式。当然，这也就意味着连接数量会随着神经元个数的增加呈指数级地增加，但是，对应的函数表达力也会越来越强。这就是所谓的全连接（completely (or fully) connected）。

经历了一段时间的发展，发现把神经网络分解成不同的神经细胞层会非常有效。神经细胞层的定义是一群彼此之间互不连接的神经元，它们仅跟其它神经细胞层有连接。这一概念在受限玻尔兹曼机（Restricted Boltzmann Machines）中有所体现。现在，使用神经网络就意味着使用神经细胞层，并且是任意数量的神经细胞层。其中一个比较令人困惑的概念是全连接（fully connected or completely connected），也就是某一层的每个神经元跟另一层的所有神经元都有连接，但真正的全连接神经网络相当罕见。

卷积连接层（Convolutionally connected layers）相对于全连接层要有更多的限制：在卷积连接层中的每一个神经元只与相邻的神经元层连接。图像和声音蕴含了大量的信息，如果一对一地输入到神经网络（比如，一个神经元对应一个像素）。卷积连接的形成，受益于保留空间信息更为重要的观察。实践证明这是一个非常好的猜测，因为现在大多数基于人工神经网络的图像和语音应用都使用了这种连接方式。然而，这种连接方式所需的代价远远低于全连接层的形式。从本质上来讲，卷积连接方式起到重要性过滤的作用，决定哪些紧紧联系在一起的信息包是重要的；卷积连接对于数据降维非常有用。

当然了，还有另外一种选择，就是随机连接神经元（randomly connected neurons）。这种形式的连接主要有两种变体：

第一，允许部分神经元进行全连接。
第二，神经元层之间只有部分连接。

随机连接方式有助于线性地降低人工神经网络的性能；当全连接层遇到性能问题的时候，在大规模人工神经网络中，使用随机连接方式非常有益。拥有更多神经元且更加稀疏的神经元层在某些情况下运行效果更好，特别是很多的信息需要被存储起来，但是，需要交换的信息并不多（这与卷积连接层的运行机制很相似，但是，它们是随机的）。非常稀疏的连接网络（1%或2%）也有被使用，比如ELMs, ESNs 和LSMs。这特别适用于脉冲网络（spiking networks），因为一个神经元拥有更多的连接，它对应的权重具有的能量也就更少，这也就意味着将会有更少的扩展和重复模式。

时间滞后连接（Time delayed connections）是指相连的神经元（通常是在同一个神经元层，甚至于一个神经元自己跟自己连接），它们不从前面的神经元层获取信息，而是从神经元层先前的状态获取信息。这使得暂时（时间上或者序列上）联系在一起的信息可以被存储起来。这些形式的连接经常被手工重新进行设置，从而可以清除神经网络的状态。和常规连接的主要区别是，这种连接会持续不断地改变，即便这个神经网络当前没有处于训练状态。

下图展示了以上所介绍的神经网络及其连接方式。当我卡在哪种神经元与哪个神经细胞层该连到一起的时候，就会拿这张图出来作为参考（尤其是在处理和分析LSTM与GRU神经元时）：

显而易见，整理一份完整的清单是不切实际的，因为新的架构正被源源不断地发明出来。所以，接下来这份清单的目的，只想带你一窥人工智能领域的基础设施。对于每一个画成节点图的架构，我都会写一个非常非常简短的描述。你会发现这些描述还是很有用的，毕竟，总还是有一些你并不是那么熟悉的架构。

以下内容将详细介绍25个神经网络模型，如果你想阅读关于它们的原始论文，请在微信中回复“神经网络”，即可获得打包的PDF文件。

值得一提的是，虽说大多数的简写都已被普遍接受，但总会出现一些冲突。RNNs有时表示递归神经网络（recursive neural networks），但大多时候，它们指的是循环神经网络（recurrent neural networks）。这还没完，它们在许多地方还会泛指各种循环架构，这包括在LSTMs、GRU甚至是双向变体。AEs也经常会面临同样的问题，VAEs、DAEs及其相似结构有时都被简称为AEs。很多缩写后面的“N”也常常会有所变化，因为同一个架构你既可称之为卷积神经网络（convolutional neural network），也可简称为卷积网络（convolutional network），这样就出现了CNN和CN两种形式。

前馈神经网络（FFNN）

前馈神经感知网络与感知机（FF or FFNN：Feed forward neural networks and P：perceptrons）非常简单，信息从前往后流动（分别对应输入和输出）。

一般在描述神经网络的时候，都是从它的层说起，即相互平行的输入层、隐含层或者输出层神经结构。单独的神经细胞层内部，神经元之间互不相连；而一般相邻的两个神经细胞层则是全连接（一层的每个神经元和另一层的每一个神经元相连）。一个最简单却最具有实用性的神经网络由两个输入神经元和一个输出神经元构成，也就是一个逻辑门模型。给神经网络一对数据集（分别是“输入数据集”和“我们期望的输出数据集”），一般通过反向传播算法来训练前馈神经网络（FFNNs）。

这就是所谓的监督式学习。与此相反的是无监督学习：我们只给输入，然后让神经网络去寻找数据当中的规律。反向传播的误差往往是神经网络当前输出和给定输出之间差值的某种变体（比如MSE或者仅仅是差值的线性变化）。如果神经网络具有足够的隐层神经元，那么理论上它总是能够建立输入数据和输出数据之间的关系。在实践中，FFNN的使用具有很大的局限性，但是，它们通常和其它神经网络一起组合成新的架构。

Rosenblatt, Frank. “The perceptron: a probabilistic model for information storage and organization in the brain.” Psychological review 65.6 (1958): 386.

http://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf

径向基神经网络（RBF）

径向神经网络（RBF：Radial basis function）是一种以径向基核函数作为激活函数的前馈神经网络。没有更多描述了。这不是说没有相关的应用，但大多数以其它函数作为激活函数的FFNNs都没有它们自己的名字。这或许跟它们的发明年代有关系。

Broomhead, David S., and David Lowe. Radial basis functions, multi-variable functional interpolation and adaptive networks. No. RSRE-MEMO-4148. ROYAL SIGNALS AND RADAR ESTABLISHMENT MALVERN (UNITED KINGDOM), 1988.

http://www.dtic.mil/cgi-bin/GetTRDoc?AD=ADA196234

霍普菲尔网络（HN）

霍普菲尔网络（HN：Hopfield network）是一种每一个神经元都跟其它神经元相互连接的网络。

这就像一盘完全搅在一起的意大利面，因为每个神经元都在充当所有角色：训练前的每一个节点都是输入神经元，训练阶段是隐神经元，输出阶段则是输出神经元。

该神经网络的训练，是先把神经元的值设置到期望模式，然后计算相应的权重。在这以后，权重将不会再改变了。一旦网络被训练包含一种或者多种模式，这个神经网络总是会收敛于其中的某一种学习到的模式，因为它只会在某一个状态才会稳定。值得注意的是，它并不一定遵从那个期望的状态（很遗憾，它并不是那个具有魔法的黑盒子）。它之所以会稳定下来，部分要归功于在训练期间整个网络的“能量（Energy）”或“温度（Temperature）”会逐渐地减少。每一个神经元的激活函数阈值都会被设置成这个温度的值，一旦神经元输入的总和超过了这个阈值，那么就会让当前神经元选择状态（通常是-1或1，有时也是0或1）。

可以多个神经元同步，也可以一个神经元一个神经元地对网络进行更新。一旦所有的神经元都已经被更新，并且它们再也没有改变，整个网络就算稳定（退火）了，那你就可以说这个网络已经收敛了。这种类型的网络被称为“联想记忆（associative memory）”，因为它们会收敛到和输入最相似的状态；比如，人类看到桌子的一半就可以想象出另外一半；与之相似，如果输入一半噪音+一半桌子，这个网络就能收敛到整张桌子。

Hopfield, John J. “Neural networks and physical systems with emergent collective computational abilities.” Proceedings of the national academy of sciences 79.8 (1982): 2554-2558.

https://bi.snu.ac.kr/Courses/g-ai09-2/hopfield82.pdf

马尔可夫链（MC）

马尔可夫链（MC：Markov Chain）或离散时间马尔可夫链（DTMC：MC or discrete time Markov Chain）在某种意义上是BMs和HNs的前身。可以这样来理解：从从我当前所处的节点开始，走到任意相邻节点的概率是多少呢？它们没有记忆（所谓的马尔可夫特性）：你所得到的每一个状态都完全依赖于前一个状态。尽管算不上神经网络，但它却跟神经网络类似，并且奠定了BM和HN的理论基础。跟BM、RBM、HN一样，MC并不总被认为是神经网络。此外，它也并不总是全连接的。

Hayes, Brian. “First links in the Markov chain.” American Scientist 101.2 (2013): 252.

http://www.americanscientist.org/libraries/documents/201321152149545-2013-03Hayes.pdf

玻尔兹曼机（BM）

玻尔兹曼机（BM：Boltzmann machines）和霍普菲尔网络很接近，差别只是：一些神经元作为输入神经元，剩余的则是作为隐神经元。

在整个神经网络更新过后，输入神经元成为输出神经元。刚开始神经元的权重都是随机的，通过反向传播（back-propagation）算法进行学习，或是最近常用的对比散度（contrastive divergence）算法（马尔可夫链用于计算两个信息增益之间的梯度）。

相比HN，大多数BM的神经元激活模式都是二元的。BM由MC训练获得，因而是一个随机网络。BM的训练和运行过程，跟HN大同小异：为输入神经元设好钳位值，而后让神经网络自行学习。因为这些神经元可能会得到任意的值，我们反复地在输入和输出神经元之间来回地进行计算。激活函数的激活受全局温度的控制，如果全局温度降低了，那么神经元的能量也会相应地降低。这个能量上的降低导致了它们激活模式的稳定。在正确的温度下，这个网络会抵达一个平衡状态。

Hinton, Geoffrey E., and Terrence J. Sejnowski. “Learning and releaming in Boltzmann machines.” Parallel distributed processing: Explorations in the microstructure of cognition 1 (1986): 282-317.

https://www.researchgate.net/profile/Terrence_Sejnowski/publication/242509302_Learning_and_relearning_in_Boltzmann_machines/links/54a4b00f0cf256bf8bb327cc.pdf

受限玻尔兹曼机（RBM）

受限玻尔兹曼机（RBM：Restricted Boltzmann machines）与BM出奇地相似，因而也同HN相似。

它们的最大区别在于：RBM更具实用价值，因为它们受到了更多的限制。它们不会随意在所有神经元间建立连接，而只在不同神经元群之间建立连接，因此任何输入神经元都不会同其他输入神经元相连，任何隐神经元也不会同其他隐神经元相连。

RBM的训练方式就像稍微修改过的FFNN：前向通过数据之后再将这些数据反向传回（回到第一层），而非前向通过数据然后反向传播误差。之后，再使用前向和反向传播进行训练。

Smolensky, Paul. Information processing in dynamical systems: Foundations of harmony theory. No. CU-CS-321-86. COLORADO UNIV AT BOULDER DEPT OF COMPUTER SCIENCE, 1986.

http://www.dtic.mil/cgi-bin/GetTRDoc?Location=U2&doc=GetTRDoc.pdf&AD=ADA620727

自编码机（AE）

自编码机（AE：Autoencoders）和FFNN有些相近，因为它更像是FFNN的另一种用法，而非本质上完全不同的另一种架构。

自编码机的基本思想是自动对信息进行编码（像压缩一样，而非加密），它也因此而得名。整个网络的形状酷似一个沙漏计时器，中间的隐含层较小，两边的输入层、输出层较大。自编码机总是对称的，以中间层（一层还是两层取决于神经网络层数的奇偶）为轴。最小的层（一层或者多层）总是在中间，在这里信息压缩程度最大（整个网络的关隘口）。在中间层之前为编码部分，中间层之后为解码部分，中间层则是编码部分。

自编码机可用反向传播算法进行训练，给定输入，将误差设为输入和输出之差。自编码机的权重也是对称的，因此编码部分权重与解码部分权重完全一样。

Bourlard, Hervé, and Yves Kamp. “Auto-association by multilayer perceptrons and singular value decomposition.” Biological cybernetics 59.4-5 (1988): 291-294.

https://pdfs.semanticscholar.org/f582/1548720901c89b3b7481f7500d7cd64e99bd.pdf

稀疏自编码机（SAE）

稀疏自编码机（SAE：Sparse autoencoders）某种程度上同自编码机相反。稀疏自编码机不是用更小的空间表征大量信息，而是把原本的信息编码到更大的空间内。因此，中间层不是收敛，而是扩张，然后再还原到输入大小。它可以用于提取数据集内的小特征。

如果用训练自编码机的方式来训练稀疏自编码机，几乎所有的情况，都是得到毫无用处的恒等网络（输入=输出，没有任何形式的变换或分解）。为避免这种情况，需要在反馈输入中加上稀疏驱动数据。稀疏驱动的形式可以是阈值过滤，这样就只有特定的误差才会反向传播用于训练，而其它的误差则被忽略为0，不会用于反向传播。这很像脉冲神经网络（并不是所有的神经元一直都会输出）。

Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra, and Yann LeCun. “Efficient learning of sparse representations with an energy-based model.” Proceedings of NIPS. 2007.

https://papers.nips.cc/paper/3112-efficient-learning-of-sparse-representations-with-an-energy-based-model.pdf

变分自编码机（VAE）

变分自编码机（VAE：Variational autoencoders）和AE有着相同的架构，却被教会了不同的事情：输入样本的一个近似概率分布，这让它跟BM、RBM更相近。

不过，VAE却依赖于贝叶斯理论来处理概率推断和独立（probabilistic inference and independence），以及重新参数化（re-parametrisation）来进行不同的表征。推断和独立非常直观，但却依赖于复杂的数学理论。基本原理是：把影响纳入考虑。如果在一个地方发生了一件事情，另外一件事情在其它地方发生了，它们不一定就是关联在一起的。如果它们不相关，那么误差传播应该考虑这个因素。这是一个有用的方法，因为神经网络是一个非常大的图表，如果你能在某些节点排除一些来自于其它节点的影响，随着网络深度地增加，这将会非常有用。

Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes.” arXiv preprint arXiv:1312.6114 (2013).

https://arxiv.org/pdf/1312.6114v10.pdf

去噪自编码机（DAE）

去噪自编码机（DAE：Denoising autoencoders）是一种自编码机，它的训练过程，不仅要输入数据，还有再加上噪音数据（就好像让图像变得更加模糊一样）。

但在计算误差的时候跟自动编码机一样，降噪自动编码机的输出也是和原始的输入数据进行对比。这种形式的训练旨在鼓励降噪自编码机不要去学习细节，而是一些更加宏观的特征，因为细微特征受到噪音的影响，学习细微特征得到的模型最终表现出来的性能总是很差。

Vincent, Pascal, et al. “Extracting and composing robust features with denoising autoencoders.” Proceedings of the 25th international conference on Machine learning. ACM, 2008.

http://machinelearning.org/archive/icml2008/papers/592.pdf

深度信念网络（DBN）

深度信念网络（DBN：Deep belief networks）之所以取这个名字，是由于它本身几乎是由多个受限玻尔兹曼机或者变分自编码机堆砌而成。

实践表明一层一层地对这种类型的神经网络进行训练非常有效，这样每一个自编码机或者受限玻尔兹曼机只需要学习如何编码前一神经元层的输出。这种训练技术也被称为贪婪训练，这里贪婪的意思是通过不断地获取局部最优解，最终得到一个相当不错解（但可能不是全局最优的）。可以通过对比散度算法或者反向传播算法进行训练，它会慢慢学着以一种概率模型来表征数据，就好像常规的自编码机或者受限玻尔兹曼机。一旦经过非监督式学习方式，训练或者收敛到了一个稳定的状态，那么这个模型就可以用来产生新的数据。如果以对比散度算法进行训练，那么它甚至可以用于区分现有的数据，因为那些神经元已经被引导来获取数据的不同特定。

Bengio, Yoshua, et al. “Greedy layer-wise training of deep networks.” Advances in neural information processing systems 19 (2007): 153.

https://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf

卷积神经网络（CNN）

卷积神经网络（CNN：Convolutional neural networks）或深度卷积神经网络（DCNN：deep convolutional neural networks）跟其它类型的神经网络大有不同。它们主要用于处理图像数据，但可用于其它形式数据的处理，如语音数据。对于卷积神经网络来说，一个典型的应用就是给它输入一个图像，而后它会给出一个分类结果。也就是说，如果你给它一张猫的图像，它就输出“猫”；如果你给一张狗的图像，它就输出“狗”。

卷积神经网络是从一个数据扫描层开始，这种形式的处理并没有尝试在一开始就解析整个训练数据。比如：对于一个大小为200X200像素的图像，你不会想构建一个40000个节点的神经元层。而是，构建一个20X20像素的输入扫描层，然后，把原始图像第一部分的20X20像素图像（通常是从图像的左上方开始）输入到这个扫描层。当这部分图像（可能是用于进行卷积神经网络的训练）处理完，你会接着处理下一部分的20X20像素图像：逐渐（通常情况下是移动一个像素，但是，移动的步长是可以设置的）移动扫描层，来处理原始数据。

注意，你不是一次性移动扫描层20个像素（或其它任何扫描层大小的尺度），也不是把原始图像切分成20X20像素的图像块，而是用扫描层在原始图像上滑过。这个输入数据（20X20像素的图像块）紧接着被输入到卷积层，而非常规的神经细胞层——卷积层的节点不是全连接。每一个输入节点只会和最近的那个神经元节点连接（至于多近要取决于具体的实现，但通常不会超过几个）。

这些卷积层会随着深度的增加而逐渐变小：大多数情况下，会按照输入层数量的某个因子缩小（比如：20个神经元的卷积层，后面是10个神经元的卷积层，再后面就是5个神经元的卷积层）。2的n次方（32, 16, 8, 4, 2, 1）也是一个非常常用的因子，因为它们在定义上可以简洁且完整地除尽。除了卷积层，池化层（pooling layers）也非常重要。

池化是一种过滤掉细节的方式：一种常用的池化方式是最大池化，比如用2X2的像素，然后取四个像素中值最大的那个传递。为了让卷积神经网络处理语音数据，需要把语音数据切分，一段一段输入。在实际应用中，通常会在卷积神经网络后面加一个前馈神经网络，以进一步处理数据，从而对数据进行更高水平的非线性抽象。

LeCun, Yann, et al. “Gradient-based learning applied to document recognition.” Proceedings of the IEEE 86.11 (1998): 2278-2324.

http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf

解卷积网络（DN）

解卷积网络（DN：Deconvolutional networks），又称为逆图形网络（IGNs：inverse graphics networks），是逆向的卷积神经网络。

想象一下，给一个神经网络输入一个“猫”的词，就可以生成一个像猫一样的图像，通过比对它和真实的猫的图片来进行训练。跟常规CNN一样，DN也可以结合FFNN使用，但没必要为这个新的缩写重新做图解释。它们可被称为深度解卷积网络，但把FFNN放到DNN前面和后面是不同的，那是两种架构（也就需要两个名字），对于是否需要两个不同的名字你们可能会有争论。需要注意的是，绝大多数应用都不会把文本数据直接输入到神经网络，而是用二元输入向量。比如<0,1>代表猫，<1,0>代表狗，<1,1>代表猫和狗。

CNN的池化层往往也是被对应的逆向操作替换了，主要是插值和外推（基于一个基本的假设：如果一个池化层使用了最大池化，你可以在逆操作的时候生成一些相对于最大值更小的数据）。

Zeiler, Matthew D., et al. “Deconvolutional networks.” Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010.

http://www.matthewzeiler.com/pubs/cvpr2010/cvpr2010.pdf

深度卷积逆向图网络（DCIGN）

深度卷积逆向图网络（DCIGN：Deep convolutional inverse graphics networks），这个名字具有误导性，因为它们实际上是VAE，但分别用CNN、DNN来作编码和解码的部分。

这些网络尝试在编码过程中对“特征“进行概率建模，这样一来，你只要用猫和狗的独照，就能让它们生成一张猫和狗的合照。同理，你可以输入一张猫的照片，如果猫旁边有一只恼人的邻家狗，你可以让它们把狗去掉。很多演示表明，这种类型的网络能学会基于图像的复杂变换，比如灯光强弱的变化、3D物体的旋转。一般也是用反向传播算法来训练此类网络。

Kulkarni, Tejas D., et al. “Deep convolutional inverse graphics network.” Advances in Neural Information Processing Systems. 2015.

https://arxiv.org/pdf/1503.03167v4.pdf

生成式对抗网络（GAN）

生成式对抗网络（GAN：Generative adversarial networks）是一类不同的网络，它们有一对“双胞胎”：两个网络协同工作。

GAN可由任意两种网络组成（但通常是FF和CNN），其中一个用于生成内容，另一个则用于鉴别生成的内容。

鉴别网络（discriminating network）同时接收训练数据和生成网络（generative network）生成的数据。鉴别网络的准确率，被用作生成网络误差的一部分。这就形成了一种竞争：鉴别网络越来越擅长于区分真实的数据和生成数据，而生成网络也越来越善于生成难以预测的数据。这种方式非常有效，部分是因为：即便相当复杂的类噪音模式最终都是可预测的，但跟输入数据有着极为相似特征的生成数据，则很难区分。

训练GAN极具挑战性，因为你不仅要训练两个神经网络（其中的任何一个都会出现它自己的问题），同时还要平衡两者的运行机制。如果预测或生成相比对方表现得过好，这个GAN就不会收敛，因为它会内部发散。

Goodfellow, Ian, et al. “Generative adversarial nets.” Advances in Neural Information Processing Systems. 2014.

https://arxiv.org/pdf/1406.2661v1.pdf

循环神经网络（RNN）

循环神经网络（RNN：Recurrent neural networks）是具有时间联结的前馈神经网络：它们有了状态，通道与通道之间有了时间上的联系。神经元的输入信息，不仅包括前一神经细胞层的输出，还包括它自身在先前通道的状态。

这就意味着：你的输入顺序将会影响神经网络的训练结果：相比先输入“曲奇饼”再输入“牛奶”，先输入“牛奶”再输入“曲奇饼”后，或许会产生不同的结果。RNN存在一大问题：梯度消失（或梯度爆炸，这取决于所用的激活函数），信息会随时间迅速消失，正如FFNN会随着深度的增加而失去信息一样。

直觉上，这不算什么大问题，因为这些都只是权重，而非神经元的状态，但随时间变化的权重正是来自过去信息的存储；如果权重是0或1000000，那之前的状态就不再有信息价值。

原则上，RNN可以在很多领域使用，因为大部分数据在形式上不存在时间线的变化，（不像语音或视频），它们能以某种序列的形式呈现出来。一张图片或一段文字可以一个像素或者一个文字地进行输入，因此，与时间相关的权重描述了该序列前一步发生了什么，而不是多少秒之前发生了什么。一般来说，循环神经网络是推测或补全信息很好的选择，比如自动补全。

Elman, Jeffrey L. “Finding structure in time.” Cognitive science 14.2 (1990): 179-211.

https://crl.ucsd.edu/~elman/Papers/fsit.pdf

长短期记忆（LSTM）

长短期记忆（LSTM：Long / short term memory）网络试图通过引入门结构与明确定义的记忆单元来解决梯度消失/爆炸的问题。

这更多的是受电路图设计的启发，而非生物学上某种和记忆相关机制。每个神经元都有一个记忆单元和三个门：输入门、输出门、遗忘门。这三个门的功能就是通过禁止或允许信息流动来保护信息。

输入门决定了有多少前一神经细胞层的信息可留在当前记忆单元，输出层在另一端决定下一神经细胞层能从当前神经元获取多少信息。遗忘门乍看很奇怪，但有时候遗忘部分信息是很有用的：比如说它在学习一本书，并开始学一个新的章节，那遗忘前面章节的部分角色就很有必要了。

实践证明，LSTM可用来学习复杂的序列，比如像莎士比亚一样写作，或创作全新的音乐。值得注意的是，每一个门都对前一神经元的记忆单元赋有一个权重，因此会需要更多的计算资源。

Hochreiter, Sepp, and Jürgen Schmidhuber. “Long short-term memory.” Neural computation 9.8 (1997): 1735-1780.

http://deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf

门循环单元（GRU）

门循环单元（GRU : Gated recurrent units）是LSTM的一种轻量级变体。它们少了一个门，同时连接方式也稍有不同：它们采用了一个更新门（update gate），而非LSTM所用的输入门、输出门、遗忘门。

更新门决定了保留多少上一个状态的信息，还决定了收取多少来自前一神经细胞层的信息。重置门（reset gate）跟LSTM遗忘门的功能很相似，但它存在的位置却稍有不同。它们总是输出完整的状态，没有输出门。多数情况下，它们跟LSTM类似，但最大的不同是：GRU速度更快、运行更容易（但函数表达力稍弱）。

在实践中，这里的优势和劣势会相互抵消：当你你需要更大的网络来获取函数表达力时，这样反过来，性能优势就被抵消了。在不需要额外的函数表达力时，GRU的综合性能要好于LSTM。

Chung, Junyoung, et al. “Empirical evaluation of gated recurrent neural networks on sequence modeling.” arXiv preprint arXiv:1412.3555 (2014).

https://arxiv.org/pdf/1412.3555v1.pdf

神经图灵机（NTM）

神经图灵机（NTM: Neural Turing machines）可以理解为对LSTM的抽象，它试图把神经网络去黑箱化（以窥探其内部发生的细节）。

NTM不是把记忆单元设计在神经元内，而是分离出来。NTM试图结合常规数字信息存储的高效性、永久性与神经网络的效率及函数表达能力。它的想法是设计一个可作内容寻址的记忆库，并让神经网络对其进行读写操作。NTM名字中的“图灵（Turing）”是表明，它是图灵完备（Turing complete）的，即具备基于它所读取的内容来读取、写入、修改状态的能力，也就是能表达一个通用图灵机所能表达的一切。

Graves, Alex, Greg Wayne, and Ivo Danihelka. “Neural turing machines.” arXiv preprint arXiv:1410.5401 (2014).

https://arxiv.org/pdf/1410.5401v2.pdf

BiRNN、BiLSTM、BiGRU

双向循环神经网络（BiRNN：Bidirectional recurrent neural networks）、双向长短期记忆网络（BiLSTM：bidirectional long / short term memory networks ）和双向门控循环单元（BiGRU：bidirectional gated recurrent units）在图表中并未呈现出来，因为它们看起来与其对应的单向神经网络结构一样。

所不同的是，这些网络不仅与过去的状态有连接，而且与未来的状态也有连接。比如，通过一个一个地输入字母，训练单向的LSTM预测“鱼（fish）”（在时间轴上的循环连接记住了过去的状态值）。在BiLSTM的反馈通路输入序列中的下一个字母，这使得它可以了解未来的信息是什么。这种形式的训练使得该网络可以填充信息之间的空白，而不是预测信息。因此，它在处理图像时不是扩展图像的边界，而是填补一张图片中的缺失。

Schuster, Mike, and Kuldip K. Paliwal. “Bidirectional recurrent neural networks.” IEEE Transactions on Signal Processing 45.11 (1997): 2673-2681.

http://www.di.ufpe.br/~fnj/RNA/bibliografia/BRNN.pdf

深度残差网络（DRN）

深度残差网络（DRN: Deep residual networks）是非常深的FFNN网络，它有一种特殊的连接，可以把信息从某一神经细胞层传至后面几层（通常是2到5层）。

该网络的目的不是要找输入数据与输出数据之间的映射，而是致力于构建输入数据与输出数据+输入数据之间的映射函数。本质上，它在结果中增加一个恒等函数，并跟前面的输入一起作为后一层的新输入。结果表明，当层数超过150后，这一网络将非常擅于学习模式，这比常规的2到5层要多得多。然而，有证据表明这些网络本质上只是没有时间结构的RNN，它们总是与没有门结构的LSTM相提并论。

He, Kaiming, et al. “Deep residual learning for image recognition.” arXiv preprint arXiv:1512.03385 (2015).

https://arxiv.org/pdf/1512.03385v1.pdf

回声状态网络（ESN）

回声状态网络（ESN：Echo state networks）是另一种不同类型的（循环）网络。

它的不同之处在于：神经元之间的连接是随机的（没有整齐划一的神经细胞层），其训练过程也有所不同。不同于输入数据后反向传播误差，ESN先输入数据、前馈、而后更新神经元状态，最后来观察结果。它的输入层和输出层在这里扮演的角色不太常规，输入层用来主导网络，输出层作为激活模式的观测器随时间展开。在训练过程中，只有观测和隐藏单元之间连接会被改变。

Jaeger, Herbert, and Harald Haas. “Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication.” science 304.5667 (2004): 78-80.

https://pdfs.semanticscholar.org/8922/17bb82c11e6e2263178ed20ac23db6279c7a.pdf

极限学习机（ELM）

极限学习机（ELM：Extreme learning machines）本质上是拥有随机连接的FFNN。

它们与LSM、ESN极为相似，除了循环特征和脉冲性质，它们还不使用反向传播。相反，它们先给权重设定随机值，然后根据最小二乘法拟合来一次性训练权重（在所有函数中误差最小）。这使ELM的函数拟合能力较弱，但其运行速度比反向传播快多了。

Cambria, Erik, et al. “Extreme learning machines [trends & controversies].” IEEE Intelligent Systems 28.6 (2013): 30-59.

http://www.ntu.edu.sg/home/egbhuang/pdf/ieee-is-elm.pdf

液态机（LSM）

液态机（LSM：Liquid state machines）换汤不换药，跟ESN同样相近。

区别在于，LSM是一种脉冲神经网络（spiking neural networks），用阈值激活函数（threshold functions）取代了sigmoid激活函数，每个神经元同时也是具有累加性质的记忆单元。因此，当神经元状态更新时，其值不是相邻神经元的累加值，而是它自身状态值的累加。一旦累加到阈值，它就释放能量至其它神经元。这就形成了一种类似于脉冲的模式：神经元不会进行任何操作，直至到达阈值的那一刻。

Maass, Wolfgang, Thomas Natschläger, and Henry Markram. “Real-time computing without stable states: A new framework for neural computation based on perturbations.” Neural computation 14.11 (2002): 2531-2560.

https://web.archive.org/web/20120222154641/http://ramsesii.upf.es/seminar/Maass_et_al_2002.pdf

支持向量机（SVM）

支持向量机（SVM：Support vector machines）能为分类问题找出最优方案。

传统意义上，它们只能处理线性可分的数据；比如找出哪张图片是加菲猫、哪张是史努比，此外就无法做其它输出了。

训练过程中，SVM可以理解为：先在平面图表上标绘所有数据（加菲猫、史努比），然后找出到那条能够最好区分这两类数据点的线。这条线能把数据分为两部分，线的这边全是史努比，线的那边全是加菲猫。而后移动并优化该直线，令两边数据点到直线的距离最大化。分类新的数据，则将该数据点画在这个图表上，然后察看这个数据点在分隔线的哪一边（史努比一侧，还是加菲猫一侧）。

通过使用核方法，SVM便可用来分类n维空间的数据。这就引出了在3维空间中标绘数据点，从而让SVM可以区分史努比、加菲猫与西蒙，甚至在更高的维度对更多卡通人物进行分类。SVM并不总被视为神经网络。

Cortes, Corinna, and Vladimir Vapnik. “Support-vector networks.” Machine learning 20.3 (1995): 273-297.

http://image.diku.dk/imagecanon/material/cortes_vapnik95.pdf

Kohonen 网络

最后，我们来介绍一下Kohonen网络（KN，也称之为自组织（特征）映射（SOM/SOFM：self organising (feature) map））。

KN利用竞争学习来对数据进行分类，不需要监督。先给神经网络一个输入，而后它会评估哪个神经元最匹配该输入。然后这个神经元会继续调整以更好地匹配输入数据，同时带动相邻的神经元。相邻神经元移动的距离，取决于它们与最佳匹配单元之间的距离。KN有时也不被认为是神经网络。

Kohonen, Teuvo. “Self-organized formation of topologically correct feature maps.” Biological cybernetics 43.1 (1982): 59-69.

http://cioslab.vcu.edu/alg/Visualize/kohonen-82.pdf

原文链接：

http://www.asimovinstitute.org/neural-network-zoo/

http://www.asimovinstitute.org/neural-network-zoo-prequel-cells-layers/

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name