Gong Chuanyang

[机器学习-李宏毅] 反馈神经网络笔记（RNN、LSTM）

Recurrent Neural Network

Recurrent Neural Network 是反馈神经网络，简称为 RNN 。与最基础的前向传播神经网络不同的是，RNN 是一个有记忆的神经网络，他把上一次的输出存了起来作为下一次的输入参数的一部分影响下一次的输出结果。为什么要这么做呢？让我们来看一个例子。

RNN 的背景

假设有这样一个应用场景，我希望输入一段话给我的语音助手，例如 “I would like to arrive Chengdu on November 2nd” （意思是我将会在 11 月 2 日抵达成都），我希望我的语音助手能够识别出 Chengdu 是我的目的地，November 2nd 是日期，这样可以帮我自动设一个日程表或者是帮我查交通方式等等。

1-of-N Encoding

我们知道神经网络的输入一般都是数值，没法处理这种字符，那么一个常用的方法就是 1-of-N Encoding 。在进行编码前，我们会有一个词汇表（lexicon）。下面举一个例子便于理解，假设我们的词汇表是： $\rm lexicon = \{apple,bag,cat,dog\}$ ，当我们的词是 $\rm apple$ 时，编码的结果就是 $[1, 0, 0, 0]$ ，同理若为 $\rm cat$ 时，编码的结果就是 $[0, 0, 1, 0]$ 。下图也是一个例子。

独热编码还有一个改版叫做 Beyond 1-of-N Encoding ，就是在 1-of-N Encoding 的基础上多一个 $\rm other$ 表示一个词未出现在词汇表中，例如词汇表还是上面的（没有 $\rm elephant$ ），若一个词是 $\rm banana$ 则会编码成 $[0, 0, 0, 0, 1]$ 。改版之前是会有词无法进行编码的，因为没有出现在词汇表中，改版后所有词都能编码，但是如果词汇表设置的不好，则会有很多次都被归到 $\rm other$ ，变的没有差别，这样训练出的网络可能会有问题。

Word Hashing

还有一种编码方式就是 Word hashing ，他是把三个字母的组合作为一个维度，所以一共有 $26 \times 26 \times 26$ 种组合，然后去看单词中的某一种组合是否出现，比如 $\rm apple$ 这个单词，就可以拆成 $\rm app、ppl、ple$ ，那么这三种对应的维度上就是 $1$ ，其他都是 $0$ 。（有个问题是，要是有一个组合在单词中重复出现的话，不知道这个维度上是只记一个 $1$ ，还是记他的计数值，课上举的例子没有这个问题）

解决了怎么把单词输入到神经网络中后，回到我们一开始那么问题，首先可以想到的是，我们可以把输出变成单词类型的类别，例如：输入 $\rm I$ 输出是 $\rm other$ ，输入是 $\rm Chengdu$ 输出是 $\rm destination$ ，输入是 $\rm November$ 输出是 $\rm time$ ，输入是 $\rm 2nd$ 输出是 $\rm time$ ，输出的类别一共有三种。似乎用一个普通的神经网络就可以解决这个分类问题了，根本不需要什么有记忆的 RNN 。但是如果问题变成我输入的一句话变成了 “I would like to leave Chengdu on November 2nd” 呢，输入这句话表示我将在十一月二号离开成都，那么我希望我的语音助手进行的操作肯定和原来是不一样的，比如提醒我走之前买纪念品。那么对于原来的无记忆的神经网络来说，是无法鉴别这个 $\rm Chengdu$ 到底是 $\rm destination$ （目的地）还是 $\rm departure$ （出发地）的。但是其实只要考虑了前面那个词就能够分别到底是目的地还是出发地了。所以我们需要一个有记忆的神经网络来做这件事。

RNN 的结构及原理

Elman Network

RNN 其实就是把上一次的输出结果，例如计算 $\rm leave$ 时的各个层的输出，参与下一次的输入的计算，即作为 $\rm Chengdu$ 的网络的输入参数的一部分。一种 RNN 的实现是把每一层的上一次的输出作为该层的下一次的输入的一部分。他的结构如下图所示，把计算 $\rm leave$ 时第 $i$ 层的输出存到 $a^i$ ，然后在计算 $\rm Chengdu$ 时把他作为输出输入到第 $i$ 层：

这样做以后，从原来的一个单词是一个独立的输入以后变成了一句话是一个独立的输入，这句话里的单词之间会相互影响，单词与单词之间不再独立，所以单词的输入顺序也不能改变，不同的顺序输入到网络会得到不同的结果，存储单元一开始需要初始化，比如说设为 $0$ 。下图是 RNN 的运行原理，这个网络中的权重参数是一样的，只是不同时刻的网络的输入不同。

Jordan Network & Bidirectional RNN

上面那个网络是每一层的输出会作为下一次该层的输入，还有一种是只把上一次最后的输出 $y$ 作为下一层所有层的输入，这种结构叫做 Jordan Network ，其运行原理如下图所示：

还有一种是按照句子的正向词序输入训练一个 RNN ，再按照反向输入训练另一个 RNN ，然后根据两个 RNN 的输出得到一个最终的输入，其运行原理如下图，这种方法被称为 Bidirection RNN（双向反馈神经网络） 可以想象到，与前面几种不同的是，前面的输入一个按顺序每输入一个词就能得到一个最终分类结果，前面词的分类与后面的词无关，这个网络必须在两个网络中都得到结果后才能得到最终结果，每个词的最终结果与句子前面的词和后面的词都是有关的。

Long short-term Memory (LSTM)

上面这种记忆方式是每次记忆单元里的值都会被改变，每次记忆单元里的值都会参与下一次输入参数的运算，并且记忆单元的值是不会被清零的。这种反馈神经网络也被称为 Simple RNN 。接下来介绍一个更为复杂，也更为常用的反馈神经网络—— LSTM 。让我们首先来看下他的记忆机制的工作原理，如下图所示：

与 Simple RNN 不同的是，LSTM 的记忆单元不一定会每次都被改变，也不一定每次都会输出所存的值，还有可以被清零。他的工作原理是，当有一个输出被输入进来，首先会经过一个 Input Gate ，这个 Input Gate 决定了是否接受这个输入， Input Gate 又是由其他输入来决定的，接受的话，那么 Inpute Gate 的输出就是输入，否则就是 0 ，接下来到了 Memory Cell ，Memory Cell 原来是有存一个值的，这个值会先输入到 Forget Gate ，看是否要清零，如果要的话，Forgate Gate 输出就是 0 ，不然就还是原来存的值，Forgate Gate 的输出和 Inpute Gate 的输出加起来就得到新的 Memory Cell 存的值然后作为 Memory Cell 的输出，Output Gate 的工作原理和 Input Gate 的工作原理相同，决定了 Memory Cell 的输出能否被输出，可以的话最终的输出就是 Memory Cell 的输出，否则就是 0 。下面这个图就是具体的计算方法：

输入到整个单元的还是一个向量 $x$ ，然后经过一个线性运算 $z=x^T w + b$ 得到一个标量输出 $z$ ，其中 $w$ 是权重向量， $b$ 是偏置。图中每个 Gate 的输入 $z、z_i、z_o、z_f$ 的不同在于线性运算的 $w$ 和 $b$ 不同， $x$ 都是一样的。

那么第一步就是将 $z$ 经过一个激活函数 $g (z)$ ，将 $z_i$ 也经过一个激活函数 $f(z_i)$ ，将他两的结果相乘得到 Input Gate 的输出 $g(z)f(z_i)$ 。 $g (z)$ 其实就是原来全连接神经网络中某一个神经元的输出，而 $f(z_i)$ 则可以决定是否接受这个输入。

第二步就是记忆单元原来存储的值 $c$ 输入到 Forgate Gate 中，与 Forget Gate 的输入 $z_f$ 经过一个激活函数 $f(z_f)$ 的结果相乘得到 Forget gate 的输出 $cf(z_f)$ ，这个 $f(z_f)$ 决定了原来存储的 $c$ 能不能更新到下一次的存储 $c^{'}$ 中，Forget Gate 的输出 $cf(z_f)$ 和 Input Gate 的输出 $g(z)f(z_i)$ 相加更新新的 Memory Cell 存储的值 $c'=g(z)f(z_i)+cf(z_j)$ 。、

第三步是 $c^{'}$ 再经过一个激活函数 $h (c^{'})$ 与Output Gate 的输入经过一个激活函数 $f(z_o)$ 的结果相乘，得到了最后的输出结果 $a=h(z')f(z_o)$ 。

上面的激活函数 $f ()$ 通常使用 Sigmoid function ，对应打开或者关闭。容易引起歧义的是 Forgate Gate 那里当 $f ()$ 输出 0 的时候才是忘掉原来记的东西。

Network Structure

上面所介绍的其实只是某一个神经元的工作原理，由 LSTM 构成的神经网络的结构其实是和全连接的神经网络是一样的，只是将原来的网络中的神经元换成了上面这种神经元。原来的输入构成的向量 $x$ 作为上面的神经元的输入 $x$ ，同一层的神经元的输出 $a$ 组成一个向量输入到下一层去。就像下图这样，同一个颜色的线代表是同一组权重，那么原来两个输出，两个神经元的权重参数的个数是 $\times 2$ ，就变成了现在的 $2\times 2 \times 4$ ，翻了四倍，然后还需要再存储一个记忆单元向量，记为 $c$ ：

将上面这张图用向量表示得到下面这张图， $x^t$ 是前面一层在第 $t$ 个时刻时的输出， $c^{t-1}$ 是在 $t - 1$ 时刻更新后的该层的 Memory Cell 存储的值构成的向量。那么 $z^f、z^i、z、z^o$ 分别是以 $x^t$ 为输入的四种不同权重参数的线性运算的结果。（注意：下图有点歧义，或者说是有问题的，就是每个 $z$ 的输出输入到不同神经元的值是不一样的，例如输入到最左边的 $z$ 应该和输入到第二个神经元的 $z$ 不是一样的，其他的 $z^i$ 等也同理，从上面那张图输入到不同神经元的同一个门的颜色不同可以更好的理解这一点，而把 $z$ 看出是向量后，输入到不同神经元里的值其实就是不同维度上的值）

具体来看某一层神经元的向量运算过程。 $x^t$ 经过四组不同权重矩阵的线性运算得到向量 $z^f、z^i、z、z^o$ ，接下来的计算如下图左半部分的图所示，该运算过程和上面说过的运算过程是一样的。

同一个神经元不同时刻的运算示意图如下，计算出的 $c^t$ 会参与下一个时刻的运算得到 $y^{t+1}$ 和 $c^{t+1}$ 。

上面这个还不是 LSTM 的最终形态，真正的 LSTM 不仅会考虑上一时刻的 $c^{t-1}$ 还会考虑上一时刻的输出 $y^{t-1}$ ，记为 $h^{t-1}$ 作为输入。更有不只把 $c^{t-1}$ 参与中间的运算，还作为输入参与到运算，被称为 peephole 。示意图如下所示：

多层的 LSTM 就会长成下面这样：

How to train RNN

让我们跳过 LSTM 回到最初的 Simple RNN ，我们似乎还有一个问题没有解决，那就是怎么训练这么一个有记忆的神经网络。在前面的训练神经网络的方法中，我们采用的是 Gradient Descent (梯度下降) 的方法，梯度下降中需要用到的每个权重的梯度值需要使用 Backpropagation (反向传播) 来计算。那么在训练 RNN 的时候，我们同样采用的是梯度下降的方法，而不同的是在进行反向传播计算梯度值的时候需要考虑输入的顺序，使用的是 Backpropagation through time (BPTT) 方法。

具体的做法其实李宏毅老师在课上没有细讲，因为这个已经被集成在现有的工具中了，不需要自己动手实现，下面说的是我自己觉得应该更新的方法。在传统的神经网络中，输入与输入之间是独立的，例如最开始那个分类单词是 $\rm other、destination、time、departure$ 的例子中，每个词不会影响其他词的输出结果。而在 RNN 中单词与单词不是独立的，但是句子与句子是独立的。所以在考虑一句话的时候，首先会初始化记忆单元里的数值，比如初始化为 0 ，然后再进行前向传播，计算出最后的输出结果，结果的输出会是一个向量，与标签向量进行交叉熵就可以计算出在这个单词上分类的损失值。然后再进行反向传播，计算每个权重的梯度值，这个反向传播的过程和原来的神经网络的反向传播的过程是一样的，只是每层多了些输入和权重。那么这就为每个权重参数计算出了一个梯度值，同时记忆单元存储的内容也会被前向传播中各个层的输出重写。这个时候再输入第二个词，然后进行相同的过程，直至这句话所有的词都算完，那么就可以算出很多个梯度值和损失值，他们的和或者均值就可以作为这句话的梯度和损失值（具体是哪个由你的损失函数怎么定的决定，损失函数用的是均值就都是均值，否则就是和，我觉得一般采用均值）。然后输入第二句话的时候，需要重新初始化记忆单元，然后重复上面的内容。最后就能得到每句话的每个单词的梯度值和损失值，均值就是总的损失和梯度，然后就可以进行权重参数的更新。

Terrible Problem

通过以上的内容，你就可以取训练你的 RNN 了，但是不幸的是，你可能训练不出一个收敛的结果，你想要的训练过程可能是下图蓝线那样，但大多数时候确是绿线那样，并且这并不是有 bug 才这样，而是模型本身的特性造成的。

那么损失值曲线会这样跳来跳去呢？我们来从损失值与权重参数的曲面图形来观察。从图上可以看出，RNN 的训练有两种问题，第一种是他的损失值曲面要么非常平整，要么非常陡峭。平整会造成梯度消失的问题，也就是我不知道现在损失值下降的很慢是因为到了最小值点还是只是现在所在的面非常平，而陡峭造成的问题则是我可能会从一个较低面更新到一个更高的面，所以造成了损失值曲线的乱跳，更糟糕的是，如果刚好落在了交界处去计算梯度，那么计算出的梯度会非常大，再乘上一个学习率可能就飞出去了，这样根本没办法训练。那么曾经有人用的一个技巧就是设一个最大值，梯度大于这个值的时候就只更新最大值那么大来防止梯度飞的太远。

下面举一个最简单的 RNN 来理解梯度更新中的矛盾。下图是一个只有一个隐藏层且只有一个线性单元的 RNN ，且记忆单元的权重是 $w$ ，其他都是 $1$ 。那么有一个序列，第一个是 $1$ ，其他都是 $0$ ，长 $1000$ 个单元，假设我们的第 $1000$ 个输出的标签是 $1$ 。那么最后一个的输出就是 $y^{1000}=w^{999}$ 。如果当 $w = 1$ 时，输出是 $1$ ，显然 $w = 1$ 是我们的训练目标。如果某个时刻 $w = 1.01$ ，那么输出就会是 $y^{1000} \approx 20000$ ，这个比 $1$ 大很多，也就是说会期望给 $w$ 一个很大的更新，因为梯度会很大，但由于稍微变一点结果就会变很多，为了让最后变得不多，我们就得让学习率很小。但是在 $w = 0.99$ 和 $w = 0.01$ 时，输出 $y^{1000} \approx 0$ 都近似于 $0$ ，那么如果 $w$ 现在是在 $w = 0.01$ 的话，算出来的梯度是非常小的，但我们又希望他能更新多一点，就得把学习率设的大一点。这样学习率在不同情况下期望设置的方向的不同就造成了矛盾，如果设的小了，那么当 $w$ 很小时，则基本不会更新，也就无法收敛，造成梯度消失的情况，如果学习率设的比较大，那么当 $w = 1.01$ 时，梯度更新的也很大，学习率也很大，更新的就会非常多，结果就是损失值飞出去了。

Helpful Techniques

一个有用的技巧就是上面所说的设一个梯度更新的最大值，防止飞出去。这个技巧的存在也是有段时间只有使用这个技巧的那一个人能够训练出一个能 work 的 RNN ，其他人都训练不出来。另一个解决方法就是前面所说的 LSTM 。LSTM 最初是没有 Forgate Gate 的，他能够处理梯度消失的问题，但是处理不了梯度突变的问题。那么他是怎么解决梯度消失的问题呢？因为在 LSTM 中，记忆单元的存储是原来存的值加输入，是一个相加的形式，不存在上面的 $w$ ，或者说 $w$ 是恒等于 $1$ 的。所以前面的输入对存储单元存储内容的影响永远不会消失（原来当 $w$ 小于 $1$ 的时候，前面的输入会不停被衰减而消失），所以能够处理梯度消失的问题。但是有了 Forgate Gate 的 LSTM 不就会有遗忘原来的存储的内容的可能吗，那这样在这之前的输入不就都不会影响后面的存储单元中的数值了吗。一种理解是，因此 Forgate Gate 的偏执会设的非常大，而使很难让这个遗忘的功能被启动。

LSTM 的一种变形是 GRU ，他少了一个门，把 Input Gate 和 Forgate Gate 的功能合起来了，他的思想就是新的不去，旧的不来。当输入门控制让新的值输入进来后，就把原来存的的忘了，当不给进时，就把原来存的作为输出参与到下一个门的运算。

还有一个有意思的结果是，在 Simple RNN 上，通常门的激活函数是使用 Sigmoid 函数的，如果使用 ReLU ，效果往往不好，不过这是在参数随机初始化的条件下的，如果初始化使用的是单位矩阵的话，使用 ReLU 激活函数能够得到更好的表现，甚至超过了 LSTM。

Application of RNN

后面课程的部分讲的是 RNN 的应用，其中一些应用使用了 RNN 的变形形式，同时还有的结合了其他模型的思想，比如 GAN 、structed SVM 等，由于我看的那个 up 主的视频顺序有问题，其中所含的很多内容都是没听过，缺了很多知识，所以听起来很费劲，只领略到了一点点思想，况且每个应用的实现思想都很简略，所以后面部分的笔记不再给出。

建议如果也因课程顺序而难以接受课程内容的同学对照着 2017 版的课程顺序和 2020 版的顺序来进行学习。李宏毅老师的课程好像是每年在原来的基础上修改部分视频内容，添加一部分内容。很多网上所给的 2020 版课程都是往年课程视频的重新排序，所以回到最初的顺序观看是比较容易接受的。并且，北邮的陈光老师提供的视频较为可靠（B站昵称是：爱可可-爱生活）。

基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
2023-08-03 yM_aad9
神经是一种社会资源！只要能和别的神经互动就行了！社会性的驯化离不开神经网络人与人之间的合作只能依赖感性理性心理生理事理物理跟蠢人谈情说爱免不了虚情假意它们最爱空头支票如果兑现不了那一定是别人欺骗了它！而不是自欺欺人的本能自欺欺人最容易受人欺骗最要命的是还持有了资料官有什么可怕？可怕的是贼呀！官可能互相约束贼只能互相伤害如果没有互相？那只有相护了！傻子坏人坏事见得少不知道什么叫坏处孬子好人好事见得少
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
人工神经网络的拓扑结构,神经网络的神经元结构快乐的小蓝猫神经网络深度学习人工智能 rnn
bp神经网络BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经
Deepoc大模型重构核工业智能基座：混合增强架构与安全增强决策技术 Deepoch 人工智能创业创新科技自动化学习
面向复杂系统的高可靠AI赋能体系构建Deepoc大模型通过多维度技术突破，显著提升核工业知识处理与决策可靠性。经核能行业验证，其生成内容可验证性提升68%，关键参数失真率99.999%）。动态可信度评估系统：基于贝叶斯神经网络实时量化模型不确定性，为关键决策提供置信度评分（如堆芯功率控制置信区间±0.05%）。二、核心突破：物理增强型智能算法创新机理与数据双驱动建模神经微分方程求解器：将中子输运方
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
【CNN】卷积神经网络池化- part2
1.池化降采样，减少参数数量，避免过拟合，提高鲁棒性2.池化操作池化操作(也称为下采样，Subsampling)类似卷积操作，使用的也是一个很小的矩阵，叫做池化核，但是池化核本身没有参数，只是通过对输入特征矩阵本身进行运算，它的大小通常是2x2、3x3、4x4等，其中2x2使用频率最高。然后将池化核在卷积得到的输出特征图中进行池化操作，需要注意的是，池化的过程中也有Padding方式以及步长的概念
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

[机器学习-李宏毅] 反馈神经网络笔记 （RNN、LSTM）