Ton10

Pytorch入门之RNN

看了花书上的RNN和莫凡python关于RNN的实战演练，现在来总结一下：

主要分5部分：

1、LSTM实现MNIST数据集分类

2、RNN实现三角函数的回归问题

3、LSTM实现三角函数的回归问题

4、深度循环神经网络

5、RNN实现语言模型

6、LSTM实现语言模型

一、RNN基本结构

在4部分的实战之前，首先需要准备RNN基础知识：

RNN，循环神经网络，是用于处理和离散时间序列有关的神经网络，相较于CNN，RNN加入了时间信息、还有记忆信息的特点。

RNN通过一种称之为隐藏状态来记忆当前时间步之前的信息，然后将它和当前时间步的输入一起结合输出下一个隐藏状态。

对于多层感知机的实现，我们起初都是用一个FC层去联合输入，然后通过非线性函数，得到一个分数，即：

RNN是怎样的呢？其实就是多了一个输入罢了：

这里的t是当前的时间步，t-1前一个时间点。Ht是当前时间步的隐藏变量。

可见RNN引入了一个存储了上个时间步的输出的隐藏状态变量Ht-1，以及一个新的weight权重参数。

RNN网络的参数：

note：

1、每个时间步都是共用一套weight的。

2、这里d是当前时间步输入Xt的长度（神经元个数）；h是全连接层的神经元个数；q是输出层的神经元个数；n是batch的大小；T是时间步的总长。

3、weight、bias都来自于全连接层的参数。

4、在pytorch实现的RNN中，Ht的size是：(batch, T, h)；Xt的size是：(batch, T, d); 输出的size：(batch, q)

下面是3个时间步的网络inference过程，由于在当前时间点会得到上个时间段综合来的信息，而上个时间段综合来的信息又和当前输入一起得到当前时间的信息，因此是个循环的过程，这个循环的结构，可以称之为细胞（为了和LSTM统一起来），也就是下图中的每一个小矩形框，每个细胞都会有一个输出，就是复制的那部分。整个RNN网络就是由T个细胞连接而成。

图1

二、RNN存在的主要问题：

反向传播时候的梯度消失或者梯度爆炸。下面我用数学分析和举例来论证。

数学分析：

时间总步数T的损失函数：

整个网络图如下：

图2

接下来我们基于计算图来推导反向梯度传播

下面是我手画的计算图：

总结就是：

随着时间序列的加深，最初的序列容易出现梯度爆炸或梯度消失现象，使用优化算法（如SGD）之后，网络就停止了学习。接下来来用一个实际例子来说明RNN这个缺陷：

假设我们需要用RNN做一个分类问题，给一段时间序列，让他去判别输出是什么物品。

时间序列：

小刚今天买了一个篮球，花了100元，然后我抱着.......(此处省略1000字)，最后和小明一起回家了。

要求判别小刚买了什么？分类器最初肯定是乱答的，可能说是薯片。

RNN是怎么去判别呢？首先整段文字的很前面就出现了答案“篮球”，然后这个篮球信息将会随着前向传播一直传，传到最后的输出层。薯片和篮球误差很大，接着就要开始反向传播了，我们根据上面每经过一个细胞，Ht-1都需要乘以weight参数，因此Whh小于1的时候，当传到很前面的时候，误差几乎为0，且梯度消失，使得浅层的参数不更新，就无法将正确答案传到输出层，预测出正确的结果。

三、LSTM基本结构

为了克服这个缺陷，LSTM就登场了。

LSTM引入了3个门：即输入门、遗忘门、输出门，以及1个记忆细胞和1个候选记忆细胞。

如下图所示，多了3个门1个候选记忆细胞，就有8组weight和4组bias ，这一个矩形结构称为一个细胞,每个细胞都会有一个输出

第五个就是记忆细胞：

四、LSTM进行MNIST数据集分类

多对一模型

数据集导入->批量化包装->LSTM网络实现->训练->测试

4.1、前面就不说了，直接进入LSTM网络是如何编写的

class Rnnnet(nn.Module):
    def __init__(self):
        super().__init__()
        self.rnn = nn.LSTM(
            input_size=28,  # 每一步的单个样本输入大小
            hidden_size=64,  # 每个细胞中隐藏层神经元个数
            num_layers=1,  # 每个细胞中FC的层数
            # 数据格式True：(batch, time_step, imput_size) False:(time_step, batch, input_size)
            batch_first=True
        )
        self.fc = nn.Linear(64, 10)  # 用于分类，所以需要一个FC层，注意FC层的输入必须是个二维张量

    def forward(self, x):
        # out（当前时间步隐藏变量）的格式：(batch, time_step, hidden_size)
        # h_s（当前时间步隐藏状态）、h_c（记忆细胞）的格式：（n_layer, batch, hidden_size）为最后一个时间步的输出
        # LSTM中前向传播的输入：第一个参数是三维的输入，第二个输入是上个时间步隐藏状态和记忆细胞的初始值
        out, (h_s, h_c) = self.rnn(x.view(-1, 28, 28), None)
        y = self.fc(out[:, -1, :])  # 取最后一个时间步的输出
        return y


rnn = Rnnnet()
for name, param in rnn.named_parameters():
    print(name)
    print(param.size())

第一个参数是输入和遗忘门、输入门、输出门、记忆细胞之间的FC层的weight，FC层上面设置是64个，4个门就是256个，输入是每张图片的一行，是一个由0和1组成的向量，也就是图片的宽度28，因此W：（28， 256），由于nn.Linear的显示是转置过的，因此是（256，28）。bias就是256维的向量。步长T是图片的高28。多对一模型，因此只需要对最后一个时间步的输出做预测。

第二个参数是上个时间步的隐藏变量和遗忘门、输入门、输出门、记忆细胞的FC层的weight，而隐藏变量的大小和FC输出层的大小是一致的（不明白的见上面的细胞结构和公式），故weight：（256，64），bias就是256维的向量。

记忆细胞的运输和当前时间步的隐藏变量计算不需要额外的参数。

输出是10分类，所以是（10， 64），bias是10维的向量。

LSTM的forward输入的第二个参数是个元组，就是上个时间步的隐藏状态和记忆细胞的值，写成None，就是将他们归零

这是底层的实现：可以看出是归零操作，且required_grad=False

Q1：LSTM的forward需要输入之前的记忆细胞吗？

在这个MNIST分类任务中是不需要的，因为相邻2个小批量之间不需要有记忆联系，因此forward的第二个参数可以不写，默认为None。但若是相邻2个小批量有记忆联系（比如接下去要讲的cosx回归问题和语言模型中的相邻采样问题），那么forward的第二个参数是要去写一个元组的(h_s,h_s)代表了上个小批量的隐藏状态和记忆细胞。但这里一定得注意的是，必须让这个元组中的2个张量脱离计算图，是为了防止每个iteration串联起来导致梯度计算消耗过大，在每个iteration之间隔断以后，(h_c_hat, h_c)就仅仅只是传递值给下一个iteration而已。

一个iteration表示计算了一个batch的过程，1个epoch里面有多个batch。

Q2：元组(h_s,h_s)的初始化问题

和Q1一样，如果相邻的epoch之间需要有记忆联系（如cosx的回归问题），那么初始化只需要在最开始的时候，令元组为None即可。若相邻的epoch之间不需要有记忆联系（如语言模型中的相邻采样），则只需要在每个epoch开始的时候初始化为None一次就好了。

4.2、训练结果

学习率采用0.01，Adam方法，训练30个epoch，每个epoch都会用测试一下loss

万幸，没有过拟合！

选取最后一个epoch的结果：

分类结果还不错！选取前十张图看看结果：

用LSTM训练分类效果还是不错滴！上面一排数字是label，下面一排数字是prediction。

五、LSTM用于回归问题

多对多模型

回归问题：这里复现莫凡python中用当前时间点sinx的值来预测cosx的值。是一个实时检测的回归问题。

红色为sinx，蓝色为cosx。

因此我们的损失函数的输入就是用经过sinx做输入的LSTM训练网络的预测结果，和标准的cosx曲线的均方误差。目标函数就是让MSE函数降到很小很小。。。

5.1、同第四部分，直接进入网络部分：

class Rnn(nn.Module):
    def __init__(self):
        super().__init__()
        self.rnn = nn.LSTM(
            input_size=INPUT_SIEZE,
            hidden_size=NEURON_NUM,
            num_layers=1,
            batch_first=True  # (batch, time_step, inputsize)
        )
        self.fc = nn.Linear(32, 1)

    def forward(self, x, state):
        # input (1, 10, 1)
        # out (batch, time_step, hidden_size)
        out, state = self.rnn(x, state)
        t= []
        for i in range(TIME_STEP):
            t.append(self.fc(out[:, i, :]))
        return torch.stack(t, dim=1)  # (batch, time_step, 1)


rnn = Rnn()
for name, param in rnn.named_parameters():
    print(name)
    print(param.size())

这一部分和分类的结构是基本雷同的。每个细胞的FC层数是1层，32个神经元，输出层是1个神经元，输入格式是(1, 10, 1)，就是batch是1，时间步是10，每个时间步的输入是1个长度。需要注意的是，我们需要时间步10的预测结果进行显示，所以forward方法中就对这10个时间步用list包起来。

网络参数如下：

第一个weight是输入和4个门的FC层的权重，每个门是32个，4个门就是128个。

第二个weight是上个时间步的隐藏变量和4个门的FC的权重，故（128，32），bias就是128维的向量。

输出是一个值，所以输出层为1。

Q1：LSTM的forward需要输入之前的元组吗？

这元组表示(h_s, h_c)。

在这个cosx回归任务中是需要的，因为相邻2个小批量之间需要有记忆联系，因此forward的第二个参数得是上个小批量的最后时间步的元组。但这里一定得注意的是，必须让这个元组脱离计算图，因为一个小批量的数据完成后，生成的最后时间步的隐藏状态将会用来初始化下一小批量的元组。如果不让元组脱离计算图，那么在第二轮小批量完成inference之后，开始反向传播的时候，计算图会去计算之前那个小批量中的梯度，导致梯度计算开销增大。将元组脱离计算图之后，第二个小批量在backward的时候就不会去计算元组的梯度，因为他的required_grad=Flase，根据链式传播原则，后面的梯度就不会继续传了，说的直白点，就是截断了。

并且输入也要带上这个元组。

Q2：元组的初始化问题

和Q1一样，如果相邻的epoch之间需要有记忆联系，那么初始化只需要在最开始的时候，令元组为None即可。若相邻的epoch之间不需要有记忆联系（如语言模型中的相邻采样），则只需要在每个epoch开始的时候初始化为None一次就好了。

5.2、训练：

5.2.1、相邻批量之间、相邻epoch之间不用记忆联系

lr=0.02，Adam方法，训练100个epoch：

可见拟合效果不是很好，整个过程在GPU上跑了496s。

5.2.2、相邻批量之间、相邻epoch间记忆联系，即当前批量接受来自上个批量最后时间步的(h_s, h_c)

可见拟合效果很好，整个过程在GPU上跑了191s。

可见记忆的重要性！！！

六、RNN实现cosx的实时预测：

多对多模型

6.1、直接进入网络结构：

class RNN(nn.Module):
    def __init__(self):
        super(RNN, self).__init__()

        self.rnn = nn.RNN(
            input_size=INPUT_SIZE,  # 每个时间步的每个个数据的大小
            hidden_size=32,  # 每个细胞中神经元个数
            num_layers=1,  # 每个细胞中FC的层数
            # True：数据格式(batch, time_step, input_size) False：数据格式（time_step, batch, input_size）
            batch_first=True,
        )
        self.fc= nn.Linear(32, 1)

    def forward(self, x, h_state):
        # x (batch, time_step, input_size)  输入格式
        # h_state (n_layers, batch, hidden_size)  最后一步的状态
        # r_out (batch, time_step, hidden_size)  保存了每一步的隐藏状态
        r_out, h_state = self.rnn(x, h_state)

        outs = []  # save all predictions
        for time_step in range(r_out.size(1)):  # calculate output for each time step
            outs.append(self.fc(r_out[:, time_step, :]))
        return torch.stack(outs, dim=1), h_state


rnn_layer = RNN()
for name, param in rnn_layer.named_parameters():
    print(name)
    print(param.size())

RNN的输入和LSTM是一样的：每一步输入的大小、隐藏层神经元个个数、隐藏层的层数、是否需要改变格式

输出是不一样的，LSTM中第二个输出是包含2个细胞的元组，而RNN中只有一个隐藏变量，用上个时间步的隐藏状态和当前输入来输出当前时间步的隐藏状态，一份用于复制到r_out中，另一份用于给一个时间步的细胞。因此一个RNN下来，h_state保存的是最后一个时间步的隐藏状态。

RNN中forward函数的输入除了X以外，还需要额外的h_state作为初值，输出返回的时候也需要返回最后一个隐藏状态。

参数列表：

参数也和LSTM不一样，具体的：

第一个参数是输入和当前时间步隐藏状态的FC层的weight，输入层只有1个神经元，故（32， 1），bias自然是32维向量。

第二个参数是上个时间步的隐藏状态的FC层的weight，故（32， 32），bias是32维的向量。

输出因为是个预测值，长度为1。

RNN的forward函数的第二个输入如果是None，就代表这将h_state归零，且required_grad=Flase.它的底层实现和LSTM是一样的，都继承与RNNBased

Q1：RNN的forward需要输入之前的h_state吗？

在这个cosx回归任务中是需要的，因为相邻2个小批量之间需要有记忆联系，因此forward的第二个参数得是上个小批量的最后时间步的隐藏变量。但这里一定得注意的是，必须让这个h_state脱离计算图，因为一个小批量的数据完成后，生成的最后时间步的隐藏状态将会用来初始化下一小批量的h_state。如果不让h_state脱离计算图，那么在第二轮小批量完成inference之后，开始反向传播的时候，计算图会去计算之前那个小批量中的梯度，导致梯度计算开销增大。将h_state脱离计算图之后，第二个小批量在backward的时候就不会去计算h_state的梯度，因为他的required_grad=Flase，根据链式传播原则，后面的梯度就不会继续传了，说的直白点，就是截断了。

Q2：h_state的初始化问题

和Q1一样，如果相邻的epoch之间需要有记忆联系，那么初始化只需要在最开始的时候，令h_state为None即可。若相邻的epoch之间不需要有记忆联系（如语言模型中的相邻采样），则只需要在每个epoch开始的时候初始化为None一次就好了。

6.2、训练

和LSTM一样，lr=0.02，Adam，训练100个epoch

在gpu上跑了近260s，且拟合效果明显好于LSTM。

因此，一些简单的问题，也许用RNN效果也不比LSTM差多少。

七、深度循环神经网络：

下图是个RNN结构的深度网络，无非就是每个细胞中多加了几个层，上面的实验，我们隐藏层都是1。

同理，当LSTM的每个细胞的隐藏层变多以后，也就是成了深度门控循环神经网络。

八、RNN实现语言模型预测

主要内容：用一个语言数据集来训练RNN，让这个网络具有创作歌词的能力。是个多对多模型。

其本质就是个分类问题

导入数据集->建立数据集合索引的映射->采样并打包成batch->预处理->训练->预测->模型评价

8.1、建立字符字典

因为导入的数据集为字符，因此我们需要将其映射成index，即构建一个字符字典，字典的长度为不同字的种类数目，也就是我们分类的总类别数目。

8.2、采样并打包成batch

和之前的采样不同，语言模型的采样必须是一个时间步内连续的字符，比如时间步为5的输入是 “我要去打篮”，其标签为数据集中的下一个字，“要去打篮球”。

采样一共2种方式，一种是随机采样，另一种是相邻采样：

8.2.1、随机采样

在随机采样中，每个样本是原始序列上任意截取的⼀段序列。相邻的两个随机小批量在原始序列上的位置不⼀定相毗邻。因此，我们无法用⼀个小批量最终时间步的隐藏状态来初始化下⼀个小批量的隐藏状态。在训练模型时，每次随机采样前，或者说下一个小批量更新之前，都需要重新初始化隐藏状态。用None来初始化，也可以起到截断h_state的requires_grad的作用。

比如我现在设置batch=10，输入的字符字典是[0,1,2...99]，时间步长T=5，随机采样的效果：

可见采样的数据X,Y：（batch，time_step）、（batch，time_step）

8.2.2:相邻采样

令相邻的两个随机小批量在原始序列上的位置相毗邻。这时候，我们就可以⽤⼀个小批量最终时间步的隐藏状态来初始化下⼀个小批量的隐藏状态，从而使下⼀个⼩批量的输出也取决于当前小批量的输入，并如此循环下去。

比如设置batchsize=6，time_step=5，输入字符字典[0,1,2,....99]，相邻采样结果：

这对实现循环神经网络造成了两⽅⾯影响：一方面，在训练模型时，我们只需在每⼀个epoch开始时初始化隐藏状态；另⼀⽅面，当多个相邻⼩批量通过传递隐藏状态串联起来时，模型参数的梯度计算将依赖所有串联起来的⼩批量序列。同⼀epoch中，随着迭代次数的增加，梯度的计算开销会越来越⼤。为了使模型参数的梯度计算只依赖⼀次迭代读取的⼩批量序列，我们可以在每次读取小批量前将隐藏状态从计算图中分离出来。

8.3、预处理

这是个分类问题，参考上面的MNIST分类问题，他的输入是个向量，因此这里我们也可以将输入表示成向量，最简单的方式就是转为one-hot形式。即（batch，time_step）--->列表list，列表的长度为time_step的大小，列表的每个元素是一个（batch，dict_num）的张量，dict_num就是字符字典的大小。

这样会有3个问题

Q1：RNN网络的输入为3维的向量，该怎么办呢？其实简单的，用torch.stack进行堆叠即可，最后成（batch，time_step，input_num=dict_num）。

Q2：怎么转为one-hot向量呢？就是用pythorch提供的scatter函数

（不懂scatter的可以参考https://blog.csdn.net/MR_kdcon/article/details/108900039第4.1节）

具体的，就是对于每个时间步的batch个数据用scatter填充为（batch，dict_num）格式的张量。

Q3：一定要转为one-hot形式吗？不一定，2种输入格式均可。

8.4、训练模型

8.4.1、梯度裁剪

RNN中易出现梯度消失和梯度爆炸，为了预防这个，我们采用梯度裁剪

，裁剪后的梯度的L2范数小于 $\theta$

8.4.2、损失函数

由于这个本质是个分类问题，且是多对多模型，所以每个时间步的输出接softmax，crossentropy损失函数。

8.5、预测

预测的时候，我们给定几个字符，如‘我要’，然后输入进我们的网络作为第一时间步和第二时间步的输入，每次吐出一个字符以及当前时间步的h_state，作为下个时间步的输入

预测结果：
给定['分开', '不分开']

这里的perplexity是模型评价指标-困惑度

模型评价指标：困惑度

其中：指数为e。

可见困惑度在持续下降，意味着分类能力会越强，我们的输出歌词会更流畅。

九、LSTM实现语言模型

LSTM的实现方式和RNN几乎没差别，只是网络有差异，LSTM在输出上多了一个记忆细胞的输出。

流程也一模一样：
导入数据集->建立字符和索引的映射->采样并批量化->数据预处理（one-hot）->训练->预测->模型评价

直接预测结果：

感觉LSTM写的更加JAY，hhhhhh

十、实战中的注意点

1、one-hot向量不仅可以用于输出端的标签，也可以用于时输入端的特征。

2、有时候我们需要切断计算图中不相关变量的required_grad，除了为了避免计算图中的梯度计算收到干扰，另一个重要原因是为了节约梯度计算资源。这两点在后续强化学习中也尤为重要，特别是策略网络对于动作的选择、Target网络选择TD目标值等。

你可能感兴趣的:(神经网络,深度学习,人工智能)

关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb