野指针小李

Pytorch学习笔记(3)——从0实现RNN情感分析

本文从0实现了用torch做基于RNN的情感分析。代码已上传到Github，链接为：https://github.com/Balding-Lee/torch-sentiment-analysis-based-on-RNN。但是效果并不是特别好，有可能是数据问题，也有可能是代码问题。如果是代码问题，欢迎指教。

1 任务描述

我的任务目标是采用torch构建一个RNN，用于情感分析。选用的数据集是NLPCC2012情感分析任务，链接为：http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html，使用的是ipad.xml这份数据。采用的词向量为Word2Vec 300维的词向量。

整个模型框架结构如下：

上图是一层RNN的网络结构图，下图是两层RNN的网络结构图。

整体的实验思路如下：

2 数据处理

数据处理的步骤在上面思维导图中已经有了。详细代码见Github中的preprocess.py文件。主要要说明的是词语数目确定，unknown词向量和词嵌入。

2.1 词语数目确定

def get_sentence_length_distribution(cleaned_X):
    """
    获得句子的长度
    :param cleaned_X: list
            [[word11, word12, ...], [word21, word22, ...], ...]
            清洗后的文本数据
    """
    seq_length_frequency = {}

    for sentence in cleaned_X:
        seq_length = int(len(sentence) / 10) * 10  # 以10为间隔

        try:
            seq_length_frequency[seq_length] += 1
        except KeyError:
            seq_length_frequency[seq_length] = 1

    x = []  # 句子长度
    y = []  # 出现次数

    for length in seq_length_frequency.keys():
        x.append(length)
        y.append(seq_length_frequency[length])

    plt.xlabel('sequence length')
    plt.ylabel('The number of occurrences')
    plt.bar(x, y)
    plt.show()

由于文本长度是不固定的（比如曾经微博要求140字以内），如果我们不确定文本长度，就会导致神经网络无法进行训练（比如RNN中，如果不能确定文本长度，就无法确定sequence length）。同样，我们也不能将最大长度的句子作为文本长度。想象一下，假设最大长度为1000，但是其余句子的长度都在10。如果我们以1000作为文本长度，那么对于其余的句子，剩下的990维都要以0填充。这样不仅增大了内存的消耗，减慢了训练的速度，而且几乎整个语料库中有用的信息都集中在前10个向量中，会导致神经网络不一定学得到东西，或者过拟合。于是我们选用以上的代码，统计整个语料库中词语数目的区间，用于确定sequence length。ipad语料库中输出的结果如下：

我们发现，句子词语数主要集中在 $[0, 20]$ 这个区间范围内。但是实验中我选用的是max_seq_length=30，可能这也是效果不好的一个原因。

2.2 未知词词向量给定

由于中文博大精深，网友们又卧龙凤雏，导致每年都有大量的新词出现。使得预训练好的词向量不一定能够包含语料库中的所有词语。所以我们需要解决未知词的词向量问题。

def get_unknown_word_embedding(w2v, word_set):
    """
    获得未知词的embedding
    :param w2v: Object
            词向量
    :param word_set: set
            数据中的所有词
    :return unknown_embedding: ndarray
            句子中所有出现过的词语的词向量的平均数
    """
    all_vectors = np.zeros((len(word_set), 300))
    # unknown_embedding = np.zeros((len(word_set), w2v[0]))

    count = 0
    for word in word_set:
        try:
            all_vectors[count] = w2v[word]
            count += 1
        except KeyError:
            count += 1
            continue

    # 删除all_vectors中的全0向量
    flag = (all_vectors == 0).all(1)  # 计算哪些行全0
    word_vectors = all_vectors[~flag, :]  # 删除全0元素

    unknown_embedding = np.mean(word_vectors, axis=0)

    return unknown_embedding

在我的实验中，我将语料库中所有词语的词向量的平均值拿来当做是unknown vector。

2.3 词嵌入

词嵌入分为以下三点：

不足max_seq_length的句子，空缺的部分以0填充；
超过max_seq_length的句子，之后的部分截断；
unknown word用unknown vector。

def word_embedding(w2v, unknown_embedding, cleaned_X):
    """
    获得词嵌入
    :param w2v: Object
            word2vec向量
    :param unknown_embedding: ndarray
            shape: (300, )
            未知词向量
    :param cleaned_X: list
            [[word11, word12, ...], [word21, word22, ...], ...]
            清洗后的文本数据
    :return X_w2v: ndarray
            shape: (num_seq, max_seq_length, w2v_dim)
            词嵌入后的数据
    """
    max_seq_length = 30  # 句子中的最大词语数
    w2v_dim = 300  # 词向量维度
    num_seq = len(cleaned_X)  # 句子数

    X_w2v = np.zeros((num_seq, max_seq_length, w2v_dim))

    seq_count = 0
    for seq in cleaned_X:
        word_count = 0
        for word in seq:
            try:
                X_w2v[seq_count][word_count] = w2v[word]
            except KeyError:
                X_w2v[seq_count][word_count] = unknown_embedding
            word_count += 1

            # 如果词比max_seq_length多就跳过
            if word_count >= max_seq_length:
                break
        seq_count += 1

    return X_w2v

3 模型训练

3.1 RNN

class RNN(nn.Module):

    def __init__(self, num_hiddens, num_inputs, num_outputs, bidirectional=False,
                 num_layers=1):
        super().__init__()
        self.num_hiddens_rnn = num_hiddens
        self.num_hiddens_linear = (2 * num_hiddens) if bidirectional else num_hiddens
        self.rnn_layer = nn.RNN(input_size=num_inputs, hidden_size=self.num_hiddens_rnn,
                                batch_first=True, bidirectional=bidirectional,
                                num_layers=num_layers)
        self.linear = nn.Linear(in_features=self.num_hiddens_linear, out_features=num_outputs)
        self.softmax = nn.Softmax()
        self.state = None

    def forward(self, input, state):
        """
        前向传播
        :param input: tensor
                shape: (batch_size, max_seq_length, w2v_dim)
                输入数据
        :param state: tensor
                shape: (num_layers, batch_size, num_outputs)
                隐藏层状态
        :return output: tensor
                shape: (batch_size, num_outputs)
                输出结果
        :return state: tensor
                shape: (num_layers, batch_size, num_outputs)
                隐藏层状态
        """
        # rnn_y shape: (batch_size, seq_length, w2v_dim)
        rnn_y, self.state = self.rnn_layer(input, state)
        rnn_last_y = rnn_y[:, -1, :]
        linear_y = self.linear(rnn_last_y.view(-1, rnn_last_y.shape[-1]))
        output = self.softmax(linear_y)

        return output, self.state

在模型定义中，要考虑RNN是否为双向的。由于双向RNN的隐藏层个数是双倍的，所以如果是单向RNN，则FC的输入是RNN隐藏层个数；但是如果是双向RNN，则FC的输入是RNN隐藏层个数的两倍。同时在前向传播的时候，由于RNN在自身循环的过程中，每个步长（step）都会有输出，所以RNN的输出rnn_y的shape为(batch_size, seq_length, w2v_dim)。但是我们输入到FC中，只需要考虑RNN最后一个步长的输出，也就是只需要rnn_y[:, -1, :]。

3.2 k折交叉验证

由于数据量过少（ipad数据集中带有情感倾向的句子仅101条），为了使得训练有效果，这里采用k折交叉验证的方法来进行训练。

def get_k_fold_data(k, i, X, y):
    """
    获得第i折交叉验证所需要的数据
    :param k: int
            交叉验证的折数
    :param i: int
            第i轮交叉验证
    :param X: tensor
            shape: (num_seq, seq_length, w2v_dim)
            输入数据
    :param y: tensor
            shape: (num_seq, )
    :return X_train: tensor
            shape: ((num_seq // k) * (k - 1), seq_length, w2v_dim)
            第i折训练数据
    :return y_train: tensor
            shape: ((num_seq // k) * (k - 1), )
            第i折训练标签
    :return X_valid: tensor
            shape: (num_seq // k, seq_length, w2v_dim)
            第i折验证数据
    :return y_valid: tensor
            shape: (num_seq // k, seq_length, w2v_dim)
            第i折验证标签
    """
    assert k > 1
    fold_size = X.shape[0] // k
    X_train, y_train, X_valid, y_valid = None, None, None, None
    for j in range(k):
        idx = slice(j * fold_size, (j + 1) * fold_size)  # 获得元素切片
        X_part, y_part = X[idx, :], y[idx]
        if j == i:
            # 如果是第i折数据, 则这部分数据为验证集的数据
            X_valid, y_valid = X_part, y_part
        elif X_train is None:
            # 如果不是第i折数据, 且训练集为空, 则这部分数据为训练集第一部分数据
            X_train, y_train = X_part, y_part
        else:
            # 如果不是第i折数据, 且训练集不为空, 则这部分数据拼接到训练集中
            X_train = torch.cat((X_train, X_part), dim=0)
            y_train = torch.cat((y_train, y_part), dim=0)

    return X_train, y_train, X_valid, y_valid

由于这里切片不是随机切片，所以在之后训练的时候不同情况下每一折对应的数据都是相同的。

3.3 获得准确率

def get_accuracy(y_hat, y):
    """
    判断预测准确率
    :param y_hat: tensor
            shape: (batch_size, num_outputs)
            预测数据
    :param y: tensor
            shape: (batch_size, )
            真实数据
    :return: float
            准确率
    """
    return (y_hat.argmax(dim=1) == y).float().mean().item()

这里就是比较两个tensor中相同的数据，再将bool转为float，最后取个均值。

3.4 训练

def train(model, batch_size, X_train, y_train, X_test, y_test, lr, num_epochs,
          weight_decay):
    """
    训练数据
    :param model: Object
            模型的实例化对象
    :param batch_size: int
            每个batch的大小
    :param X_train: tensor
            shape: ((num_seq // k) * (k - 1), seq_length, w2v_dim)
            训练数据
    :param y_train: tensor
            shape: ((num_seq // k) * (k - 1), )
            训练标签
    :param X_test: tensor
            shape: (num_seq // k, seq_length, w2v_dim)
            测试数据
    :param y_test: tensor
            shape: (num_seq // k, )
            测试标签
    :param lr: float
            学习率
    :param num_epochs: int
            迭代次数
    :param weight_decay: float
            权重衰减参数
    :return : float
            该折训练集的平均损失
    :return : float
            该折训练集的平均准确率
    :return : float
            该折测试集的平均损失
    :return : float
            该折测试集的平均准确率
    """
    state = None
    loss = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(params=model.parameters(), lr=lr, weight_decay=weight_decay)

    train_dataset = Data.TensorDataset(X_train, y_train)
    test_dataset = Data.TensorDataset(X_test, y_test)
    train_iter = Data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True,
                                 drop_last=True)
    test_iter = Data.DataLoader(test_dataset, batch_size=batch_size, shuffle=False,
                                drop_last=True)

    train_ls_sum, train_acc_sum, test_ls_sum, test_acc_sum = [], [], [], []
    for epoch in range(num_epochs):
        start = time.time()
        train_ls, test_ls, train_acc, test_acc = 0.0, 0.0, 0.0, 0.0
        train_n = 0

        model.train()
        for X, y in train_iter:
            if state is not None:
                state = state.detach()

            # y_hat: shape (batch_size, num_outputs)
            y_hat, state = model(X, state)
            l = loss(y_hat, y)
            optimizer.zero_grad()
            l.backward()
            optimizer.step()

            train_ls += l.item()
            train_acc += get_accuracy(y_hat, y)
            train_n += 1

        train_ls_sum.append(train_ls / train_n)
        train_acc_sum.append(train_acc / train_n)

        test_n = 0
        model.eval()
        for X, y in test_iter:
            state = state.detach()

            y_hat, state = model(X, state)
            l = loss(y_hat, y)

            test_ls += l.item()
            test_acc += get_accuracy(y_hat, y)
            test_n += 1

        test_ls_sum.append(test_ls / test_n)
        test_acc_sum.append(test_acc / test_n)

        if (epoch + 1) % 20 == 0:
            print('epoch %d, train loss %f, train accuracy %f, test loss %f,'
                  ' test accuracy %f, sec %.2f' % (epoch + 1, train_ls / train_n,
                                                   train_acc / train_n, test_ls / test_n,
                                                   test_acc / test_n, time.time() - start))
    return np.array(train_ls_sum).mean(), np.array(train_acc_sum).mean(), np.array(test_ls_sum).mean(), np.array(test_acc_sum).mean()

训练就很简单，输入模型得到输出，将输出与ground truth计算得到损失，再将损失反向传播并进行优化。计算结果如下（由于计算结果太多，这里就只贴每一折的平均结果）：

一层单向RNN：

fold 0, avg train loss 0.810535, avg train accuracy 0.502727, avg test loss 0.872012, avg test accuracy 0.441250
fold 1, avg train loss 0.822909, avg train accuracy 0.490455, avg test loss 0.804511, avg test accuracy 0.508750
fold 2, avg train loss 0.754017, avg train accuracy 0.558977, avg test loss 0.793262, avg test accuracy 0.520000
fold 3, avg train loss 0.692104, avg train accuracy 0.621364, avg test loss 0.938262, avg test accuracy 0.375000
fold 4, avg train loss 0.723584, avg train accuracy 0.589773, avg test loss 0.688262, avg test accuracy 0.625000
fold 5, avg train loss 0.783596, avg train accuracy 0.529659, avg test loss 0.672012, avg test accuracy 0.641250
fold 6, avg train loss 0.715181, avg train accuracy 0.598182, avg test loss 0.810762, avg test accuracy 0.502500
fold 7, avg train loss 0.879286, avg train accuracy 0.433977, avg test loss 1.188262, avg test accuracy 0.125000
fold 8, avg train loss 0.772638, avg train accuracy 0.540341, avg test loss 0.874512, avg test accuracy 0.438750
fold 9, avg train loss 0.734858, avg train accuracy 0.578295, avg test loss 0.688262, avg test accuracy 0.625000

一层双向RNN：

fold 0, avg train loss 0.822019, avg train accuracy 0.491023, avg test loss 0.884512, avg test accuracy 0.428750
fold 1, avg train loss 0.829646, avg train accuracy 0.483523, avg test loss 0.990762, avg test accuracy 0.322500
fold 2, avg train loss 0.709826, avg train accuracy 0.603182, avg test loss 0.820762, avg test accuracy 0.492500
fold 3, avg train loss 0.712125, avg train accuracy 0.601364, avg test loss 0.939512, avg test accuracy 0.373750
fold 4, avg train loss 0.904861, avg train accuracy 0.408182, avg test loss 0.938262, avg test accuracy 0.375000
fold 5, avg train loss 0.820200, avg train accuracy 0.492614, avg test loss 0.720762, avg test accuracy 0.592500
fold 6, avg train loss 0.888947, avg train accuracy 0.424205, avg test loss 0.878262, avg test accuracy 0.435000
fold 7, avg train loss 0.746789, avg train accuracy 0.566364, avg test loss 0.438262, avg test accuracy 0.875000
fold 8, avg train loss 0.857042, avg train accuracy 0.456023, avg test loss 0.809512, avg test accuracy 0.503750
fold 9, avg train loss 0.735992, avg train accuracy 0.577386, avg test loss 0.688262, avg test accuracy 0.625000

两层单向RNN：

fold 0, avg train loss 0.808604, avg train accuracy 0.504773, avg test loss 0.798262, avg test accuracy 0.515000
fold 1, avg train loss 0.810300, avg train accuracy 0.502841, avg test loss 0.798131, avg test accuracy 0.515000
fold 2, avg train loss 0.723536, avg train accuracy 0.589545, avg test loss 0.815762, avg test accuracy 0.497500
fold 3, avg train loss 0.796740, avg train accuracy 0.516250, avg test loss 0.828262, avg test accuracy 0.485000
fold 4, avg train loss 0.818769, avg train accuracy 0.494205, avg test loss 0.794512, avg test accuracy 0.518750
fold 5, avg train loss 0.859167, avg train accuracy 0.454091, avg test loss 1.077012, avg test accuracy 0.236250
fold 6, avg train loss 0.809155, avg train accuracy 0.504091, avg test loss 0.815762, avg test accuracy 0.497500
fold 7, avg train loss 0.820331, avg train accuracy 0.492841, avg test loss 0.785762, avg test accuracy 0.527500
fold 8, avg train loss 0.796669, avg train accuracy 0.516364, avg test loss 0.784512, avg test accuracy 0.528750
fold 9, avg train loss 0.796672, avg train accuracy 0.516477, avg test loss 0.792012, avg test accuracy 0.521250

两层双向RNN：

fold 0, avg train loss 0.703241, avg train accuracy 0.610114, avg test loss 0.938262, avg test accuracy 0.375000
fold 1, avg train loss 0.847246, avg train accuracy 0.465682, avg test loss 1.147012, avg test accuracy 0.166250
fold 2, avg train loss 0.810004, avg train accuracy 0.503182, avg test loss 0.818262, avg test accuracy 0.495000
fold 3, avg train loss 0.719913, avg train accuracy 0.593295, avg test loss 0.868262, avg test accuracy 0.445000
fold 4, avg train loss 0.787465, avg train accuracy 0.525568, avg test loss 0.827012, avg test accuracy 0.486250
fold 5, avg train loss 0.872139, avg train accuracy 0.440909, avg test loss 1.132012, avg test accuracy 0.181250
fold 6, avg train loss 0.766593, avg train accuracy 0.546364, avg test loss 0.830762, avg test accuracy 0.482500
fold 7, avg train loss 0.811224, avg train accuracy 0.501932, avg test loss 0.798262, avg test accuracy 0.515000
fold 8, avg train loss 0.819079, avg train accuracy 0.494091, avg test loss 0.845763, avg test accuracy 0.467500
fold 9, avg train loss 0.817585, avg train accuracy 0.495568, avg test loss 0.772012, avg test accuracy 0.541250

如何在 PyTorch 分布式训练中使用 TORCH_DISTRIBUTED_DEBUG=INFO 进行调试 weixin_48705841 pytorch 分布式人工智能
如何在PyTorch分布式训练中使用TORCH_DISTRIBUTED_DEBUG=INFO进行调试在使用PyTorch进行分布式训练时，调试分布式训练过程中的问题可能非常棘手。尤其是在多卡、多节点的训练环境中，常常会遇到通信延迟、同步错误等问题。为了帮助调试这些问题，PyTorch提供了一个非常有用的环境变量TORCH_DISTRIBUTED_DEBUG，通过设置它，你可以在控制台输出更多的调试
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
昇腾910-PyTorch 实现 GoogleNet图像分类深度学习图像识别
PyTorch实现GoogleNet用于图像分类本实验主要介绍了如何在昇腾上，使用pytorch对经典的GoogleNet模型在公开的CIFAR10数据集进行分类训练的实战讲解。内容包括GoogleNet模型创新点介绍、GoogleNet网络架构剖析与GoogleNet网络模型代码实战分析等等。本实验的目录结构安排如下所示：GoogleNet网络模型创新点介绍GoogleNet的网络架构剖析Goo
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
AI Agent：深度解析与未来展望码事漫谈 c++人工智能
一、AIAgent的前世：从概念到萌芽（一）早期探索AIAgent的概念可以追溯到20世纪50年代，早期的AI研究主要集中在简单的规则系统上，这些系统的行为是确定性的，输出由输入决定。随着时间的推移，AI逐渐能够处理不确定性，1990年代机器学习的兴起为AIAgent的发展奠定了基础，神经网络技术的突破为深度学习的发展提供了可能。（二）技术突破2017年后，大语言模型（LLM）的出现推动了AIAg
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
【人工智能】Python常用库-Keras：高阶深度学习 API IT古董深度学习人工智能 Python 人工智能 python 深度学习
Keras：高阶深度学习APIKeras是一个高效、用户友好的深度学习框架，作为TensorFlow的高级API，支持快速构建和训练深度学习模型。它以模块化、简单和灵活著称，适合研究和生产环境。Keras的发音为[ˈkerəs]，类似于“凯拉斯”或“克拉斯”。这个名字来源于希腊语κέρας(kéras)，意思是“角”或“角质物”。这个词与深度学习的灵感来源——大脑的神经网络结构有一定联系。Kera
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级 2401_89759264 人工智能前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
深度学习从入门到精通：全面指南 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《深度学习从入门到精通：全面指南》文章目录《深度学习从入门到精通：全面指南》文章关键词文章摘要引言第一部分：深度学习基础入门第1章：深度学习概述1.1深度学习的基本概念1.2深度学习的发展历程1.3深度学习的基本原理神经网络前向传播反向传播第2章：深度学习框架入门2.1TensorFlow入门TensorFlow环境搭建TensorFlow基本数据结构2.2PyTorch入门PyTorch环境搭建
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何在Python中安装GDAL库（gdal）研仔mm python 开发语言
具体安装步骤：1、下载与Python版本相匹配的.whl文件：（如：GDAL-3.4.3-cp38-cp38-win_amd64.whl）cp38代表python3.8版本，win_amd64代表你的电脑是64位的2、安装GDAL：安装到python软件安装目录下的scripts文件夹里：D:\app\Anaconda\envs\pytorch\Scripts（pytorch为我自己创建的虚拟环境
【Python】已解决：ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
安装CUDA Cudnn Pytorch(GPU版本）步骤学乐乐 pytorch 人工智能 python
一.先看自己的电脑NVIDIA支持CUDA版本是多少？1.打开NVIDIA控制面板2.点击帮助---系统信息--组件我的支持CUDA11.6二.再看支持Pytorch的CUDA版本三.打开CUDA官网下载CUDA11.6下载好后，安装选择自定义然后安装位置（先去F盘建个CUDA-manger文件夹然后在里面建个CUDA11.6文件夹再在里面建立CUDA1CUDA2这两个文件夹前两个位置选到CUDA
【深度学习】Pytorch：在 ResNet 中加入注意力机制 T0uken 深度学习 pytorch 人工智能
在这篇教程中，我们将介绍如何在ResNet网络中加入注意力机制模块。我们将通过对标准ResNet50进行改进，向网络中添加两个自定义的注意力模块，并展示如何实现这一过程。为什么要加入注意力机制注意力机制可以帮助神经网络专注于图像中重要的特征区域，从而提高模型的性能。在卷积神经网络中，加入注意力机制能够有效增强特征提取能力，减少冗余信息的干扰，尤其在处理复杂图像时，能够提升网络的表现。在本教程中，我
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
Pytorch 自学笔记（三）：利用自定义文本数据集构建Dataset和DataLoader JimmyTotoro Pytorch 自学笔记 pytorch 笔记人工智能
Pytorch自学笔记（三）1.Dataset与DataLoader1.1torch.utils.data.Dataset1.2torch.utils.data.DataLoaderPytorch自学笔记系列的第三篇。针对Pytorch的Dataset和DataLoader进行简单的介绍，同时，介绍如何使用自定义文本数据集构建Dataset和DataLoader，以实现数据集的随机采样与batch
Docker部署nnunetv2简洁教程 Tiandaren 模型部署 docker 容器运维 pytorch 人工智能深度学习 python
前言：感觉一些教程没必要说那么多，直接贴出重点的配置文件。如果有不懂的，可以把此文档丢给gpt，配合自己的环境一同服用。首先，在nnunet路径下创建一个Dockerfile。由于我已经完成了nnUNet的训练，所以不需要将相关数据全部上传到容器中，而是只保留源码。#使用适当的基础镜像（如pytorch官方镜像）FROMpytorch/pytorch:latest#更新apt-get并安装必要的工
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
Pytorch: torch.diag()创建对角线张量湫兮之风 pytorch pytorch 人工智能 python
torch.diag()torch.diag是PyTorch中的一个函数，用于从给定的矩阵中提取对角线元素，或者构造一个以给定对角线元素为值的对角矩阵。这个函数对于矩阵分解和转换等操作非常重要。如果输入是一个向量（1D张量），torch.diag会返回一个以该向量为对角线元素的2D方阵。如果输入是一个矩阵（2D张量），则返回一个包含输入矩阵对角线元素的1D张量。torch.diag还允许你指定对角
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分