处女座_三月

从零开始完整实现-循环神经网络RNN

一简介

使用 pytorch 搭建循环神经网络RNN，循环神经网络（Recurrent Neural Network，RNN）是一类用于 处理序列数据的神经网络架构。与传统神经网络不同，RNN 具有内部循环结构，可以在处理序列数据时保持状态信息。这使得 RNN 在自然语言处理、时间序列预测、语音识别等许多领域中非常有用。

参考链接：循环神经网络(Recurrent Neural Network)

1.1 导包

# 导包
%matplotlib inline

import math
import torch
from torch import nn
from torch.nn import functional as F
import dltools

1.2 加载数据

1.2.1 加载模块

# Defined in file: ./chapter_recurrent-neural-networks/language-models-and-dataset.md
def load_data_time_machine(batch_size, num_steps, use_random_iter=False,
                           max_tokens=10000):
    """Return the iterator and the vocabulary of the time machine dataset."""
    data_iter = SeqDataLoader(batch_size, num_steps, use_random_iter,
                              max_tokens)
    return data_iter, data_iter.vocab

# 加载 time, machine 数据
batch_size, num_steps = 32, 35
train_iter, vocab = dltools.load_data_time_machine(batch_size=batch_size, num_steps=num_steps)

load_data_time_machine 主要是用于加载时序数据。

该函数返回两个值：

data_iter：这是一个序列数据迭代器，用于生成训练数据的批次。这个迭代器通常用于训练循环神经网络，将数据分成多个批次，每个批次包含多个序列，每个序列有固定的时间步数，是时序数据，每批次为两个列表，一个为X, 一个目标值y。
data_iter_vocab：这是数据集的词汇表（vocabulary），包含数据集中所有可能的标记（例如，单词或字符）及其对应的索引。词汇表是很重要的，因为它将文本数据转换为模型可以理解的数字表示，正常应该是 28个字符和数值对应的字典。

1.2.2 数据加载方式，是否使用随机数据

# Defined in file
class SeqDataLoader:
    """An iterator to load sequence data."""
    def __init__(self, batch_size, num_steps, use_random_iter, max_tokens):
        if use_random_iter:
            self.data_iter_fn = dltools.seq_data_iter_random
        else:
            self.data_iter_fn = dltools.seq_data_iter_sequential
        self.corpus, self.vocab = dltools.load_corpus_time_machine(max_tokens)
        self.batch_size, self.num_steps = batch_size, num_steps

    def __iter__(self):
        return self.data_iter_fn(self.corpus, self.batch_size, self.num_steps)

def seq_data_iter_random(corpus, batch_size, num_steps):
    corpus = corpus[random.randint(0, num_steps - 1):]
    num_subseqs = (len(corpus) - 1) // num_steps
    initial_indices = list(range(0, num_subseqs * num_steps, num_steps))
    random.shuffle(initial_indices)

    def data(pos):
        return corpus[pos:pos + num_steps]

    num_batches = num_subseqs // batch_size
    for i in range(0, batch_size * num_batches, batch_size):
        initial_indices_per_batch = initial_indices[i:i + batch_size]
        X = [data(j) for j in initial_indices_per_batch]
        Y = [data(j + 1) for j in initial_indices_per_batch]
        yield dltools.tensor(X), dltools.tensor(Y)


def seq_data_iter_sequential(corpus, batch_size, num_steps):
    """Generate a minibatch of subsequences using sequential partitioning."""
    # Start with a random offset to partition a sequence
    offset = random.randint(0, num_steps)
    num_tokens = ((len(corpus) - offset - 1) // batch_size) * batch_size
    Xs = dltools.tensor(corpus[offset:offset + num_tokens])
    Ys = dltools.tensor(corpus[offset + 1:offset + 1 + num_tokens])
    Xs, Ys = Xs.reshape(batch_size, -1), Ys.reshape(batch_size, -1)
    num_batches = Xs.shape[1] // num_steps
    for i in range(0, num_steps * num_batches, num_steps):
        X = Xs[:, i:i + num_steps]
        Y = Ys[:, i:i + num_steps]
        yield X, Y

这段代码定义了一个名为 SeDataLoader 的Python类，它是用于加载序列数据的迭代器。以下是该类的主要属性和功能解释：

batch_size：表示每个批次（batch）中的序列数量。
num_steps：表示每个序列的时间步数或长度。
use_random_iter：一个布尔值，表示是否使用随机迭代器。如果设置为 True，则会随机选择数据作为训练样本；如果设置为 False，则会按照固定的顺序选择数据作为训练样本。
max_tokens：用于限制数据集中的最大标记数量。通常，用于限制词汇表的大小。

seq_data_iter_sequential 的函数，用于生成序列数据的小批量（minibatch），该函数用于顺序分割数据集。

以下是该函数的主要步骤和功能解释：

corpus: 输入的序列数据，通常是一个包含整数标记的列表或数组。
batch_size: 每个小批量中的序列数量。
num_steps: 每个序列的时间步数或长度。

函数开始时，它会随机选择一个偏移量 offset，该偏移量用于从数据集中分割序列。这个偏移量的目的是为了增加数据的随机性，以更好地训练模型。

1.2.3 实际加载模块

def load_corpus_time_machine(max_tokens=-1):
    """Return token indices and the vocabulary of the time machine dataset."""
    lines = read_time_machine()
    tokens = tokenize(lines, 'char')
    vocab = Vocab(tokens)
    # Since each text line in the time machine dataset is not necessarily a
    # sentence or a paragraph, flatten all the text lines into a single list
    corpus = [vocab[token] for line in tokens for token in line]
    if max_tokens > 0:
        corpus = corpus[:max_tokens]
    return corpus, vocab

def read_time_machine():
    with open('./article.txt', 'r') as f:
        lines = f.readlines()
    return [re.sub('[^A-Za-z]+', ' ', line).strip().lower() for line in lines]

1.2.4 查看加载完成效果

for x, y in train_iter:
    print('x: ', x)
    print('y: ', y)
    break

# 输入数据，打算输入 one_hot编码
vocab.token_to_idx

# 输入数据，我们是打算输入 one_hot 编码的数据
# pytorch 提供了快速进行one_hot 编码的工具
from torch.nn import functional as F
F.one_hot(torch.tensor([0, 2]), num_classes=len(vocab))

二初始化模型

2.1 初始化参数

# 初始化模型参数
def get_params(vocab_size, num_hiddens, device):
    num_inputs = num_outputs = vocab_size
    
    # 内部函数
    def normal(shape):
        return torch.randn(size=shape, device=device) * 0.01
    
    # 隐藏层的参数
    W_xh = normal((num_inputs, num_hiddens))
    W_hh = normal((num_hiddens, num_hiddens))
    b_h = torch.zeros(num_hiddens, device=device)
    
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    
    # nn.parameter(w_xh) 默认可以求导
    # 把参数都设置 requires_gard = True
    params = [W_xh, W_hh, b_h, W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params

初始化一个循环神经网络（RNN）模型的参数的函数 get_params。这个函数会返回一个包含模型参数的列表，这些参数包括隐藏层的权重和偏置，以及输出层的权重和偏置。

以下是该函数的主要部分和功能解释：

vocab_size: 词汇表的大小，通常对应于模型的输入和输出的标记数量。
num_hiddens: 隐藏层中的神经元数量，这是一个超参数。
device: 指定模型参数所在的计算设备，通常是 GPU 或 CPU。

函数首先计算了 num_inputs 和 num_outputs，它们的值都等于 vocab_size，因为这个 RNN 模型的输入和输出的标记数量是相同的。

接下来，函数定义了一个内部函数 normal(shape)，这个函数用于生成一个指定形状的张量，其值是从标准正态分布（均值为0，标准差为1）中随机采样的，然后乘以0.01。这是一种常用的初始化权重的方法。

然后，函数创建了以下参数：

W_xh：输入到隐藏层的权重矩阵，形状为 (num_inputs, num_hiddens)。
W_hh：隐藏层到隐藏层的权重矩阵，形状为 (num_hiddens, num_hiddens)。
b_h：隐藏层的偏置，形状为 (num_hiddens,)。
W_hq：隐藏层到输出层的权重矩阵，形状为 (num_hiddens, num_outputs)。
b_q：输出层的偏置，形状为 (num_outputs,)。

这些参数的形状和初始化值都是基于 vocab_size 和 num_hiddens 来计算的。权重矩阵是随机初始化的，偏置是初始化为零的。

最后，函数将这些参数放入一个列表 params 中，并将它们的 requires_grad 属性设置为 True，这表示这些参数需要计算梯度，以便在模型训练过程中进行反向传播和参数更新。

总之，get_params 函数的作用是根据指定的超参数和词汇表大小初始化一个循环神经网络模型的参数，并返回这些参数的列表。这些参数将在模型的训练过程中不断更新以适应训练数据。

2.2 初始化隐藏状态

# 初始化时返回隐藏状态
def init_rnn_state(batch_size, num_hiddens, device):
    # 返回元组
    return (torch.zeros((batch_size, num_hiddens), device=device),)

主要功能是初始化循环神经网络（RNN）的隐藏状态，并将其返回。以下是该函数的详细解释：

batch_size: 批量数据的大小，即每个小批量中的样本数量。
num_hiddens: 隐藏层中的神经元数量，即 RNN 的隐藏单元数量。
device: 指定初始化的张量所在的计算设备，通常为 GPU 或 CPU。

函数返回一个包含隐藏状态的元组，其中元组中的唯一元素是一个张量，表示初始化的隐藏状态。在这个元组中，张量的形状是 (batch_size, num_hiddens)，它全是零。这个张量用来表示 RNN 模型的初始隐藏状态。

在训练 RNN 模型时，通常需要初始化隐藏状态，然后在每个时间步骤中更新隐藏状态。这个函数就是用来生成初始隐藏状态的，以便将其传递给 RNN 模型的第一个时间步骤。在模型的后续时间步骤中，将使用前一个时间步骤的隐藏状态来更新当前时间步骤的隐藏状态。

2.3 RNN主体结构

# rnn主体结构
def rnn(inputs, state, params):
    # inputs的形状: 时间步数量，批次大小，词表大小
    W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    # X的shape：【批次大小， 词表大小】
    for X in inputs:
        # 一般在循环神经网络中，激活函数使用tanh比较多
        H = torch.tanh(torch.mm(X, W_xh) + torch.mm(H, W_hh) + b_h)
        Y = torch.mm(H, W_hq) + b_q
        outputs.append(Y)
    return torch.cat(outputs, dim=0), (H,)

定义了一个 RNN（循环神经网络）的主体结构，包括前向传播的过程。以下是该函数的详细解释：

inputs: 输入数据，其形状为 (时间步数量，批次大小，词表大小)，其中：
- 时间步数量 表示 RNN 模型将处理多少个时间步骤的数据。
- 批次大小 表示每个时间步骤有多少个样本。
- 词表大小 表示每个时间步骤中输入的特征的维度，通常用于表示词嵌入或特征向量。
state: 初始隐藏状态，是一个元组，其中唯一的元素是一个张量 H，表示隐藏状态的形状为 (批次大小，隐藏单元数量)。
params: 包含模型参数的列表，其中包括了权重和偏置参数。

函数的主要逻辑是循环遍历输入数据中的每个时间步骤，对于每个时间步骤，执行以下操作：

使用输入 X，以及当前的隐藏状态 H，通过矩阵乘法和激活函数（tanh）计算新的隐藏状态 H。
使用新的隐藏状态 H，通过矩阵乘法和偏置项，计算输出 Y。

这个过程将在每个时间步骤中重复执行，每次都使用前一个时间步骤的隐藏状态作为当前时间步骤的输入，以此来模拟序列数据中的依赖关系。最终，所有时间步骤的输出将被连接成一个张量，并作为函数的返回值，同时最后一个时间步骤的隐藏状态也被返回。

这个函数的输出包括两部分：

torch.cat(outputs, dim=0)：将所有时间步骤的输出连接成一个张量，维度为 (时间步数量 * 批次大小，词表大小)。这个张量包含了每个时间步骤的输出。
(H,)：最后一个时间步骤的隐藏状态，以元组形式返回，表示形状为 (批次大小，隐藏单元数量)。

总之，这个函数实现了 RNN 模型的前向传播过程，将输入数据序列转换为输出序列，并保持隐藏状态以便在后续时间步骤中使用。

2.3.1 `torch.cat`

torch.cat 是 PyTorch 中用于进行张量拼接（concatenation）的函数。它允许你在指定的维度上将多个张量拼接在一起，从而创建一个新的张量。

2.3.2 `torch.mm`

torch.mm 是 PyTorch 中的矩阵乘法运算函数。它用于计算两个二维张量（矩阵）的矩阵乘法。具体来说，torch.mm 计算两个矩阵的内积。

三包装成类

# 包装成类
class RNNModelScratch:
    def __init__(self, vocab_size, num_hiddens, device, get_params, init_state, forward_fn):
        self.vocab_size, self.num_hiddens = vocab_size, num_hiddens
        self.params = get_params(vocab_size, num_hiddens, device)
        self.init_state, self.forward_fn = init_state, forward_fn
        
    def __call__(self, X, state):
        X = F.one_hot(X.T, self.vocab_size).type(torch.float32)
        return self.forward_fn(X, state, self.params)
    
    def begin_state(self, batch_size, device):
        return self.init_state(batch_size, self.num_hiddens, device)

定义了一个基本的循环神经网络 (RNN) 模型类 RNNModelScratch，用于基于 PyTorch 构建一个简单的循环神经网络模型。下面是对代码的逐行解释：

class RNNModelScratch:：这是一个 Python 类的定义，用于创建一个 RNN 模型的实例。
def __init__(self, vocab_size, num_hiddens, device, get_params, init_state, forward_fn):：这是类的构造函数 __init__，用于初始化 RNN 模型的参数和配置。它接受以下参数：
- vocab_size：词汇表的大小，用于定义输入数据的维度（词表大小）。
- num_hiddens：隐藏层的大小，定义了 RNN 模型中隐藏状态的维度。
- device：指定模型在哪个计算设备上运行，如 CPU 或 GPU。
- get_params：一个函数，用于初始化模型的参数。
- init_state：一个函数，用于初始化 RNN 的隐藏状态。
- forward_fn：一个函数，用于定义 RNN 的前向传播过程。
self.vocab_size, self.num_hiddens = vocab_size, num_hiddens：这一行将传入构造函数的参数存储在类的成员变量中，以便在整个类中使用。
self.params = get_params(vocab_size, num_hiddens, device)：这一行调用传入的 get_params 函数来初始化模型的参数，并将其存储在 self.params 中。
self.init_state, self.forward_fn = init_state, forward_fn：这一行将传入的 init_state 和 forward_fn 函数存储在类的成员变量中，以便在模型中使用。
def __call__(self, X, state):：这是类的特殊方法 __call__，它允许将类的实例像函数一样调用。这个方法用于定义如何进行前向传播。
- X：输入数据，通常是一个批量的序列数据。
- state：RNN 的隐藏状态。
X = F.one_hot(X.T, self.vocab_size).type(torch.float32)：这一行将输入数据 X 转换成 one-hot 编码，以便输入到模型中。F.one_hot 是 PyTorch 中的函数，它将整数序列转换成 one-hot 编码的张量。
return self.forward_fn(X, state, self.params)：这一行调用传入的 forward_fn 函数，进行模型的前向传播，计算输出。
def begin_state(self, batch_size, device):：这个方法用于初始化 RNN 的隐藏状态，以便在训练时使用。
- batch_size：批量大小，定义了每个批次的样本数量。
- device：指定计算设备。

这个类的目的是创建一个简单的 RNN 模型，其中包括模型参数的初始化、前向传播方法的定义和隐藏状态的初始化。这个类可以用于构建和训练一个基本的循环神经网络模型。

3.1 device 的定义

device = 'cuda:0' if torch.cuda.is_available() else 'cpu'

device = dltools.try_gpu()

def try_gpu(i=0):
    """Return gpu(i) if exists, otherwise return cpu()."""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

四调用定义好的 RNN

# 使用该类
num_hiddens = 512
net = RNNModelScratch(len(vocab), num_hiddens, dltools.try_gpu(), get_params, init_rnn_state, rnn)
state = net.begin_state(X.shape[0], dltools.try_gpu())
Y, new_state = net(X.to(dltools.try_gpu()), state)

4.1 查看定义效果

Y.shape

new_state

vocab.__getitem__('a')  # 输出为 4

4.2 使用模型进行预测

# 预测
def predict(prefix, num_preds, net, vocab, device):
    state = net.begin_state(batch_size=1, device=device)
    outputs = [vocab[prefix[0]]]
    get_input = lambda: torch.tensor([outputs[-1]], device = device).reshape((1, 1))
    # 预热
    for y in prefix[1:]:
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
        
    # 真正的预测
    for _ in range(num_preds):
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])

定义了一个用于生成文本序列预测的函数 predict，它的功能是使用训练好的循环神经网络模型生成预测文本。下面是对代码的逐行解释：

def predict(prefix, num_preds, net, vocab, device):：这是一个函数定义，用于生成文本序列的预测。
- prefix：一个字符串列表，表示预测的起始前缀。
- num_preds：指定生成的预测文本的长度。
- net：训练好的循环神经网络模型。
- vocab：词汇表，用于将模型的输出转换成文本。
- device：指定计算设备，如 CPU 或 GPU。
state = net.begin_state(batch_size=1, device=device)：这一行初始化 RNN 模型的隐藏状态。net.begin_state 方法返回一个元组，包含 RNN 模型的隐藏状态。这里 batch_size 设为 1，表示每次生成一个字符。
outputs = [vocab[prefix[0]]]：初始化 outputs 列表，用于存储预测的字符。
get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))：这一行定义了一个 lambda 函数 get_input，用于获取模型的输入。它将 outputs 列表的最后一个字符转换成 PyTorch 张量，并调整形状以符合模型的输入要求。
预热阶段：在这个阶段，模型接受前缀 prefix 作为输入，并通过模型进行预热。预热的目的是将模型的隐藏状态初始化为前缀的状态，以便后续的生成过程。以下代码循环遍历前缀字符，并在每个时间步上运行模型，更新隐藏状态和输出。
真正的预测阶段：在这个阶段，模型开始生成预测文本。模型接受前一个时间步的输出作为当前时间步的输入，并运行模型，以此生成新的字符。以下代码循环生成预测字符，并将其添加到 outputs 列表中：
return ''.join([vocab.idx_to_token[i] for i in outputs])：最后，将模型生成的字符列表转换回字符串，并返回生成的预测文本。

总的来说，这个函数使用训练好的循环神经网络模型，根据给定的前缀生成文本序列的预测。在预测过程中，模型根据前一个时间步的输出来生成下一个字符，逐步生成整个文本序列。

4.3 梯度裁剪

# 梯度裁剪
def grad_clipping(net, theta):
    if isinstance(net, nn.Module):
        params = [p for p in net.parameters() if p.requires_grad]
    else:
        params = net.params
    
    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm

实现了梯度裁剪的功能，用于防止梯度爆炸问题。下面是对代码的逐行解释：

def grad_clipping(net, theta):：这是一个函数定义，用于执行梯度裁剪。
- net：可以是一个 PyTorch 模型（nn.Module 类的子类）或者一个自定义模型对象。
- theta：裁剪的阈值，当梯度的 L2 范数大于该阈值时进行裁剪。
if isinstance(net, nn.Module):：这一行检查 net 是否是 PyTorch 的 nn.Module 类的子类，用于判断传入的模型类型。
params = [p for p in net.parameters() if p.requires_grad]：如果 net 是 nn.Module 类的子类，那么这一行将获取模型中所有需要梯度更新的参数。net.parameters() 返回模型的所有参数，p.requires_grad 表示参数是否需要梯度。

如果 net 不是 nn.Module 类的子类，那么这一行将尝试获取自定义模型对象中的参数列表，前提是这个自定义模型对象具有名为 params 的属性。
norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))：计算所有参数梯度的 L2 范数，这个范数表示了所有参数梯度的总体大小。具体来说，这里使用了两次求和。首先，对于每个参数 p，计算 p.grad ** 2，然后使用 torch.sum 对其进行求和。接着，使用 sum 对所有参数的 L2 范数进行求和。
if norm > theta:：判断梯度的 L2 范数是否大于指定的阈值 theta，如果是，则执行下面的梯度裁剪操作。
for param in params:：遍历需要梯度更新的参数列表。
param.grad[:] *= theta / norm：对每个参数的梯度进行裁剪操作。具体地，将参数的梯度按比例缩放，使其满足 L2 范数不超过阈值 theta。这里使用 param.grad[:] 来直接修改参数的梯度，将其乘以缩放因子 theta / norm。

总的来说，这段代码用于梯度裁剪，可以应用于任何 PyTorch 模型或自定义模型。它通过计算所有参数的梯度的 L2 范数，并将其与指定的阈值进行比较，如果超过阈值，则对梯度进行按比例的缩放，以确保梯度不会爆炸。这有助于提高模型的训练稳定性。

五训练

# 训练
def train_epoch(net, train_iter, loss, updater, device, use_random_iter):
    state, timer = None, dltools.Timer()
    metric = dltools.Accumulator(2)
    for X, Y in train_iter:
        if state is None or use_random_iter:
            state = net.begin_state(batch_size=X.shape[0], device=device)
        else:
            if isinstance(net, nn.Module) and not isinstance(state, tuple):
                state.detach_()
            else:
                for s in state:
                    s.detach_()
        y = Y.T.reshape(-1)
        X, y = X.to(device), y.to(device)
        y_hat, state = net(X, state)
        l = loss(y_hat, y.long()).mean()
        if isinstance(updater, torch.optim.Optimizer):
            updater.zero_grad()
            l.backward()
            grad_clippling(net, 1)
            updater.step()
        else:
            l.backward()
            grad_clipping(net, 1)
            updater(batch_size=1)
        metric.add(l * y.numel(), y.numel())  # !!!! l 不是1
    # 返回困惑度和每个字符平均训练时间
    return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

训练循环神经网络（RNN）模型的训练循环的一部分。以下是对代码的逐行解释：

train_epoch(net, train_iter, loss, updater, device, use_random_iter):：这是一个函数定义，用于执行一个训练周期。
- net：RNN 模型。
- train_iter：训练数据迭代器，用于生成训练数据批次。
- loss：损失函数，用于计算模型的损失。
- updater：参数更新器，可以是 PyTorch 优化器（例如 torch.optim.SGD）或者一个自定义的参数更新函数。
- device：训练设备，通常是 GPU。
- use_random_iter：一个布尔值，表示是否使用随机迭代器。
state, timer = None, dltools.Timer()：初始化 state 为 None，timer 用于计时。
metric = dltools.Accumulator(2)：创建一个累加器 metric，用于累积损失和样本数，初始化为 2 个元素的列表。
for X, Y in train_iter:：遍历训练数据迭代器，获取训练数据批次 X 和标签 Y。
if state is None or use_random_iter:：检查 state 是否为 None 或者 use_random_iter 为真。如果是，表示需要重新初始化 RNN 的隐藏状态。
state = net.begin_state(batch_size=X.shape[0], device=device)：调用 net.begin_state 方法来初始化 RNN 模型的隐藏状态，其中包括 batch_size（批次大小）和 device（设备）参数。
y = Y.T.reshape(-1)：将标签 Y 进行转置并展平，以便与模型输出 y_hat 进行损失计算。
X, y = X.to(device), y.to(device)：将输入数据 X 和标签 y 移动到指定的计算设备上，通常是 GPU。
y_hat, state = net(X, state)：使用 RNN 模型前向传播，计算模型输出 y_hat 和更新的隐藏状态 state。
l = loss(y_hat, y.long()).mean()：计算损失 l，这里假设 loss 是一个能够接受模型输出 y_hat 和整数类型的标签 y 的损失函数。然后，对损失进行均值计算。
if isinstance(updater, torch.optim.Optimizer):：检查 updater 是否是 PyTorch 的优化器，如果是，则表示使用了内置的优化器。
updater.zero_grad()：如果使用 PyTorch 优化器，将梯度清零。
l.backward()：反向传播，计算梯度。
grad_clippling(net, 1)：调用 grad_clippling 函数，对梯度进行梯度裁剪操作，防止梯度爆炸。
updater.step()：如果使用 PyTorch 优化器，执行参数更新步骤。
else:：如果不使用 PyTorch 优化器，表示使用自定义的参数更新函数。
grad_clipping(net, 1)：对梯度进行梯度裁剪操作，防止梯度爆炸。
updater(batch_size=1)：执行参数更新操作，传递参数 batch_size=1 给更新器。
metric.add(l * y.numel(), y.numel())：将损失 l 乘以当前批次的样本数 y.numel() 加入到累加器 metric 中，以便后续计算损失的平均值。
返回困惑度（Perplexity）和每个字符

5.1 时间记录

class Timer:
    """Record multiple running times."""
    def __init__(self):
        self.times = []
        self.start()

    def start(self):
        """Start the timer."""
        self.tik = time.time()

    def stop(self):
        """Stop the timer and record the time in a list."""
        self.times.append(time.time() - self.tik)
        return self.times[-1]

    def avg(self):
        """Return the average time."""
        return sum(self.times) / len(self.times)

    def sum(self):
        """Return the sum of time."""
        return sum(self.times)

    def cumsum(self):
        """Return the accumulated time."""
        return np.array(self.times).cumsum().tolist()

5.2 累加器

class Accumulator:
    """For accumulating sums over `n` variables."""
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

累加器（Accumulator）类，用于累加 n 个变量的和。以下是该类的方法和属性：

__init__(self, n)：类的构造函数，接受一个参数 n，表示需要累加的变量的数量。在初始化时，会创建一个长度为 n 的列表 self.data，用于存储累加的结果，初始值都设置为 0.0。
add(self, *args)：这个方法用于将传递给它的参数累加到 self.data 中。它接受任意数量的参数，并将每个参数的值与 self.data 中对应位置的值相加。这个方法的主要作用是将多个变量的值累加到 self.data 中。
reset(self)：这个方法用于重置累加器，将 self.data 中所有的值都设置为 0.0。这在开始新的累加计算时非常有用。
__getitem__(self, idx)：这个方法用于通过索引 idx 获取累加器中对应位置的值。它返回 self.data 中索引为 idx 的值。

这个累加器的主要作用是方便地对多个变量进行累加操作，并且可以随时重置累加器的值。这在一些统计或累积计算中非常有用。通过不断调用 add 方法，可以将多个变量的值累加到累加器中，然后通过 __getitem__ 方法获取累加的结果。如果需要重新开始累加计算，可以调用 reset 方法将累加器的值重置为初始状态。

六训练代码组合

# 组合到一起
def train(net, train_iter, vocab, lr, num_epochs, device, use_random_iter=False):
    loss = nn.CrossEntropyLoss()
    animator = dltools.Animator(xlabel='epoch', ylabel='perlexity', legend=['train'], xlim=[10, num_epochs])
    
    # 初始化
    if isinstance(net, nn.Module):
        updater = torch.optim.SGD(net.parameters(), lr)
    else:
        updater = lambda batch_size: dltools.sgd(net.params, lr, batch_size)
    
    pred = lambda prefix: predict(prefix, 50, net, vocab, device)
    # train and forecast
    for epoch in range(num_epochs):
        ppl, speed = train_epoch(net, train_iter, loss, updater, device, use_random_iter)
        
        if (epoch + 1) % 10 == 0:
            print(pred('time traveller'))
            animator.add(epoch + 1, [ppl])
    print(f'困惑度{ppl:.1f}, {speed: .1f} 词元/秒{str(device)}')
    print(pred('time traveller'))
    print(pred('traveller'))

定义了一个训练循环，用于训练循环神经网络（RNN）模型。以下是该代码的主要步骤和功能：

导入所需的库，包括 PyTorch 模块和自定义的 dltools 模块。
定义了一个损失函数 loss，使用交叉熵损失函数（nn.CrossEntropyLoss()）。交叉熵常用于文本分类问题中。
创建了一个用于可视化训练过程的 animator 对象。这个对象可以用来绘制训练过程中的损失曲线。
初始化模型参数更新器 updater。如果 net 是一个 PyTorch 模型（nn.Module 类型），则使用随机梯度下降（SGD）优化器来更新模型参数。否则，使用自定义的梯度下降函数 dltools.sgd 来更新模型参数。
定义了一个函数 pred，用于生成给定前缀文本的预测结果。这个函数会调用 predict 函数来生成文本的预测。
进行训练循环，循环的次数为 num_epochs。在每个 epoch 中，调用 train_epoch 函数进行模型训练，并计算困惑度和训练速度。
如果当前 epoch 的序号（epoch + 1）是 10 的倍数，就调用 pred 函数生成以 "time traveller" 为前缀的文本预测，并将困惑度添加到 animator 中以进行可视化。
输出当前 epoch 的困惑度、训练速度和设备信息。
最后，生成 "time traveller" 和 "traveller" 的文本预测并输出。

总的来说，这段代码实现了一个训练循环，用于训练 RNN 模型，并在训练过程中生成文本预测。同时，它还使用了自定义的 dltools 模块来管理训练过程和可视化。

6.1 实时画图工具

class Animator:
    """For plotting data in animation."""
    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        # Incrementally plot multiple lines
        if legend is None:
            legend = []
        dltools.use_svg_display()
        self.fig, self.axes = dltools.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes,]
        # Use a lambda function to capture arguments
        self.config_axes = lambda: dltools.set_axes(self.axes[
            0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts

    def add(self, x, y):
        # Add multiple data points into the figure
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)
        if not hasattr(x, "__len__"):
            x = [x] * n
        if not self.X:
            self.X = [[] for _ in range(n)]
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()
        display.display(self.fig)
        display.clear_output(wait=True)

6.2 `nn.CrossEntropyLoss`

nn.CrossEntropyLoss() 是 PyTorch 中用于多类别分类问题的损失函数。在深度学习中，交叉熵损失函数通常用于衡量模型的输出与实际目标之间的差异，特别是在分类任务中。

具体来说，nn.CrossEntropyLoss() 针对多类别分类任务的损失计算如下：

假设有 C 个类别（类别的数量），对于每个样本，模型会输出一个包含 C 个元素的向量，每个元素代表该样本属于对应类别的概率得分。这个向量通常称为“logits”。

nn.CrossEntropyLoss() 首先将模型的 logits 通过 softmax 函数转换为概率分布。softmax 函数将 logits 映射为一个概率分布，使得所有类别的概率之和为 1。
接下来，它将实际的类别标签（ground truth）编码成一个 one-hot 向量，其中只有一个元素为 1，表示样本的真实类别。
最后，它计算模型输出的概率分布与实际类别的交叉熵，作为损失值。交叉熵越小，模型的预测越接近真实标签。

nn.CrossEntropyLoss() 的参数通常是模型的输出（logits）和实际的类别标签。在训练神经网络时，通过反向传播算法，优化器会调整模型的参数，使交叉熵损失最小化，从而提高模型的分类性能。

七查看训练效果

num_epochs, lr = 200, 0.01
# 使用顺序抽样
train(net, train_iter, vocab, lr, num_epochs, dltools.try_gpu())

good !

你可能感兴趣的:(深度学习,rnn,深度学习,人工智能)

Python中的代码测试小白的高手之路 python学习 python 开发语言
编写函数或类时，可以为其编写测试。通过测试，可以确定代码面对各种输入都能正确按要求工作。在程序中添加新代码时，依然可以对其进行测试，确认它们不会影响原有的代码。1、测试函数先编写一个简单的函数：name_fun.pydefget_name(first,last):"""生成全名"""name=first+''+lastreturnname.title()name.pyfromname_funimp
深度学习处理时间序列（2） yyc_audio 深度学习笔记深度学习人工智能
在数据中寻找周期性在多个时间尺度上的周期性，是时间序列数据非常重要且常见的属性。无论是天气、商场停车位使用率、网站流量、杂货店销售额，还是健身追踪器记录的步数，你都会看到每日周期性和年度周期性（人类生成的数据通常还有每周的周期性）。探索数据时，一定要注意寻找这些模式。（让人想到波，想到傅里叶变换）对于这个数据集，如果你想根据前几个月的数据来预测下个月的平均温度，那么问题很简单，因为数据具有可靠的年
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
智能编程新时代：DeepSeek加持下的开发工具革新 inscode_013
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能编程新时代：DeepSeek加持下的开发工具革新在当今快速发展的科技领域，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们迎来了前所未有的机遇和挑战。其中，集成DeepSeek模型的AI开发工具，正以其强大的功能和便捷的操作，引领着编程方式的革命性变革。本文将探讨这种创新工具的应用场景
智能编程新时代：DeepSeek加持下的开发利器 inscode_099
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智能编程新时代：DeepSeek加持下的开发利器在当今快速发展的科技时代，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们不再满足于传统的IDE（集成开发环境），而是渴望更加智能、高效的开发工具。在这种背景下，一款集成了DeepSeek-V3模型的AI开发工具应运而生，它不仅能够大幅提升开发效率
智能化编程新时代，DeepSeek加持下的开发革命 ObsidianRaven13
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化编程新时代，DeepSeek加持下的开发革命随着人工智能技术的飞速发展，编程领域正迎来一场前所未有的变革。从传统的手动编码到如今的智能辅助开发，这一过程不仅极大地提升了开发效率，还让编程变得更加简单和高效。在众多新兴工具中，基于DeepSeek模型的智能编程助手正在成为开发者的新宠。今天，我们将探讨这种工具如何
智能化开发新时代：DeepSeek加持下的编程革命 MoonbeamOwl67
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化开发新时代：DeepSeek加持下的编程革命在当今快速发展的科技时代，软件开发已经成为推动社会进步的重要动力。然而，对于许多开发者而言，编写高质量的代码仍然是一项充满挑战的任务。从复杂的算法设计到繁琐的调试过程，每一个环节都需要耗费大量的时间和精力。而随着人工智能技术的迅猛发展，一种全新的编程方式正在悄然改变这
基于深度学习的个性化新闻推荐系统设计与实现计算机毕设 sj52abcd 深度学习课程设计人工智能毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着互联网技术的发展和普及,人们越来越依赖互联网获取信息。然而,随着信息量的不断增加,用户在查找新闻时面临着信息过载的问题。为了解决这个问题,个性化新闻推荐系统被广泛应用。个性化新闻推荐系
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
基于人工智能的智能视频内容分析系统小彭律师 python
基于人工智能的智能视频内容分析系统系统功能1.视频数据预处理降噪与滤波：去除视频画面中的噪点和干扰画质增强：调整亮度、对比度和色彩平衡关键帧提取：减少数据量，提取关键信息2.目标识别检测基于深度学习模型（YOLO、FasterR-CNN等）识别多种目标类型（人、车辆、物品等）适应不同光照、角度和遮挡情况输出目标位置、类别和置信度3.行为分析研判基于时序模型（LSTM、3D-CNN等）分析目标动作规
AGI的学习与适应能力 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
“AGI的学习与适应能力”1.背景介绍1.1人工通用智能(AGI)的定义人工通用智能(ArtificialGeneralIntelligence,AGI)是指能够像人类一样具有广泛的理解和学习能力、可以完成多种复杂任务的人工智能系统。与狭义人工智能(NarrowAI)专注于特定领域和特定任务不同,AGI旨在模拟人类整体认知能力,包括感知、推理、学习、计划、创造力和自我意识等。1.2AGI的重要性和
Deepseek 使用攻略隔窗听雨眠人工智能
人工智能飞速发展的时代，新的技术和工具不断涌现，Deepseek便是其中备受瞩目的存在。它以强大的功能和出色的表现，吸引了众多用户的关注。今天，就让我们一起来深入了解一下Deepseek究竟是什么，以及如何使用它。一、什么是DeepseekDeepseek（深度求索）是一家位于杭州的人工智能公司，同时也是一系列大语言模型的统称。它由中国对冲基金高毅资产创立并提供支持，其模型均以开源形式发布。Dee
FastDVDnet：基于深度学习的视频去噪框架陆可鹃Joey
FastDVDnet：基于深度学习的视频去噪框架项目地址:https://gitcode.com/gh_mirrors/fa/fastdvdnet项目介绍FastDVDnet是一个高效、开源的深度学习模型，专注于视频去噪。该项目由MatteoTassano开发并维护，旨在提供一种快速且有效的解决方案，以消除视频中的噪声，同时保持图像细节和自然纹理。它利用了时间域的连续性和深层神经网络的力量，确保在
手撕multi-head self attention 代码心若成风、自然语言处理语言模型 transformer
在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。它允许模型在处理序列数据时，能够同时关注序列中的不同位置，从而捕获到丰富的上下文信息。下面，我们将详细解析多头自注意力机制的实现代码。一、概述多头自注意力机制的核心思想是将输入序列进行多次线性变换，然后分别计算自注意力得分，最后将所有头的输出进行拼接，并通
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
【prompt实战】知乎问题解答专家姚瑞南 prompt实战应用案例 prompt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）#Role:知乎问题解答分类专家##Profile:你是一个知乎问题解答分类专家，主要帮助用户解答各类领域专业问题，包括但不限于金融领域、职场问题、互联网领域、科技领域、人工智能领域
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
DeepSeek：全栈开发者视角下的AI革命者大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能
DeepSeek：全栈开发者视角下的AI革命者写在前面随着人工智能（AI）技术的不断进步，AI已经成为各行各业创新的核心动力。从自动驾驶到智能制造，再到自然语言处理和图像识别，AI正在逐渐渗透并改变着我们的生活和工作方式。DeepSeek，作为AI领域的新兴技术，凭借其独特的技术架构和颠覆性的创新理念，成为了全栈开发者关注的焦点。本文将从全栈开发者的角度出发，详细解析DeepSeek的诞生、技术架
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
高效快速教你deepseek如何进行本地部署并且可视化对话 chatgpt
随着最近一个新的人工智能deepseek的爆火，很多大佬都开始了在本地进行deepseek的部署操作，并且离线也可以使用，这里的话我就一步一步带你们部署本地的deepseek,说实话这个人工智能的实力不亚于openai的gpt安装ollama我们需要先安装ollama，安装地址ollama,我们直接点击下载，我们在下载的时候尽量使用我们的谷歌浏览器，有魔法的最好带上魔法，不然安装的时候可能会出问题
useblackbox黑箱AI编码助理百态老人 python 开发语言
黑箱AI是一个人工智能的编码助理可以让代码快10倍。它使您能够把任何问题变成代码和功能,如从任何视频提取代码和代码自动完成。它有以下几个特点：可以从视频、图片、PDF等格式中复制代码。可以将任何问题转换成代码。可以快速找到任何代码片段，并开始编码。支持20多种编程语言的代码自动补全。有Chrome扩展和VSCode扩展。这个网站有不同的收费方案，根据你需要的功能和使用量而定。它有以下几种选择：好开
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include