漠北尘-Gavin

实战 | 手把手教你用PyTorch实现图像描述（附完整代码）

本博文为转载博文，对代码的缩进做了调整，不合理的地方欢迎指出，以便共同学习、进步！！！

作者 | 李理

环信人工智能研发中心 VP，十多年自然语言处理和人工智能研发经验。主持研发过多款智能硬件的问答和对话系统，负责环信中文语义分析开放平台和环信智能机器人的设计与研发。

想要详细了解该系列文章，营长建议你先阅读上篇：一文详解循环神经网络的基本概念（代码版）

Tensor

和TensorFlow 类似，PyTorch 的核心对象也是Tensor。下面是创建Tensor 的代码：

x = torch.Tensor(5, 3)

print(x)

对应的下标是5，那么在这个下标的值为1，而其余的值为0，因此一个词只有一个位置不为0，所以叫作one-hot 的表示方法。这种表示方法的缺点是它是一种“稀疏”的表示方法，两个词，不论语义是相似还是不同，都无法通过这个向量表示出来。比如我们计算两个向量的内积，相同的词内积为1（表示相似度很高）；而不同的词为0（表示完全不同）。但实际我们希望“猫”和“狗”的相似度要高于“猫”和“石头”，使用one-hot 就无法表示出来。

Word Embedding 的思想是把高维的稀疏向量映射到一个低维的稠密向量，要求是两个相似的词会映射到低维空间里距离比较近的两个点；而不相似的距离较远。我们可以这样来“理解”这个低维的向量——假设语义可以用n 个基本的“正交”的“原子”语义表示的话，那么向量的不同的维代表这个词在这个原子语义上的“多少”。

当然这只是一种假设，但实际这个语义空间是否存在，或者即使存在也可能和人类理解的不同，但是只要能达到前面的要求——相似的词的距离近而不相似的远，也就可以了。

举例来说，假设向量的第一维表示动物，那么猫和狗应该在这个维度上有较大的值，而石头应该较小。

Embedding 一般有两种方式得到，一种是通过与任务无直接关系的无监督任务中学习，比如早期的RNN 语言模型，它的一个副产品就是Word Embedding，包括后来的专门Embedding 方法如Word to Vector 或者GloVe 等，本书后面的章节会详细介绍。另外一种方式就是在当前任务中让它自己学习出最合适的Word Embedding来。前一种方法的好处是可以利用海量的无监督数据，但是由于领域有差别以及它不是针对具体任务的最优化表示，它的效果可能不会很好；而后一种方法它针对当前任务学习出最优的表示（和模型的参数配合），但是它需要海量的训练数据，这对很多任务来说是无法满足的条件。在实践中，如果领域的数据非常少，我们可能直接用在其它任务中Pretraining 的Embedding 并且fix 住它；而如果领域数据较多的时候我们会用Pretraining 的Embedding 作为初始值，然后用领域数据驱动它进行微调。

PyTorch 基础知识

▌Tensor

和TensorFlow 类似，PyTorch 的核心对象也是Tensor。下面是创建Tensor 的代码：

x = torch.Tensor(5, 3)

print(x)

输出：

0.24550.15160.5319

0.98660.99180.0626

0.01720.64710.1756

0.89640.73120.9922

0.62640.01900.0041

[torch.FloatTensor of size 5x3]

我们可以得到Tensor 的大小：

print(x.size())

输出：

torch.Size([5, 3])

▌Operation

和TensorFlow 一样，有了Tensor 之后就可以用Operation 进行计算了。但是和TensorFlow 不同，TensorFlow 只是定义计算图但不会立即“执行”，而Pytorch 的Operation 是马上“执行”的。所以PyTorch 使用起来更加简单，当然PyTorch 也有计算图的执行引擎，但是它不对用户可见，它是“动态”编译的。

首先是加分操作：

y = torch.rand(5, 3)

print(x + y)

上面的加法会产生一个新的Tensor，但是我们可以提前申请一个Tensor 来存储Operation 的结果：

result = torch.Tensor(5, 3)

torch.add(x, y, out=result)

print(result)

也可以in-place 的修改：

# adds x to y

y.add_(x)

print(y)

一般来说，如果一个方法已_ 结尾，那么这个方法一般来说就是in-place 的函数。

PyTorch 支持numpy 的索引操作，比如取第一列：

print(x[:, 1])

我们也可以用view 来修改Tensor 的shape，注意view 要求新的Tensor 的元素个数和原来是一样的。

x = torch.randn(4, 4)

y = x.view(16)

z = x.view(-1, 8) # the size -1 is inferred from other dimensions

print(x.size(), y.size(), z.size())

输出：

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])

▌numpy ndarray 的转换

我们可以很方便的把Tensor 转换成numpy 的ndarray 或者转换回来，注意它们是共享内存的，修改Tensor 会影响numpy 的ndarray，反之亦然。

Tensor 转numpy

a = torch.ones(5)

b = a.numpy()

a.add_(1) # 修改a会影响b

numpy 转Tensor

import numpy as np

a = np.ones(5)

b = torch.from_numpy(a)

np.add(a, 1, out=a) # 修改a会影响b

▌CUDA Tensor

Tensor 可以移到GPU 上用GPU 来加速计算：

# let us run this cell only if CUDA is available

if torch.cuda.is_available():

x = x.cuda()

y = y.cuda()

x + y 在GPU上计算

图5.18: PyTorch 的变量

▌Autograd

autograd 是PyTorch 核心的包，用于实现前面我们提到的自动梯度算法。首先我们介绍其中的变量。

▌Variable

autograd.Variable 是Tensor 的封装，我们定义（也就计算）好了最终的变量(一般是Loss) 后，我们可以调用它的backward() 方法，PyTorch 就会自动的计算好梯度。如图5.18所示，PyTorch 的变量值会存储到data 里，而梯度值会存放到grad 里，此外还有一个grad_fn，它是用来计算梯度的函数。除了用户创建的Tensor 之外，通过Operatioon 创建的变量会记住它依赖的变量，从而形成一个有向无环图。计算这个变量的梯度的时候会自动计算它依赖的变量的梯度。

我们可以这样定义变量，参数requires_grad 说明这个变量是否参与计算梯度：

x= Variable(torch.ones(2, 2), requires_grad=True)

▌Gradient

我们可以用backward() 来计算梯度，它等价于variable.backward(torch.Tensor([1.0]))，梯度会往后往前传递，最后的变量一般传递的就是1，然后往前计算梯度的时候会把之前的值累积起来，PyTorch 会自动处理这些东西，我们不需要考虑。

x = Variable(torch.ones(2, 2), requires_grad=True)

y=x+2

z = y * y * 3

out = z.mean()

out.backward() # 计算所有的dout/dz,dout/dy,dout/dx

print(x.grad) # x.grad就是dout/dx

输出为：

4.5000 4.5000

4.5000 4.5000

[torch.FloatTensor of size 2x2]

我们手动来验证一下：

注意每次调用backward() 都会计算梯度然后累加到原来的值之上，所以如果每次计算梯度之前要调用变量的zero_grad() 函数。

▌变量的requires_grad 和volatile

每个变量有两个flag：requires_grad 和volatile，它们可以细粒度的控制一个计算图的某个子图不需要计算梯度，从而可以提高计算速度。一个Operation 如果所有的输入都不需要计算梯度(requires_grad==False)，那么这个Operation 的requires_grad就是False，而只要有一个输入，那么这个Operation 就需要计算梯度。比如下面的代码片段：

>>> x = Variable(torch.randn(5, 5))

>>> y = Variable(torch.randn(5, 5))

>>> z = Variable(torch.randn(5, 5), requires_grad=True)

>>> a = x + y

>>> a.requires_grad

False

>>> b = a + z

>>> b.requires_grad

True

如果你想固定住模型的某些参数，或者你知道某些参数的梯度不会被用到，那么就可以把它们的requires_grad 设置成False。比如我们想细调(fine-tuing) 预先训练好的一个CNN，我们会固定所有最后全连接层之前的卷积池化层参数，我们可以这样：

model = torchvision.models.resnet18(pretrained=True)

for param in model.parameters():

    param.requires_grad = False

# 把最后一个全连接层替换成新构造的全连接层

# 默认的情况下，新构造的模块的requires_grad=True

model.fc = nn.Linear(512, 100)

# 优化器只调整新构造的全连接层的参数。

optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

volatile 在0.4.0 之后的版本以及deprecated 了，不过我们后面的代码会用到它之前的版本，因此还是需要了解一下。它适用于预测的场景，在这里完全不需要调用backward() 函数。它比requires_grad 更加高效，而且如果volatile 是True，那么它会强制requires_grad 也是True。它和requires_grad 的区别在于：如果一个Operation的所有输入的requires_grad 都是False 的时候，这个Operation 的requires_grad 才是False，这时这个Operation 就不参与梯度的计算；而如果一个Operation 的一个输入是volatile 是True，那么这个Operation 的volatile 就是True 了，那么这个Operation 就不参与梯度的计算了。因此它很适合的预测场景时：不修改模型的任何定义，只是把输入变量（的一个）设置成volatile，那么计算forward 的时候就不会保留任何用于backward 的中间结果，这样就会极大的提高预测的速度。下面是示例代码：

>>> regular_input = Variable(torch.randn(1, 3, 227, 227))

>>> volatile_input = Variable(torch.randn(1, 3, 227, 227), volatile=True)

>>> model = torchvision.models.resnet18(pretrained=True)

>>> model(regular_input).requires_grad

True

>>> model(volatile_input).requires_grad

False

>>> model(volatile_input).volatile

True

>>> model(volatile_input).grad_fn isNone

True

图5.19: 卷积网络

▌神经网络

有了前面的变量和梯度计算，理论上我们就可以自己实现各种深度学习算法，但用户会有很多重复的代码，因此PyTorch 提供了神经网络模块torch.nn。在实际的PyTorch 开发中，我们通过继承nn.Module 来定义一个网络，我们一般值需要实现forward() 函数，而PyTorch 自动帮我们计算backward 的梯度，此外它还提供了常见的Optimizer 和Loss，减少我们的重复劳动。我们下面会实现如图5.19的卷积网络，因为之前已经详细的介绍了理论的部分，我们这里只是简单的介绍怎么用PyTorch 来实现。

完整代码：https://github.com/fancyerii/deep_learning_theory_and_practice/ blob/master/codes/ch05/PyTorch%20CNN.ipynb

对于PyTorch 的开发来说，一般是如下流程：

定义网络可训练的参数
变量训练数据
forward 计算loss
backward 计算梯度
更新参数，比如weight = weight - learning_rate * gradient

下面我们按照前面的流程来实现这个卷积网络。

定义网络

import torch

from torch.autograd import Variable

import torch.nn as nn

import torch.nn.functional as F

class Net(nn.Module): # 必须集成nn.Module

    def__init__(self):

    super(Net, self).__init__() # 必须调用父类的构造函数，传入类名和self

    # 输入是1个通道(灰度图)，卷积feature

    map的个数是6，大小是5x5，无padding，stride是1。

    self.conv1 = nn.Conv2d(1, 6, 5)

    # 第二个卷积层feature map个数是16，大小还是5*5，无padding，stride是1。

    self.conv2 = nn.Conv2d(6, 16, 5)

    # 仿射层y = Wx + b，ReLu层没有参数，因此不在这里定义

    self.fc1 = nn.Linear(16* 5* 5, 120)

    self.fc2 = nn.Linear(120, 84)

    self.fc3 = nn.Linear(84, 10)

    def forward(self, x):

        # 卷积然后Relu然后2x2的max pooling

        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))

        # 再一层卷积relu和max pooling

        x = F.max_pool2d(F.relu(self.conv2(x)), 2)

        # 把batch x channel x width x height 展开成batch x all_nodes

        x = x.view(-1, self.num_flat_features(x))

        x = F.relu(self.fc1(x))

        x = F.relu(self.fc2(x))

        x = self.fc3(x)

        return x

    def num_flat_features(self, x):

        size = x.size()[1:] # 除了batchSize之外的其它维度

        num_features = 1

        for s in size:

            num_features *= s

            return num_features

net = Net()

print(net)

输出为：

Net(

(conv1): Conv2d (1, 6, kernel_size=(5, 5), stride=(1, 1))

(conv2): Conv2d (6, 16, kernel_size=(5, 5), stride=(1, 1))

(fc1): Linear(in_features=400, out_features=120)

(fc2): Linear(in_features=120, out_features=84)

(fc3): Linear(in_features=84, out_features=10)

)

我们值需要实现forward() 函数，PyTorch 会自动帮我们实现backward() 和梯度计算。我们可以列举net 的所有可以训练的参数，前面我们在Net 里定义的所有变量都会保存在net 的parameters 里。

params= list(net.parameters())

print(len(params))

print(params[0].size()) # conv1's .weight

输出：

10

torch.Size([6, 3, 5, 5])

代码要求forward 的输入是一个变量(不需要梯度)，它的大小是batch x 1 x 32 x 32。

input = Variable(torch.randn(1, 1, 32, 32))

out = net(input)

print(out)

注意，我们直接调用net(input)，不需要显式调用forward() 方法。我们可以调用backward() 来计算梯度，调用前记得调用

zero_grad

net.zero_grad()

out.backward(torch.randn(1, 10))

nn.Conv2d() 只支持batch 的输入，如果只有一个数据，也要转成batchSize 为1 的输入。如果输入是channel x width x height，我们可以使用input.unsqueeze(0) 把它变成1 x channel x width x height 的。

损失函数

接下来我们会定义损失函数，PyTorch 为我们提供了很多常见的损失函数，比如

MSELoss：

output = net(input)

target = Variable(torch.arange(1, 11)) # 只是示例

criterion = nn.MSELoss()

loss = criterion(output, target)

print(loss)

如果我们沿着loss 从后往前用grad_fn 函数查看，可以得到如下：

input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d

-> view -> linear -> relu -> linear -> relu -> linear

-> MSELoss

-> loss

我们可以用next_function 来查看之前的grad_fn。

print(loss.grad_fn) # MSELoss

print(loss.grad_fn.next_functions[0][0]) # Linear

print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) # ReLU

梯度计算

有了Loss 之后我们就可以计算梯度：

net.zero_grad() # 记得清零。

print('conv1.bias.grad before backward')

print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')

print(net.conv1.bias.grad)

更新参数

我们可以自己更新参数：weight = weight - learning_rate * gradient。比如代码：

learning_rate = 0.01

forf innet.parameters():

f.data.sub_(f.grad.data* learning_rate)

但是除了标准的SGD 算法，我们前面还介绍了很多算法比如Adam 等，没有必要让大家自己实现，所以PyTorch 提供了常见的算法，包括SGD：

import torch.optim as optim

# 创建optimizer

optimizer = optim.SGD(net.parameters(), lr=0.01)

# 训练循环

optimizer.zero_grad() # 清零

output = net(input)

loss = criterion(output, target)

loss.backward()

optimizer.step() # 更新参数

数据集和transforms

对于常见的MNIST 和CIFAR-10 数据集，PyTorch 自动提供了下载和读取的代码：

transform = transforms.Compose(

[transforms.ToTensor(),

transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,

download=True, transform=transform)

trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,

shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,

download=True, transform=transform)

testloader = torch.utils.data.DataLoader(testset, batch_size=4,

shuffle=False, num_workers=2)

这里有个transform，datasets.CIFAR10 返回的是PIL 的[0,1] 的RGB 值，我们首先转成Tensor，然后在把它转换成[-1,1] 区间的值。transforms.Normalize(0.5,0.5) 会用如下公式进行归一化：

input[channel]= (input[channel] − mean[channel])/std[channel]

对于上面的取值input=(input-0.5)*2，也就是把范围从[0,1] 变成[-1,1]。关于Dataset和DataLoader 更多细节，请参考完整代码。

完整代码在ch05/PyTorch CNN.ipynb。我们这里的目的只是介绍PyTorch 的基本概念，因此使用了最简单的CNN。

PyTorch 循环网络示例

接下来我们通过几个示例介绍怎么在 PyTorch 里使用卷积网络。

▌姓名分类

这个示例会构建一个分类器，输入是一个姓名，输出是这个姓名的人可能来自哪个国家。我们下面会训练一个字符级别的RNN 模型来预测一个姓名是哪个国家人的姓名。我们的数据集收集了18 个国家的近千个人名(英文名，注意中国人也是英文名，否则就是语言识别问题了），我们最终的模型就可以预测这个姓名是哪个国家的人。

完整代码在：https://github.com/fancyerii/deep_learning_theory_and_practice/blob/ master/codes/ch05/Char%20RNN%20Classifier.ipynb

数据准备

在data/names 目录下有18 个文本文件，命名规范为[语言].txt。每个文件的每一行都是一个人名。此外，我们实现了一个unicode_to_ascii 把诸如à 之类转换成a。最终我们得到一个字典category_lines，language: [names ...]。key 是语言名，value 是名字的列表。all_letters 里保存所有的字符。

import glob

all_filenames = glob.glob('../data/names/*.txt')

print(all_filenames)

import unicodedata

import string

all_letters = string.ascii_letters + " .,;'"

n_letters = len(all_letters)

# http://stackoverflow.com/a/518232/2809427

def unicode_to_ascii(s):

    return''.join(c forc inunicodedata.normalize('NFD', s)

if unicodedata.category(c) != 'Mn' and (c in all_letters)

    print(unicode_to_ascii('Ślusàrski'))

category_lines = {}

all_categories = []

def readLines(filename):

    lines = open(filename).read().strip().split('n')

    return[unicode_to_ascii(line) forline inlines]

    for filename in all_filenames:

        category = filename.split('/')[-1].split('.')[0]

        all_categories.append(category)

        lines = readLines(filename)

        category_lines[category] = lines

        n_categories = len(all_categories)

        print('n_categories =', n_categories)

把姓名(String) 变成Tensor

现在我们已经把数据处理好了，接下来需要把姓名从字符串变成Tensor，因为机器学习只能处理数字。为了表示一个字母，我们使用“one-hot” 的表示方法。这是一个长度为<1 x n_letters> 的向量，对应字符的下标为1，其余为0。对于一个姓名，我们用大小为的Tensor 来表示。第二维表示batch 大小，因为PyTorch 的RNN 要求输入是< time x batch x input_features>。

import torch

# 把一个字母变成<1 x n_letters> Tensor

def letter_to_tensor(letter):
    
    tensor = torch.zeros(1, n_letters)

    letter_index = all_letters.find(letter)

    tensor[0][letter_index] = 1

    return tensor

# 把一行(名字)转换成的Tensor

def line_to_tensor(line):

    tensor = torch.zeros(len(line), 1, n_letters)

    for li, letter in enumerate(line):

    letter_index = all_letters.find(letter)

    tensor[li][0][letter_index] = 1

    return tensor

创建网络

如果想“手动”创建网络，那么在PyTorch 里创建RNN 和全连接网络的代码并没有太大差别。因为PyTorch 的计算图是动态实时编译的，不同time-step 的for 循环不需要“内嵌”在RNN 里。因此每个训练数据即使长度不同也没有关系，因为每次都是根据当前的数据长度“实时”编译出来的计算图。网络结构如下图所示：

图5.20: RNN 分类器网络结构

这个网络结构和vanilla RNN 的区别在于我们使用了两个全连接层，一个用于计算新的hidden；另一个用于计算当前的输出。而在vanilla RNN 中只有一个全连接层计算hidden，同时用这个hidden 计算输出。定义网络的代码如下：

import torch.nn as nn

from torch.autograd import Variable

class RNN(nn.Module):

    def__init__(self, input_size, hidden_size, output_size):

        super(RNN, self).__init__()

        self.input_size = input_size

        self.hidden_size = hidden_size

        self.output_size = output_size

        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)

        self.i2o = nn.Linear(input_size + hidden_size, output_size)

        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, input, hidden):

        combined = torch.cat((input, hidden), 1)

        hidden = self.i2h(combined)
    
        output = self.i2o(combined)

        output = self.softmax(output)

        return output, hidden

    def init_hidden(self):

        return Variable(torch.zeros(1, self.hidden_size))

和之前的全连接网络一样，首先我们的类需要基础nn.Module 并且实现

__init__、forward 和init_hidden 这3 个方法。在__init__ 方法里，我们定

义网络中的变量，以及两个全连接层。forward 函数根据当前的输入input 和上一个时刻的hidden 计算新的输出和hidden。init_hidden 创建一个初始为0 的隐状态。

测试网络

定义好了网络之后我们可以测试一下：

n_hidden = 128

rnn = RNN(n_letters, n_hidden, n_categories)

input = Variable(line_to_tensor('Albert'))

hidden = Variable(torch.zeros(1, n_hidden))

# 实际是遍历所有input

output, next_hidden = rnn(input[0], hidden)

print(output)

hidden=net_hidden

准备训练

测试没什么问题之后就可以开始训练了。训练之前，我们需要一些工具函数。第一个就是根据网络的输出把它变成分类，我们这里使用Tensor.topk 来选取概率最大的那个下标，然后得到分类名称。

def category_from_output(output):

    top_n, top_i = output.data.topk(1) # Tensor out of Variable with .data

    category_i = top_i[0][0]

    return all_categories[category_i], category_i

    print(category_from_output(output))

我们也需要一个函数来随机挑选一个训练数据：

import random

def random_training_pair():

    category = random.choice(all_categories)

    line = random.choice(category_lines[category])

    category_tensor = Variable(torch.LongTensor([all_categories.index(category)]))
    
    line_tensor = Variable(line_to_tensor(line))

    return category, line, category_tensor, line_tensor

    for i in range(10):

        category, line, category_tensor, line_tensor = random_training_pair()

        print('category =', category, '/ line =', line)

训练

现在我们可以训练网络了，因为RNN 的输出已经取过log 了，所以计算交叉熵只需要选择正确的分类对于的值就可以了，PyTorch 提供了nn.NLLLoss() 函数来实现这个目的，它基本就是实现了loss(x, class) = -x[class]。

criterion= nn.NLLLoss()

我们可以用optimizer 而不是自己手动来更新参数，这里我们使用最原始的SGD 算法。

learning_rate= 0.005

optimizer= torch.optim.SGD(rnn.parameters(), lr=learning_rate)

训练的每个循环如下：创建输入和输出Tensor 创建初始化为零的隐状态Tensor for each letter in 输入Tensor: output, hidden=rnn(input,hidden) 计算loss backward 计算梯度optimizer.step

def train(category_tensor, line_tensor):

    rnn.zero_grad()

    hidden = rnn.init_hidden()

    for i in range(line_tensor.size()[0]):

        output, hidden = rnn(line_tensor[i], hidden)

        loss = criterion(output, category_tensor)

        loss.backward()

        optimizer.step()

        return output, loss.data[0]

接下来我们就要用训练数据来训练了。因为上面的函数同时返回输出和损失，我们可以保存下来用于绘图。

import time

import math

n_epochs = 100000

print_every = 5000

plot_every = 1000

current_loss = 0

all_losses = []

def time_since(since):

    now = time.time()

    s = now - since

    m = math.floor(s / 60)

    s -= m * 60

    return '%dm %ds' % (m, s)

start = time.time()

for epoch in range(1, n_epochs + 1):

    # 随机选择一个样本

    category, line, category_tensor, line_tensor = random_training_pair()

    output, loss = train(category_tensor, line_tensor)

    current_loss += loss

    if epoch % print_every == 0:

        guess, guess_i = category_from_output(output)

        correct = '?' if guess == category else'? (%s)' % category

        print('%d %d%% (%s) %.4f %s / %s %s' % (epoch, epoch / n_epochs * 100,

        time_since(start), loss, line, guess, correct))

        if epoch % plot_every == 0:

            all_losses.append(current_loss / plot_every)

            current_loss = 0

图5.21: 训练的损失

绘图

把所有的损失都绘制出来可以显示学习的过程。

import matplotlib.pyplot asplt

import matplotlib.ticker asticker

%matplotlib inline

plt.figure()

plt.plot(all_losses)

评估效果

为了查看模型的效果，我们需要创建一个混淆矩阵，每一行代表样本实际的类别，而每一列表示模型预测的类别。为了计算混淆矩阵，我们需要使用evaluate 方法来预测，它和train() 基本一样，只是少了反向计算梯度的过程。

# 混淆矩阵

confusion = torch.zeros(n_categories, n_categories)

n_confusion = 10000

def evaluate(line_tensor):

    hidden = rnn.init_hidden()

    for i in range(line_tensor.size()[0]):

    output, hidden = rnn(line_tensor[i], hidden)

    return output

# 最好是有一个测试数据集，我们这里随机从训练数据里采样

for i in range(n_confusion):

    category, line, category_tensor, line_tensor = random_training_pair()

    output = evaluate(line_tensor)

    guess, guess_i = category_from_output(output)

    category_i = all_categories.index(category)

    confusion[category_i][guess_i] += 1

# 归一化

for i in range(n_categories):

    confusion[i] = confusion[i] / confusion[i].sum()

    fig = plt.figure()

    ax = fig.add_subplot(111)

    cax = ax.matshow(confusion.numpy())

    fig.colorbar(cax)

    # 设置x轴的文字往上走

    ax.set_xticklabels([''] + all_categories, rotation=90)

    ax.set_yticklabels([''] + all_categories)

    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))

    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))

    plt.show()

最终的混淆矩阵如图5.22所示。

图5.22: 混淆矩阵

测试

我们首先实现predict 函数，它会预测输入名字概率最大的3 个国家。然后手动输入几个训练数据里不存在的人名进行测试。

def predict(input_line, n_predictions=3):

    print('n> %s' % input_line)

    output = evaluate(Variable(line_to_tensor(input_line)))

    topv, topi = output.data.topk(n_predictions, 1, True)

    predictions = []

    for i in range(n_predictions):

        value = topv[0][i]

        category_index = topi[0][i]

        print('(%.2f) %s' % (value, all_categories[category_index]))

        predictions.append([value, all_categories[category_index]])

        predict('Dovesky')

        predict('Jackson')

        predict('Satoshi')

▌RNN 生成莎士比亚风格句子

这个例子会用莎士比亚的著作来训练一个char-level RNN 语言模型，同时使用它来生成莎士比亚风格的句子。

完整代码:https://github.com/fancyerii/deep_learning_theory_and_practice/ blob/master/codes/ch05/Char%20RNN%20%E7%94%9F%E6%88%90%E5%99%A8.ipynb

准备数据

输入文件是纯文本文件，我们会使用unidecode 来把unicode 转成ASCII 文本。

import unidecode

import string

import random

import re

all_characters = string.printable

n_characters = len(all_characters)

file = unidecode.unidecode(open('../data/shakespeare.txt').read())

file_len = len(file)

print('file_len =', file_len)

这个文件太大了，我们随机的进行截断来得到一个训练数据。

chunk_len = 200

def random_chunk():

    start_index = random.randint(0, file_len - chunk_len)

    end_index = start_index + chunk_len + 1

    return file[start_index:end_index]

print(random_chunk())

PyTorch 的RNN 简介

之前的Char RNN 分类器，我们是“手动”实现的最朴素的RNN。我们就像实现一个普通的前馈神经网络一样实现RNN，因为我们在for 循环里复用同一个全连接层，因此PyTorch 会自动帮我们展开从而实现BPTT。现在下面的例子里将使用PyTorch提供的GRU 模块，这比我们自己“手动”实现的版本效率更高，也更容易复用。我们下面会简单的介绍PyTorch 中的RNN 相关模块。

1. torch.nn.RNN

这个类用于实现前面介绍的vanilla 的RNN，其具体计算公式为：ht = tanh(wihxt +bih + whhht−1 + bhh)，其中ht 是t 时刻的隐状态，xt 是t 时刻的输入。如果我们想使用其它的激活函数比如ReLu 可以在构造函数里传入nonlinearity=’relu’。构造函数的参数为：

input_size 输入xt 的大小
hidden_size 隐单元的个数
num_layers RNN 的层数，默认1
nonlinearity 激活函数，可以是’tanh’ 或者’relu’，默认是’tanh’
bias 是否有bias
batch_first 如果为True，那么输入要求是(batch, seq, feature)，否则是(seq,batch, feature)，默认是False
dropout dropout 概率。默认0，没有dropout
bidirectional 是否双向RNN。默认False

它的输入是input 和h0 格式如下：

input shape 是(seq_len, batch, input_size)，如果构造参数batch_first 是True，则要求输入是(batch, seq_len, input_size)。
h0 shape 是(num_layers * num_directions, batch, hidden_size)

它的输出是output, hn 格式如下：

output 是最后一层的输出，shape 是(seq_len, batch, hidden_size * num_directions)
hn 的shape 是(num_layers * num_directions, batch, hidden_size)

它包含的变量为：

weight_ih_l[k] 第k 层输入到隐单元的可训练的weight。如果k 是0(第一层)，那么它的shape 是(hidden_size * input_size)，否则是(hidden_size * hidden_size)
weight_hh_l[k] 第k 层(上一个时刻的) 隐单元到隐单元的weight。shape 是(hidden_size * hidden_size)
bias_ih_l[k] 第k 层输入到隐单元的bias。shape 是(hidden_size)
bias_hh_l[k] 第k 层隐单元到隐单元的bias。shape 也是(hidden_size)

代码示例：

>>> rnn = nn.RNN(10, 20, 2)

>>> input = torch.randn(5, 3, 10)

>>> h0= torch.randn(2, 3, 20)

>>> output, hn = rnn(input, h0)

在上面的例子里，我们定义了一个2 层的(单向)RNN，输入大小是10，隐单元个数是20。输入是(5,3,10)，表示batch 是3；序列长度是5；输入大小是10（这是和前面RNN 的定义匹配的）。h0 是(2,3,20)，第一维是2，表示2 层；第二维是3，表示batch；第三维是20，表示20 个隐单元。

2. torch.nn.LSTM PyTorch 实现的LSTM 计算过程如下：

其中，ht 是t 时刻的隐状态，ct 是t 时刻的cell 状态，xt 是t 时刻的输入。it, ft, gt, ot分别是t 时刻的输入门，遗忘门，cell gate 和输出门。构造函数参数如下：

input_size 输入x 的特征维数
hidden_size 隐单元个数
num_layers LSTM 的层数，默认1
bias 是否有bias
batch_first 如果为True，那么输入要求是(batch, seq, feature)，否则是(seq,batch, feature)，默认是False
dropout dropout 概率。默认0，没有dropout
bidirectional 是否双向RNN。默认False

输入input, (h_0, c_0) 格式如下：

input shape 是(seq_len, batch, input_size)，如果构造参数batch_first 是True，则要求输入是(batch, seq_len, input_size)。
h_0 (num_layers * num_directions, batch, hidden_size)
c_0 (num_layers * num_directions, batch, hidden_size)

输出output, (hn, cn) 格式如下：

output 是最后一层LSTM 的输出，shape (seq_len, batch, hidden_size * num_directions)
h_n 隐状态，shape 是(num_layers * num_directions, batch, hidden_size)
c_n cell 状态，shape 是(num_layers * num_directions, batch, hidden_size)

它包含的变量为：

weight_ih_l[k] 第k 层输入到隐单元的可训练的weight。 shape 是(4*hidden_size* input_size)
weight_hh_l[k] 第k 层(上一个时刻的) 隐单元到隐单元的weight。 shape 是(4*hidden_size * hidden_size)
bias_ih_l[k] 第k 层输入到隐单元的bias。 shape 是(4*hidden_size)
bias_hh_l[k] 第k 层隐单元到隐单元的bias。 shape 也是(4*hidden_size)

示例：

>>> rnn = nn.LSTM(10, 20, 2)

>>> input = torch.randn(5, 3, 10)

>>> h0= torch.randn(2, 3, 20)

>>> c0= torch.randn(2, 3, 20)

>>> output, hn = rnn(input, (h0, c0))

和前面的RNN 例子类似，只是多了一个h0。

3. torch.nn.GRU GRU 的计算过程如下：

构造函数参数如下：

input_size 输入x 的特征维数
hidden_size 隐单元个数
num_layers LSTM 的层数，默认1
bias 是否有bias
batch_first 如果为True，那么输入要求是(batch, seq, feature)，否则是(seq,batch, feature)，默认是False
dropout dropout 概率。默认0，没有dropout
bidirectional 是否双向RNN。默认False

它的输入是input 和h0 格式如下：

input shape 是(seq_len, batch, input_size)，如果构造参数batch_first 是True，则要求输入是(batch, seq_len, input_size)。
h0 shape 是(num_layers * num_directions, batch, hidden_size)

关于PyTorch 的输出，比如h0 的shape 是(num_layers * num_directions, batch,hidden_size)，虽然文档没有明确说明，但是我们一般可以”猜测“输出的第一维(num_layers * num_directions) 是先num_layers 后num_directions 的。举例来说，如果RNN 是2 层的并且是双向的，那么输出h0 的顺序是这样的：(layer1-正向的隐状态,layer1-逆向的隐状态,layer2-正向的隐状态,layer2-逆向的隐状态)。

它的输出是output, hn 格式如下：

output 是最后一层的输出。 shape 是(seq_len, batch, hidden_size * num_directions)
hn 的shape 是(num_layers * num_directions, batch, hidden_size)

它包含的变量为：

weight_ih_l[k] 第k 层输入到隐单元的可训练的weight。 shape 是(3*hidden_size* input_size)
weight_hh_l[k] 第k 层(上一个时刻的) 隐单元到隐单元的weight。 shape 是(3*hidden_size * hidden_size)
bias_ih_l[k] 第k 层输入到隐单元的bias。 shape 是(3*hidden_size)
bias_hh_l[k] 第k 层隐单元到隐单元的bias。 shape 也是(3*hidden_size)

示例：

>>> rnn = nn.GRU(10, 20, 2)

>>> input = torch.randn(5, 3, 10)

>>> h0= torch.randn(2, 3, 20)

>>> output, hn = rnn(input, h0)

定义模型

之前的姓名分类例子中是没有Embedding 的，直接用字母的one-hot 作为输入。这里我们会使用Embedding。

import torch

import torch.nn as nn

from torch.autograd import Variable

class RNN(nn.Module):

    def __init__(self, input_size, hidden_size, output_size, n_layers=1):

        super(RNN, self).__init__()

        self.input_size = input_size

        self.hidden_size = hidden_size

        self.output_size = output_size

        self.n_layers = n_layers

        self.encoder = nn.Embedding(input_size, hidden_size)

        self.gru = nn.GRU(hidden_size, hidden_size, n_layers)

        self.decoder = nn.Linear(hidden_size, output_size)

    def forward(self, input, hidden):

        input = self.encoder(input.view(1, -1))

        output, hidden = self.gru(input.view(1, 1, -1), hidden)

        output = self.decoder(output.view(1, -1))

        return output, hidden

    def init_hidden(self):

        return Variable(torch.zeros(self.n_layers, 1, self.hidden_size))

我们这里每次处理一个样本(batchSize=1)，每次也只处理一个时刻的数据，但是PyTorch 的RNN(包括LSTM/GRU) 要求输入都是(timestep, batch,numFeatures)，所以GRU 的输入会reshape(view) 成(1,1,numFeatures)。后面的翻译的例子我们会学习怎么一次处理多个时刻一个batch 的数据。

输入和输出

每个chunk 会变成一个LongTensor，做法是遍历每一个字母然后把它变成all_characters里的下标。

# 把string变成LongTensor

def char_tensor(string):

    tensor = torch.zeros(len(string)).long()

    forc inrange(len(string)):

    tensor[c] = all_characters.index(string[c])

    returnVariable(tensor)

print(char_tensor('abcDEF'))

最后我们随机的选择一个字符串作为训练数据，输入是字符串的第一个字母到倒数第二个字母，而输出是从第二个字母到最后一个字母。比如字符串是”abc”，那么输入就是”ab”，输出是”bc”

def random_training_set():

    chunk = random_chunk()

    inp = char_tensor(chunk[:-1])

    target = char_tensor(chunk[1:])

    return inp, target

生成句子

为了评估模型生成的效果，我们首先需要让它来生成一些句子。

def evaluate(prime_str='A', predict_len=100, temperature=0.8):

    hidden = decoder.init_hidden()

    prime_input = char_tensor(prime_str)

    predicted = prime_str

# 假设输入的前缀是字符串prime_str，先用它来改变隐状态

for p in range(len(prime_str) - 1):

    _, hidden = decoder(prime_input[p], hidden)

    inp = prime_input[-1]

    for p in range(predict_len):

        output, hidden = decoder(inp, hidden)

        # 根据输出概率采样

        output_dist = output.data.view(-1).div(temperature).exp()

        top_i = torch.multinomial(output_dist, 1)[0]

        # 用上一个输出作为下一轮的输入

        predicted_char = all_characters[top_i]

        predicted += predicted_char

        inp = char_tensor(predicted_char)

        return predicted

训练

def train(inp, target):

    hidden = decoder.init_hidden()

    decoder.zero_grad()

    loss = 0

    for c in range(chunk_len):

        output, hidden = decoder(inp[c], hidden)

        loss += criterion(output, target[c])

        loss.backward()

        decoder_optimizer.step()

        return loss.data[0] / chunk_len

接下来我们定义训练的参数，初始化模型，开始训练：

n_epochs = 2000

print_every = 100

plot_every = 10

hidden_size = 100

n_layers = 1

lr = 0.005

decoder = RNN(n_characters, hidden_size, n_characters, n_layers)

decoder_optimizer = torch.optim.Adam(decoder.parameters(), lr=lr)

criterion = nn.CrossEntropyLoss()

start = time.time()

all_losses = []

loss_avg = 0

for epoch in range(1, n_epochs + 1):

    loss = train(*random_training_set())

    loss_avg += loss

    if epoch % print_every == 0:

    print('[%s (%d %d%%) %.4f]' % (time_since(start), epoch, epoch /

n_epochs * 100, loss))

    print(evaluate('Wh', 100), 'n')

    if epoch % plot_every == 0:

        all_losses.append(loss_avg / plot_every)

        loss_avg = 0

绘图

import matplotlib.pyplot as plt

import matplotlib.ticker as ticker

%matplotlib inline

plt.figure()

plt.plot(all_losses)

图5.23: RNN 生成器的损失函数

测试

print(evaluate('Th', 200, temperature=0.8))

输出：

Ther

you go what loved ancut that me to the werefered all your to they

That the pessce, shap treed fortimesok theie chator

The vuent tere mytreance her will notyoue

Which mybessin, shall brie lans

Reference:

https://www.sohu.com/a/231002202_633698

你可能感兴趣的:(Ubuntu,Deep,Learning,pytorch)

[学习笔记-SLAM篇]Ubuntu16.04+ROS下配置ORB-SLAM3——后续 warningm_dm SLAM篇
作为一篇后记，就主要做补充之用。索引1.编译不显示warning2.LocalMapping报错3.KannalaBrandt8报错4.RGB-D设置文件1.编译不显示warning编译的过程中有报错，但是一贯的，warning太多了，所以修改一下，便于找错。参考ubuntu18.04配置ORB-SLAM3。将ORB-SLAM3的CMakeLists.txt中的-Wall后面加上-w，可屏蔽编译的
DeepSeek 实用集成 - 大模型能力轻松接入各类软件 code在飞 ai
将DeepSeek大模型能力轻松接入各类软件详细点击awesome-deepseek-integration/README_cn.mdatmain·deepseek-ai/awesome-deepseek-integration·GitHub
Deepseek 组合落地都是王炸 qqxinxi 运维教学运维 deepseek python 大数据
思维即资产，模型是股东。有了Deepseek模型，思维资产才能增值。Deepseek+kimi自动生成PPTDeepseek+ClineAI编程好帮手Deepseek+剪映一键生成短视频Deepseek+MJ设计师诞生Deepseek+Dify企业快速搭建本地知识库Deepseek+Notion文本知识库Deepseek+Otter一键转会议记录Deepseek+即梦+tripo3D模型分分钟De
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
一文读懂！深度学习 + PyTorch 的超实用学习路线 a小胡哦深度学习 python pytorch
深度学习作为人工智能领域的核心技术，正深刻改变着诸多行业。PyTorch则是深度学习实践中备受青睐的框架，它简单易用且功能强大。下面就为大家详细规划深度学习结合PyTorch的学习路线。一、基础知识储备数学基础数学是很重要的！！！线性代数、概率论与数理统计、微积分是深度学习的数学基石。熟悉矩阵运算、概率分布、梯度计算等概念，能帮助理解深度学习模型的原理。例如，在神经网络中，矩阵乘法用于神经元之间的
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
本地部署DeepSeek + AnythingLLM 搭建高效安全的个人知识库 Chhjnavy AI DeepSeek 大模型本地知识库协同工作
环境准备：本地部署方案请参考博客：windows平台本地部署DeepSeek大模型+OpenWebUI网页界面（可以离线使用）-CSDN博客windows平台本地部署DeepSeek大模型+Chatbox界面（可以离线使用）-CSDN博客根据本人电脑配置：windows11+i9-13900HX+RTX4060+DDR5560032G内存确定搭建方案：DeepSeek-R1:7b+Ollama+A
在Linux(CentOS、Ubuntu等等)中安装Erlang和Elixir
检查旧版本$uname-aLinuxws-ersyia-05.4.241-1-tlinux4-0017.10#1SMPWedMay817:01:03CST2024x86_64x86_64x86_64GNU/Linux$elixir--versionErlang/OTP24[erts-12.3.2.17][source][64-bit][smp:8:2][ds:8:2:10][async-threa
FFmpeg 源码编译安装 coolhuhu~ 语音 linux ffmpeg
参考：https://trac.ffmpeg.org/wiki/CompilationGuide/UbuntuLinux(Ubuntu)下载FFmpeg源码，并将其解压，这里我将它放在~/ffmpeg_source目录下；cd~/ffmpeg_sourceswget-Offmpeg-snapshot.tar.bz2https://ffmpeg.org/releases/ffmpeg-snapsho
DeepSeek多软件协同效应，产生的王炸组合 Chhjnavy AI 人工智能 DeepSeek 协同工作
DeepSeek网址:DeepSeek|深度求索1.DeepSeek+Kimi：一键生成高质量PPT，快速制作专业演示文稿Kimi网址:Kimi.ai-会推理解析，能深度思考的AI助手步骤：将PPT内容描述给DeepSeek，产生PPT大纲以及内容；将DeepSeek产生的大纲以及内容，丢到Kimi+模型中，即可自动产生PPT；2.DeepSeek+剪映：生成原创视频，适用于短视频创作剪映网址:剪
观影《哪吒2》后，我用 DeepSeek梳理了封神人物关系潘智祥 LLM DeepSeek
年初四晚上跟老婆还有老婆的弟弟（也就是小舅子，但我一直不习惯这个称谓）去看了哪吒2，老婆说，我们好像有快2年没去电影院看过电影了。从前年老婆怀孕开始，确实没再去过电影院。哪吒2中提到了很多《封神演义》中的角色，比如无量仙翁、昆仑十二金仙、元始天尊等，哪吒本身也是封神中的一个重要角色。我一直对于中国的神话体系还挺有兴趣的，正好最近DeepSeek很火，我就用DeepSeeKR1+联网搜索整理了一下这
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
ubuntu配置pip 清华源溯源006 论文复现 ubuntu pip linux
在Ubuntu上配置pip源可以通过修改~/.pip/pip.conf文件来完成。打开终端（Terminal）并输入以下命令创建或编辑该文件：nano~/.pip/pip.conf如果提示没有该目录或者文件不存在，则会自动创建相应的目录及文件。或者用其他编辑器也可以比如vim或者其他文本编辑器。将以下内容复制到pip.conf中保存退出：[global]index-url=https://pypi
deepseek和ChatGPT 4o比较调皮的芋头 chatgpt 人工智能
DeepSeek和ChatGPT4o在实现方式、评测效果和使用体验方面的详细比较：实现方式：DeepSeek：推理型大模型DeepSeek的核心是推理型大模型，与指令型大模型不同，它不需要用户提供详细的步骤指令，而是通过理解用户的真实需求和场景来提供答案。后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”（后训练+SFT/RL/RLHF），使其不仅知道得多还用得好
使用 SCP 命令在 Linux/Debian/Ubuntu 终端中进行文件远程传输理工男老K ubuntu linux 运维
使用SCP命令在Linux/Debian/Ubuntu终端中进行文件远程传输SCP（SecureCopyProtocol，安全复制协议）是一种命令行实用程序，允许你通过网络在两个主机之间安全地传输文件。它使用SSH（SecureShell，安全外壳协议）进行身份验证和加密，确保传输的数据安全。SCP的基本语法SCP命令的基本语法如下：scp[选项][源文件][目标位置]示例将文件从本地系统复制到远
基于 Debian 的系统（如 Ubuntu）上安装、启动和配置 SSH 服务的指令流 fanxbl957 linux debian ubuntu ssh linux
主要指令流和步骤简述：安装SSHdpkg-l|grepssh检查SSH服务是否已安装,如果输出中包含`openssh-server`,则说明SSH服务已经安装sudoapt-getinstallopenssh-server安装SSH服务ps-e|grepssh检查SSH服务是否已经启动,如果输出中包含`sshd`,则说明SSH服务已经启动sudoservicesshstart启动SSH服务sudo
采用分布式部署deepseek 慧香一格 AI 学习分布式 deepseek
分布式部署DeepSeek涉及使用多个计算节点来加速模型训练或提升推理效率。下面是一个基本的指南，帮助您了解如何进行分布式部署。1.环境准备硬件需求：确保您的集群环境中有足够的GPU资源，并且所有机器之间可以通过高速网络互联。软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo
水务+AI应用探索（一）| FastGPT+DeepSeek 本地部署 LLM. 人工智能 LLM 清华大学 deepseek 程序员 fastgpt 本地化部署
在当下的科技浪潮中，AI无疑是最炙手可热的焦点之一，其强大的能力催生出了丰富多样的应用场景，广泛渗透到各个行业领域。对于水务行业而言，AI的潜力同样不可估量。为了深入探究AI在水务领域的实际应用成效，切实掌握与之相关的前沿应用技术，我们积极开展了AI在水务业务应用方面的实践工作，力求为行业发展带来新的突破与变革。一deepseek的本地化部署二搭建企业知识库应用三AI应用实践：工单地址信息识别四A
有了ChatGPT和deepseek，我们还需要刷力扣吗 Ash Butterfield 人工智能
像ChatGPT这样的AI写手可以帮助我们大幅度提高工作效率，尤其是在代码生成、文档编写等方面。但对于是否需要深入学习基础算法和刷力扣这类问题，还是有一些值得思考的地方。1.AI的局限性深度发问与思考：虽然像ChatGPT这样的AI工具能生成代码，但这些代码生成并不代表你完全不需要理解基础算法。AI可以帮助你自动化一些任务，但它并不能完全替代对问题的深度理解和思考。理解算法的原理和背后的数学知识，
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
《Ollama 与 DeepSeek 整合应用入门指南》一、二、三章 Allen-Steven ollama deepseek
第一章：工具概述与核心价值1.1Ollama技术解析本地化部署优势：无需网络连接的数据隐私保护跨平台架构设计：支持Windows/macOS/Linux全平台模型管理引擎：自动化处理模型依赖与版本控制1.2DeepSeek模型特性多模态处理能力：文本生成、代码理解、数学推理中文优化架构：针对中文语料的特殊训练策略模型家族图谱：从1.3B到67B的参数规模选择1.3技术整合价值本地智能计算：企业数据
CSDN宣布C知道产品接入DeepSeek R1满血版大模型，文心一言、星火认知模型周杰伦_Jay 大模型LLMs 热点事件文心一言人工智能 leetcode 目标检测机器学习自然语言处理生成对抗网络
文章目录前言一、产品升级与模式革新二、技术整合与大模型应用三、深度思考模式的核心优势四、应用场景与用户受益五、未来发展与技术创新前言亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：fn_kobe@163.com一、产品升级与模式革新CSDN宣布C知道产品接入DeepSeek大模型。通过植入“深度思考模式”，全面升级AI
DeepSeek 实用集成,接入各类软件安替-AnTi deepseek 集成软件实用
将DeepSeek大模型能力轻松接入各类软件。访问DeepSeek开放平台来获取您的APIkey。详细内容参考：点我应用程序QuantalogicQuantaLogic是一个ReAct（推理和行动）框架，用于构建高级AI代理
本地化部署AI知识库：基于Ollama+DeepSeek+AnythingLLM保姆级教程 elecfan2011 人工智能
前言在数据安全和隐私保护需求日益增长的今天，本地化部署AI知识库成为企业/开发者的首选方案。本文将手把手教你如何通过Ollama（模型管理工具）、DeepSeek-R1（国产开源大模型）和AnythingLLM（知识库管理平台），搭建一套完全本地运行的智能问答系统。全程无需联网，数据100%私有化！目录环境准备与工具安装部署DeepSeek-R1模型配置AnythingLLM知识库平台构建本地知识
腾讯云大模型知识引擎×DeepSeek赋能文旅繁依Fanyi python
腾讯云大模型知识引擎×DeepSeek赋能文旅——以合肥文旅为例的技术革新与实践路径一、技术底座：知识引擎与DeepSeek的融合逻辑腾讯云大模型知识引擎与DeepSeek模型的结合，本质上是**“知识库+检索增强生成（RAG）+实时联网能力”**的技术框架升级。通过三步调用API接口，开发者可快速搭建基于DeepSeek的文旅智能应用。其核心优势包括：动态知识更新：突破传统大模型预训练数据的时间
DeepSeek大模型的发展的十问十答科技互联人生人工智能 AIGC Deepseek
DeepSeek大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型，具体介绍如下：1.架构基础Transformer架构：DeepSeek大模型基于Transformer架构，该架构由Google在2017年提出，以自注意力机制为核心，能够并行处理输入序列中的每个元素，从而大大提高模型的计算效率。DeepSeek在Transformer架构的基
Fatal error in launcher: Unable to create process报错萧若珮笔记
完整报错是这样的：Fatalerrorinlauncher:Unabletocreateprocessusing'"c:\jenkins\workspace\deepview-python_2.5.14\python\python.exe""D:\software\eIQ\python\Scripts\pip.exe"showtensorflow':???????????查资料可以知道这种情况出现
huggingface/pytorch-image-models GarryLau ML&DL pytorch python huggingface
huggingface/pytorch-image-models1.使用技巧1.1.训练指令单卡：pythontrain.py--pretrained--input-size3224224--mean000--std111--batch-size128--validation-batch-size128--color-jitter-prob0.2--grayscale-prob0.2--gauss
揭密 scaling laws deardao 机器学习
ScalinglawsOpenAI在其早期的关于scalinglaws的论文[1]中提出了基础理论，但该文缺乏一些具体的求解过程，且未能在更大规模的模型上进行验证。与此同时，后续研究，例如DeepMind的ChinChilla[2]还提出了不同的结论。论文题目：UnravelingtheMysteryofScalingLaws:PartI论文地址：https://arxiv.org/abs/240
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1