普通网友

使用PyTorch建立

概述
学习如何使用PyTorch执行文本分类
理解解决文本分类时所涉及的要点
学习使用包填充(Pack Padding)特性
介绍
我总是使用最先进的架构来在一些比赛提交模型结果。得益于PyTorch、Keras和TensorFlow等深度学习框架，实现最先进的体系结构变得非常容易。这些框架提供了一种简单的方法来实现复杂的模型体系结构和算法，而只需要很少的概念知识和代码技能。简而言之，它们是数据科学社区的一座金矿!

在本文中，我们将使用PyTorch，它以其快速的计算能力而闻名。因此，在本文中，我们将介绍解决文本分类问题的关键点。然后我们将在PyTorch中实现第一个文本分类器!

为什么使用PyTorch进行文本分类?
处理词汇表外单词
处理可变长度序列
包装器和预训练模型
理解问题
实现文本分类
为什么使用PyTorch进行文本分类?
在深入研究技术概念之前，让我们先快速熟悉一下将要使用的框架——PyTorch。PyTorch的基本单位是张量，类似于python中的“numpy”数组。使用PyTorch有很多好处，但最重要的两个是:

动态网络——运行时架构的变化
跨gpu的分布式训练

我敢肯定你想知道——为什么我们要使用PyTorch来处理文本数据?让我们讨论一下PyTorch的一些令人难以置信的特性，这些特性使它不同于其他框架，特别是在处理文本数据时。

处理词汇表外单词
文本分类模型根据固定的词汇量进行训练。但在推理过程中，我们可能会遇到一些词汇表中没有的词。这些词汇被称为词汇量外单词(Out of Vocabulary)，大多数深度学习框架缺乏处理词汇量不足的能力。这是一个关键的问题，甚至可能导致信息的丢失。

为了处理词汇量不足的单词，PyTorch支持一个很好的功能，它用未知的token替换训练数据中的稀有单词。这反过来又帮助我们解决了词汇量不足的问题。

除了处理词汇之外，PyTorch还有一个可以处理可变长度序列的特性!

处理可变长度序列
你听说过循环神经网络是如何处理可变长度序列的吗?有没有想过如何实现它?PyTorch提供了一个有用的特性“填充序列”(Packed Padding sequence)，它实现了动态循环神经网络。

填充是在句首或句尾添加一个称为填充标记的额外标记的过程。由于每个句子中的单词数量不同，我们通过添加填充标记将可变长度的输入句子转换为具有相同长度的句子。

填充是必须的，因为大多数框架支持静态网络，即架构在整个模型训练过程中保持不变。虽然填充解决了可变长度序列的问题，但是这种思想还有另一个问题——体系结构现在像处理任何其他信息/数据一样处理这些填充标记。让我用一个简单的图表来解释一下

正如你在下图中所看到的，在生成输出时还使用了最后一个元素，即padding标记。这是由PyTorch中的填充序列来处理的。

压缩填充会对填充标记忽略输入时间步。这些值不输入给循环神经网络，这帮助我们建立动态循环神经网络。

3.包装器和预训练模型
最新的模型架构状态正在为PyTorch框架发布。Hugging Face发布Transformers，其中提供超过32个自然语言理解生成的最新架构!

不仅如此，PyTorch还为文本到语音、对象检测等任务提供了预训练模型，这些任务可以在几行代码内执行。

不可思议,不是吗?这些是PyTorch的一些非常有用的特性。现在让我们使用PyTorch解决一个文本分类问题。

理解问题陈述
作为本文的一部分，我们将研究一个非常有趣的问题。

Quora希望在他们的平台上追踪不真诚的问题，以便让用户在分享知识的同时感到安全。在这种情况下，一个不真诚的问题被定义为一个旨在发表声明的问题，而不是寻找有用的答案。为了进一步分析这个问题，这里有一些特征可以表明一个特定的问题是不真诚的:

语气非中性
是贬低还是煽动性的
没有现实根据
使用性内容(乱伦、兽交、恋童癖)来达到令人震惊的效果，而不是寻求真正的答案
训练数据包括被询问的问题，以及一个表示是否被识别为不真诚的标记(target = 1)。标签包含一些噪音，即它们不能保证是完美的。我们的任务是识别某个问题是否“不真诚”。你可以从这里下载数据集。

https://drive.google.com/file/d/1fcip8PgsrX7m4AFgvUPLaac5pZ79mpwX/view?usp=drive_open

现在是使用PyTorch编写我们自己的文本分类模型的时候了。

实现文本分类
让我们首先导入构建模型所需的所有必要库。下面是我们将使用的包/库的简要概述

Torch包用于定义张量和张量上的数学运算
torchtext是PyTorch中的一个自然语言处理(NLP)库。这个库包含预处理文本的脚本和一些流行的NLP数据集的源。
#导入库
import torch

#处理数据
from torchtext import data
1
2
3
4
为了使结果可重复，我指定了种子值。由于深度学习模型在执行时由于其随机性可能会产生不同的结果，因此指定种子值是很重要的。

#产生同样的结果
SEED = 2019

#Torch
torch.manual_seed(SEED)

#Cuda 算法
torch.backends.cudnn.deterministic = True
1
2
3
4
5
6
7
预处理数据:

现在，让我们看看如何使用字段对象对文本进行预处理。字段对象有两种不同的类型——field和LabelField。让我们快速了解一下两者之间的区别

field:数据模块中的字段对象用于为数据集中的每一列指定预处理步骤。
LabelField: LabelField对象是Field对象的一个特例，它只用于分类任务。它的惟一用途是默认将unk_token和sequential设置为None。
在我们使用field之前，让我们看看field的不同参数和它们的用途。

field的参数:

Tokenize:指定标记句子的方法，即将句子分词。我正在使用spacy分词器，因为它使用了新的分词算法
Lower:将文本转换为小写
batch_first:输入和输出的第一个维度总是批处理大小
接下来，我们将创建一个元组列表，其中每个元组中的第一个值包含一个列名，第二个值是上面定义的字段对象。此外，我们将按照csv列的顺序排列每个元组，并指定为(None,None)以忽略csv文件中的列。让我们只读需要的列-问题和标签

fields = [(None, None), (‘text’,TEXT),(‘label’, LABEL)]
在下面的代码块中，我通过定义字段对象加载了自定义数据集。

#载入自定义数据集
training_data=data.TabularDataset(path = ‘quora.csv’,format = ‘csv’,fields = fields,skip_header = True)

print(vars(training_data.examples[0]))
1
2
3
现在，让我们将数据集分为训练和验证数据

import random
train_data, valid_data = training_data.split(split_ratio=0.3, random_state = random.seed(SEED))
1
准备输入和输出序列:

下一步是为文本构建词汇表，并将它们转换为整数序列。词汇表包含了整篇文章中出现的词汇。每个唯一的单词都有一个索引。下面列出了相同的参数

参数:

min_freq:忽略词汇表中频率小于指定频率的单词，并将其映射到未知标记。
两个特殊的标记(称为unknown和padding)将被添加到词汇表中
unknown标记用于处理词汇表中的单词
padding标记用于生成相同长度的输入序列
让我们构建词汇表，并使用预训练好的嵌入来初始化单词。如果希望随机初始化嵌入，请忽略vectors参数。

#初始化glove embeddings
TEXT.build_vocab(train_data,min_freq=3,vectors = “glove.6B.100d”)
LABEL.build_vocab(train_data)

print(“Size of TEXT vocabulary:”,len(TEXT.vocab))

print(“Size of LABEL vocabulary:”,len(LABEL.vocab))

print(TEXT.vocab.freqs.most_common(10))

print(TEXT.vocab.stoi)
1
2
3
4
5
6
7
8
9
10
现在我们准备批训练模型。BucketIterator以需要最小填充量的方式形成批。

#检查cuda是否可用
device = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’)

#设置batch大小
BATCH_SIZE = 64

#载入迭代器
train_iterator, valid_iterator = data.BucketIterator.splits(
(train_data, valid_data),
batch_size = BATCH_SIZE,
sort_key = lambda x: len(x.text),
sort_within_batch=True,
device = device)
1
2
3
4
5
6
7
8
9
10
11
12
模型架构
现在是定义体系结构来解决二分类问题的时候了。torch中的神经网络模块是所有模型的基础模型。这意味着每个模型都必须是nn模块的子类。

我在这里定义了两个函数:init和forward。让我来解释一下这两个函数的用例

Init:每当创建类的实例时，都会自动调用Init函数。因此，它被称为构造函数。传递给类的参数由构造函数初始化。我们将定义将在模型中使用的所有层
Forward: Forward函数定义输入的前向传播。
最后，让我们详细了解用于构建体系结构的不同层及其参数

嵌入层:嵌入对于任何与NLP相关的任务都是非常重要的，因为它以向量格式表示一个单词。嵌入层创建一个查找表，其中每一行表示一个单词的嵌入。嵌入层将整数序列转换成向量表示。这里是嵌入层两个最重要的参数-

num_embeddings:字典中的单词数量
embedding_dim:单词的维度
LSTM: LSTM是RNN的一个变体，能够捕获长期依赖项。遵循你应该熟悉的LSTM的一些重要参数。以下是这一层的参数:

input_size:输入的维度
hidden_size:隐藏节点的数量
num_layers:要堆叠的层数
batch_first:如果为真，则输入和输出张量以(batch, seq, feature)的形式提供。
dropout:如果非零，则在除最后一层外的每一LSTM层的输出上引入一个dropout层，dropout概率等于dropout。默认值:0
bidirection:如果为真，则引入双向LSTM
线性层:线性层是指Dense层。这里的两个重要参数如下:

in_features:输入的特征数量
out_features:隐藏层的节点数量
包填充:如前所述，包填充用于定义动态循环神经网络。如果没有填充包，填充输入也由rnn处理，并返回填充元素的隐状态。这是一个非常棒的包装器，它不显示填充的输入。它只是忽略这些值并返回未填充元素的隐藏状态。

现在我们已经很好地理解了架构的所有块，让我们来看代码!我将从定义架构的所有层开始:

import torch.nn as nn

class classifier(nn.Module):

#定义所有层
def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, 
             bidirectional, dropout):
    
    super().__init__()          
    
    #embedding 层
    self.embedding = nn.Embedding(vocab_size, embedding_dim)
    
    #lstm 层
    self.lstm = nn.LSTM(embedding_dim, 
                       hidden_dim, 
                       num_layers=n_layers, 
                       bidirectional=bidirectional, 
                       dropout=dropout,
                       batch_first=True)
    
    #全连接层
    self.fc = nn.Linear(hidden_dim * 2, output_dim)
    
    #激活函数
    self.act = nn.Sigmoid()
    
def forward(self, text, text_lengths):
    
    #text = [batch size,sent_length]
    embedded = self.embedding(text)
    #embedded = [batch size, sent_len, emb dim]
  
    packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded, text_lengths,batch_first=True)
    
    packed_output, (hidden, cell) = self.lstm(packed_embedded)
    #hidden = [batch size, num layers * num directions,hid dim]
    #cell = [batch size, num layers * num directions,hid dim]
    
    #连接最后的正向和反向隐状态
    hidden = torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim = 1)
            
    #hidden = [batch size, hid dim * num directions]
    dense_outputs=self.fc(hidden)

    #激活
    outputs=self.act(dense_outputs)
    
    return outputs

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
下一步是定义超参数并实例化模型。下面是相同的代码块:

#定义超参数
size_of_vocab = len(TEXT.vocab)
embedding_dim = 100
num_hidden_nodes = 32
num_output_nodes = 1
num_layers = 2
bidirection = True
dropout = 0.2

#实例化模型
model = classifier(size_of_vocab, embedding_dim, num_hidden_nodes,num_output_nodes, num_layers,
bidirectional = True, dropout = dropout)
1
2
3
4
5
6
7
8
9
10
11
让我们看看模型摘要，并使用预先训练好的嵌入来初始化嵌入层

#模型体系
print(model)

def count_parameters(model):
return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f’The model has {count_parameters(model):,} trainable parameters’)

#初始化预训练embedding
pretrained_embeddings = TEXT.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)

print(pretrained_embeddings.shape)
1
2
3
4
5
6
7
8
9
10
11
12
这里我已经为模型定义了优化器，损失和度量:

import torch.optim as optim

#定义优化器和损失
optimizer = optim.Adam(model.parameters())
criterion = nn.BCELoss()

#定义度量
def binary_accuracy(preds, y):
#四舍五入到最接近的整数
rounded_preds = torch.round(preds)

correct = (rounded_preds == y).float() 
acc = correct.sum() / len(correct)
return acc

#如果cuda可用
model = model.to(device)
criterion = criterion.to(device)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
构建模型分为两个阶段:

训练阶段:model.train()将模型设置在训练阶段，并激活dropout层。
推理阶段:model.eval()将模型设置在评估阶段，并停用dropout层。
下面是定义用于训练模型的函数的代码块

def train(model, iterator, optimizer, criterion):

#初始化
epoch_loss = 0
epoch_acc = 0

#设置为训练模式
model.train()  

for batch in iterator:
    
    #在每一个batch后设置0梯度
    optimizer.zero_grad()   
    
    text, text_lengths = batch.text   
    
    #转换成一维张量
    predictions = model(text, text_lengths).squeeze()  
    
    #计算损失
    loss = criterion(predictions, batch.label)        
    
    #计算二分类精度
    acc = binary_accuracy(predictions, batch.label)   
    
    #反向传播损耗并计算梯度
    loss.backward()       
    
    #更新权重
    optimizer.step()      
    
    #损失和精度
    epoch_loss += loss.item()  
    epoch_acc += acc.item()    
    
return epoch_loss / len(iterator), epoch_acc / len(iterator)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
我们有一个函数来训练模型，但我们也需要一个函数来评估模型。让我们这样做

def evaluate(model, iterator, criterion):

#初始化
epoch_loss = 0
epoch_acc = 0

#停用dropout层
model.eval()

#取消autograd
with torch.no_grad():

    for batch in iterator:
    
        text, text_lengths = batch.text
        
        #转换为一维张量
        predictions = model(text, text_lengths).squeeze()
        
        #计算损失和准确性
        loss = criterion(predictions, batch.label)
        acc = binary_accuracy(predictions, batch.label)
        
        #跟踪损失和准确性
        epoch_loss += loss.item()
        epoch_acc += acc.item()
    
return epoch_loss / len(iterator), epoch_acc / len(iterator)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
最后，我们将对模型进行若干个epoch的训练，并在每个epoch保存最佳模型。

N_EPOCHS = 5
best_valid_loss = float(‘inf’)

for epoch in range(N_EPOCHS):

#训练模型
train_loss, train_acc = train(model, train_iterator, optimizer, criterion)

#评估模型
valid_loss, valid_acc = evaluate(model, valid_iterator, criterion)

#保存最佳模型
if valid_loss < best_valid_loss:
    best_valid_loss = valid_loss
    torch.save(model.state_dict(), 'saved_weights.pt')

print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%')
print(f'\t Val. Loss: {valid_loss:.3f} |  Val. Acc: {valid_acc*100:.2f}%')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
让我们加载最佳模型并定义接受用户定义的输入并进行预测的推理函数

#载入权重
path=’/content/saved_weights.pt’
model.load_state_dict(torch.load(path));
model.eval();

#推理
import spacy
nlp = spacy.load(‘en’)

def predict(model, sentence):
tokenized = [tok.text for tok in nlp.tokenizer(sentence)] #标记句子
indexed = [TEXT.vocab.stoi[t] for t in tokenized] #转换为整数序列
length = [len(indexed)]
tensor = torch.LongTensor(indexed).to(device) #转换为tensor
tensor = tensor.unsqueeze(1).T
length_tensor = torch.LongTensor(length) #转换为tensor
prediction = model(tensor, length_tensor) #预测
return prediction.item()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
让我们用这个模型来预测几个问题:

#作出预测
predict(model, “Are there any sports that you don’t like?”)

#不真诚的问题
predict(model, “Why Indian girls go crazy about marrying Shri. Rahul Gandhi ji?”)
1
2
3
4
结尾
我们已经看到了如何在PyTorch中构建自己的文本分类模型，并了解了包填充的重要性。

你可以尝试使用调试LSTM模型的超参数，并尝试进一步提高准确性。一些要调优的超参数可以是LSTM层的数量、每个LSTM单元中的隐藏单元的数量等等。
————————————————
版权声明：本文为CSDN博主「磐创 AI」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/fendouaini/article/details/104400432

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

使用PyTorch建立

你可能感兴趣的:(使用PyTorch建立)