weixin_39593744

python lstm 模型训练好后如何使用_【自然语言处理】的迁移学习：微调BERT来对垃圾邮件进行分类【含Python演示】...

随着深度学习的发展，递归神经网络(RNN和LSTM)和卷积神经网络(CNN)等神经网络结构已经完成了自然语言处理(NLP)的大部分任务，它在文本分类、语言建模、机器翻译等性能上都有了很大的提高。

然而，与计算机视觉（Computer Vision）中的深度学习性能相比，自然语言处理的深度学习模型的性能就差强人意了。

原因之一在于缺少大型带标记的文本数据集。目前，大多数带标记的文本数据集对于自然语言处理的深度学习模型来说都不够“大”，不足以训练深度神经网络，因为深度神经网络的参数量很大，如果在小数据集上训练这样的网络会导致过拟合。

（对于过拟合的概念解释有很多，小编这里摘来《数据挖掘-概念与技术》中的解释便于大家理解，“即在机器学习期间，它可能并入了训练数据中的某些特殊的异常点，这些异常不在一般数据集中出现。”）
（overfittingt是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。）

除此之外，自然语言处理落后于计算机视觉发展的另一个重要原因是它缺乏迁移学习（transfer learning）。要知道，迁移学习在计算机视觉深度学习中发挥了重要作用。借助Imagenet等大型标记数据集的强可用性，基于CNN的深度模型训练成为可能——目前，这些大型标记数据集已经被广泛用作于计算机视觉任务的预训练模型了。

而在自然语言处理的深度学习上，直到2018年谷歌提出Transformer模型，NLP深度学习才算有了新的飞跃。

本文将通过实际演示来解释如何调整BERT来进行文本分类（Text Classification），包括以下几个部分：

自然语言处理中的迁移学习
模型微调（Model Fine-Tuning）是什么意思？
BERT简介
【实际演示】微调BERT来对垃圾邮件进行分类

1.自然语言处理中的迁移学习

迁移学习是一种将深度学习模型在大数据集里训练，然后在另一个数据集上执行类似任务的技术。我们称这种深度学习模型为预训练模型（Pre-trained Models）。

预训练模型最著名的例子是在ImageNet数据集里训练的计算机视觉（Computer Vision）深度学习模型。解决问题的最好方式是使用一个预先训练好的模型，而不是从头开始构建一个模型。拿日常工作和生活举例，想必大家为了顺利甚至完美地提案，一定会提前不断地进行准备和模拟吧？迁移学习是一个道理。

随着近年来自然语言处理的发展，迁移学习成为了一种可行的选择。

NLP中的大部分任务，如文本分类、语言建模、机器翻译等，都是序列建模任务（Sequence Modeling tasks）。这种传统的机器学习模型和神经网络无法捕捉文本中出现的顺序信息（sequential information）。因此，人们开始使用递归神经网络（RNN和LSTM），这些结构可以建模文本中出现的顺序信息。

一个典型的RNN

然而，递归神经网络也有局限，其中的主要问题是RNNs不能并行化（parallelized），它们一次只能接受一个输入。对于文本序列，RNN或LSTM每次输入只能接受一次切分（Token），即逐个地传递序列。如果在一个大数据集里训练这样一个模型会花费很多时间。

水涨船高的时间成本使在NLP里使用迁移学习的呼声不断，终于，在2018年，谷歌在《Attention is All You Need》一文中介绍了Transformer模型，这个模型成为了NLP深度学习的里程碑。

Transformer模型结构

很快，基于Transformer的NLP任务模型又多又快地发展起来。

使用Transformer的模型有很多优点，其中最重要的以下两点——

这些模型不是单个切分地处理输入的序列，而是将整个序列作为一次输入——这对于基于RNN的模型来说是一次速度的飞跃，因为这意味着现在模型可以靠GPUs加速了！
我们不需要标记数据来预训练这些模型了——我们只需要提供大量未标记的文本数据来训练基于Transformer的模型。然后我们可以将这个训练模型套用在其他NLP任务中，如文本分类（Text Classification）、命名实体识别（Named Entity Recognition）、文本生成（Text Generation）等。这就是在自然语言处理中迁移学习的工作方式。

BERT和GPT-2是当下最流行的基于Transformer的模型，

而在本文中，我们将重点关注BERT并学习如何使用预先训练好的BERT模型来执行文本分类。

2. 模型微调（Model Fine-Tuning）是什么意思？

BERT（Bidirectional Encoder Representations from Transformers）是一个具有大量参数的大型神经网络架构，其参数量可以从1亿到3亿多个。所以，在一个小数据集上从零开始训练BERT模型会导致过拟合。

所以训练BERT模型需要从大型数据集开始，然后使用相对小的数据集上进行再训练模型，这个过程被称为模型微调（Model Fine-Tuning）。

模型微调的几种方法：

训练整个架构：我们可以在（相对较小的）训练数据集上的进一步训练整个预训练模型，并输出到softmax层。这种方法会让误差在整个架构中反向传播，并且模型的预训练权重会根据新的数据集进行更新。
训练部分层，同时冻结其他层：另一种使用预训练模型的方法是部分训练。我们保持保持模型初始层的权重不变，而只对更高层进行再训练。这种方法需要我们自己尝试需要冻结多少层，训练多少层。
冻结整个架构：这种方法是冻结整个预训练模型，加上一些我们自己的神经网络层，然后训练这个新模型。注意，这里只有附加层的权重会在训练期间更新。

本教程使用的是第三种方法，我们将在微调期间冻结整个BERT层，在其加上一个密集层和softmax层。

（softmax经常用在神经网络的最后一层，作为输出层，进行多分类。此外，softmax在增强学习领域内，softmax经常被用作将某个值转化为激活概率，这类情况下，softmax的公式如下：）

带温度参数的softmax函数

3. BERT简介

让我们来看看BERT研究团队如何描述其NLP框架的吧：

BERT全称为 Bidirectional Encoder Representations from Transformers（来自Transformer的双向编码器表示）。它通过对左右上下文的共同条件作用，来预先训练未标记文本的深层双向表示。因此，预先训练好的BERT模型可以通过一个额外的输出层进行微调，从而为NLP任务创建最先进的模型。

感觉是不是很深奥，我们一起梳理梳理吧！

首先，BERT全称是Bidirectional Encoder Representations from Transformers。这里的每个单词都有其意义，我们接下来会逐一介绍。目前，这一行需要记住的关键内容是——BERT是基于Transformer架构的。

其次，BERT预先训练了大量未标记的文本语料库，包括整个Wikipedia(25亿个单词!)和图书语料库(8亿个单词)。

预训练是BERT的出色之处。因为 当我们在一个大文本语料库里训练模型时，模型就能对语言如何生成有更深入透彻的理解——这对几乎所有自然语言处理任务而言都是重中之重。

第三，BERT是一个“深度双向”模型。双向意味着BERT在训练阶段可以同时从切词的左边和右边学习信息。

想要了解更多关于BERT体系结构及其预训练的信息，大家可以阅读下面这篇文章:

Demystifying BERT: A Comprehensive Guide to the Groundbreaking NLP Frameworkwww.analyticsvidhya.com

4.【实际演示】微调BERT来对垃圾邮件进行分类

现在我们将在ransformer库的帮助下对BERT模型进行微调，以执行文本分类——

问题陈述

在日常生活中接收的各类信息中，不免会有垃圾邮件。而我们的任务就是建立一个系统，可以自动检测消息是否是垃圾邮件。用例的数据集可以点击这里下载

安装Transformer库

我们将安装Huggingface的Transformer库。这个库允许导入大量基于Transformer的预训练模型。只需执行下面的代码来安装：

!pip install transformers

导入库

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import transformers
from transformers import AutoModel, BertTokenizerFast

# specify GPU
device = torch.device("cuda")

加载数据集

将数据集读入pandas数据框

df = ("")
()

该数据集由两列——“标签”和“文本”组成。“文本”列包含消息正文，“标签”列是一个二进制定类变量，1表示垃圾邮件，0表示该消息不是垃圾邮件。

现在我们将把这个数据集分成三个集——用于训练、验证和测试。

# split train dataset into train, validation and test sets

训练集和验证集用来对模型进行微调，并对测试集进行预测。

导入BERT模型和BERT切分

我们将导入有着亿个参数的BERT模型。其实还有一个更大的BERT模型叫做BERT-large，它有亿个参数。

# import BERT-base pretrained model
bert = ('bert-base-uncased')

# Load the BERT tokenizer
tokenizer = ('bert-base-uncased')

让我们来看看这个BERT切分是怎么工作的吧。先试着使用它对几个句子进行编码：

# sample data
text = ["this is a bert model tutorial", "we will fine-tune a bert model"]

# encode text
sent_id = (text, padding=True)

# output
print(sent_id)

这是输出结果：

{‘input_ids’: [[101, 2023, 2003, 1037, 14324, 2944, 14924, 4818, 102, 0],
[101, 2057, 2097, 2986, 1011, 8694, 1037, 14324, 2944, 102]],

‘attention_mask’: [[1, 1, 1, 1, 1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

可以看见，输出是一个包含两个条目的dictionary。

' input_ids '包含输入句子的整数序列。整数101和102是特殊切分。我们将它们添加到两个序列中，0表示填充切分。' attention_mask '包含1和0，它告诉模型要注意与掩码值1对应的标记并忽略其余的。

切分句子

# get length of all the messages in the train set
seq_len = [len(()) for i in train_text]

(seq_len).hist(bins = 30)

我们可以清楚地看到，大多数句子的长度为25个字符或更少。而最大长度是175。如果我们选择175作为填充长度那么所有输入序列长度为175,大部分的标记在这些序列将填充标记不会帮助模型学习任何有用的东西,最重要的是,它会使训练速度较慢。

因此，我们将设25为填充长度。

# tokenize and encode sequences in the training set
tokens_train = (
    (),
    max_length = 25,
    pad_to_max_length=True,
    truncation=True
)

# tokenize and encode sequences in the validation set
tokens_val = (
    (),
    max_length = 25,
    pad_to_max_length=True,
    truncation=True
)

# tokenize and encode sequences in the test set
tokens_test = (
    (),
    max_length = 25,
    pad_to_max_length=True,
    truncation=True

我们现在已经将训练，验证和测试集中的句子转换为每个长度为25个的切分整数序列。接下来，我们需要将整数序列转换为张量。

## convert lists to tensors

train_seq = (tokens_train['input_ids'])
train_mask = (tokens_train['attention_mask'])
train_y = (())

val_seq = (tokens_val['input_ids'])
val_mask = (tokens_val['attention_mask'])
val_y = (())

test_seq = (tokens_test['input_ids'])
test_mask = (tokens_test['attention_mask'])
test_y = (())

现在我们将为训练集和验证集创建dataloaders，这些dataloaders将在训练阶段将成批的训练数据和验证数据作为输入传递给模型。

from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler

#define a batch size
batch_size = 32

# wrap tensors
train_data = TensorDataset(train_seq, train_mask, train_y)

# sampler for sampling the data during training
train_sampler = RandomSampler(train_data)

# dataLoader for train set
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

# wrap tensors
val_data = TensorDataset(val_seq, val_mask, val_y)

# sampler for sampling the data during training
val_sampler = SequentialSampler(val_data)

# dataLoader for validation set
val_dataloader = DataLoader(val_data, sampler = val_sampler, batch_size=batch_size)

定义模型架构

小编在前文说到了，本次使用的微调方法是第三种，即在对模型进行微调之前，会冻结模型的所有层。如果有小伙伴希望微调BERT模型的预训练权重，那么就不需要执行下面这段代码。

# freeze all the parameters
for param in bert.parameters():
    param.requires_grad = False

接下来，就到定义我们的模型架构的时候了

class BERT_Arch():

    def __init__(self, bert):
      
      super(BERT_Arch, self).__init__()

       = bert 
      
      # dropout layer
       = nn.Dropout()
      
      # relu activation function
       =  nn.ReLU()

      # dense layer 1
       = nn.Linear(768,512)
      
      # dense layer 2 (Output layer)
       = nn.Linear(512,2)

      #softmax activation function
       = nn.LogSoftmax(dim=1)

    #define the forward pass
    def forward(self, sent_id, mask):

      #pass the inputs to the model  
      _, cls_hs = (sent_id, attention_mask=mask)
      
      x = (cls_hs)

      x = (x)

      x = (x)

      # output layer
      x = (x)
      
      # apply softmax activation
      x = (x)

      return x

# pass the pre-trained BERT to our define architecture
model = BERT_Arch(bert)

# push the model to GPU
model = (device)

我们将使用AdamW作为优化器。它是Adam优化器的改进版本。想要了解更多信息，请查阅本文。

# optimizer from hugging face transformers
from transformers import AdamW

# define the optimizer
optimizer = AdamW((),
                  lr = 1e-5)          # learning rate

在我们的数据集中有一个类出现了不平衡。大多数的观察结果并不是垃圾邮件。因此，我们将首先计算训练集合中标签的类权重，然后将这些权重传递给损失函数，这样它就能处理该类的不平衡了。

from sklearn.utils.class_weight import compute_class_weight

#compute the class weights
class_weights = compute_class_weight('balanced', (train_labels), train_labels)

print("Class Weights:",class_weights)

输出：[0.57743559 3.72848948]

# converting list of class weights to a tensor
weights= (class_weights,dtype=)

# push to GPU
weights = (device)

# define the loss function
cross_entropy  = (weight=weights) 

# number of training epochs
epochs = 10

微调BERT

目前为止，我们已经定义了模型架构，指定了优化器和损失函数，并且我们的dataloaders也设定完毕。现在，我们必须分别定义两个函数来训练(微调)和评估模型。

# function to train the model
def train():
  
  ()

  total_loss, total_accuracy = 0, 0
  
  # empty list to save model predictions
  total_preds=[]
  
  # iterate over batches
  for step,batch in enumerate(train_dataloader):
    
    # progress update after every 50 batches.
    if step % 50 == 0 and not step == 0:
      print('  Batch {:>5,}  of  {:>5,}.'.format(step, len(train_dataloader)))

    # push the batch to gpu
    batch = [(device) for r in batch]
 
    sent_id, mask, labels = batch

    # clear previously calculated gradients 
    model.zero_grad()        

    # get model predictions for the current batch
    preds = model(sent_id, mask)

    # compute the loss between actual and predicted values
    loss = cross_entropy(preds, labels)

    # add on to the total loss
    total_loss = total_loss + ()

    # backward pass to calculate the gradients
    loss.backward()

    # clip the the gradients to . It helps in preventing the exploding gradient problem
    torch.nn.utils.clip_grad_norm_((), )

    # update parameters
    optimizer.step()

    # model predictions are stored on GPU. So, push it to CPU
    preds=().cpu().numpy()

    # append the model predictions
    (preds)

  # compute the training loss of the epoch
  avg_loss = total_loss / len(train_dataloader)
  
  # predictions are in the form of (no. of batches, size of batch, no. of classes).
  # reshape the predictions in form of (number of samples, no. of classes)
  total_preds  = (total_preds, axis=0)

  #returns the loss and predictions
  return avg_loss, total_preds

现在，就让我们开始微调模型吧！

# function for evaluating the model
def evaluate():
  
  print("\nEvaluating...")
  
  # deactivate dropout layers
  model.eval()

  total_loss, total_accuracy = 0, 0
  
  # empty list to save the model predictions
  total_preds = []

  # iterate over batches
  for step,batch in enumerate(val_dataloader):
    
    # Progress update every 50 batches.
    if step % 50 == 0 and not step == 0:
      
      # Calculate elapsed time in minutes.
      elapsed = format_time(() - t0)
            
      # Report progress.
      print('  Batch {:>5,}  of  {:>5,}.'.format(step, len(val_dataloader)))

    # push the batch to gpu
    batch = [(device) for t in batch]

    sent_id, mask, labels = batch

    # deactivate autograd
    with torch.no_grad():
      
      # model predictions
      preds = model(sent_id, mask)

      # compute the validation loss between actual and predicted values
      loss = cross_entropy(preds,labels)

      total_loss = total_loss + ()

      preds = ().cpu().numpy()

      (preds)

  # compute the validation loss of the epoch
  avg_loss = total_loss / len(val_dataloader) 

  # reshape the predictions in form of (number of samples, no. of classes)
  total_preds  = (total_preds, axis=0)

  return avg_loss, total_preds

输出：

Training Loss: 0.592
Validation Loss: 0.567

Epoch 5 / 10
Batch 50 of 122.
Batch 100 of 122.

Evaluating...

Training Loss: 0.566
Validation Loss: 0.543

Epoch 6 / 10
Batch 50 of 122.
Batch 100 of 122.

Evaluating...

Training Loss: 0.552
Validation Loss: 0.525

Epoch 7 / 10
Batch 50 of 122.
Batch 100 of 122.

Evaluating...

Training Loss: 0.525
Validation Loss: 0.498

Epoch 8 / 10
Batch 50 of 122.
Batch 100 of 122.

Evaluating...

Training Loss: 0.507
Validation Loss: 0.477

Epoch 9 / 10
Batch 50 of 122.
Batch 100 of 122.

Evaluating...

Training Loss: 0.488
Validation Loss: 0.461

Epoch 10 / 10
Batch 50 of 122.
Batch 100 of 122.

Evaluating...

Training Loss: 0.474
Validation Loss: 0.454

可以看到，在第10纪元后，验证损失扔在减少，这意味着你可以你可以尝试更多训练纪元。现在就让我们看看它在测试数据集上的表现如何吧：

预测

我们需要先加载在训练过程中的最佳模型权重：

#load weights of best model
path = ''
((path))

使用微调模型对数据集做出预测：

# get predictions for test data
with torch.no_grad():
  preds = model((device), (device))
  preds = ().cpu().numpy()

来看看模型的表现如何吧！

preds = (preds, axis = 1)
print(classification_report(test_y, preds))

输出：

对于类1来说，召回率和精确度都相当高，这意味着该模型可以很好地预测该类。

然而，我们的目标是检测垃圾邮件，因此对第1类(垃圾邮件)样本的误分类要比对第0类样本的误分类更为重要。

让我们看看第1类的召回率——，这意味着该模型能够正确地分类90%的垃圾邮件。但其精度稍低了些，这说明模型将一些0类消息(不是垃圾邮件)错误地归类为垃圾邮件了。

小结

我们对一个预先训练好的BERT模型进行了微调，将其使用在非常小的数据集上执行文本分类。大家可以在不同的数据集上对BERT进行微调，看看它的表现如何，甚至可以使用BERT来执行多类或多标签分类。

当然，如果小伙伴们有更大的数据集，当然可以去尝试训练整个BERT体系结构！

如果小伙伴们觉得本文有意思，欢迎点赞收藏留言！也欢迎各位小伙伴关注【自然语言处理】学习帐，小编会定期更新最新鲜的自然语言处理实操案例，让我们一起体会数据秩序之美吧！

【自然语言处理】学习帐

你可能感兴趣的:(python,lstm,模型训练好后如何使用)

Spring Boot与Hazelcast整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Hazelcast整合教程简介Hazelcast是一个开源的内存数据网格（IMDG），提供分布式缓存、计算和数据结构功能。与SpringBoot整合后，可以快速实现分布式缓存、会话共享等功能。本教程将演示如何将Hazelcast嵌入SpringBoot应用。环境准备JDK17+Sp
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
大神之路安卓工匠程序员的自我修养
首先申明，文章是我在码农网摘过来的，那里没有分享，我感觉程序员也需要鸡汤，或者说这篇文章更应该是一篇一个过来人的经验，以及对我们这些想学计算机或者其他各行各业的人的一个简单的阐述。读完文章后，感觉收获很多，作者说的对，坚持，一鸣惊人需要坚持不断地做一件事。我是前端小学生，每天晚上都会练习代码，并浏览微博，前端路上，有你有我。有的人想成为大牛，却不曾为此努力。有的人辛苦耕耘，却收获寥寥。很多时候，你
Apache Tomcat漏洞公开发布仅30小时后即遭利用 FreeBuf- 资讯 apache tomcat 网络安全
近日，ApacheTomcat曝出一项安全漏洞，在公开发布概念验证（PoC）仅30小时后，该漏洞即遭到攻击者利用。这一漏洞编号为CVE-2025-24813，主要影响以下版本：1.ApacheTomcat11.0.0-M1至11.0.22.ApacheTomcat10.1.0-M1至10.1.343.ApacheTomcat9.0.0-M1至9.0.98漏洞详情与利用条件该漏洞可能导致远程代码执行
安全基线-rm命令防护晓夜残歌安全 chrome 前端运维 ubuntu 服务器
限制rm命令使用的多层级解决方案方案1：基础防护（个人/小型团队）1.1别名替换法#在~/.bashrc或全局/etc/bash.bashrc中添加aliasrm='echo"Usetrash-cliinstead.Installvia:sudoapt-getinstalltrash-cli"'aliasrm='trash-put'#安装后替换为实际命令优点：简单易行，防止误删缺点：可通过/bin
linux 编译QT atom,QT5 编译使用TagLib weixin_39551611 linux 编译QT atom
需要使用TagLib读取媒体信息,记录下编译过程使用的文件,使用Taglib库版本1.6.3QT版本5.12.3x32MinGWCMAKE版本3.9.0使用CMAKE配置TagLIbtagLib解压后如下:image配置环境变量选择mingw的bin路径,如下图image.png打开Cmake,在Cmake中选择对应目录如下图是我的选择,基于taglib的解压目录image.png之后点击Conf
Python笔记——DeprecationWarning 小橘猫cate Python python 开发语言
定义如下阶跃函数时出现警告，defstep_function(x):returnnp.array(x>0,dtype=np.int)DeprecationWarning:`np.int`isadeprecatedaliasforthebuiltin`int`.Tosilencethiswarning,use`int`byitself.Doingthiswillnotmodifyanybehavio
使用 ArcGIS 和 Python 进行地理信息系统(GIS)分析 scaFHIO arcgis python java
在本篇文章中，我们将探讨如何利用ArcGIS和Python进行地理信息系统(GIS)分析。ArcGIS是由Esri开发和维护的一系列GIS软件，包括客户端、服务器和在线解决方案。本文主要聚焦于如何使用Python和arcgis库来实现GIS功能。技术背景介绍ArcGIS提供了功能强大的工具来进行矢量和栅格分析、地理编码、地图制作以及路线和路径规划。通过arcgisPython库，我们可以访问Esr
MySQL 内置函数码农吃枇杷 MySQL mysql 数据库
1.日期函数1.1部分介绍函数名描述CURRENT_DATE()返回当前日期CURRENT_TIME返回当前时间CURRENT_TIMESTAMP()返回当前日期和时间DATEDIFF(d1,d2)计算日期d1->d2之间相隔的天数DATE_ADD(d，INTERVALexprtype)计算起始日期d加上一个时间段后的日期，type值可以是：year,minute,second,hour,day,
DeprecationWarning: 无效的转义序列‘\/‘解决方案数据科学智慧 linux 运维服务器 Python
DeprecationWarning:无效的转义序列’/'解决方案在Python编程中，您可能会遇到"DeprecationWarning:无效的转义序列’/'"的警告消息。这个警告通常在您尝试使用无效的转义序列时出现，例如在正则表达式或字符串中。本文将为您提供解决方案，以解决这个问题。首先，让我们了解一下转义序列的概念。在Python中，某些字符前面带有反斜杠（\），以表示特殊含义，例如换行符（
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
Pandas库中pd.to_datetime()函数用法详细介绍 Pythoner研习社零基础学python pandas python 开发语言
pd.to_datetime()是Pandas库中用来将日期和时间字符串转换为日期时间对象的一个非常有用的函数，常用它进行时间上的计算和数据分析。1功能简介在Pandas中，pd.to_datetime()函数可以接收多种格式的日期时间字符串、列表、数组或者Pandas的Series对象，然后将它们转换成Pandas的datetime64类型。转换后的数据可以更好地与Pandas的日期时间功能集成
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
MATLAB 和 Arduino 之间的串行通信 David WangYang matlab matlab
MATLAB和Arduino之间的串行通信MATLAB是一款多功能软件，可用于各种应用。在前面的MATLAB教程中，我们已经解释了如何使用MATLAB控制直流电机、伺服电机和家用电器。在本教程中，我们将学习如何使用MATLAB进行串行通信。对于串行通信的接收端，我们在这里使用
记录 macOS 上使用 Homebrew 安装的软件獨梟 #macOS软件安装配置 macos
Homebrew是macOS上最受欢迎的软件包管理器之一，能够轻松安装各种命令行工具和GUI应用。本文记录了我通过Homebrew安装的各种软件，并对它们的用途和基本使用方法进行介绍。Homebrew介绍Homebrew是一个开源的包管理器，可以让macOS用户方便地安装和管理各种命令行工具和GUI应用。安装Homebrew后，可以使用brewinstall命令安装各种工具。安装Homebrew:
python做飞机大战让敌机打子弹_python（pygame）滑稽大战(类似飞机大战) 教程青云若水
初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样)Ide推荐大家选择pycharm(不同ide应该没影响)需要安装第三方库pygame，pygame安装方法(windows电脑，mac系统本人实测与pygame不兼容，强行运行本项目卡成ppt)电脑打开cmd命令窗口，输入pip3installpygame补充说明:由于众所周知的原因，安装过程中下载可能十分缓慢，甚
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
使用Alchemy平台构建区块链应用程序的技术指南 dgay_hua 区块链 python
在现代开发中，区块链技术已经成为一项热门技能，而Alchemy提供了一套强大的工具集，使得开发者可以轻松构建区块链应用程序。本文将带您深入了解如何在Alchemy平台上进行区块链应用的安装和设置，并展示如何使用BlockchainDocumentLoader类进行文档加载。技术背景介绍Alchemy是一个领先的区块链开发平台，通过提供强大的API和开发工具，帮助开发者轻松创建和管理区块链应用。它支
基于Qt的连连看游戏开发 CodeJolt qt 数据库 java QT
连连看是一种经典的益智游戏，它的目标是通过消除相同的配对图标来清空游戏界面。在本文中，我将向您展示如何使用Qt框架开发一个基于Qt的连连看小游戏。我们将使用C++编程语言和Qt库来实现游戏的逻辑和界面。首先，让我们创建一个新的Qt项目。在QtCreator中，选择"新建项目"，然后选择"QtWidgets应用程序"模板。为项目指定一个名称，然后点击"下一步"。在下一个对话框中，您可以选择项目的位置
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
微信小程序：用户拒绝小程序获取当前位置后的处理办法草木红 #小程序小程序微信小程序
【1】问题描述：小程序在调用wx.getLocation()获取用地理位置时，如果用户选择拒绝授权，代码会直接抛出错误。如果再次调用wx.getLocation()时，就不会在弹窗询问用户是否允许授权。导致用户想要重新允许获取地理位置时，没有途径。【2】前提准备：小程序已经申请过wx.getLocation()：获取当前的地理位置的服务权限在小程序的根目录下的app.json中配置required
动物识别系统代码python_动物识别系统__代码 weixin_39812065 动物识别系统代码python
1动物识别专家系统动物识别专家系统是流行的专家系统实验模型，它用产生式规则来表示知识，共15条规则、可以识别七种动物，这些规则既少又简单，可以改造他们，也可以加进新的规则，还可以用来识别其他东西的新规则来取代这些规则。动物识别15条规则的中文表示是：规则1：如果：动物有毛发则：该动物是哺乳动物规则2：如果：动物有奶则：该单位是哺乳动物规则3:如果：该动物有羽毛则：该动物是鸟规则4：如果：动物会飞，
动物识别系统代码python_动物识别系统代码 weixin_39862794 动物识别系统代码python
简易动物识别专家系统源代码（调试无错！）#includevoidbirds(){inta;printf("**************************************\n");printf("1.长腿，长脖子，黑色，不会飞。\n");printf("2.不会飞，会游泳，黑色.\n");printf("3.善飞\n");printf("4.无上述特征\n");printf("****
Python深浅拷贝 Karl_zhujt Python python
文章目录1概述2数据类型2.1可变类型2.2不可变类型3深浅拷贝3.1浅拷贝3.2深拷贝4深浅拷贝对数据类型的影响4.1对于不可变类型的影响4.2对于可变类型的影响4.3总结5实现机制5.1copy5.2id6示例6.1普通赋值6.2浅拷贝可变类型6.3浅拷贝不可变类型6.4深拷贝可变类型6.5深拷贝不可变类型7注意事项1概述在Python中，可变类型和不可变类型的拷贝行为有所不同。理解它们的区别
Netty源码分析之Reactor线程模型详解 Java-进阶架构师 java java编程 java 后端 java-ee
在分析源码之前，我们先分析，哪些地方用到了EventLoop？NioServerSocketChannel的连接监听注册NioSocketChannel的IO事件注册NioServerSocketChannel连接监听在AbstractBootstrap类的initAndRegister()方法中，当NioServerSocketChannel初始化完成后，会调用case标记位置的代码进行注册。f
基于 EMA12 指标结合 iTick 外汇报价 API 、股票报价API、指数报价API的量化策略编写与回测
iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数据支持。本文将详细介绍如何使用Python结合EMA12指标和iTick的报价API来构建一个简单的量化交易策略，并对该策略进行回测。1.引言在量化交易领域，技术指标是构建交易策略的重要基础。iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数
Node.js 定时任务详解：从基础到高级调度策略红衣大叔 nodejs帮助文档 javascript 交互
在Node.js中处理定时任务有多种方式，可以根据任务的需求选择不同的实现方法。以下是一些常见的用于执行定时任务的技术和库，以及它们的使用场景和示例代码。1.使用setTimeout和setInterval这是最基本的定时任务实现方式，适用于简单的、不需要持久化或复杂调度的任务。示例：使用setTimeout//在5秒后执行一次任务setTimeout(()=>{console.log('This
python动物识别系统(仅有识别功能) OnlySecondS
''@Time:2022/03/298:39@Author:11863@File:AIS_main.py@software:PyCharm'''rules={}#以字典形式存储#读取文件defreadRules():rulesFile=open("rules.txt","r",encoding='utf-8')forlineinrulesFile:#按行读取line=line.replace('I
大二下开始学数据结构与算法--06，判断两个节点是否相交，删除链表倒数第K个节点爱我的你不说话链表数据结构
自习所完成的任务完成函数判断单项链表是否相交的代码编写和测试。完成函数删除倒数第K个节点的代码编写和测试。感悟其实这篇是昨天晚上写的，但是昨天下午在实验室呆了一下，然后写完这些代码后感觉脑袋昏沉，晚上十点就回宿舍了，想着看会儿书，但是，没看成，还是玩手机了。感觉坚持做一件事，还挺难的，老是为自己找逃避的借口，比如说周三晚上跟舍友出去吃，就放下了写代码的每日任务。我在想，是不是应该改变一下观念，以进
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod