AI吃大瓜

Pytorch LSTM实现中文单词预测（附完整训练代码）

Pytorch LSTM实现中文单词预测(词语预测附完整训练代码)

1、项目介绍

2、中文单词预测方法（N-Gram 模型）

3、训练词嵌入word2vec（可选）

4、文本预处理

（1）句子分词处理：jieba中文分词

（2）特殊字符处理

（3）文本数据增强

（4）样本均衡（重点）

5、训练过程

（1）项目框架说明

（2）准备文本数据

（3）配置文件：config.yaml

（4）开始训练

（6）一些优化建议

6. 模型测试效果

7.项目源码下载

1、项目介绍

本文将分享一个NLP项目实例，实现一个类似于中文输入法中联想的功能；项目利用深度学习框架Pytorch，构建一个LSTM（也支持NGram，TextCNN，LSTM，BiLSTM等）模型，实现一个简易的中文单词预测（词语预测）功能，该功能可以根据用户输入的中文语句，自动预测(补充)词语；基于该项目训练的中文单词预测(词语预测）模型，在自定义的数据集上Top-1准确率最高可以达到91%左右，Top-5准确率最高可以达到97%左右。

模型	context_size	embedding_dim	Top-1准确率	Top-3准确率	Top-5准确率
NGram	8	128	0.8630	0.9180	0.9357
TextCNN	8	128	0.9065	0.9621	0.9730
LSTM	8	128	0.9088	0.9535	0.9667
BiLSTM	8	128	0.9100	0.9575	0.9673

如果，你想学习NLP中文文本分类，可参考另一篇博文《Pytorch TextCNN实现中文文本分类(附完整训练代码)》

【尊重原则，转载请注明出处】https://blog.csdn.net/guyuealian/article/details/128582675

2、中文单词预测方法（N-Gram 模型）

首先简单介绍一下 N-Gram 模型的原理：对于一英文句话，单词的排列顺序是非常重要的，所以我们能否由前面的几个词来预测后面的几个单词呢，比如 'I lived in France for 10 years, I can speak _' 这句话中，我们能够预测出最后一个词是 French。

对于一句话T，其由w1,w2....wn这n个词构成，可以得到下面的公式：

但是这样的一个模型参数过大，预测一个词需要前面所有的词作为条件来计算概率。我们可以再简化一下这个模型，比如对于一个词，并不需要前面所有的词作为条件概率，也就是说一个词可以只与其前面的几个词有关，这就是马尔科夫假设。

对于这里的条件概率，传统的方法是统计语料中每个词出现的频率，根据贝叶斯定理来估计这个条件概率，这里我们就可以用词嵌入对其进行代替，然后使用 RNN 进行条件概率的计算，然后最大化这个条件概率不仅修改词嵌入，同时能够使得模型可以依据计算的条件概率对其中的一个单词进行预测。

类似的，对于中文，我们也可以这样进行处理，比如一个简单的语句：【我是一名中国人】，我们希望如果我们输入【我是一名】，模型输出结果是【中国人】；只不过中文不像英文那样有明显空格作为单词分隔符，中文语句需要我们自己按照一定规则进行字词分割，这个工具可以使用jieba中文分词工具。

下面定义一个简单的NGram模型：

# -*-coding: utf-8 -*-
"""
    @Author : 390737991
    @E-mail : [email protected]
    @Date   : 2022-11-01 17:54:33
    @Brief  :
"""
import torch
import torch.nn as nn
import torch.nn.functional as F


class NGram(nn.Module):
    """N-Gram模型m"""

    def __init__(self, num_classes, context_size, num_embeddings, embedding_dim=128, embeddings_pretrained=None):
        """
        :param num_classes: 输出维度(类别数num_classes)
        :param context_size: 句子长度
        :param num_embeddings: size of the dictionary of embeddings,词典的大小(vocab_size)
        :param embedding_dim:  the size of each embedding vector，词向量特征长度
        :param embeddings_pretrained: embeddings pretrained参数，默认None
        :return:
        """
        self.num_classes = num_classes
        self.num_embeddings = num_embeddings
        super(NGram, self).__init__()
        # embedding层
        if self.num_embeddings > 0:
            # embedding之后的shape: torch.Size([200, 8, 300])
            self.embedding = nn.Embedding(num_embeddings, embedding_dim)
            if embeddings_pretrained is not None:
                self.embedding = self.embedding.from_pretrained(embeddings_pretrained, freeze=False)
        self.classify = nn.Sequential(
            nn.Dropout(p=0.2),
            nn.Linear(embedding_dim * context_size, 512),
            nn.ReLU(True),
            nn.Dropout(p=0.2),
            nn.Linear(512, self.num_classes)
        )

    def forward(self, x):
        if self.num_embeddings > 0:
            x = self.embedding(x)  # 得到词嵌入
        x = x.view(x.size(0), -1)  # 将两个词向量拼在一起
        out = self.classify(x)
        return out


if __name__ == "__main__":
    batch_size = 2
    num_classes = 100
    num_embeddings = num_classes  # 预测的类别数目和单词数目一样
    context_size = 8  # 句子长度，即最大依赖的单词数目
    input = torch.ones(batch_size, context_size).long().cuda()
    model = NGram(num_classes, context_size, num_embeddings=num_embeddings, embedding_dim=64).cuda()
    print(model)
    out = model(input)
    print(out)
    print("input", input.shape)
    print("out  ", out.shape)

上面我们定义了一个NGram模型，其中参数 context_size 表示句子最大长度，表示我们希望由前面几个单词来预测这个单词，这里context_size=8个，表示由8单词（不足8个可以填充）预测1个单词；embedding_dim 表示词嵌入的维度，即词向量特征长度。num_embeddings是词典的大小，即我们字库的个数大小，由于输出预测的类别数等于词典的字词数的大小，所num_embeddings = num_classes；

NGram模型比较简单，如果去除Embedding层，其实就是一个由2层全连接层构成的模型；在实际应用中，效果比较差的，只能作为介绍使用；后续项目，将以LSTM模型为例，进行训练和测试，LSTM模型定义如下，其中我增加LayerNorm用于归一化数据，其作用类似于CNN中的BatchNorm。


import torch
import torch.nn as nn
import torch.nn.functional as F


class LayerNorm(nn.Module):
    """nn.LayerNorm"""

    def __init__(self, hidden_size, eps=1e-6):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.bias = nn.Parameter(torch.zeros(hidden_size))

    def forward(self, input):
        mu = torch.mean(input, dim=-1, keepdim=True)
        sigma = torch.std(input, dim=-1, keepdim=True).clamp(min=self.eps)
        output = (input - mu) / sigma
        return output * self.weight.expand_as(output) + self.bias.expand_as(output)


class LSTMNet(nn.Module):
    def __init__(self, num_classes, num_embeddings, embedding_dim=64, hidden_size=128, num_layers=2,
                 batch_first=True, bidirectional=False, dropout=0, use_norm=True, embeddings_pretrained=None):
        """
        https://github.com/ne7ermore/torch-light/blob/master/lstm-text-classfication/model.py
        input为（batch,context_size,input_size）=（batch,context_size,dim_size）
        :param num_classes: 输出维度(类别数num_classes)
        :param num_embeddings: size of the dictionary of embeddings,词典的大小(vocab_size)
        :param embedding_dim: 输入特征的数目，输入向量维数
        :param hidden_size: 隐层的特征数目
        :param num_layers: 这个是模型集成的LSTM的个数 记住这里是模型中有多少个LSTM摞起来 一般默认就1个
        :param batch_first:
        :param bidirectional: True 代表使用双向LSTM
        """
        super(LSTMNet, self).__init__()
        self.use_norm = use_norm
        self.num_classes = num_classes
        self.num_embeddings = num_embeddings
        # embedding层
        if self.num_embeddings > 0:
            self.embedding = nn.Embedding(num_embeddings, embedding_dim)  # embedding之后的shape: torch.Size([200, 8, 300])
            if embeddings_pretrained is not None:
                self.embedding = self.embedding.from_pretrained(embeddings_pretrained, freeze=False)

        num_directions = 2 if bidirectional else 1
        self.lstm = nn.LSTM(input_size=embedding_dim, hidden_size=hidden_size,
                            num_layers=num_layers, batch_first=batch_first,
                            bidirectional=bidirectional, dropout=dropout)
        if self.use_norm:
            self.layer_norm = LayerNorm(hidden_size * num_directions)
            # self.layer_norm = nn.LayerNorm(hidden_size * num_directions)
        # 输出层
        self.classify = nn.Sequential(
            nn.Dropout(p=0.2),
            nn.Linear(hidden_size * num_directions, self.num_classes)
        )

    def forward(self, x):
        """
        :param x:  x's shape (batch_size, 序列长度, 序列中每个数据的长度)
        :return:
        """
        if self.num_embeddings > 0:
            x = self.embedding(x)  # 得到词嵌入(b,context_size)-->(b,context_size,embedding_dim)
        x, _, = self.lstm(x)  # x's shape (batch_size, 序列长度, hidden_dim)
        if self.use_norm:
            x = self.layer_norm(x)
        x = x[:, -1, :]  # 中间的序列长度取-1，表示取序列中的最后一个数据，这个数据长度为hidden_dim，
        # 得到的out的shape为(batch_size, hidden_dim)
        x = self.classify(x)  # 经过线性层后，out的shape为(batch_size, n_class)
        return x

    def forward_bk(self, inputs):
        # x.shape : batch,context_size,hidden_size , hn.shape and cn.shape : num_layes * direction_numbers,batch,hidden_size
        out, (x, cell) = self.lstm(inputs)
        if self.use_norm:
            x = self.layer_norm(x)
        a, b, c = x.shape
        x = self.classify(x.reshape(a * b, c))
        return x


if __name__ == "__main__":
    import numpy

    # context_size, kernel_sizes, num_channels = 100, [3, 4, 5], [128, 64, 32]
    batch_size = 2
    num_embeddings = 128
    context_size = 8
    # input = torch.ones(batch_size, embedding_size, context_size).float().cuda()
    input = torch.ones(batch_size, context_size).long().cuda()
    model = LSTMNet(num_embeddings, embedding_dim=64).cuda()
    print(model)
    out = model(input)
    print(out)
    print("input", input.shape)
    print("out  ", out.shape)

3、训练词嵌入word2vec（可选）

不管是CNN还是RNN模型，都是无法直接处理字符类别的单词，因此我们需要对单词进行编码，即通过某种方法把单词变成数字形式的向量才能作为模型的输入。把单词映射到向量空间中的一个向量的做法称为词嵌入（word embedding），对应的向量称为词向量（word vector）

上面的NGram模型代码中，定义了一个可学习的embedding层，即词嵌入word2vec，其作用就是将word序号ID转换为vector；当然你也可以通过gensim训练自己的word2vec模型，然后在数据处理中先将文本转换为词向量，这样NGram就没有必要添加embedding层了。

4、文本预处理

接下来，我们需要将句子按照context_size+1的长度进行逐个截取，前context_size个单词是模型输入数据，最后一个是预测结果，这样就构建了我们的训练集，核心代码如下：

    def get_item_list(self, sentences, context_size, stride=1, padding="", shuffle=False):
        """
        构建数据集
        :param sentences: 语料数据[list],一句话一个列表
        :param context_size: 句子最大长度
        :param stride: 步长，默认1
        :param padding: 不足context_size，进行填充
        :return:
        """
        item_list = []
        for content in sentences:
            pad_size = context_size + 1 - len(content)
            if pad_size > 0:
                content = [padding] * pad_size + content
            for i in range(0, len(content) - context_size, stride):
                inputs = content[i:(i + context_size)]
                target = content[i + context_size]
                item_list.append((inputs, target))
        if shuffle:
            random.seed(100)
            random.shuffle(item_list)
        return item_list

对于中文文本数据预处理，主要有两部分：句子分词处理(英文文本不需要分词)，特殊字符处理

（1）句子分词处理：jieba中文分词

本博客使用jieba工具进行中文分词，工具比较简单，就不单独说明了，安装方法：

pip install jieba

（2）特殊字符处理

jieba分词后，会出现很多特殊字符，需要进一步做一些的处理

一些换行符，空格等特殊字符，以及一些标点符号（，。！？《》）等，这些特殊的字符称为stop_words，需要剔除

一些英文字母大小需要转换统一为小写

一些繁体字统一转换为简体字等

一些专有名词，比如地名，人名这些，分词时需要整体切词：jieba.load_userdict(file)

（3）文本数据增强

在计算机视觉图像识别任务中，图像数据增强主要有：裁剪、翻转、旋转、⾊彩变换等⽅式，其目的增加数据的多样性，提高模型的泛化能力。但是NLP任务中的数据是离散的，无法像操作图片一样连续的方式操作文字，这导致我们⽆法对输⼊数据进⾏直接简单地转换，换掉⼀个词就有可能改变整个句⼦的含义。

常用的NLP文本数据增强方法主要有：

随机截取：随机截取文本一个片段

同义词替换（SR: Synonyms Replace）：不考虑stopwords，在句⼦中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进⾏替换。

随机插⼊(RI: Randomly Insert)：不考虑stopwords，随机抽取⼀个词，然后在该词的同义词集合中随机选择⼀个，插⼊原句⼦中的随机位置。

随机交换(RS: Randomly Swap)：句⼦中，随机选择两个词，位置交换。

随机删除(RD: Randomly Delete)：句⼦中的每个词，以概率p随机删除

（4）样本均衡（重点）

有一些常用词汇，由于其出现的频率很高，导致模型预测的结果，会偏向于预测高频率出现的词汇；比如【的】字，在中文语句中，出现的频率特别大，导致模型预测的时候，输出结果经常被预测为【的】，显示这是不符合实际情况；一种行之有效的解决方法，是对数据进行均衡采用，即高频词汇应该降低采样次数，而低频词应该增加其采用次数。

项目已经实现样本均衡算法，config.yaml配置文件中，只需要设置resample: True即可开启样本均衡训练

项目已经实现：随机截取，随机插⼊，随机删除等几种文本数据增强方式：

# -*- coding: utf-8 -*-

import math
import random
from typing import List


def random_text_crop(text: List, label, context_size, token="", p=0.5):
    """
    句⼦中的每个词，以概率p随机截取
    :param text:
    :param label:
    :param context_size:
    :param token:
    :param p:
    :return:
    """
    context_size = int(context_size)
    nums = len(text)
    pad = context_size - nums
    if pad > 0 and token:
        text = [token] * pad + text
    if random.random() < p and pad < 0:
        start = random.randint(0, nums - context_size)
        text = text[start:start + context_size]
    elif len(text) > context_size:
        text = text[0:context_size]
    return text, label


def random_text_mask(text: List, label, len_range=(0, 2), token="", p=0.5):
    """
    句⼦中的每个词，以概率p替换成token
    :param text:
    :param label:
    :param len_range:
    :param p:
    :return:
    """
    if random.random() < p and len(text) > 2 * len_range[1]:
        nums = math.ceil(random.uniform(len_range[0], len_range[1]))
        for i in range(nums):
            index = int(random.uniform(0, len(text) - 1))
            text[index] = token
    return text, label


def random_text_delete(text: List, label, len_min, p=0.5):
    """
    句⼦中的每个词，以概率p随机删除
    :param text:
    :param label:
    :param len_min: 句子最小长度，低于该值，不会删除
    :param p:
    :return:
    """
    if random.random() < p and len(text) > len_min:
        nums = int(random.uniform(0, len(text) - len_min))
        for i in range(nums):
            index = int(random.uniform(0, len(text)))
            del text[index]
    return text, label


def random_text_insert(text: List, label, len_range=(0, 2), token="", p=0.5):
    """
    句⼦中的每个词，以概率p随机插入
    :param text:
    :param label:
    :param len_range: 
    :param p:
    :return:
    """
    if random.random() < p and len(text) > 2 * len_range[1]:
        nums = math.ceil(random.uniform(len_range[0], len_range[1]))
        for i in range(nums):
            index = int(random.uniform(0, len(text) - 1))
            text.insert(index, token)
    return text, label


if __name__ == '__main__':
    label = 1
    context_size = 10
    pad_token = ""
    p = 10
    for i in range(10):
        text = "我是一名中国人，我爱中国，我的家乡在广东"
        text = "_".join(text).split("_")
        len_range = (0, context_size // 4)
        # text, label = random_text_crop(text, label, 1.8 * context_size, token=None, p=0.8)
        # text, label = random_text_delete(text, label, len_min=1.5 * context_size)
        text, label = random_text_insert(text, label, len_range=len_range, token=pad_token)
        # text, label = random_text_mask(text, label, len_range=len_range, token=pad_token)
        # text, label = random_text_crop(text, label, context_size, token=pad_token, p=0.8)
        print(text, len(text))

5、训练过程

（1）项目框架说明

.
├── configs              # 训练配置文件
├── core                 # 模型和训练相关工具
├── data                 # 相关数据
├── modules              # 相关依赖包模块
├── work_space           # 训练模型输出文件目录
├── README.md            # 项目工程说明文档
├── requirements.txt     # 相关依赖包版本说明，请用pip安装
├── predictor.py         # 测试单词预测效果的脚本
└── train.py             # 训练文件

项目依赖的python包，请使用pip安装对应版本

numpy==1.16.3
matplotlib==3.1.0
Pillow==6.0.0
easydict==1.9
opencv-contrib-python==4.5.2.52
opencv-python==4.5.1.48
pandas==1.1.5
PyYAML==5.3.1
scikit-image==0.17.2
scikit-learn==0.24.0
scipy==1.5.4
seaborn==0.11.2
tensorboard==2.5.0
tensorboardX==2.1
torch==1.7.1+cu110
torchvision==0.8.2+cu110
tqdm==4.55.1
xmltodict==0.12.0
basetrainer
pybaseutils==0.6.9
jieba==0.42.1
gensim==4.2.0

（2）准备文本数据

首先，我们需要收集中文文本数据集，由于我们是做单词预测算法，要求训练数据尽可能干净；考虑到我们的模型比较简单，无需像BERT那样海量数据。作为简单的Demo，项目从百度文库中收集了一些中文造句的常用句子，大概5千字的数据量吧

然后根据自己的保存的数据路径，修改配置文件数据路径：configs/config.yaml （项目的文本数据放在data/text/data"中，可自行增加补充数据）；考虑到，单词预测是一种比较模糊预测的任务，因此，项目没有严格区分训练集和测试集，而是将训练数据和测试集都使用同一数据集。

# 训练数据集，可支持多个数据集
train_data:
  - "data/text/data"
# 测试数据集
test_data:
  - "data/text/data"
vocab_file: "data/text/vocabulary.json" # 指定字典的路径(会根据训练数据集自动生成)

（3）配置文件：config.yaml

# 训练数据集，可支持多个数据集
train_data:
  - "data/text/data"
# 测试数据集
test_data:
  - "data/text/data"
vocab_file: "data/text/vocabulary.json" # 指定字典的路径(会根据训练数据集自动生成)
class_name: ""
data_type: "textdata"          # 加载数据DataLoader方法
flag: ""                       # 输出目录标识
resample: True                 # 是否进行重采样
work_dir: "work_space"         # 保存输出模型的目录
net_type: "LSTM"            # 骨干网络,支持：NGram,TextCNN,LSTM,BiLSTM等
context_size: 8                # 句子长度
topk: [ 1,3,5 ]                # 计算topK的准确率
batch_size: 64                 #  批训练大小
lr: 0.01                       # 初始学习率
optim_type: "Adam"             # 选择优化器，SGD,Adam
loss_type: "CELoss"            # 选择损失函数：支持CrossEntropyLoss(CELoss)
momentum: 0.9                  # SGD momentum
num_epochs: 120                # 训练循环次数
num_workers: 0                 # 加载数据工作进程数
weight_decay: 0.0005           # weight_decay，默认5e-4
scheduler: "multi-step"        # 学习率调整策略
milestones: [ 30,70,100 ]      # 下调学习率方式
gpu_id: [ 0 ]                  # GPU ID
log_freq: 20                   # LOG打印频率
pretrained: True               # 是否使用pretrained模型
finetune: False                # 是否进行finetune

目标支持模型主要有：NGram,TextCNN,LSTM,BiLSTM等，详见模型等，其他模型可以自定义添加
训练参数可以通过config.yaml配置文件

参数	类型	参考值	说明
train_data	str, list	-	训练数据文件，可支持多个文件
test_data	str, list	-	测试数据文件，可支持多个文件
vocab_file	str	-	字典文件(会根据训练数据集自动生成)
class_name	str	-	类别文件
data_type	str	-	加载数据DataLoader方法
resample	bool	True	是否进行重采样
work_dir	str	work_space	训练输出工作空间
net_type	str	LSTM	骨干网络,支持：NGram,TextCNN,LSTM,BiLSTM等模型
context_size	int	128	句子长度
topk	list	[1,3,5]	计算topK的准确率
batch_size	int	32	批训练大小
lr	float	0.1	初始学习率大小
optim_type	str	SGD	优化器，{SGD,Adam}
loss_type	str	CELoss	损失函数
scheduler	str	multi-step	学习率调整策略，{multi-step,cosine}
milestones	list	[30,80,100]	降低学习率的节点，仅仅scheduler=multi-step有效
momentum	float	0.9	SGD动量因子
num_epochs	int	120	循环训练的次数
num_workers	int	12	DataLoader开启线程数
weight_decay	float	5e-4	权重衰减系数
gpu_id	list	[ 0 ]	指定训练的GPU卡号，可指定多个
log_freq	int	20	显示LOG信息的频率
finetune	str	model.pth	finetune的模型

（4）开始训练

整套训练代码非常简单操作，用户只需要将文本数据放在项目"data/text/data"目录下（也可以自定义数据路径），并填写好对应的数据路径，即可开始训练了。

如果你想验证项目可不可以训练，请运行下面命令开始训练；项目自带了小批量的文本数据，方便测试项目代码；对于简单的样本数据集，可以获得95%左右的预测准确率

python train.py -c configs/config.yaml

如果你想训练自己的数据，请准备好文本数据，并放在data/text/data中，文本只支持TXT格式，不支持PDF和word文档格式
配置文件configs/config.yaml的参数net_type，用于选择骨干网络,可以填写NGram, TextCNN, LSTM, BiLSTM等，后面模型以LSTM模型为准

以下是训练代码：

# -*-coding: utf-8 -*-
import os
import torch
import argparse
import torch.nn as nn
import numpy as np
import tensorboardX as tensorboard
from tqdm import tqdm
from torch.utils import data as data_utils
from core.dataloader import build_dataset
from core.models import build_models
from core.criterion.build_criterion import get_criterion
from core.utils import torch_tools, metrics, log
from pybaseutils import file_utils, config_utils
from pybaseutils.metrics import class_report


class Trainer(object):
    def __init__(self, cfg):
        torch_tools.set_env_random_seed()
        # 设置输出路径
        time = file_utils.get_time()
        flag = [n for n in [cfg.net_type, cfg.loss_type, cfg.flag, time] if n]
        cfg.work_dir = os.path.join(cfg.work_dir, "_".join(flag))
        cfg.model_root = os.path.join(cfg.work_dir, "model")
        cfg.log_root = os.path.join(cfg.work_dir, "log")
        file_utils.create_dir(cfg.work_dir)
        file_utils.create_dir(cfg.model_root)
        file_utils.create_dir(cfg.log_root)
        file_utils.copy_file_to_dir(cfg.config_file, cfg.work_dir)
        config_utils.save_config(cfg, os.path.join(cfg.work_dir, "setup_config.yaml"))
        self.cfg = cfg
        self.topk = self.cfg.topk
        # 配置GPU/CPU运行设备
        self.gpu_id = cfg.gpu_id
        self.device = torch.device("cuda:{}".format(cfg.gpu_id[0]) if torch.cuda.is_available() else "cpu")
        # 设置Log打印信息
        self.logger = log.set_logger(level="debug", logfile=os.path.join(cfg.log_root, "train.log"))
        # 构建训练数据和测试数据
        self.train_loader = self.build_train_loader()
        self.test_loader = self.build_test_loader()
        # 构建模型
        self.model = self.build_model()
        # 构建损失函数
        self.criterion = self.build_criterion()
        # 构建优化器
        self.optimizer = self.build_optimizer()
        # 构建学习率调整策略
        self.scheduler = torch.optim.lr_scheduler.MultiStepLR(self.optimizer, cfg.milestones)
        # 使用tensorboard记录和可视化Loss
        self.writer = tensorboard.SummaryWriter(cfg.log_root)
        # 打印信息
        self.num_samples = len(self.train_loader.sampler)
        self.logger.info("=" * 60)
        self.logger.info("work_dir          :{}".format(cfg.work_dir))
        self.logger.info("config_file       :{}".format(cfg.config_file))
        self.logger.info("gpu_id            :{}".format(cfg.gpu_id))
        self.logger.info("main device       :{}".format(self.device))
        self.logger.info("num_samples(train):{}".format(self.num_samples))
        self.logger.info("num_classes       :{}".format(cfg.num_classes))
        self.logger.info("mean_num          :{}".format(self.num_samples / cfg.num_classes))
        self.logger.info("=" * 60)

    def build_optimizer(self, ):
        """build_optimizer"""
        if self.cfg.optim_type.lower() == "SGD".lower():
            optimizer = torch.optim.SGD(params=self.model.parameters(), lr=self.cfg.lr,
                                        momentum=self.cfg.momentum, weight_decay=self.cfg.weight_decay)
        elif self.cfg.optim_type.lower() == "Adam".lower():
            optimizer = torch.optim.Adam(self.model.parameters(), lr=self.cfg.lr, weight_decay=self.cfg.weight_decay)
        else:
            optimizer = None
        return optimizer

    def build_train_loader(self, ) -> data_utils.DataLoader:
        """build_train_loader"""
        self.logger.info("build_train_loader,context_size:{}".format(self.cfg.context_size))
        dataset = build_dataset.load_dataset(data_type=self.cfg.data_type,
                                             filename=self.cfg.train_data,
                                             vocab_file=self.cfg.vocab_file,
                                             context_size=self.cfg.context_size,
                                             class_name=self.cfg.class_name,
                                             resample=self.cfg.resample,
                                             phase="train",
                                             shuffle=True)
        shuffle = True
        sampler = None
        self.logger.info("use resample:{}".format(self.cfg.resample))
        # if self.cfg.resample:
        #     weights = torch.DoubleTensor(dataset.classes_weights)
        #     sampler = torch.utils.data.sampler.WeightedRandomSampler(weights, len(weights))
        #     shuffle = False
        loader = data_utils.DataLoader(dataset=dataset, batch_size=self.cfg.batch_size, sampler=sampler,
                                       shuffle=shuffle, num_workers=self.cfg.num_workers)
        self.cfg.num_classes = dataset.num_classes
        self.cfg.num_embeddings = dataset.num_embeddings
        self.cfg.class_name = dataset.class_name
        file_utils.copy_file_to_dir(self.cfg.vocab_file, cfg.work_dir)
        return loader

    def build_test_loader(self, ) -> data_utils.DataLoader:
        """build_test_loader"""
        self.logger.info("build_test_loader,context_size:{}".format(cfg.context_size))
        dataset = build_dataset.load_dataset(data_type=self.cfg.data_type,
                                             filename=self.cfg.test_data,
                                             vocab_file=self.cfg.vocab_file,
                                             context_size=self.cfg.context_size,
                                             class_name=self.cfg.class_name,
                                             phase="test",
                                             resample=False,
                                             shuffle=False)
        loader = data_utils.DataLoader(dataset=dataset, batch_size=self.cfg.batch_size,
                                       shuffle=False, num_workers=self.cfg.num_workers)
        self.cfg.num_classes = dataset.num_classes
        self.cfg.num_embeddings = dataset.num_embeddings
        self.cfg.class_name = dataset.class_name
        return loader

    def build_model(self, ) -> nn.Module:
        """build_model"""
        self.logger.info("build_model,net_type:{}".format(self.cfg.net_type))
        model = build_models.get_models(net_type=self.cfg.net_type,
                                        num_classes=self.cfg.num_classes,
                                        num_embeddings=self.cfg.num_embeddings,
                                        embedding_dim=128,
                                        is_train=True,
                                        )
        if self.cfg.finetune:
            self.logger.info("finetune:{}".format(self.cfg.finetune))
            state_dict = torch_tools.load_state_dict(self.cfg.finetune)
            model.load_state_dict(state_dict)
        model = model.to(self.device)
        model = nn.DataParallel(model, device_ids=self.gpu_id, output_device=self.device)
        return model

    def build_criterion(self, ):
        """build_criterion"""
        self.logger.info(
            "build_criterion,loss_type:{}, num_embeddings:{}".format(self.cfg.loss_type, self.cfg.num_embeddings))
        criterion = get_criterion(self.cfg.loss_type, self.cfg.num_embeddings, device=self.device)
        # criterion = torch.nn.CrossEntropyLoss()
        return criterion

    def train(self, epoch):
        """训练"""
        train_losses = metrics.AverageMeter()
        train_accuracy = {k: metrics.AverageMeter() for k in self.topk}
        self.model.train()  # set to training mode
        log_step = max(len(self.train_loader) // cfg.log_freq, 1)
        for step, data in enumerate(tqdm(self.train_loader)):
            inputs, target = data
            inputs, target = inputs.to(self.device), target.to(self.device)
            outputs = self.model(inputs)
            loss = self.criterion(outputs, target)
            self.optimizer.zero_grad()  # 反馈
            loss.backward()
            self.optimizer.step()  # 更新
            train_losses.update(loss.cpu().data.item())
            # 计算准确率
            target = target.cpu()
            outputs = outputs.cpu()
            outputs = torch.nn.functional.softmax(outputs, dim=1)
            pred_score, pred_index = torch.max(outputs, dim=1)
            acc = metrics.accuracy(outputs.data, target, topk=self.topk)
            for i in range(len(self.topk)):
                train_accuracy[self.topk[i]].update(acc[i].data.item(), target.size(0))
            if step % log_step == 0:
                lr = self.scheduler.get_last_lr()[0]  # 获得当前学习率
                topk_acc = {"top{}".format(k): v.avg for k, v in train_accuracy.items()}
                self.logger.info(
                    "train {}/epoch:{:0=3d},lr:{:3.4f},loss:{:3.4f},acc:{}".format(step, epoch, lr, train_losses.avg,
                                                                                    topk_acc))

        topk_acc = {"top{}".format(k): v.avg for k, v in train_accuracy.items()}
        self.writer.add_scalar("train-loss", train_losses.avg, epoch)
        self.writer.add_scalars("train-accuracy", topk_acc, epoch)
        self.logger.info("train epoch:{:0=3d},loss:{:3.4f},acc:{}".format(epoch, train_losses.avg, topk_acc))
        return topk_acc["top{}".format(self.topk[0])]

    def test(self, epoch):
        """测试"""
        test_losses = metrics.AverageMeter()
        test_accuracy = {k: metrics.AverageMeter() for k in self.topk}
        true_labels = np.ones(0)
        pred_labels = np.ones(0)
        self.model.eval()  # set to evaluates mode
        with torch.no_grad():
            for step, data in enumerate(tqdm(self.test_loader)):
                inputs, target = data
                inputs, target = inputs.to(self.device), target.to(self.device)
                outputs = self.model(inputs)
                loss = self.criterion(outputs, target)
                test_losses.update(loss.cpu().data.item())
                # 计算准确率
                target = target.cpu()
                outputs = outputs.cpu()
                outputs = torch.nn.functional.softmax(outputs, dim=1)
                pred_score, pred_index = torch.max(outputs, dim=1)
                acc = metrics.accuracy(outputs.data, target, topk=self.topk)
                true_labels = np.hstack([true_labels, target.numpy()])
                pred_labels = np.hstack([pred_labels, pred_index.numpy()])

                for i in range(len(self.topk)):
                    test_accuracy[self.topk[i]].update(acc[i].data.item(), target.size(0))

        report = class_report.get_classification_report(true_labels, pred_labels, target_names=self.cfg.class_name)
        topk_acc = {"top{}".format(k): v.avg for k, v in test_accuracy.items()}
        lr = self.scheduler.get_last_lr()[0]  # 获得当前学习率
        self.writer.add_scalar("test-loss", test_losses.avg, epoch)
        self.writer.add_scalars("test-accuracy", topk_acc, epoch)
        self.logger.info("test  epoch:{:0=3d},lr:{:3.4f},loss:{:3.4f},acc:{}".format(epoch, lr, test_losses.avg, topk_acc))
        # self.logger.info("{}".format(report))
        return topk_acc["top{}".format(self.topk[0])]

    def run(self):
        """开始运行"""
        self.max_acc = 0.0
        for epoch in range(self.cfg.num_epochs):
            train_acc = self.train(epoch)  # 训练模型
            test_acc = self.test(epoch)  # 测试模型
            self.scheduler.step()  # 更新学习率
            lr = self.scheduler.get_last_lr()[0]  # 获得当前学习率
            self.writer.add_scalar("lr", lr, epoch)
            self.save_model(self.cfg.model_root, test_acc, epoch)
            self.logger.info("epoch:{}, lr:{}, train acc:{:3.4f}, test acc:{:3.4f}".
                             format(epoch, lr, train_acc, test_acc))

    def save_model(self, model_root, value, epoch):
        """保存模型"""
        # 保存最优的模型
        if value >= self.max_acc:
            self.max_acc = value
            model_file = os.path.join(model_root, "best_model_{:0=3d}_{:.4f}.pth".format(epoch, value))
            file_utils.remove_prefix_files(model_root, "best_model_*")
            torch.save(self.model.module.state_dict(), model_file)
            self.logger.info("save best   model file:{}".format(model_file))
        # 保存最新的模型
        name = "model_{:0=3d}_{:.4f}.pth".format(epoch, value)
        model_file = os.path.join(model_root, "latest_{}".format(name))
        file_utils.remove_prefix_files(model_root, "latest_*")
        torch.save(self.model.module.state_dict(), model_file)
        self.logger.info("save latest model file:{}".format(model_file))
        self.logger.info("-------------------------" * 4)


def get_parser():
    cfg_file = "configs/config.yaml"
    parser = argparse.ArgumentParser(description="Training Pipeline")
    parser.add_argument("-c", "--config_file", help="configs file", default=cfg_file, type=str)
    cfg = config_utils.parser_config(parser.parse_args(), cfg_updata=True)
    return cfg


if __name__ == "__main__":
    cfg = get_parser()
    train = Trainer(cfg)
    train.run()

（5）可视化训练过程

训练过程可视化工具是使用Tensorboard，使用方法：

# 基本方法
tensorboard --logdir=path/to/log/
# 例如（请修改自己的训练的模型路径）
tensorboard --logdir=work_space/BiLSTM_CELoss_20230110175943/log

可视化效果

（6）一些优化建议

训练完成后，可查看其Top-1,Top-3和Top-5准确率，其中NGram的Top-1准确率约0.8630，而TextCNN的准确率约0.9065，LSTM的准确率约0.9088，BiLSTM的准确率最高可以达到0.9100

模型	context_size	embedding_dim	Top-1准确率	Top-3准确率	Top-5准确率
NGram	8	128	0.8630	0.9180	0.9357
TextCNN	8	128	0.9065	0.9621	0.9730
LSTM	8	128	0.9088	0.9535	0.9667
BiLSTM	8	128	0.9100	0.9575	0.9673

数据整合：建议对数据进行去燥，删除一些语句不通的文本；

由于数据集比较小，有很多中文字词是不支持，建议增大数据集进行训练；

增加LSTM参数量：比如增大LSTM的个数

增加pretrained模型：项目构建LSTM模型，随机初始化了一个可学习的二维矩阵：Embedding，该Embedding模型没有增加pretrained的，若能加入pretrained，其准确率会好很多。

文本数据增强：如同义词替换，文本随机插入，随机删除等处理，增强模型泛化能力

样本均衡：数据不均衡，部分类目数据太少；建议进行样本均衡处理，减少长尾问题的影响

超参调优：比如学习率调整策略，优化器（SGD,Adam等）

损失函数：目前训练代码已经支持：交叉熵，LabelSmoothing，可以尝试FocalLoss等损失函数

6. 模型测试效果

predictor.py文件用于模型推理和测试脚本，填写好配置文件，模型文件以及测试文本即可运行测试了

def get_parser():
    model_file = "work_space/LSTM_CELoss_20230110175804/model/best_model_119_0.9088.pth"
    config_file = os.path.join(os.path.dirname(os.path.dirname(model_file)), "config.yaml")
    vocab_file = os.path.join(os.path.dirname(os.path.dirname(model_file)), "vocabulary.json")
    input = "美丽豪华的 获得优异的"  # 才能获得优异的成绩
    # 我们家住的楼上有许多只壁虎，每天晚上你都能看到它们。小壁虎身子是土黄色的，一双圆溜溜的眼睛，尖尖的脑袋，拖着一条长长的尾巴
    input = "我们家住的楼上有许多只/每天晚上你都能看到 一双圆溜溜的 拖着一条长长的"  # 才能获得优异的成绩
    parser = argparse.ArgumentParser(description="Inference Argument")
    parser.add_argument("-c", "--config_file", help="configs file", default=config_file, type=str)
    parser.add_argument("-m", "--model_file", help="model_file", default=model_file, type=str)
    parser.add_argument("-v", "--vocab_file", help="vocab_file", default=vocab_file, type=str)
    parser.add_argument("--device", help="cuda device id", default="cuda:0", type=str)
    parser.add_argument("--input", help="text", default=input, type=str)
    return parser

或者在项目根目录终端运行命令（\表示换行符）：

#!/usr/bin/env bash
python predictor.py \
  -c "work_space/LSTM_CELoss_20230110175804/config.yaml" \
  -m "work_space/LSTM_CELoss_20230110175804/model/best_model_119_0.9088.pth" \
  -v "work_space/LSTM_CELoss_20230110175804/vocabulary.json" \

使用方法：

【使用说明】:输入任意文本，用[空格]或[/]表示需要预测的字词;输入[e]退出程序

【输入例子】:美丽豪华的/获得优异的

【结果说明】:输出括号内表示预测结果

运行测试结果：

输入："我们家住的楼上有许多只/每天晚上你都能看到一双圆溜溜的拖着一条长长的"，返回的预测结果：

输入"美丽豪华的获得优异的" ，返回的预测结果：

7.项目源码下载

整套项目源码下载：Pytorch LSTM实现中文单词预测(词语预测)

整套项目源码内容包含

提供中文文本数据集，用于模型训练：数据主要从百度文库中收集了一些中文造句的常用句子，大概5千字的数据量

提供Pytorch版本的中文单词预测模型训练工具：train.py，支持NGram，TextCNN, LSTM, BiLSTM等模型训练和测试

提供中文单词预测测试脚本：predictor.py

项目已经实现样本均衡算法，config.yaml配置文件中，只需要设置resample: True即可开启样本均衡训练

简单配置，一键开启训练自己的中文单词预测模型

如果，你想学习NLP中文文本分类，可参考另一篇博文《Pytorch TextCNN实现中文文本分类(附完整训练代码)》

你可能感兴趣的:(NLP,单词预测,中文单词预测,中文词语预测,LSTM单词预测,TextCNN单词预测)

黑猫带你学UFS协议第1篇：全网最全UFS协议中文详讲，这份学习框架图，你值得拥有！！！（持续更新中...）黑猫学长呀黑猫带你学：UFS协议详解网络 ufs 存储芯片嵌入式手机
文/黑猫学长1作者想说笔者本人从事于存储芯片行业多年，对eMMC/UFS/SD等芯片有深入研究，协议尤甚。而今看来，UFS协议在整个存储产品中（包括U盘、SPI、SD卡，NM卡、emmc、SSD、flash颗粒等），属于最难梯队。对于嵌入式存储芯片来说，从最初大家熟悉的SD/TF卡，发展到emmc，再到如今的UFS，速率越来越快，性能越来越稳定。即使是最新的UFS产品，从问世到笔者写这篇文章（20
cm3d2 & com3d2 HECUgauss Kiss 经验分享游戏程序
新增一个分类，因为旧做cm3d2有些插件是可以通用的，标注CM3D2的就是理论上旧做也能用的（但我手上没有cm3d2所以只是理论上）网站Hgamewikicom3d2分区CustomMaid3D2-HgamesWiki(anime-sharing.com)https://wiki.anime-sharing.com/hgames/index.php?title=Custom_Maid_3D2中文資
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
After Effects 教程，如何在 After Effects 中使用3D 摄像机跟踪器效果？ Mac123123
欢迎观看AfterEffects中文版教程，小编带大家学习AfterEffects的基本工具和使用技巧，了解如何在AE中使用3D摄像机跟踪器效果。3D摄像机跟踪器效果可以分析一段视频，并确定用于拍摄镜头的原始相机的精确位置和移动。将使用这种效果将一些文本放置到场景中，使其看起来好像一直处于场景本身的环境中。选择「时间轴」中的「Runway.mov」图层，在「动画」菜单中选择「跟踪相机」。选择特效后
2022年全球市场金属压铸机总体规模、主要生产商、主要地区、产品和应用细分研究报告
本文研究全球市场、主要地区和主要国家金属压铸机的销量、销售收入等，同时也重点分析全球范围内主要厂商（品牌）竞争态势，金属压铸机销量、价格、收入和市场份额等。针对过去五年（2017-2021）年的历史情况，分析历史几年全球金属压铸机总体规模，主要地区规模，主要企业规模和份额，主要产品分类规模，下游主要应用规模等。规模分析包括销量、价格、收入和市场份额等。针对未来几年金属压铸机的发展前景预测，本文预测
用python自制简单小游戏----Pyinstaller库 AI 嗯啦 python pygame 开发语言
目录一、简单介绍Pyinstaller库主要特点基本使用方法打包流程说明注意事项二、实例演示1、井字棋2、猜单词3、猜数字三、找到自己打包的可执行文件现在你就会自己做小游戏了，快去和你的小伙伴分享吧在编程的世界里，没有什么比亲手打造一款属于自己的小游戏更能带来成就感了。当一行行代码在屏幕上跳动，最终幻化成可以操作的角色、有趣的关卡时，那种从0到1的创造喜悦，足以让每个开发者为之着迷。而Python
《喋血双雄》2024吴宇森美版电影[1080p中文字幕]未删减完整版在线观看夸克迅雷网盘百度云资源（下载）链接全网优惠分享君
《喋血双雄》作为吴宇森导演的经典之作，其1989年的港版曾一度成为香港动作电影的标杆，其独特的暴力美学风格和深刻的兄弟情谊让无数影迷为之倾倒。然而，时隔三十五年，吴宇森亲自操刀翻拍的2024美版《喋血双雄》却引发了诸多争议与讨论。本文将从剧情、角色、风格以及观众反响等方面，对这部新作进行全面点评。提示：文章排版原因，喋血双雄资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，喋血双雄资源链接地
常用电缆型号及对比 D-海漠其他
一、电力电缆（主电路输电）YJV中文全称：交联聚乙烯绝缘聚氯乙烯护套电力电缆功能：耐高温（90℃）、绝缘性强、载流量大场景：室内配电、变电站、工厂动力系统（替代VV电缆的趋势产品）YJV22中文全称：交联聚乙烯绝缘钢带铠装聚氯乙烯护套电力电缆功能：在YJV基础上增加钢带铠装，抗压、防啮咬场景：直埋地下、隧道、有机械损伤风险的场所VV中文全称：聚氯乙烯绝缘聚氯乙烯护套电力电缆功能：基础型电力传输，成
数据可视化——折线图殇城碎梦. python基础学习 python
#导入所需要的包importmatplotlib.pyplotasplt#设置图表样式plt.style.use('seaborn-v0_8')#增强中文字体配置-添加更多系统字体确保兼容性#增强中文字体配置-优先Windows系统常用字体plt.rcParams["font.family"]=["sans-serif"]plt.rcParams["font.sans-serif"]=["SimH
3136. 有效单词咔咔咔的 c++
3136.有效单词题目链接：3136.有效单词代码如下：classSolution{public:boolisValid(stringword){if(word.size()='a'&&c='A'&&c='0'&&c='b'&&c='B'&&c<='Z')){consonantCnt++;//统计辅音字符}continue;//忽略字母和数字}returnfalse;//如果有其他字符，返回fal
MaisonMargiela玛丽珍鞋怎么买便宜？玛丽珍鞋的推荐款式和品牌直返APP抖音优惠券
MaisonMargiela玛丽珍鞋，作为时尚界的一款经典单品，融合了品牌独特的审美与复古风情，备受时尚爱好者的青睐。以下是对这款鞋的详细介绍：一、品牌背景MaisonMargiela，中文名称为马丁·马吉拉时装屋，是一个源自比利时的时尚品牌，以其解构主义的设计风格和对细节的关注而闻名。品牌擅长将传统与现代、经典与创新相结合，创造出独具一格的时尚单品。二、玛丽珍鞋的设计理念MaisonMargie
生活简记｜等雨下…… 盛家丫头
夏天的高温炎热，从这个礼拜正式开始，昨天的骄阳似火，加上办公楼停电，仅仅一个多小时，就已经有了这个“太阳太毒了”“没有空调不能活”“没有伞不敢出门”的感觉了，完全颠覆了我“这个夏天还没开过空调”这件拿来炫耀的事情。气温很高，天气很热，可是天气预报已经预测了未来两天有暴雨即将来袭，各种媒体平台都在宣传，要求做好防洪准备。很好，这样的天气就应该来一场暴雨，好降温，眼看着临近傍晚，天空乌云密布，风起云涌
2021-06-10——王云燕学习与自我成长187天 f6df959e8511
学习了外化，能从另外的角度看问题，跳出问题，把问题看成问题，而不是自我本身的问题。黑格尔哲学中的定义:内在的东西转化为外在的东西对应词语:内化理念:人不是问题，问题才是问题思路:将人与问题分开，找到改变问题的成功经验好处:当事人更客观，更有力量空椅子技术:格式塔学派，自己与他人异同自己与自己的某一-部分时空对话:与某个时空的自己的对话外化对象不良情绪:焦虑，抑郁，烦躁，系张，内容了身体状态:生病，
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
记·自律『第141天』黎雨萱
1、学习单词30个，复习37个2、形体操：90分钟（上午）3、跳绳：100个（虽然太少，还是记录下）4、樊登讲书：《我会独立思考》5、樊登非凡精读：《幸福之路》6、电子书《幸福之路》（p1-19）7、电子书《被忽视的孩子》（p745-817）8、纸质书《红书》（p46-51）9、日更（第323天）10、每日一句打卡（第140天）11、每日写信打卡（第173天）————今天服务器又出毛病了，还好电脑
2023-09-17 余則徐
2023.9.17.达视津气象2023.9.17.达视津气象秋色斑斓朋友们早上好！今天2023.9.17.星期日，农历八月初三的4:33，干支历法是癸卯年辛酉月丁丑日壬寅时。今天的天气预报又是个颇有争议的日子啦：手机气象软件认为今天有雷阵雨，而其逐小时预报却是9点钟以前每个小时都是晴天，然后两个小时多云，再往后一直到夜间是阴天，没有说有雨；敝人六爻八卦预测倾向于气象台的逐小时预报哦。当前气温25摄
Unit5 复盘黄静怡
Part11，从本单元中我学到的最重要的理念（精读和视听说分别总结）视听说：urbanpulse精读：Animalsalsohaveemotions2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）3，在本片文章／音频／视频中我最喜欢的一句话（精读和视听说分别总结）视听说：Ilikethemixofpeopleandallthedifferentthingsthatyouc
《左轮手枪》韩国电影资源【1080p超清中文字幕】免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云下载步骤全网优惠分享君
《左轮手枪》是一部充满悬疑与犯罪元素的韩国电影，由吴胜旭执导，汇集了全度妍、池昌旭、林智妍等实力派演员，于2024年8月7日在韩国上映。影片以其紧凑的剧情、深刻的角色塑造和紧张的氛围，吸引了众多观众的关注。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行故事围绕着背负所有罪责、被诬陷入狱的前警察河秀英（全度妍饰）展开。河秀英本是一位正直勇敢的警察，却因某种原因被栽赃陷害，失去了职业生涯
Lightroom Classic 教程，如何在 Lightroom 中增强照片的孤立区域？ Mac123123
欢迎观看LightroomClassic中文版教程，小编带大家学习LightroomClassic的基本工具和使用技巧，了解如何在Lightroom中增强照片的孤立区域，对照片的一部分进行处理以完善它。打开LightroomClassic，在「图库」模块中选择照片。除了可以对整张照片进行更改外，还可以使用Lightroom的「局部调整」工具轻松增强图像中的选定区域。选择「修改照片」模块，降低「曝光
盛和塾打卡2020-04-23 徐鵬
姓名：徐鹏公司：大连协力工务环境工程有限公司【日精进打卡第118天】【知～学习】①《六项精进》大纲诵读0遍，抄写0遍②《大学》诵读0遍，抄写0遍③读《经营十二条》④每日单词-每日语法-⑤建工专业学习法规p197⑥【经典名句分享】①当你想要做成一件事时，你只需努力再努力，神灵就会帮助你②你怎样对待世界，世界就怎样对待你，但即使这样你也不一定如意。③改变自己最快的方法就是做自己害怕的事【行～实践】①从
想提高高中英语阅读理解水平，有什么方法，或者怎么提高单词量？大咖看学习
高中英语阅读理解的逻辑思维难度相当于小学语文五年级，题型难度则相当于小学语文三年级，因为都是“四选一”的选择题，可以猜答案。所以，本质上高中英语阅读就是在考理解，拿到满分还是比较容易的。影响高中英语阅读理解能力的因素有两点：①单词：即高考所规定的高中英语3500词，高考是明确单词不超纲的，但凡遇到超纲单词，单词边上就会标注中文意思。所以，背单词是英语阅读拿到基本分数的关键。3500词，只要能做到看
《喋血双雄》2024美版电影[1080p中文字幕]免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云全网优惠分享君
《喋血双雄》作为吴宇森导演的经典之作，其1989年的港版曾一度成为香港动作电影的标杆，其独特的暴力美学风格和深刻的兄弟情谊让无数影迷为之倾倒。然而，时隔三十五年，吴宇森亲自操刀翻拍的2024美版《喋血双雄》却引发了诸多争议与讨论。本文将从剧情、角色、风格以及观众反响等方面，对这部新作进行全面点评。提示：文章排版原因，喋血双雄资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，喋血双雄资源链接地
新闻传播的未来：新媒体时代下的新闻传播趋势预测？巴中尧哥
随着新媒体的发展和普及，新闻传播方式和媒体生态正在发生深刻变革。未来的新闻传播将呈现出一系列新的趋势和特点。本文将探讨新媒体时代下的新闻传播趋势，并进行预测。首先，新媒体时代下的新闻传播将更加多元化和平衡。随着新媒体的发展和普及，新闻传播的渠道和形式将会更加多样化，包括社交媒体、移动应用、短视频等，这将使得新闻传播更加平衡和多元化。另外，新媒体还将推动新闻报道的深度和广度，使得新闻报道更加全面和客
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
分享高效背诵单词的方法落笔情深i
图片发自App如何一天刷掉1000多个单词？我对背单词效率高的理解是，在同等时间内，过单词的数量比别人的多，且记忆的效果比别人的好。即单位时间内，既有数量又有质量。当年在准备各种标化考试时，我每天都需要背很多单词。到备考后期，我可以每天刷1000多个左右的单词（含背过待巩固的）。以下我分享自己背单词的经验，包括自己走过哪些弯路，又是如何走出这些弯路。希望能帮到大家。1.要有合理的预期弯路：记得我背
MySQL（1）哪里不会点哪里. MySQL mysql 数据库
目录数据库的简介MySQL数据库的安装和卸载MySQL数据库概念SQL语言（操作数据库）SQL的分类数据库的操作（CURD）创建数据库（重点）查看数据库（重点）删除数据库（重点）修改数据库表结构操作（CURD）创建表数据库的数据类型（重点）单表的约束（了解）删除和查看表修改表数据的操作（CRUD）（重点）插入数据（insert）MySQL插入中文数据乱码修改数据（update）删除数据（delet
《内在动机》：奖励会伤人，从何而来秋子碎碎念
有个妈妈问连岳：沪漂的她，是单亲家庭，养育两个女孩。有房，但没落户。大女儿在市重点高中就读，成绩优异，马上面临高考。女儿表示想报香港中文大学（深圳）这个学校，但因为这所大学是中外合作办学的，学费加开销，一年15万打底。如果想满足大女儿的愿望，必须把目前所住的两居室换成一居室。妈妈比较犹豫，因为房子是她们娘仨唯一值钱的资产，置换后，不仅生活质量会变得很低，生活也会很被动，没有退路。妈妈内心很抗拒，但
工业物联网中的时序数据库应用
1.引言工业物联网（IndustrialInternetofThings,IIoT）通过传感器、边缘计算和云计算等技术，实现设备数据的实时采集、存储与分析，以提高生产效率、预测设备故障并优化资源管理。然而，IIoT环境通常涉及高频、海量、多源异构的时序数据，传统数据库（如MySQL、Oracle）难以满足其高吞吐写入、低延迟查询和高效存储的需求。时序数据库（Time-SeriesDatabase,
AI推演人类进化：计算人类学与基因仿真的融合革命
AI推演人类进化：计算人类学与基因仿真的融合革命引言：数字达尔文主义的新纪元“进化不是直线，而是亿万次迭代的多元宇宙”——李·克罗宁（计算化学家）当AlphaFold解开蛋白质折叠之谜，AI开始重构生命演化的底层逻辑。本文通过多智能体仿真、古基因组重建与文化演化建模三大技术支柱，揭示AI如何推演人类从南方古猿到智人的百万年征程，并预测未来千年的进化轨迹。一、进化动力学的基础模型1.1扩展的哈迪-温
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam