Q小Q琪

NLP-Beginner任务四学习笔记：基于LSTM+CRF的序列标注

**用LSTM+CRF来训练序列标注模型：以Named Entity Recognition为例**

数据集：CONLL 2003，https://www.clips.uantwerpen.be/conll2003/ner/

任务一博客链接：https://blog.csdn.net/qq_51983316/article/details/129314052

任务二博客链接：https://blog.csdn.net/qq_51983316/article/details/129387225

任务三博客链接：https://blog.csdn.net/qq_51983316/article/details/129470730

参考论文：
1、https://arxiv.org/pdf/1603.01354.pdf
2、https://arxiv.org/pdf/1603.01360.pdf

一、数据集

二、知识点学习

（一）命名实体识别任务（NER）

1、基本概念

2、主要方法

（二）条件随机场（CRF）

1、基本概念

2、基于CRF的命名实体识别

（三）LSTM+CRF

1、模型原理

2、模型详解

3、CRF损失函数

（四）模型评估

1、混淆矩阵

2、精确率（Precision）

3、准确度（Accuracy）

4、召回率（Recall）

5、F1-score

三、实验

（一）代码实现

1、main.py

2、utils.py

（二）结果分析

一、数据集

The first item on each line is a word, the second a part-of-speech (POS) tag, the third a syntactic chunk tag and the fourth the named entity tag.

原始数据集共有三个文件：train.txt, test.txt 和 dev.txt

CoNLL-2003共享任务数据文件包含由一个空格分隔的四列。每个单词都放在单独的一行，每个句子后面都有一个空行。每行上的第一项是一个单词，第二项是词性标签，第三项是句法组块标签，第四项是命名实体标签。块标记和命名实体标记的格式为I-TYPE，这意味着单词位于TYPE类型的短语内。只有当同一类型的两个短语紧跟在一起时，第二个短语的第一个单词才会有标记B-type，以显示它开始了一个新短语。标记为O的单词不是短语的一部分。下面是一个示例：

原数据：
Peter NNP B-NP B-PER
Blackburn NNP I-NP I-PER
输入文本： Peter Blackburn
输出序列： B-PER I-PER

原数据：
EU NNP B-NP B-ORG
rejects VBZ B-VP O
German JJ B-NP B-MISC
call NN I-NP O
to TO B-VP O
boycott VB I-VP O
British JJ B-NP B-MISC
lamb NN I-NP O
输入文本： EU rejects German call to boycott British lamb.
输出序列： B-ORG O B-MISC O O O B-MISC O O

二、知识点学习

（一）命名实体识别任务（NER）

1、基本概念

命名实体识别（Named Entity Recognition，NER）是信息提取、问答系统、句法分析、机器翻译等 NLP 应用领域的重要基础工具。一般而言，NER的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

NER英文命名实体识别的目标是识别句子中每个词语的实体类型，包括5大类：PER（人名）、LOC（地名）、ORG（组织名）、MISC（其它类型实体）、O（非实体）。

由于实体可能是由多个词语构成的，因此使用标注B、l来区分该词语是该实体的起始词（Begin）还是中间词（Inside）

但随着 NLP 任务的不断扩充，在特定领域中会出现特定的类别，比如医药领域中，药名、疾病名称等类别。同时，实体类型是根据需求人为定义的，这种定义可以是有层次的。例如，产品类是一个大类，下面可能会包含手机类、电脑类、照相机类等等。这种定义就是本体建模。

NER任务常转化为序列标注问题，利用BIO、BIOES和BMES等常用的标注规则对经过分词的文本进行token标注。序列标注的命名实体识别方法中，CNN、BERT、LSTM等深度模型与条件随机场CRF结合已经成为最主流和普遍的方法。

2、主要方法

（1）基于规则和字典的方法：规则的设计一般基于句法、语法、词汇的模式及特定领域的知识。制定好规则和词典后，通常使用匹配的方式对文本进行处理以实现命名实体识别。
（2）基于传统机器学习的方法，命名实体识别往往被视作序列标注问题，主要有以下方法：

隐马尔可夫模型(Hidden Markov Model, HMM)
最大熵(Maximum Entropy, ME)
最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)
支持向量机(Support Vector Machine, SVM)
条件随机场( Conditional Random Fields, CRF)

（3）基于深度学习的方法，近年往往在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、远监督学习等热门研究技术进行NER任务的实现，主要有以下方法：

BiLSTM-CRF
IDCNN-CRF
CAN-NER
BERT-Attention

（二）条件随机场（CRF）

1、基本概念

条件随机场（CRF）是一种在已知一组输入随机变量条件的情况下，输出另一组随机变量的条件概率分布模型；其前提是假设输出随机变量构成马尔可夫随机场；条件随机场可以应用于不同类型的标注问题，例如：单个目标的标注、序列结构的标注和图结构的标注等。

CRF模型是在隐马尔可夫模型（HMM）模型的基础上发展起来的。根据HMM模型的齐次马尔科夫性假设：假设隐藏的马尔科夫链在任意时刻 t 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 t 无关。但CRF模型不仅考虑前一时刻的状态，还考虑其前面与后面的多个状态。因此一般来说，CRF会具有更好的标记性能。

假设训练集为，对应的标记序列为以及多个特征函数，CRF 模型参数 $\lambda _j$ 和的参数形式和条件概率分布公式如下：

可以看出 CRF 有两类特征函数：其中一类是定义在上下文的局部特征函数，这类特征函数和当前节点和上一节点有关，J 是定义在该节点的局部特征函数的总个数，i 是当前节点在序列的位置，公式如下：

另一类特征函数是定义在 y 节点上的节点特征函数，只和当前节点有关，K 是定义在该节点的节点特征函数的总个数，i 是当前节点在序列的位置，公式如下：

2、基于CRF的命名实体识别

采用 CRF 模型对每个字标注对应实体类型的BIO标记，BIO 标记有 B-Person-人名的开始部分、I-Person-人名的中间部分、B-Organization-组织机构的开始部分、I-Organization-组织机构的中间部分和 O-非实体信息。

例如：句子“白居易是中国杰出的诗人”，其对应的观察序列和标注序列如下所示：

根据 CRF 的特征函数可以构建上下文特征、词本身特征和词性特征等，如下：

（三）LSTM+CRF

1、模型原理

BiLSTM-CRF 的命名实体识别模型架构图如下：（来自论文《Neural Architectures for Named Entity Recognition》），每个句子按照词序逐个输入双向LSTM中，结合正反向隐层输出得到每个词属于每个实体类别标签的概率，输入CRF中，优化目标函数，从而得到每个词所属的实体类别。

其中 BiLSTM 层的输入是每个词的向量表示；BiLSTM 层的输出是当前时刻的输入属于每个实体类别标签的概率；CRF 层主要负责计算得分，确定最终的标注序列。

2、模型详解

假设 x 是一个短句子序列，共包含5个单词，记为（w0,w1,w2,w3,w4）。其中，x 中 [w0,w1] 是人名，[w3] 是组织机构名称，其他非实体均为“O”。

第一层为词嵌入层。句中的每个单词是一条包含词嵌入和字嵌入的词向量，词嵌入通常是事先训练好的，字嵌入则是随机初始化的。所有的嵌入都会随着训练的迭代过程被调整。

第二层为 BiLSTM 编码。该层的输入是将单个词w0通过onehot编码，词嵌入之后的k维稠密向量，BiLSTM层的输出表示该单词对应各个类别的分数，见下图：

其中，W0，BiLSTM节点的输出是1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and 0.05 (O)，输出这些标签的概率得分后将其传入CRF层。

第三层为CRF打分层。所有的经 BiLSTM 层输出的分数将作为 CRF 层的输入，类别序列中分数最高的类别就是预测的最终结果。

从上述描述来看，BiLSTM已然可以完成分类和序列标注工作，那CRF的作用又体现在哪里呢，是不是也可以去掉CRF层？

因为BiLSTM模型的结果是单词对应各类别的分数，我们可以选择分数最高的类别作为预测结果。如W0，“B-Person”的分数最高（1.5），那么我们可以选定“B-Person”作为预测结果。同样的，w1是“I-Person”, w2是“O”,w3是 “B-Organization” ，w4是 “O”。尽管我们在该例子中得到了正确的结果，如左图。但实际情况并不总是这样，如右图。

很明显，右图BiLSTM的输出并不正确。因此，CRF是必要的。

CRF能为BiLSTM提供转换的一些约束，拿词性标注举例子，形容词后面大概率会跟名词，名词后面大概率会跟动词，还可以提供整个序列的概率统计，前面出现了某些单词后，这个位置应该是谓词。因为LSTM只是对每一步的向量进行过滤和叠加，这些信息是LSTM不好捕捉的。

CRF层的约束可以在训练数据时被CRF层自动学习得到。

可能的约束条件如下，有了这些有用的约束，错误的预测序列将会大大减少。

句子的开头应该是“B-”或“O”，而不是“I-”。
“B-label1 I-label2 I-label3…”，在该模式中，类别1,2,3应该是同一种实体类别。比如，“B-Person I-Person” 是正确的，而“B-Person I-Organization”则是错误的。
“O I-label”是错误的，命名实体的开头应该是“B-”而不是“I-”。

因此，BiLSTM可以捕捉长距离的上下文信息，对于每一步能获得很好的语意向量，CRF是对整个序列进行似然概率统计，并且捕捉转换信息，将两者结合起来可以互补不足。

3、CRF损失函数

CRF损失函数由两部分组成，真实路径的分数 和 所有路径的总分数。真实路径的分数应该是所有路径中分数最高的。其中每条路径上的损失函数都包括两种类型的分数（状态分数+转移分数）。

（1）状态分数(Emission score)：也称发射分数（状态分数），该分数来自BiLSTM层的输出，如上左图所示，w0被预测为B-Person的分数是1.5，该分数为发射分数。

（2）转移分数：表示从一个类别转移至另一个类别的得分，所有类别间的转移分数矩阵如下：【为了使转移分数矩阵更具鲁棒性，我们加上START 和 END两类标签。START代表一个句子的开始，END代表一个句子的结束】

实际上，转移矩阵是BiLSTM-CRF模型的一个参数。在训练模型之前，你可以随机初始化转移矩阵的分数。这些分数将随着训练的迭代过程被更新，换言之，CRF层可以自己学到这些约束条件。

总体而言，CRF 的损失函数计算公式如下所示：

其中，对于5个词组成的句子，假定类别标签有5个(B-Person, I-Person, B-Organization, I-Organization, O)，其可能的类别序列有 $5^{5}=3125$ ，即 N = 3125。

总之，LSTM-CRF的模型结构如下：（来自论文《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》）

LSTM+CRF模型用字符级别的embedding作为输入捕捉字符信息，然后将其跟单词embedding拼接起来作为BiLSTM的输入。然后BiLSTM的输出给到CRF模型来进行序列的联合解码。BiLSTM的输入和输出都加了dropout。实验表明dropout可以有效提升模型表现。

NLP-Beginner任务四学习笔记：基于LSTM+CRF的序列标注_第4张图片

from "End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF"

代码实现：

import torch
import torch.nn as nn
from torch.nn.utils.rnn import pack_padded_sequence
from torch.nn.utils.rnn import pad_packed_sequence
from torchcrf import CRF  # pytorch-crf包提供了一个CRF层的PyTorch版本实现


"""定义神经网络模型类 LSTM_CRF"""
class LSTM_CRF(nn.Module):

    # vocab_size: 词汇表的大小（即词汇量）。
    # tag_to_index: 一个字典，将标签映射到索引。
    # embedding_size: 嵌入层的维数。
    # hidden_size: 隐藏层的大小。
    # max_length: 句子的最大长度。
    # vectors: 预训练词向量（默认为None）。

    def __init__(self, vocab_size, tag_to_index, embedding_size, hidden_size, max_length, vectors=None):
        # 调用父类的初始化函数
        super(LSTM_CRF, self).__init__()
        self.embedding_size = embedding_size
        self.hidden_size = hidden_size
        self.vocab_size = vocab_size
        # 标签到索引的映射字典
        self.tag_to_index = tag_to_index
        # 标签数量
        self.target_size = len(tag_to_index)
        # 初始化嵌入层，如果提供了预训练词向量，则使用预训练词向量进行初始化
        if vectors is None:
            self.embedding = nn.Embedding(vocab_size, embedding_size)
        else:
            self.embedding = nn.Embedding.from_pretrained(vectors)
        # 初始化BiLSTM模型
        # hidden_size // 2 是整除运算符，表示将 hidden_size 的值除以 2 并向下取整，得到的结果作为新的 hidden_size 的值。
        # 这个操作的目的是将 LSTM 层的 hidden_size 拆成两个部分，以便实现双向 LSTM。
        # 如果 hidden_size 的值为 100，则 hidden_size // 2 的值为 50，即每个方向上的 LSTM 的 hidden_size 值都是 50。
        self.lstm = nn.LSTM(embedding_size, hidden_size // 2, bidirectional=True)
        # 定义一个全连接层，将隐藏层的输出映射到标签的数量
        self.hidden_to_tag = nn.Linear(hidden_size, self.target_size)
        # 定义条件随机场层
        self.crf = CRF(self.target_size, batch_first=True)
        # 存储最大句子长度
        self.max_length = max_length

    # 定义函数，根据给定的句子长度列表生成一个掩码
    def get_mask(self, length_list):
        # 函数根据输入的句子长度列表生成一个掩码张量，掩码张量用于屏蔽输入句子中的填充元素
        mask = []
        # 零填充: 根据长度列表生成掩码张量，其中长度小于最大长度的位置用0填充，否则用1填充。
        for length in length_list:
            mask.append([1 for i in range(length)] + [0 for j in range(self.max_length - length)])
        return torch.tensor(mask, dtype=torch.bool)

    # 定义LSTM层的前向传递函数
    def LSTM_Layer(self, sentences, length_list):
        # 将输入序列嵌入到低维空间中
        embeds = self.embedding(sentences)
        # 使用pack_padded_sequence函数将嵌入序列打包
        packed_sentences = pack_padded_sequence(embeds, lengths=length_list, batch_first=True, enforce_sorted=False)
        # 使用LSTM层处理打包后的序列
        lstm_out, _ = self.lstm(packed_sentences)
        # 将打包后的序列解包
        result, _ = pad_packed_sequence(lstm_out, batch_first=True, total_length=self.max_length)
        # 将结果传递到全连接层中进行标记预测
        feature = self.hidden_to_tag(result)
        return feature

    # 计算给定排放分数的标签序列的条件对数似然性
    def CRF_layer(self, input, targets, length_list):
        """input：发射得分张量，大小为(seq_length, batch_size, num_tags)或(batch_size, seq_length, num_tags)，取决于batch_first参数是否为 True。
        targets：标记序列张量，大小为(seq_length, batch_size)或(batch_size, seq_length)，取决于batch_first参数是否为True。
        length_list：每个句子的实际长度列表。

        该函数调用了self.crf，它是一个torchcrf库中的CRF层。它接受3个参数：
        emissions：发射得分张量，大小为(seq_length, batch_size, num_tags)或(batch_size, seq_length, num_tags)，取决于batch_first参数是否为True。
        tags：标记序列张量，大小为(seq_length, batch_size)或(batch_size, seq_length)，取决于batch_first参数是否为True。
        mask：掩码张量，大小为(seq_length, batch_size)或(batch_size, seq_length)，取决于batch_first参数是否为True。
        """
        return self.crf(input, targets, self.get_mask(length_list))

    def forward(self, sentences, length_list, targets):
        # length_list 包含了每个句子的实际长度；targets 包含了每个句子中每个词对应的标签
        # 调用 LSTM_Layer 方法对输入序列进行处理得到 x。
        x = self.LSTM_Layer(sentences, length_list)
        # 将 x 和 targets 传递给 CRF_layer 方法，用于计算条件对数似然
        x = self.CRF_layer(x, targets, length_list)
        return x

    def predict(self, sentences, length_list):
        out = self.LSTM_Layer(sentences, length_list)
        mask = self.get_mask(length_list)
        # 将 LSTM_Layer 的输出 out 和 mask 传递给 decode 方法来预测每个词对应的标签序列，然后将预测得到的标签序列返回。
        return self.crf.decode(out, mask)

（四）模型评估

1、混淆矩阵

在模型评价中，一般会用准确度（Accuracy）评估模型好坏，但准确度并不总是衡量分类性能的重要指标，准确度、召回率和F1-score在评测分类模型性能起到非常重要的作用。为了帮助确定这些指标的重要性，定义了混淆矩阵：

True Positives (TP)：正确分类为阳性的阳性实例数

False Positives (FP)：错误分类为阳性的阴性实例数

True Negatives (TN)：正确分类为否定的否定实例数

False Negatives (FN)：错误分类为阴性的阳性实例数

2、精确率（Precision）

精确率（Precision）是真正例（TP）占所有正例（TP+FP）的比例。精确率也叫查准率，以物体检测为例，精确率高表示模型检测出的物体中大部分确实是物体，只有少量不是物体的对象被当成物体。该指标能够说明模型的正例预测有多精确。当我们认为假阳性比假阴性更重要时，精确度很重要（例如反欺诈识别）。

3、准确度（Accuracy）

准确率(Accuracy)是最直观的评价指标，即模型判断正确的数据(TP+TN)占总数据的比例。

使用准确度的一个问题是当数据不平衡时，没法准确评估精度，数据越不平衡，问题就越严重。

4、召回率（Recall）

召回率（Recall）是模型正确判断出的正例(TP)占数据集中所有正例的比例。召回率也叫查全率，该指标衡量了模型能够正确召回的实际正例的数量。当我们认为假阴性比假阳性更重要时，召回很重要（例如，癌症检测）。

这种权衡试图解决的问题以及偏向误报而非误报的任何固有后果（反之亦然）。

以癌症为例：

设计一个具有高召回率的模型可以识别大多数癌症患者（真阳性），挽救他们的生命，但代价是将健康个体误诊为癌症（假阳性），让他们接受昂贵而危险的治疗。另一方面，设计一个精确的模型可以得到可靠的诊断（即，预测患有癌症的人很可能确实患有癌症），但代价是无法识别每个患有该疾病的人（假阴性），从而对那些未被诊断的人造成潜在的致命后果。（因为假阴性会导致死亡，我们的分类阈值可能会被设置为优化查全率而非查准率）。

5、F1-score

考虑到这种相互竞争的权衡，拥有一个同时考虑精确度和召回率的单一性能指标将非常重要。因此，诞生了F1-score，该指标同时考虑了精确度和召回率，通过取两个指标的调和平均值来计算：

在精确度或召回率较差的情况下，F1-score也会较差。只有当准确率和召回率都有很好的表现时，F1-score才会很高。它是比较多分类器性能的一种很好的方法。当在多个模型之间进行选择时，所有模型都具有不同的精度和/或召回值，它在实践中经常被用作根据性能对模型进行排名的度量。

三、实验

参数设置：

训练集：train.txt中前14000条数据

测试集：test.txt中前3200条数据
模型：LSTM-CRF
词嵌入初始化：GloVe预训练模型初始化（glove.6B.50d.txt）

random_seed：2023
学习率：0.001

n_classes = 5 # 分类个数
batch_size：250
embedding_size：50 # 每个词向量有几维
hidden_size：50
epochs：20

运行环境：

python：3.7

pytorch：1.7.0（gpu）

torchtext：0.8.0

cuda版本：10.1

（一）代码实现

1、main.py

import os
import numpy as np
import time
import torch
import matplotlib.pyplot as plt
from torchtext.vocab import Vectors
from utils import read_data
from utils import get_dataloader
from utils import pre_processing
from utils import compute_f1
from model import LSTM_CRF


# 参数设置
n_classes = 5  # 分类个数
batch_size = 250
embedding_size = 50  # 每个词向量有几维（几个特征）
hidden_size = 50
epochs = 20
vectors = Vectors('data/glove.6B.50d.txt')


def train(model, vocab_size, tag2idx, embedding_size, hidden_size, max_length, vectors=None):
    # model: 要训练的模型，类型为 LSTMCRF。
    # vocab_size: 词汇表大小，即训练集中不同词汇的数量。
    # tag2idx: 标签到索引的映射字典。
    # embedding_size: 嵌入层的维度大小。
    # hidden_size: LSTM 隐藏层的维度大小。
    # max_length: 训练集中句子的最大长度。
    # vectors: 预训练的词向量矩阵。
    model = model(vocab_size, tag2idx, embedding_size, hidden_size, max_length, vectors=vectors)
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    # loss_history 记录了每个 epoch 的平均损失，f1_history 记录了每个 epoch 的平均 F1 分数
    loss_history = []
    # 训练集数据加载器的长度，等于训练集中的样本数量除以batch size
    print("dataloader length: ", len(train_dataloader))
    model.train()
    f1_history = []
    # 循环次数为epochs，epoch次数 = 迭代次数 / batch size；迭代次数 = 样本数量 / batch size
    for epoch in range(epochs):
        total_loss = 0.
        f1 = 0
        for idx, (inputs, targets, length_list) in enumerate(train_dataloader):
            # 梯度清零，以免梯度累积
            model.zero_grad()
            # 计算每个样本的损失，并将损失加到总损失中。损失是模型的负对数似然损失
            loss = (-1) * model(inputs, length_list, targets)
            total_loss += loss.item()
            # 这两行代码计算每个样本的预测结果，并将F1分数加到总F1分数中
            pred = model.predict(inputs, length_list)
            f1 += compute_f1(pred, targets, length_list)
            # 计算模型的梯度、对梯度进行剪裁，然后使用优化器
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
            optimizer.step()
            # 每 10 个批次输出一次当前 epoch 的平均损失和 F1 分数
            if (idx + 1) % 10 == 0 and idx:
                cur_loss = total_loss
                loss_history.append(cur_loss / (idx+1))
                f1_history.append(f1 / (idx+1))
                total_loss = 0
                # batch指一次性处理的一组训练样本，将其分为多个小批次，每个小批次包含的样本数量为batch size
                print("epochs : {}, batch : {}, loss : {}, f1 : {}".format(epoch+1, idx*batch_size,
                                                                           cur_loss / (idx * batch_size), f1 / (idx+1)))
    # 绘制损失图
    plt.plot(np.arange(len(loss_history)), np.array(loss_history))
    plt.xlabel('Iterations')
    plt.ylabel('Training Loss')
    plt.title('LSTM+CRF model')
    plt.show()
    # 绘制f1得分图
    plt.plot(np.arange(len(f1_history)), np.array(f1_history))
    plt.title('train f1 scores')
    plt.show()

    # 将模型设置为评估模式，这意味着在模型的前向传播过程中，不会更新权重，也不会计算梯度，以加快模型的执行速度
    model.eval()
    f1 = 0
    f1_history = []
    s = 0
    with torch.no_grad():
        # 迭代测试数据集的每个batch，其中inputs是输入序列，targets是对应的标签序列，length_list是每个输入序列的实际长度。
        for idx, (inputs, targets, length_list) in enumerate(test_dataloader):
            loss = (-1) * model(inputs, length_list, targets)
            total_loss += loss.item()
            # 使用模型进行预测，并返回预测的标签序列
            pred = model.predict(inputs, length_list)
            # 计算预测标签序列和真实标签序列之间的F1值，并将结果累加到f1中
            f1 += compute_f1(pred, targets, length_list) * 250
    print("f1 score : {}, test size = {}".format(f1/3200, 3200))


if __name__ == '__main__':
    x_train, y_train = read_data("data/train.txt", 14000)
    x_test, y_test = read_data("data/test.txt", 3200)
    word2idx, tag2idx, vocab_size = pre_processing()
    train_dataloader, train_max_length = get_dataloader(x_train, y_train, batch_size)
    test_dataloader, test_max_length = get_dataloader(x_test, y_test, 250)
    train(LSTM_CRF, vocab_size, tag2idx, embedding_size, hidden_size, max_length=train_max_length, vectors=None)

2、utils.py

import torch
from torch.utils.data import DataLoader, Dataset


""" 读取数据 """
def read_data(path, length):  # length 限制读取的句子数量
    sentences_list = []         # 每一个元素是一整个句子
    sentences_list_labels = []  # 每个元素是一整个句子的标签
    with open(path, 'r', encoding='UTF-8') as f:
        sentence_labels = []    # 每个元素是这个句子的每个单词的标签
        sentence = []           # 每个元素是这个句子的每个单词

        for line in f:
            line = line.strip()  # 对于文件中的每一行，删除字符串前后的空白字符
            if not line:        # 如果遇到了空白行
                if sentence:    # 如果上一个句子不是空句子（防止空白行连续多个，导致出现空白的句子）
                    sentences_list.append(' '.join(sentence))  # 将单词合并为句子，并将该句子加入到列表sentences_list中
                    sentences_list_labels.append(' '.join(sentence_labels))  # 将标签合并为标签序列，并将该标签序列加入到列表sentences_list_labels中

                    sentence = []
                    sentence_labels = []  # 重置，开始处理下一个句子的单词和标签
            else:
                res = line.split()  # 将一行字符串按空格划分为单词、空格、标签、空格四个部分
                assert len(res) == 4  # 断言每一行都必须划分为4个部分
                if res[0] == '-DOCSTART-':  #如果该行为起始标志，忽略该行，开始处理下一行
                    continue
                sentence.append(res[0])  # 将单词加入到sentence列表中
                sentence_labels.append(res[3])  # 将标签加入到sentence_labels列表中

        if sentence:            # 处理最后一个句子，防止最后一个句子没有空白行
            sentences_list.append(' '.join(sentence))
            sentences_list_labels.append(' '.join(sentence_labels))
    return sentences_list[:length], sentences_list_labels[:length]  # 返回处理好的句子及其对应的标签序列，length指定了返回的句子数量


""" 构建词典（分词）"""
def build_vocab(sentences_list):  # sentences_list 包含多个句子的列表
    vocab = []
    # 使用列表解析式将 sentences 拆分成单个单词，并返回一个由这些单词组成的列表。
    for sentences in sentences_list:
        vocab += [word for word in sentences.split()]
    # 首先使用 set 函数将列表中的元素去重，然后将去重后的元素转换为列表
    return list(set(vocab))


""" 自定义数据集 """
class ClsDataset(Dataset):  # 用于将输入的数据和标签转换为可迭代的数据集对象
    def __init__(self, x: torch.Tensor, y: torch.Tensor, length_list):
        self.x = x
        self.y = y
        self.length_list = length_list
    def __getitem__(self, index):  # 返回给定索引的数据项
        data = self.x[index]  # 使用给定索引从输入特征张量中获取相应的输入数据
        labels = self.y[index]  # 使用给定索引从目标变量张量中获取相应的标签数据
        length = self.length_list[index]  # 使用给定索引从输入序列长度列表中获取相应的序列长度
        return data, labels, length
    def __len__(self):  # 返回数据集的长度
        return len(self.x)


""" 返回单词在字典中的索引 """
def get_idx(word, d):
    # 判断字典 d 中是否包含单词 word 的索引，如果包含则返回该索引
    if d[word] is not None:
        return d[word]
    # 如果字典 d 中不包含单词 word 的索引，则返回字典中预先定义好的 '' 对应的索引
    else:
        return d['']


""" 将句子转换为由词汇表中的单词索引组成的向量 """
def sentence2vector(sentence, d):  # d为词汇表，由单词索引组成的字典
    # 使用列表推导式将句子分割成单词，对于每个单词调用get_idx函数获得它在字典中的索引，然后将所有的单词索引组成的列表返回
    return [get_idx(word, d) for word in sentence.split()]


"""用指定值填充序列"""
def padding(x, max_length, d):
    length = 0
    # 确定填充长度后，将  对应的值标记添加到 x 的末尾，进行填充
    for i in range(max_length - len(x)):
        x.append(d[''])
    return x


""" 将原始文本数据集 x 和 y 转换为 PyTorch 的数据加载器 """
def get_dataloader(x, y, batch_size):
    word2idx, tag2idx, vocab_size = pre_processing()  # 预处理数据并建立词表和标签表
    inputs = [sentence2vector(s, word2idx) for s in x]  # 每一个句子都转化成vector
    targets = [sentence2vector(s, tag2idx) for s in y]
    # 计算每个句子的长度
    length_list = [len(sentence) for sentence in inputs]
    # 找到最长的句子的长度并将其截断为124
    max_length = max(max(length_list), 124)
    # 使用padding将每个句子填充为最大长度
    inputs = torch.tensor([padding(sentence, max_length, word2idx) for sentence in inputs])
    targets = torch.tensor([padding(sentence, max_length, tag2idx) for sentence in targets], dtype=torch.long)
    # 创建数据集并使用DataLoader加载数据
    dataset = ClsDataset(inputs, targets, length_list)
    dataloader = DataLoader(dataset, shuffle=False, batch_size=batch_size)
    # 返回数据加载器和最大长度
    return dataloader, max_length


""" 数据预处理 """
def pre_processing():
    # 调用 read_data 函数读取训练集和测试集数据，返回两个元组，每个元组包含两个列表，分别是输入数据和标签数据
    x_train, y_train = read_data("data/train.txt", 14000)
    x_test, y_test = read_data("data/test.txt", 3200)
    # 调用 build_vocab 函数，分别对输入和标签数据建立词汇表。这里将训练集和测试集合并后一起建立词汇表。
    d_x = build_vocab(x_train+x_test)
    d_y = build_vocab(y_train+y_test)
    # 将每个词汇/标签映射到一个唯一的整数，用字典存储。字典的键是词汇/标签，值是整数。
    word2idx = {d_x[i]: i for i in range(len(d_x))}
    tag2idx = {d_y[i]: i for i in range(len(d_y))}
    # 为起始标签和终止标签分别添加索引值。这些标签通常用于序列标注任务中。
    tag2idx[""] = 9
    tag2idx[""] = 10
    # 为填充标记添加索引。将填充标记添加到词汇表和标签字典的末尾。
    pad_idx = len(word2idx)
    word2idx[''] = pad_idx
    tag2idx[''] = len(tag2idx)
    # 计算词汇表的大小，建立标签到索引的反向映射字典。输出标签到索引的字典。
    vocab_size = len(word2idx)
    # idx2tag = {value: key for key, value in tag2idx.items()}
    print(tag2idx)
    # 返回词汇表、标签字典和词汇表大小
    return word2idx, tag2idx, vocab_size


""" 计算F1-score """
def compute_f1(pred, targets, length_list):
    # 初始化 TP, FN 和 FP
    tp, fn, fp = [], [], []
    # 共有15个标签
    for i in range(15):
        tp.append(0)
        fn.append(0)
        fp.append(0)
    # 遍历每个句子的标签预测结果和真实标签，更新计数。
    for i, length in enumerate(length_list):
        for j in range(length):
            # 获取预测的标签和真实的标签。
            a, b = pred[i][j], targets[i][j]
            # 若预测的标签和真实的标签一致，则增加标签的 TP 计数。
            if (a == b):
                tp[a] += 1
            else:
                fp[a] += 1
                fn[b] += 1
    # 计算所有有效标签的TP/FP/FN
    tps = 0
    fps = 0
    fns = 0
    for i in range(9):
        tps += tp[i]
        fps += fp[i]
        fns += fn[i]
    # 计算 Precision 和 Recall
    p = tps / (tps + fps)
    r = tps / (tps + fns)
    # 计算 F1 分数并返回
    return 2 * p * r / (p + r)

（二）结果分析

总结：

由于是初学者，学习过程中参考了很多大佬的资料和代码，均附上参考链接：

1、https://blog.csdn.net/Raki_J/article/details/122435674

2、邱锡鹏——《神经网络与深度学习》

3、https://blog.csdn.net/qq_42365109/article/details/119246515

4、NLP入门（四）命名实体识别（NER） - 简书 (jianshu.com)

5、命名实体识别系列（一）NER任务介绍_一鸣鸣的博客-CSDN博客

6、https://blog.csdn.net/weixin_45884316/article/details/118684681

7、https://blog.csdn.net/qq_41773806/article/details/115598437

8、https://zhuanlan.zhihu.com/p/519982682

9、https://cloud.tencent.com/developer/article/1490456

10、https://blog.csdn.net/qfikh/article/details/103588744

以上就是NLP-Beginner的任务四，欢迎各位前辈批评指正！

你可能感兴趣的:(NLP任务学习笔记,自然语言处理,lstm,pytorch,nlp,深度学习)

搜广推校招面经十九 Y1nhl 搜广推面经搜索引擎推荐算法 python 求职招聘
快手推荐算法一、1*1的cnn有什么作用？1.1.降维与通道数调整（ChannelReduction）在CNN中，特征图（FeatureMap）通常有多个通道（channels）。1×1卷积可以用于减少通道数，从而降低计算量，提高模型效率。1×1卷积可以增加通道数，以增强特征表达能力。示例代码（PyTorch）：importtorchimporttorch.nnasnnconv1x1=nn.Con
Jupyter notebook和 Jupyter lab内核死亡问题的原因和解决方案 Y1nhl 软件安装算法竞赛数据处理 jupyter ide python pandas 数据挖掘机器学习
写在前面：之前也遇到过几次内核死亡的问题，也一直没有想解决办法。这里总结一下并提出几个解决办法。首先明确一下jupyter出现内核死亡的原因：jupyterlab或者jupyternotebook本身是一个web服务，无法支持高并发和频繁的计算任务，对于大规模运行或高并发是不够能力处理，所以机会内核死亡。所以如果平时也习惯用pycharm，移植代码到pycharm运行就没问题了。我是因为很少用py
第68节步骤导航器 Stepper 开发川石课堂软件测试 harmonyos 华为云鸿蒙系统华为鸿蒙
在HarmonyOSArkTS中，步骤导航器Stepper是一个用于引导用户按照步骤完成任务的组件。以下是对Stepper组件开发的详细解析：一、组件介绍Stepper组件：适用于多步骤任务的导航和进度追踪场景，如用户注册、表单填写等。它仅能包含子组件StepperItem，每个StepperItem代表一个步骤。StepperItem组件：作为Stepper的子组件，用于定义每个步骤的内容。它支
使用OpenAI LLM与Neo4j数据库进行自然语言交互 bBADAS neo4j 数据库交互 python
技术背景介绍在现代数据分析和应用开发中，图数据库以其独特的强大功能越来越受到重视。其中，Neo4j是最受欢迎的图数据库之一。结合自然语言处理（NLP），可以使数据查询变得更加直观和便捷。本篇文章将介绍如何使用OpenAI的语言模型将自然语言问题转换成Cypher查询，并通过Neo4j数据库执行该查询，并给出自然语言的响应。核心原理解析我们的目标是实现一个系统，该系统能够接受自然语言输入，将其转换为
磁盘空间分析统计和管理软件 TreeSize Pro 中文注册版下载与使用说明 xiaodi8 windows 电脑
TreeSizePro是一款功能丰富且易于操作的磁盘空间管理软件。通过它，用户可以快速、准确地查看计算机中各文件和文件夹的占用情况，从而有效地管理磁盘空间，提升计算机的性能和效率。TreeSizePro支持快速扫描各种存储介质，如硬盘、SSD、网络共享、CD/DVD以及移动设备等。扫描速度非常快，且占用系统资源少，非常适合长时间使用。更值得一提的是，它支持多任务扫描，用户可以同时扫描多个区域，从而
Linux 查看文件的超强命令集合与实用技巧大揭秘疯狂的键盘侠 linux linux
Linux查看文件的超强命令集合与实用技巧大揭秘在Linux系统这片广阔天地里，查看文件内容是日常操作中最频繁的任务之一。无论是排查系统故障、分析日志，还是研读配置文档，掌握多样化的文件查看命令及技巧，都能让你如虎添翼，迅速定位所需信息。今天，就为大家呈上这份精心整理的Linux查看文件命令与技巧指南。一、基础查看命令cat：全称concatenate，简单直接，用于查看文本文件内容并输出到终端。
es6箭头函数和普通函数的区别 vvilkim es6 前端 ecmascript
在JavaScript中，函数是执行特定任务的代码块。函数可以被定义并且随后被调用。JavaScript中有两种主要的函数定义方式：普通函数声明和箭头函数表达式。下面是这两种函数的定义方式及其区别和使用场景：普通函数声明普通函数可以通过函数声明或函数表达式的方式来定义。函数声明是最简单的方式，通常如下所示：function函数名(参数1,参数2,...){//函数体}示例：functiongree
解锁机器学习核心算法 | 支持向量机：机器学习中的分类利刃紫雾凌寒 AI 炼金厂机器学习算法支持向量机 python 深度学习分类人工智能
一、引言在机器学习的庞大算法体系中，有十种算法被广泛认为是最具代表性和实用性的，它们犹如机器学习领域的“十大神器”，各自发挥着独特的作用。这十大算法包括线性回归、逻辑回归、决策树、随机森林、K-近邻算法、K-平均算法、支持向量机、朴素贝叶斯算法、降维算法、梯度增强算法。它们涵盖了回归、分类、聚类、降维等多个机器学习任务领域，是众多机器学习应用的基础和核心。而在这十大算法中，支持向量机（Suppor
彻底搞懂ScheduledThreadPoolExecutor seven97_top 并发编程 java
前言项目中经常会遇到一些非分布式的调度任务，需要在未来的某个时刻周期性执行。实现这样的功能，我们有多种方式可以选择：Timer类，jdk1.3引入，不推荐。它所有任务都是串行执行的，同一时间只能有一个任务在执行，而且前一个任务的延迟或异常都将会影响到之后的任务。可能会出现任务执行时间过长而导致任务相互阻塞的情况Spring的@Scheduled注解，不是很推荐这种方式底层虽然是用线程池实现，但是有
vue select下拉框选项内容过长显示问题 ramsey17 vue.js javascript elementui
如下图的select下拉框的选项的内容过长时，页面显示不协调，通过如下方法把过长的内容用...代替；在任务名称-->在style中添加.el-select::v-deep.popper-class{width:200px;}#sx.el-row.el-select::v-deep.popper-class{width:200px;}
新书速览|细说PyTorch深度学习：理论、算法、模型与编程实现全栈开发圈深度学习 pytorch 算法
超详细的PyTorch深度学习入门书，100余个编程示例+6大热点案例，大咖带路，边学边实践。本书特点：1.专家编撰：由资深专家精心编撰，通俗易懂，娓娓道来2．范例丰富：100余个编程教学示例，帮你深入理解，边学习、边操练。3.实战应用：6大典型应用，原理与实操并重，快速掌握提升实战能力。4技术先进：视觉transformer模型详解，紧跟大模型核心技术。5易于上手：Pytorch详解并使用Pyt
使用Python和OpenAI Whisper实现YouTube视频转文字及问答系统 llzwxh888 python whisper 音视频
使用Python和OpenAIWhisper实现YouTube视频转文字及问答系统引言在当今的AI时代,从视频内容中提取有价值的信息变得越来越重要。本文将介绍如何使用Python和OpenAIWhisperAPI将YouTube视频转换为文本,并基于此构建一个简单的问答系统。这个过程不仅能帮助我们更好地理解和分析视频内容,还能为进一步的自然语言处理任务奠定基础。主要内容1.环境准备首先,我们需要安
【YOLO模型】（1）--YOLO是什么方世恩 YOLO YOLO 人工智能目标检测
一、什么是YOLOYOLO（YouOnlyLookOnce）是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。1.核心思想它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位置。2.原理YOLO算法将输入图像分成SxS个网格，每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外，YOLO算法还采用了多尺度特征融合的技术
ocr智能票据识别系统|自动化票据识别集成方案 OCR_API 接口 ocr 自动化运维
在企业日常运营中，对大量票据实现数字化管理是一项耗时且容易出错的任务。随着技术的进步，OCR（光学字符识别）智能票据识别系统的出现为企业提供了一个高效、准确的解决方案，不仅简化了财务流程，还大幅提升了工作效率。一、什么是OCR智能票据识别系统？OCR智能票据识别系统是一种基于先进图像处理和深度学习算法的技术，能够自动从各类票据中提取关键信息，并将其转换为结构化数据。翔云发票识别系统可以应用于增值税
从零开始学习代理AI：2025全面指南 zxzy_org 学习人工智能 ai
代理AI作为人工智能的一项重要技术，近年来得到了广泛关注。2025年，代理AI技术的不断进步让许多开发者和企业都迫切希望掌握这项技术。如果你是从零开始学习代理AI，本文将为你提供一份全面的学习指南，帮助你掌握代理AI的基础知识、关键技术和实战经验。首先，你需要理解代理AI的基本概念。代理AI是一种能够自主行动并根据环境反馈调整行为的智能系统。它能够通过学习和推理来完成复杂任务，如自动化客服、智能推
在linux 中搭建deepseek 做微调，硬件配置要求说明慧香一格学习 AI linux 服务器 deepseek
搭建可参考使用deepseek-CSDN博客官方网站：DeepSeekDeepSeek是一个基于深度学习的开源项目，旨在通过深度学习技术来提升搜索引擎的准确性和效率。如果你想在Linux系统上搭建DeepSeek，你可以遵循以下步骤。这里我将提供一个基本的指导，帮助你从零开始搭建一个基础的DeepSeek环境。1.安装依赖首先，确保你的Linux系统上安装了Python和pip。DeepSeek主
AI安全助手︳灵脉AI开发安全卫士在代码阶段护航开发安全 DevSecOps选型指南人工智能 AI安全助手开发安全助手软件供应链安全
在当今快节奏的开发环境当中，兼顾快速的发布周期和稳健的安全实践，是一项艰巨的任务。灵脉AI开发安全卫士将是用户在静态应用安全测试（SAST）领域的AI新盟友。灵脉AI开发安全卫士旨在为用户提供与代码安全专家能力相当、智能好用的AI开发安全助手，真正实现安全左移、降低软件风险及缺陷修复成本，提升企业代码安全治理能力。灵脉AI开发安全卫士功能一览：灵脉AI开发安全卫士优势一览：误报、漏报消减：深入理解
深度学习与图像识别：机器学习基础之回归 Shenrn_ 机器学习回归深度学习
1.线性回归1.1一元线性回归1.2多元线性回归2.逻辑回归与线性回归的不同在于其将最终预测值y固定在一个范围之中2.1Sigmoid函数sigmoid函数表达式：p为预测出来的概率，范围在0-1之间，一般用于处理二分类问题，因为这个式子的一个显著特征在于：当z=0,p=0.5当z>0,p>0.5当z<0,p<0.5所以当对z进行多元线性回归表示的时候，以p的值来反映y_pre是一个不错的选择，此
深度学习下的图像分割人工智能大讲堂深度学习人工智能
在之前写的文章[图像分割演进之路]中，讲述了图像分割的发展历程，从传统图像分割算法到人工智能，分割算法百花齐放，但最终的佼佼者当属人工智能，但即使是人工智能领域，图像分割也五花八门，今天就让我们看几种基于学习的图像分割方法。基于学习的图像分割算法主要依赖于深度神经网络，经典的深度神经网络分为如下几种：2.1卷积神经网络CNN：卷积神经网络是图像处理领域应用最为广泛的网络，其权值共享，局部连接等特性
10分钟搭建钉钉DeepSeek AI助手：无代码实现智能对话 ivwdcwso 运维钉钉人工智能运维 DeepSeek AI
引言DeepSeek最近发布了两款先进的AI模型：V3和R1。其中V3适用于对话AI和内容生成等通用场景，R1则专注于编程和数学等推理任务。借助阿里云百炼提供的DeepSeek模型API，我们可以轻松实现与DeepSeek的对话功能。本文将详细介绍如何使用阿里云AppFlow在钉钉中快速配置DeepSeekAI助手，整个过程无需编写代码，10分钟即可完成。一、创建钉钉应用©ivwdcwso(ID:
深入剖析模型推理：原理、技术与挑战 ♢.＊人工智能模型推理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！引言在当今人工智能飞速发展的时代，模型
《从入门到精通：蓝桥杯编程大赛知识点全攻略》（十四）-地牢大师、全球变暖、大臣的旅费程序猿零零漆蓝桥杯蓝桥杯 java 算法
前言在本文中，我们将探讨三道有趣的算法题，分别是《地牢大师》、《全球变暖》和《大臣的旅费》。每道题目都有独特的挑战，考验我们在图论、动态规划以及数据结构的运用。通过这些问题，我们不仅能提升算法能力，还能进一步理解如何将理论知识应用到实际问题中，解决复杂的编程任务。地牢大师你现在被困在一个三维地牢中，需要找到最快脱离的出路！地牢由若干个单位立方体组成，其中部分不含岩石障碍可以直接通过，部分包含岩石障
Oracle 数据库管理工具鱼弦人工智能时代数据库 oracle
Oracle数据库管理工具使用SQL*Plus简介SQL*Plus是Oracle提供的一个命令行界面工具，用于与Oracle数据库进行交互。它允许用户执行SQL、PL/SQL命令，查看和管理数据库对象。应用使用场景数据库查询：执行简单或复杂的SQL查询。脚本执行：运行批量SQL脚本以自动化数据库操作。日常管理任务：如创建用户、分配权限、监控系统性能等。实际详细应用代码示例实现#连接到Oracle数
【Linux&Python】linux中通过源码方式安装python环境 atwdy 环境安装与配置 linux python 运维
python环境安装直接看第二部分即可。文章目录1.背景2.python安装3.包环境复制1.背景部署一个线上任务时，相同的代码本地开发机正常产出数据，线上产出数据为0，排查到原因是：...File"/home/disk1/wangdeyong/venv/python3_shapely_new/lib/python3.9/site-packages/mcpack/pack.py",line15,i
机器学习和线性回归、softmax回归小名叫咸菜人工智能线性回归
监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分
AI 编程工具崛起，程序员的未来是否岌岌可危？
一、AI编程工具的现状AI编程工具的出现与迅猛发展是技术进步的必然结果。这一趋势首先得益于开源社区和代码托管平台提供的丰富代码样本，它们为AI模型的学习提供了充足的素材。其次，编程语言本身的严格语法和结构化特点，使得AI能够高效、精确地理解和生成代码。再者，深度学习技术的突破，尤其是大语言模型在代码理解与生成方面的显著进展，为AI编程提供了坚实的技术基础。最后，随着软件开发需求的不断增加，传统开发
通用评估系统（五）- 前端部分总体说明一个水货程序员项目实战前端 fastapi python vue
通用评估系统（五）-前端部分总体说明相关链接Gitee地址通用评估系统（一）-介绍通用评估系统（二）-原型设计通用评估系统（三）-前端部分通用评估系统（四）-前端部分计算脚本编辑组件文档说明本节中说明前端总体显示相关信息。具体数据交互待后端开发时同步进行。目录结构实际显示效果全局搜索评估模型管理数据模型管理指标体系管理评估任务管理部分代码说明评估模型管理组件import{ref,h,compute
并发编程利器 - Future 接口小马不敲代码 Java 并发编程
一、背景介绍对于线程池来说，任务执行类只需要实现Runnable接口，然后交给线程池，就可以轻松的实现异步执行多个任务的目标，提升程序的执行效率，比如如下异步执行任务下载。//创建一个线程池ExecutorServiceexecutor=Executors.newFixedThreadPool(2);//提交任务executor.submit(newRunnable(){@Overridepubl
Go核心开发学习笔记(廿九) —— 反射已开挂的24K Golang 开发编程
反射使用的地方序列化和反序列化时，如果希望序列时将结构体字段名称大写转换成小写，json："xxx"这里就用到了反射。两个匿名函数变量，定义一个适配器函数用作统一处理接口：适配器函数：假设匿名函数名字为,匿名函数中参数为a,b…则适配器函数为func(,a,b…)就是说建立一个模板，匿名函数函数名称和匿名函数中的参数都作为适配器函数的参数传递。反射价值在于自己可以开发go框架。反射原理反射可以在运
Python使用aiohttp库进行异步处理 HTTP 请求和响应飞起来fly呀 Python http 网络协议 python
aiohttp是一个非常强大的Python库，专为异步HTTP客户端和服务器开发而设计，它利用了Python的asyncio核心库来实现高效的非阻塞网络编程。这使得开发者可以在处理I/O密集型任务，如网络请求时，更加有效地利用系统资源，从而提升程序的并发性能。安装aiohttp要开始使用aiohttp，首先需要安装这个库。可以通过pip，Python的包管理工具来安装：pipinstallaioh
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin