愚昧之山绝望之谷开悟之坡

『NLP经典项目集』01：seq2vec是什么? 瞧瞧怎么用它做情感分析

paddlenlp.seq2vec是什么？快来看看如何用它完成情感分析任务
注意

建议本项目使用GPU环境来运行:

 

情感分析是自然语言处理领域一个老生常谈的任务。句子情感分析目的是为了判别说者的情感倾向，比如在某些话题上给出的的态度明确的观点，或者反映的情绪状态等。情感分析有着广泛应用，比如电商评论分析、舆情分析等。


paddlenlp.seq2vec
句子情感分析的关键技术是如何将文本表示成一个携带语义的文本向量。随着深度学习技术的快速发展，目前常用的文本表示技术有LSTM，GRU，RNN等方法。 PaddleNLP提供了一系列的文本表示技术，集成在seq2vec模块中。

paddlenlp.seq2vec 模块的作用是将输入的序列文本，表示成一个语义向量。



图1：paddlenlp.seq2vec示意图

seq2vec模块

输入：文本序列的Embedding Tensor，shape：(batch_size, num_token, emb_dim)

输出：文本语义表征Enocded Texts Tensor，shape：(batch_sie,encoding_size)

提供了BoWEncoder，CNNEncoder，GRUEncoder，LSTMEncoder，RNNEncoder等模型

BoWEncoder 是将输入序列Embedding Tensor在num_token维度上叠加，得到文本语义表征Enocded Texts Tensor。

CNNEncoder 是将输入序列Embedding Tensor进行卷积操作，在对卷积结果进行max_pooling，得到文本语义表征Enocded Texts Tensor。

GRUEncoder 是对输入序列Embedding Tensor进行GRU运算，在运算结果上进行pooling或者取最后一个step的隐表示，得到文本语义表征Enocded Texts Tensor。

LSTMEncoder 是对输入序列Embedding Tensor进行LSTM运算，在运算结果上进行pooling或者取最后一个step的隐表示，得到文本语义表征Enocded Texts Tensor。

RNNEncoder 是对输入序列Embedding Tensor进行RNN运算，在运算结果上进行pooling或者取最后一个step的隐表示，得到文本语义表征Enocded Texts Tensor。

seq2vec提供了许多语义表征方法，那么这些方法有什么特点呢？

BoWEncoder采用Bag of Word Embedding方法，其特点是简单。但其缺点是没有考虑文本的语境，所以对文本语义的表征不足以表意。
CNNEncoder采用卷积操作，提取局部特征，其特点是可以共享权重。但其缺点同样只考虑了局部语义，上下文信息没有充分利用。

图2：卷积示意图

RNNEnocder采用RNN方法，在计算下一个token语义信息时，利用上一个token语义信息作为其输入。但其缺点容易产生梯度消失和梯度爆炸。


图3：RNN示意图

LSTMEnocder采用LSTM方法，LSTM是RNN的一种变种。为了学到长期依赖关系，LSTM 中引入了门控机制来控制信息的累计速度，包括有选择地加入新的信息，并有选择地遗忘之前累计的信息。


图4：LSTM示意图

GRUEncoder采用GRU方法，GRU也是RNN的一种变种。一个LSTM单元有四个输入 ，因而参数是RNN的四倍，带来的结果是训练速度慢。GRU对LSTM进行了简化，在不影响效果的前提下加快了训练速度。
 

图5：GRU示意图

关于CNN、LSTM、GRU、RNN等更多信息参考：

Understanding LSTM Networks: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling:https://arxiv.org/abs/1412.3555
A Critical Review of Recurrent Neural Networks for Sequence Learning: https://arxiv.org/pdf/1506.00019
A Convolutional Neural Network for Modelling Sentences: https://arxiv.org/abs/1404.2188
本教程以LSTMEncoder为例，展示如何用paddlenlp.seq2vec完成情感分析任务

AI Studio平台后续会默认安装PaddleNLP，在此之前可使用如下命令安装。

In [ ]
!pip install --upgrade paddlenlp>=2.0.0rc -i https://pypi.org/simple
数据加载
ChnSenticorp数据集是公开中文情感分析数据集。PaddleNLP已经内置该数据集，一键即可加载。

In [ ]
# 在模型训练之前，需要先下载词汇表文件word_dict.txt，用于构造词-id映射关系。
!wget https://paddlenlp.bj.bcebos.com/data/senta_word_dict.txt
--2021-02-03 20:04:42--  https://paddlenlp.bj.bcebos.com/data/senta_word_dict.txt
Resolving paddlenlp.bj.bcebos.com (paddlenlp.bj.bcebos.com)... 100.64.253.38, 100.64.253.37
Connecting to paddlenlp.bj.bcebos.com (paddlenlp.bj.bcebos.com)|100.64.253.38|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 14600150 (14M) [text/plain]
Saving to: ‘senta_word_dict.txt.5’

senta_word_dict.txt 100%[===================>]  13.92M  73.6MB/s    in 0.2s    

2021-02-03 20:04:43 (73.6 MB/s) - ‘senta_word_dict.txt.5’ saved [14600150/14600150]

In [20]
from paddlenlp.data import JiebaTokenizer, Pad, Stack, Tuple, Vocab
from paddlenlp.datasets import load_dataset

vocab = Vocab.load_vocabulary(
    "senta_word_dict.txt", unk_token='[UNK]', pad_token='[PAD]')
# Loads dataset.
train_ds, dev_ds, test_ds = load_dataset(
    "chnsenticorp", splits=["train", "dev", "test"])

for data in train_ds.data[:5]:
    print(data)
{
     'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般', 'label': 1}
{
     'text': '15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错', 'label': 1}
{
     'text': '房间太小。其他的都一般。。。。。。。。。', 'label': 0}
{
     'text': '1.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆，手不能摸，一摸一个印. 4.硬盘分区不好办.', 'label': 0}
{
     'text': '今天才知道这书还有第6卷,真有点郁闷:为什么同一套书有两种版本呢?当当网是不是该跟出版社商量商量,单独出个第6卷,让我们的孩子不会有所遗憾。', 'label': 1}
每条数据包含一句评论和对应的标签，0或1。0代表负向评论，1代表正向评论。

之后，还需要对输入句子进行数据处理，如切词，映射词表id等。

数据处理
PaddleNLP提供了许多关于NLP任务中构建有效的数据pipeline的常用API

API	简介
paddlenlp.data.Stack	堆叠N个具有相同shape的输入数据来构建一个batch
paddlenlp.data.Pad	将长度不同的多个句子padding到统一长度，取N个输入数据中的最大长度
paddlenlp.data.Tuple	将多个batchify函数包装在一起
更多数据处理操作详见： https://github.com/PaddlePaddle/models/blob/release/2.0-beta/PaddleNLP/docs/data.md

In [ ]
from paddlenlp.data import Stack, Pad, Tuple
a = [1, 2, 3, 4]
b = [3, 4, 5, 6]
c = [5, 6, 7, 8]
result = Stack()([a, b, c])
print("Stacked Data: \n", result)
print()

a = [1, 2, 3, 4]
b = [5, 6, 7]
c = [8, 9]
result = Pad(pad_val=0)([a, b, c])
print("Padded Data: \n", result)
print()

data = [
        [[1, 2, 3, 4], [1]],
        [[5, 6, 7], [0]],
        [[8, 9], [1]],
       ]
batchify_fn = Tuple(Pad(pad_val=0), Stack())
ids, labels = batchify_fn(data)
print("ids: \n", ids)
print()
print("labels: \n", labels)
print()
Stacked Data: 
 [[1 2 3 4]
 [3 4 5 6]
 [5 6 7 8]]

Padded Data: 
 [[1 2 3 4]
 [5 6 7 0]
 [8 9 0 0]]

ids: 
 [[1 2 3 4]
 [5 6 7 0]
 [8 9 0 0]]

labels: 
 [[1]
 [0]
 [1]]

本教程将对数据作以下处理：

将原始数据处理成模型可以读入的格式。首先使用jieba切词，之后将jieba切完后的单词映射词表中单词id。

使用paddle.io.DataLoader接口多线程异步加载数据。

In [ ]
from functools import partial
from paddlenlp.data import JiebaTokenizer, Pad, Stack, Tuple
from utils import create_dataloader,convert_example

# Reads data and generates mini-batches.
tokenizer = JiebaTokenizer(vocab)
trans_fn = partial(convert_example, tokenizer=tokenizer, is_test=False)

# 将读入的数据batch化处理，便于模型batch化运算。
# batch中的每个句子将会padding到这个batch中的文本最大长度batch_max_seq_len。
# 当文本长度大于batch_max_seq时，将会截断到batch_max_seq_len；当文本长度小于batch_max_seq时，将会padding补齐到batch_max_seq_len.

batch_size = 64
use_gpu = True
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=vocab.token_to_idx.get('[PAD]', 0)),  # input_ids
    Stack(dtype="int64"),  # seq len
    Stack(dtype="int64")  # label
): [data for data in fn(samples)]
train_loader = create_dataloader(
    train_ds,
    trans_fn=trans_fn,
    batch_size=batch_size,
    mode='train',
    use_gpu=use_gpu,
    batchify_fn=batchify_fn)
dev_loader = create_dataloader(
    dev_ds,
    trans_fn=trans_fn,
    batch_size=batch_size,
    mode='validation',
    use_gpu=use_gpu,
    batchify_fn=batchify_fn)
test_loader = create_dataloader(
    test_ds,
    trans_fn=trans_fn,
    batch_size=batch_size,
    mode='test',
    use_gpu=use_gpu,
    batchify_fn=batchify_fn)
模型搭建
使用LSTMencoder搭建一个BiLSTM模型用于文本分类任务。

paddle.nn.Embedding组建word-embedding层
ppnlp.seq2vec.LSTMEncoder组建句子建模层
paddle.nn.Linear构造二分类器


图7：seq2vec详细示意

In [ ]
import paddle
import paddle.nn as nn
import paddle.nn.functional as F
import paddlenlp as ppnlp


class LSTMModel(nn.Layer):
    def __init__(self,
                 vocab_size,
                 num_classes,
                 emb_dim=128,
                 padding_idx=0,
                 lstm_hidden_size=198,
                 direction='forward',
                 lstm_layers=1,
                 dropout_rate=0.0,
                 pooling_type=None,
                 fc_hidden_size=96):
        super().__init__()

        # 首先将输入word id 查表后映射成 word embedding
        self.embedder = nn.Embedding(
            num_embeddings=vocab_size,
            embedding_dim=emb_dim,
            padding_idx=padding_idx)

        # 将word embedding经过LSTMEncoder变换到文本语义表征空间中
        self.lstm_encoder = ppnlp.seq2vec.LSTMEncoder(
            emb_dim,
            lstm_hidden_size,
            num_layers=lstm_layers,
            direction=direction,
            dropout=dropout_rate,
            pooling_type=pooling_type)

        # LSTMEncoder.get_output_dim()方法可以获取经过encoder之后的文本表示hidden_size
        self.fc = nn.Linear(self.lstm_encoder.get_output_dim(), fc_hidden_size)

        # 最后的分类器
        self.output_layer = nn.Linear(fc_hidden_size, num_classes)

    def forward(self, text, seq_len):
        # Shape: (batch_size, num_tokens, embedding_dim)
        embedded_text = self.embedder(text)

        # Shape: (batch_size, num_tokens, num_directions*lstm_hidden_size)
        # num_directions = 2 if direction is 'bidirectional' else 1
        text_repr = self.lstm_encoder(embedded_text, sequence_length=seq_len)


        # Shape: (batch_size, fc_hidden_size)
        fc_out = paddle.tanh(self.fc(text_repr))

        # Shape: (batch_size, num_classes)
        logits = self.output_layer(fc_out)
        
        # probs 分类概率值
        probs = F.softmax(logits, axis=-1)
        return probs

model= LSTMModel(
        len(vocab),
        len(train_ds.label_list),
        direction='bidirectional',
        padding_idx=vocab['[PAD]'])
model = paddle.Model(model)
LSTMEncoder参数：
input_size: int，必选。输入特征Tensor的最后一维维度。
hidden_size: int，必选。lstm运算的hidden size。
num_layers:int，可选，lstm层数，默认为1。
direction: str，可选，lstm运算方向，可选forward， bidirectional。默认forward。
dropout: float，可选，dropout概率值。如果设置非0，则将对每一层lstm输出做dropout操作。默认为0.0。
pooling_type: str， 可选，默认为None。可选sum，max，mean。如pooling_type=None， 则将最后一层lstm的最后一个step hidden输出作为文本语义表征; 如pooling_type!=None， 则将最后一层lstm的所有step的hidden输出做指定pooling操作，其结果作为文本语义表征。
更多seq2vec信息参考：https://github.com/PaddlePaddle/models/blob/develop/PaddleNLP/paddlenlp/seq2vec/encoder.py

paddlenlp已经内置了文本分类模型Senta，一键即可加载，如
model = ppnlp.models.Senta(
    network='bilstm',
    vocab_size=len(vocab),
    num_classes=len(train_ds.label_list))
model = paddle.Model(model)
关于paddlenlp.models.Senta 的更多信息可参考：https://github.com/PaddlePaddle/models/blob/develop/PaddleNLP/paddlenlp/models/senta.py

构造优化器，接入评价指标
调用model.prepare配置模型，如损失函数、优化器。
In [ ]
optimizer = paddle.optimizer.Adam(
        parameters=model.parameters(), learning_rate=5e-5)

loss = paddle.nn.CrossEntropyLoss()
metric = paddle.metric.Accuracy()

model.prepare(optimizer, loss, metric)
模型训练
调用model.fit()一键训练模型。

参数：
train_data (Dataset|DataLoader) - 一个可迭代的数据源，推荐给定一个 paddle.io.Dataset 或 paddle.io.Dataloader 的实例。默认值：None。

eval_data (Dataset|DataLoader) - 一个可迭代的数据源，推荐给定一个 paddle.io.Dataset 或 paddle.io.Dataloader 的实例。当给定时，会在每个 epoch 后都会进行评估。默认值：None。

epochs (int) - 训练的轮数。默认值：1。

save_dir (str|None) - 保存模型的文件夹，如果不设定，将不保存模型。默认值：None。

save_freq (int) - 保存模型的频率，多少个 epoch 保存一次模型。默认值：1。

In [12]
model.fit(train_loader, dev_loader, epochs=10, save_dir='./checkpoints',  save_freq=5)
The loss value printed in the log is the current step, and the metric is the average value of previous step.
Epoch 1/10
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:77: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working
  return (isinstance(seq, collections.Sequence) and
step  10/150 - loss: 0.6960 - acc: 0.5344 - 2s/step
---------------------------------------------------------------------------KeyboardInterrupt Traceback (most recent call last)<ipython-input-12-dadf12563844> in <module> ----> 1 model.fit(train_loader, dev_loader, epochs=10, save_dir='./checkpoints', save_freq=5) /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/hapi/model.py in fit(self, train_data, eval_data, batch_size, epochs, eval_freq, log_freq, save_dir, save_freq, verbose, drop_last, shuffle, num_workers, callbacks) 1493 for epoch in range(epochs): 1494 cbks.on_epoch_begin(epoch) -> 1495 logs = self._run_one_epoch(train_loader, cbks, 'train') 1496 cbks.on_epoch_end(epoch, logs) 1497 /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/hapi/model.py in _run_one_epoch(self, data_loader, callbacks, mode, logs) 1800 if mode != 'predict': 1801 outs = getattr(self, mode + '_batch')(data[:len(self._inputs)], -> 1802 data[len(self._inputs):]) 1803 if self._metrics and self._loss: 1804 metrics = [[l[0] for l in outs[0]]] /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/hapi/model.py in train_batch(self, inputs, labels) 939 print(loss) 940 """ --> 941 loss = self._adapter.train_batch(inputs, labels) 942 if fluid.in_dygraph_mode() and self._input_info is None: 943 self._update_inputs() /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/hapi/model.py in train_batch(self, inputs, labels) 659 losses = to_list(losses) 660 final_loss = fluid.layers.sum(losses) --> 661 final_loss.backward() 662 663 self.model._optimizer.minimize(final_loss)  in backward(self, retain_graph) /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/wrapped_decorator.py in __impl__(func, *args, **kwargs) 23 def __impl__(func, *args, **kwargs): 24 wrapped_func = decorator_func(func) ---> 25 return wrapped_func(*args, **kwargs) 26 27 return __impl__ /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/framework.py in __impl__(*args, **kwargs) 223 assert in_dygraph_mode( 224 ), "We only support '%s()' in dynamic graph mode, please call 'paddle.disable_static()' to enter dynamic graph mode." % func.__name__ --> 225 return func(*args, **kwargs) 226 227 return __impl__ /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dygraph/varbase_patch_methods.py in backward(self, retain_graph) 175 retain_graph) 176 else: --> 177 self._run_backward(framework._dygraph_tracer(), retain_graph) 178 else: 179 raise ValueError( KeyboardInterrupt:
模型评估
调用model.evaluate一键评估模型

参数：

eval_data (Dataset|DataLoader) - 一个可迭代的数据源，推荐给定一个 paddle.io.Dataset 或 paddle.io.Dataloader 的实例。默认值：None。
In [13]
results = model.evaluate(test_loader)
print("Finally test acc: %.5f" % results['acc'])
Eval begin...
The loss value printed in the log is the current batch, and the metric is the average value of previous step.
step 10/19 - loss: 0.6949 - acc: 0.5174 - 475ms/step
step 19/19 - loss: 0.6964 - acc: 0.5148 - 473ms/step
Eval samples: 1200
Finally test acc: 0.51484
这个非常基础的模型达到了90%的正确率，可以试试改变网络结构，进一步提升模型效果呦。

模型预测
调用model.predict进行预测。

参数

test_data (Dataset|DataLoader): 一个可迭代的数据源，推荐给定一个paddle.io.Dataset 或 paddle.io.Dataloader 的实例。默认值：None。
In [19]
import numpy as np
label_map = {
     0: 'negative', 1: 'positive'}
results = model.predict(test_loader, batch_size=64)[0]
predictions = []

for batch_probs in results:
    # 映射分类label
    idx = np.argmax(batch_probs, axis=-1)
    idx = idx.tolist()
    labels = [label_map[i] for i in idx]
    predictions.extend(labels)

# 看看预测数据前5个样例分类结果
print(test_ds.data[0])
for idx, data in enumerate(test_ds.data[:5]):
    print('Data: {} \t Label: {}'.format(data['text'], predictions[idx]))
Predict begin...
step 19/19 [==============================] - ETA: 8s - 471ms/st - ETA: 6s - 408ms/st - ETA: 6s - 517ms/st - ETA: 5s - 483ms/st - ETA: 4s - 474ms/st - ETA: 3s - 469ms/st - ETA: 2s - 449ms/st - ETA: 1s - 499ms/st - ETA: 0s - 486ms/st - 471ms/step          
Predict samples: 1200
{
     'text': '这个宾馆比较陈旧了，特价的房间也很一般。总体来说一般', 'label': 1}
Data: 这个宾馆比较陈旧了，特价的房间也很一般。总体来说一般 	 Label: positive
Data: 怀着十分激动的心情放映，可是看着看着发现，在放映完毕后，出现一集米老鼠的动画片！开始还怀疑是不是赠送的个别现象，可是后来发现每张DVD后面都有！真不知道生产商怎么想的，我想看的是猫和老鼠，不是米老鼠！如果厂家是想赠送的话，那就全套米老鼠和唐老鸭都赠送，只在每张DVD后面添加一集算什么？？简直是画蛇添足！！ 	 Label: positive
Data: 还稍微重了点，可能是硬盘大的原故，还要再轻半斤就好了。其他要进一步验证。贴的几种膜气泡较多，用不了多久就要更换了，屏幕膜稍好点，但比没有要强多了。建议配赠几张膜让用用户自己贴。 	 Label: positive
Data: 交通方便；环境很好；服务态度很好 房间较小 	 Label: positive
Data: 不错，作者的观点很颠覆目前中国父母的教育方式，其实古人们对于教育已经有了很系统的体系了，可是现在的父母以及祖父母们更多的娇惯纵容孩子，放眼看去自私的孩子是大多数，父母觉得自己的孩子在外面只要不吃亏就是好事，完全把古人几千年总结的教育古训抛在的九霄云外。所以推荐准妈妈们可以在等待宝宝降临的时候，好好学习一下，怎么把孩子教育成一个有爱心、有责任心、宽容、大度的人。 	 Label: positive
以上简单介绍了基于LSTM的情感分类。可前往GitHub获取更多PaddleNLP的tutorial：https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/examples/text_classification/rnn

PaddleNLP 更多项目
如何通过预训练模型Fine-tune下游任务
使用BiGRU-CRF模型完成快递单信息抽取
使用预训练模型ERNIE优化快递单信息抽取
使用Seq2Seq模型完成自动对联
使用预训练模型ERNIE-GEN实现智能写诗
使用TCN网络完成新冠疫情病例数预测
使用预训练模型完成阅读理解
自定义数据集实现文本多分类任务

utils文件代码

import numpy as np
import paddle
import paddle.nn.functional as F
from paddlenlp.data import Stack, Tuple, Pad


def predict(model, data, tokenizer, label_map, batch_size=1):
    """
    Predicts the data labels.

    Args:
        model (obj:`paddle.nn.Layer`): A model to classify texts.
        data (obj:`List(Example)`): The processed data whose each element is a Example (numedtuple) object.
            A Example object contains `text`(word_ids) and `se_len`(sequence length).
        tokenizer(obj:`PretrainedTokenizer`): This tokenizer inherits from :class:`~paddlenlp.transformers.PretrainedTokenizer` 
            which contains most of the methods. Users should refer to the superclass for more information regarding methods.
        label_map(obj:`dict`): The label id (key) to label str (value) map.
        batch_size(obj:`int`, defaults to 1): The number of batch.

    Returns:
        results(obj:`dict`): All the predictions labels.
    """
    examples = []
    for text in data:
        input_ids, segment_ids = convert_example(
            text,
            tokenizer,
            max_seq_length=128,
            is_test=True)
        examples.append((input_ids, segment_ids))

    batchify_fn = lambda samples, fn=Tuple(
        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input id
        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # segment id
    ): fn(samples)

    # Seperates data into some batches.
    batches = []
    one_batch = []
    for example in examples:
        one_batch.append(example)
        if len(one_batch) == batch_size:
            batches.append(one_batch)
            one_batch = []
    if one_batch:
        # The last batch whose size is less than the config batch_size setting.
        batches.append(one_batch)

    results = []
    model.eval()
    for batch in batches:
        input_ids, segment_ids = batchify_fn(batch)
        input_ids = paddle.to_tensor(input_ids)
        segment_ids = paddle.to_tensor(segment_ids)
        logits = model(input_ids, segment_ids)
        probs = F.softmax(logits, axis=1)
        idx = paddle.argmax(probs, axis=1).numpy()
        idx = idx.tolist()
        labels = [label_map[i] for i in idx]
        results.extend(labels)
    return results


@paddle.no_grad()
def evaluate(model, criterion, metric, data_loader):
    """
    Given a dataset, it evals model and computes the metric.

    Args:
        model(obj:`paddle.nn.Layer`): A model to classify texts.
        data_loader(obj:`paddle.io.DataLoader`): The dataset loader which generates batches.
        criterion(obj:`paddle.nn.Layer`): It can compute the loss.
        metric(obj:`paddle.metric.Metric`): The evaluation metric.
    """
    model.eval()
    metric.reset()
    losses = []
    for batch in data_loader:
        input_ids, token_type_ids, labels = batch
        logits = model(input_ids, token_type_ids)
        loss = criterion(logits, labels)
        losses.append(loss.numpy())
        correct = metric.compute(logits, labels)
        metric.update(correct)
        accu = metric.accumulate()
    print("eval loss: %.5f, accu: %.5f" % (np.mean(losses), accu))
    model.train()
    metric.reset()


def convert_example(example, tokenizer, max_seq_length=512, is_test=False):
    """
    Builds model inputs from a sequence or a pair of sequence for sequence classification tasks
    by concatenating and adding special tokens. And creates a mask from the two sequences passed 
    to be used in a sequence-pair classification task.
        
    A BERT sequence has the following format:

    - single sequence: ``[CLS] X [SEP]``
    - pair of sequences: ``[CLS] A [SEP] B [SEP]``

    A BERT sequence pair mask has the following format:
    ::
        0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
        | first sequence    | second sequence |

    If only one sequence, only returns the first portion of the mask (0's).


    Args:
        example(obj:`list[str]`): List of input data, containing text and label if it have label.
        tokenizer(obj:`PretrainedTokenizer`): This tokenizer inherits from :class:`~paddlenlp.transformers.PretrainedTokenizer` 
            which contains most of the methods. Users should refer to the superclass for more information regarding methods.
        max_seq_len(obj:`int`): The maximum total input sequence length after tokenization. 
            Sequences longer than this will be truncated, sequences shorter will be padded.
        is_test(obj:`False`, defaults to `False`): Whether the example contains label or not.

    Returns:
        input_ids(obj:`list[int]`): The list of token ids.
        token_type_ids(obj: `list[int]`): List of sequence pair mask.
        label(obj:`numpy.array`, data type of int64, optional): The input label if not is_test.
    """
    encoded_inputs = tokenizer(text=example["text"], max_seq_len=max_seq_length)
    input_ids = encoded_inputs["input_ids"]
    token_type_ids = encoded_inputs["token_type_ids"]

    if not is_test:
        label = np.array([example["label"]], dtype="int64")
        return input_ids, token_type_ids, label
    else:
        return input_ids, token_type_ids


def create_dataloader(dataset,
                      mode='train',
                      batch_size=1,
                      batchify_fn=None,
                      trans_fn=None):
    if trans_fn:
        dataset = dataset.map(trans_fn)

    shuffle = True if mode == 'train' else False
    if mode == 'train':
        batch_sampler = paddle.io.DistributedBatchSampler(
            dataset, batch_size=batch_size, shuffle=shuffle)
    else:
        batch_sampler = paddle.io.BatchSampler(
            dataset, batch_size=batch_size, shuffle=shuffle)

    return paddle.io.DataLoader(
        dataset=dataset,
        batch_sampler=batch_sampler,
        collate_fn=batchify_fn,
        return_list=True)

领域大模型之微调技术和最佳实践程序员莫玛人工智能深度学习语言模型金融
BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。-介绍-大型语言模型（LLM）的特别之处可以概括为两个关键词——大型和通用。“大”是指它们训练的海量数据集及其参数的大小，即模型在训练过程中学习的记忆和知识;“通用”意味着他们具有广泛的语言任务能力。更明确地说，L
LangChain大模型应用开发指南-大模型Memory不止于对话喝不喝奶茶丫 langchain 人工智能大模型大模型应用 AI大模型 Memory 大语言模型
上节课，我我为您介绍了LangChain中最基本的链式结构，以及基于这个链式结构演化出来的ReAct对话链模型。今天我将由简入繁，为大家拆解LangChain内置的多种记忆机制。本教程将详细介绍这些记忆组件的工作原理、特性以及使用方法。【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习
大语言模型原理基础与前沿挑战与机遇 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿挑战与机遇1.背景介绍大语言模型（LargeLanguageModels,LLMs）是近年来人工智能领域的一个重要突破。它们通过深度学习技术，特别是基于变换器（Transformer）架构的模型，能够在自然语言处理（NLP）任务中表现出色。大语言模型的出现不仅推动了学术研究的发展，也在实际应用中展现了巨大的潜力。1.1大语言模型的起源大语言模型的起源可以追溯到早期的统计语言
Google力作 | Infini-attention无限长序列处理Transformer NLP分享汇 transformer 深度学习
更多文章，请关注微信公众号：NLP分享汇原文链接：Google力作|Infini-attention无限长序列处理Transformerhttps://mp.weixin.qq.com/s?__biz=MzU1ODk1NDUzMw==&mid=2247485000&idx=1&sn=e44a7256bcb178df0d2cc9b33c6882a1&chksm=fc1fe702cb686e14b6c
2024年HarmonyOS鸿蒙最全HarmonyOS Next 自定义路由栈管理_navpathstack，2024年最新销售应届毕业生的面试题 2401_84870988 程序员鸿蒙面试学习
深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上鸿蒙开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化的资料的朋
python数据分析一周速成2.连表查询【含数据库实战项目】噼里啪啦噼酷啪Q 数据分析数据分析 CDA python
连表查询结合数据库实战（sql和hive跨库取数）数据准备#前面省略数据库连接，提示：可以用pymysql和pyhive模块pre_sql="""selectap,timefrombiaoyiawherea.time>20250101"""sql_df=run_mysql(pre_sql)pre_hive="""selectapplication_number,activation_dtefrom
第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
打造RAG系统：四大向量数据库Milvus、Faiss、Elasticsearch、Chroma 全面对比与选型指南橙子小哥的代码世界数据库数据库 milvus faiss 人工智能深度学习神经网络 elasticsearch
在当今信息爆炸的时代，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）系统已成为自然语言处理（NLP）领域的重要工具。RAG系统通过结合生成模型和信息检索技术，能够在大规模数据中高效地获取相关信息，生成更为精准和有针对性的内容。而在构建RAG系统时，选择合适的向量数据库是确保系统性能和可扩展性的关键一步。本文将深入对比四大主流向量数据库——Milvus、Fai
利用大型语言模型进行市场分析与预测 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，企业积累了海量的文本数据，例如社交媒体帖子、产品评论、新闻报道等。这些数据蕴藏着丰富的市场信息，可以帮助企业更好地了解消费者需求、预测市场趋势、优化营销策略。然而，传统的数据分析方法往往难以有效地处理和分析这些非结构化文本数据。近年来，随着自然语言处理（NLP）技术的进步，大型语言模型（LLMs）在文本分析领域展现出强大的能力，为市场分析与预测带来了新的机遇。L
用OpenCV写个视频播放器可还行？（C++版）程序员Linc OpenCV opencv 音视频 c++opencv 4.11
引言提到OpenCV，大家首先想到的可能是图像处理、目标检测，但你是否想过——用OpenCV实现一个带进度条、倍速播放、暂停功能的视频播放器？本文将通过一个实战项目，带你深入掌握OpenCV的视频处理能力，并解锁以下功能：基础播放/暂停动态倍速调节（0.5x~4x）交互式进度条实时时间戳显示文末提供完整代码，可直接运行！一、环境准备安装OpenCV请参考其他博客，C++版本的OpenCV安装，每个
Python实战项目（‌Hands-on Python Project） Linux运维老纪无悔青春追梦绿意编程师Python python 开发语言 sql 运维开发云计算 mysql 数据库
Python实战项目奖本章总结了20个适合Python初学者的实战项目，这些项目涵盖了不同的主题和难度，能够帮助你巩固基础知识并提升编程技能。1.计算器创建一个简单的命令行计算器，支持基本的加、减、乘、除运算。2.猜数字游戏编写一个程序，让用户猜一个随机生成的数字，提供提示（如“太高了”或“太低了”）。3.待办事项列表实现一个命令行待办事项管理器，允许用户添加、删除和查看待办事项。4.文本文件分析
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用 m0_57781768 langchain
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用在现代软件开发中，特别是在复杂的自然语言处理（NLP）和人工智能应用中，数据的传递和处理是至关重要的。LangChainExpressionLanguage(LCEL)为开发者提供了一种强大的工具，能够有效地管理数据流，并确保任务链中的每一步都能顺利进行。在这些任务链中，开发者常常需要将数据从一个步骤无缝地传递到
使用LangChain实现最新NLP研究成果 eahba langchain 自然语言处理人工智能 python
近年来，自然语言处理（NLP）领域的研究取得了显著的进展，而LangChain通过实现这些最新的研究成果，为开发者和研究人员提供了强大的工具与服务。在本文中，我们将探讨一些被LangChain所引用的arXiv研究论文，并展示如何通过API调用和具体示例来实现这些前沿技术。技术背景介绍LangChain作为一个强大且灵活的开源工具，旨在简化大语言模型（LLMs）的开发与应用。通过对最新研究的集成，
Python GUI测试实战：Selenium与PyQt的联合应用步入烟尘 Python超入门指南全册 python selenium pyqt
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Windows下的PaddleOCR本地部署 wangkun_cl 开源软件
目录一、环境配置（一）PaddlePaddle运行环境部署1.安装anaconda（网上教程很多很详细）2.创建环境3.激活环境并在该环境下安装PaddlePaddle框架4.下载requirments.txt中的库（二）PaddleOCR安装【非重点】二、在自己的数据集上训练模型（一）制作自己的数据集1.安装PPOCRLabel并为自己的数据打标签，构建数据集2.数据集的划分（二）训练1.文本检
AIGC技术研究与应用 ---- 下一代人工智能：新范式！新生产力！（2.1-大模型发展历程之背景与开端） shiter AI重制版】人工智能系统解决方案与技术架构人工智能 AIGC 深度学习
文章大纲按照目标不同，AI大模型可分为四类，多模态为未来方向NLP大模型CV大模型科学计算大模型多模态大模型2022年是大模型技术的拐点,前期技术铺垫奠定了基础生成式模型的开端VAE与GANVAEGAN参考文献与学习路径GPT系列模型解析前序文章模型进化券商研报陆奇演讲按照目标不同，AI大模型可分为四类，多模态为未来方向NLP大模型自然语言处理（NaturalLanguageProcessing，
paddleOCR处理PDF遇到问题被编程为难的小娃娃 pdf paddlepaddle ocr 笔记
前提安装是上一篇，langchain的加载和分割参考博客：使用paddleOCR批量识别pdf_paddleocrpdf-CSDN博客遇到问题如下图。个人怀疑文档中有长表内容（是倒立的那种长表）--补充编辑，确实如此，解决方案后续优化了再发状态：目前未解决。在上一篇博客的基础上新增pippipinstallpaddlepaddlepipinstallpaddlehub(这里本来参考的这位博主，但是
Java初级入门学习周杰伦fans ai学习参考 JAVA 后端框架 java 学习开发语言
JAVA学习@[TOC](JAVA学习)**一、Java初级入门学习路径****1.Java基础语法****2.面向对象编程（OOP）****3.数据库与JDBC****4.JavaWeb基础****二、主流框架推荐与学习建议****1.Spring框架****2.SpringMVC****3.MyBatis****4.SpringBoot****三、后续学习建议****1.实战项目****2.进
Dask vs. Apache Spark: 大数据处理的利器对比与应用实例步入烟尘 Python超入门指南全册 apache spark 大数据
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
【开源项目】2024最新PHP在线客服系统源码/带预知消息/带搭建教程于飞SEO 免费资源分享开源 php 开发语言
简介随着人工智能技术的飞速发展，AI驱动的在线客服系统已经成为企业提升客户服务质量和效率的重要工具。本文将探讨AI在线客服系统的理论基础，并展示如何使用PHP语言实现一个简单的AI客服系统。源码仓库地址：ym.fzapp.top在线客服系统的理论基础AI在线客服系统通过自然语言处理（NLP）、机器学习（ML）和深度学习（DL）技术，能够理解和响应客户的查询。这些系统通常包括以下几个关键组件：自然语
人工智能引领技术革命：ChatGPT与深度学习的突破性进展撒旦骑路西法，大战吕布国内外安全资讯人工智能
在全球科技快速发展的今天，人工智能（AI）正以前所未有的速度渗透到各个行业，成为推动社会变革的重要力量。特别是在自然语言处理（NLP）领域，OpenAI的ChatGPT凭借深度学习技术的持续突破，展现了AI在理解、推理、对话生成等方面的惊人进步。本文将深入探讨ChatGPT及深度学习的最新突破，以及它对不同行业的深远影响。1.ChatGPT：AI语言模型的革新者1.1什么是ChatGPT？Chat
【自然语言处理-NLP】情感分析与主题建模云博士的AI课堂深度学习哈佛博后带你玩转机器学习自然语言处理人工智能情感分析主题建模深度学习机器学习 NLP
以下内容详细剖析了NLP中情感分析（SentimentAnalysis）和主题建模（TopicModeling）的技术与方法，分别展示如何从文本中提取情感倾向和潜在主题，并提供示例代码和讲解，可在Python环境下直接运行。目录情感分析（SentimentAnalysis）1.1概念与方法概览1.2传统机器学习方法1.3深度学习与预训练模型1.4代码示例：基于机器学习的情感分类主题建模（Topic
python搭建NPL模型的详细步骤和代码百锦再@新空间代码工作室包罗万象 python 开发语言 django flask pygame pip
目录**一、环境准备****二、数据准备****三、文本预处理****1.清理文本****四、特征工程****1.TF-IDF****2.Word2Vec****五、搭建NLP模型****1.逻辑回归****2.LSTM深度学习模型****六、使用预训练的BERT模型****七、模型评估****八、部署模型****总结**1.**人机交互的核心技术**2.**推动AI技术发展的动力**3.**广泛
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
1.6 从 GPT-1 到 GPT-3.5：一路的风云变幻少林码僧 AI大模型应用实战专栏 gpt gpt-3
从GPT-1到GPT-3.5：一路的风云变幻人工智能的进步一直是科技领域的一个重要话题，而在自然语言处理（NLP）领域，GPT（GenerativePre-trainedTransformer）系列模型的发布，标志着一个又一个技术突破。从2018年发布的GPT-1到2022年推出的GPT-3.5，OpenAI的每一次更新都在推动着人工智能的发展，改变了我们与计算机互动的方式。本文将带你一起回顾GP
使用Python和机器学习技术对高中物理题目进行分类的示例代码 max500600 python 机器学习 python 分类
以下是一个使用Python和机器学习技术对高中物理题目进行分类的示例代码。我们将使用自然语言处理（NLP）技术处理题目的文本信息，并使用朴素贝叶斯分类器进行分类。步骤概述数据准备：准备包含高中物理题目的数据集，每个题目都有对应的类别标签。文本预处理：对题目文本进行清洗和特征提取。模型训练：使用训练数据训练分类模型。模型评估：使用测试数据评估模型的性能。预测：使用训练好的模型对新的物理题目进行分类。
Python 自然语言处理实战： NLTK 与 spaCy，文本分析的左右护法清水白石008 python Python题库 python 自然语言处理 easyui
Python自然语言处理实战：NLTK与spaCy，文本分析的左右护法引言在信息爆炸的时代，文本数据以前所未有的速度增长，蕴藏着巨大的信息和价值。从社交媒体的评论，到浩如烟海的文档，文本数据无处不在，成为了解用户意图、挖掘商业情报、洞察社会趋势的关键来源。然而，文本数据本质上是非结构化的，计算机难以直接理解和处理。自然语言处理(NaturalLanguageProcessing,NLP)技术应运而
【Hugging Face】datasets 库：加载、处理和分享大规模数据集彬彬侠大模型 datasets Hugging Face
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务。1.为什么使用Datasets？在深度学习中，处理大规模数据集通常面临以下挑战：数据集太大，无法一次性加载到内存不同任务的数据格式不统一数据预处理和转换较慢需要快速流式加载数据datasets库
自然语言处理（NLP）领域大语言模型学习目录大全彬彬侠大模型自然语言处理 NLP 大模型 LLM GPT BERT GLM
本文主要收集了自然语言处理（NLP）领域的大语言模型，可以可以通过点击标题链接查看具体的详情。GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6月提出的第一代GPT模型，也是第一个基于Transformer结构的自回归（Autoregressive
DeepSeek时代：AI如何重塑软件开发的每个阶段，效率提升全解析阿三0404 人工智能
在软件开发领域，时间就是竞争力。传统的瀑布模型和敏捷开发流程中，需求偏差、重复编码、测试遗漏等问题不断消耗团队精力。随着以DeepSeek为代表的AI技术突破，从需求分析到运维监控的每个环节都在发生效率革命。本文将深入解析AI在开发全流程中的具体应用，并通过真实数据揭示其带来的效率跃升。一、需求分析阶段：从模糊需求到精准拆解（效率提升65%）AI工具：自然语言处理（NLP）、需求图谱生成应用场景：
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

『NLP经典项目集』01：seq2vec是什么? 瞧瞧怎么用它做情感分析

你可能感兴趣的:(PaddlePaddle,NLP实战项目)