语译分西

Transformer+BERT 推特文本分类(是否抱怨)

文章目录

1.基础设置
2.下载/导入数据集
- 2.1 下载数据集
- 2.2 Load Train Data
- 2.3 Load Test Data
3. 设置GPU/CPU来训练
4.Fine-tuning BERT
- 4.1 对原始文本进行轻微的数据处理
- 4.2 BERT Tokenizer 相关函数构建
- 4.3 确定输入句子的固定长度
- 4.4 tokenize data 正式对数据进行分词
- 4.5 创建PyTorch DataLoader
5.训练模型Train model
- 5.1 创建 BertClassifier
- 5.2 创建优化器和学习率规划器Optimizer & Learning Rate Scheduler
- 5.3 设置Training Loop 训练循环
- 5.4 训练
- 5.5 训练后验证模型精度
- 5.6 用所有的Traing data来训练模型
6. 对测试集进行预测
6.1 Test Data Preparation
6.2 预测
7. 总结

原本地址： Link

1.基础设置

import os
import re
from tqdm import tqdm
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

2.下载/导入数据集

2.1 下载数据集

# Download data 下载数据
import requests
request = requests.get("https://drive.google.com/uc?export=download&id=1wHt8PsMLsfX5yNSqrt2fSTcb8LEiclcf")
with open("data.zip", "wb") as file:
    file.write(request.content)

# Unzip data 解压数据
import zipfile
with zipfile.ZipFile('data.zip') as zip:
    zip.extractall('data')

2.2 Load Train Data

训练数据有2个文件，每个文件包含1700条抱怨/不抱怨的推文。数据中的每条推文都至少包含一家航空公司的命名实体标签。

我们将加载训练数据并标记它。因为我们仅使用文本数据进行分类，所以将删除不重要的列，仅保留id，tweet和label列。

 # 加载数据并设置标签
data_complaint = pd.read_csv('data/complaint1700.csv')
data_complaint['label'] = 0
data_non_complaint = pd.read_csv('data/noncomplaint1700.csv')
data_non_complaint['label'] = 1

# 将抱怨和不抱怨的两个数据合成一块
data = pd.concat([data_complaint, data_non_complaint], axis=0).reset_index(drop=True)

# 删除 'airline' 列
data.drop(['airline'], inplace=True, axis=1)

# 展示随机的5个样本
data.sample(5)

我们将整个训练数据随机分为两组：训练组（training set）包含90％的数据，验证组（validation set）包含10％的数据。我们将使用训练集上的交叉验证执行超参数调整，并使用验证集来比较模型。

from sklearn.model_selection import train_test_split

X = data['tweet'].values
y = data['label'].values

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.1, random_state=2020)

2.3 Load Test Data

测试数据(test data)包含4555个没有标签的样本。大约有300个样本是不抱怨的推文。我们的任务是识别其ID，并手动检查我们的结果是否正确。（测试集没有label！！！）

# Load test data
test_data = pd.read_csv('data/test_data.csv')

# Keep important columns
test_data = test_data[['id', 'tweet']]

# Display 5 samples from the test data
test_data.sample(5)

3. 设置GPU/CPU来训练

Google Colab提供免费的GPU和TPU。由于我们将训练大型神经网络，因此最好利用这些功能。

可以通过以下菜单添加GPU：

然后通过下面代码来自动判断使用GPU还是CPU。

import torch

if torch.cuda.is_available():       
    device = torch.device("cuda")
    print(f'There are {torch.cuda.device_count()} GPU(s) available.')
    print('Device name:', torch.cuda.get_device_name(0))

else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

4.Fine-tuning BERT

4.1 对原始文本进行轻微的数据处理

此处只是定义了text_preprocessing函数，该函数会在之后对文本编码时一并调用

def text_preprocessing(text):
    """
    - 删除命名实体(例如 '@united'联合航空)
    - 纠正错误 (例如： '&' 改成 '&')
    @该函数input：传进文本字符串
    @该函数return：返回处理过的文本字符串
    """
    # Remove '@name'
    text = re.sub(r'(@.*?)[\s]', ' ', text)

    # Replace '&' with '&'
    text = re.sub(r'&', '&', text)

    # Remove trailing whitespace 删除空格
    text = re.sub(r'\s+', ' ', text).strip()

    return text

# Print sentence 0 打印示例样本
print('Original: ', X[0])
print('Processed: ', text_preprocessing(X[0]))

↓

Original: @united I’m having issues. Yesterday I rebooked for 24 hours after I was supposed to fly, now I can’t log on & check in. Can you help?
Processed: I’m having issues. Yesterday I rebooked for 24 hours after I was supposed to fly, now I can’t log on & check in. Can you help?

4.2 BERT Tokenizer 相关函数构建

为了应用经过预训练的BERT，我们必须使用库提供的tokenizer。这是因为（1）模型具有特定的固定词汇表，并且（2）BERTtokenizer具有处理，词汇表外单词的特定方法。

另外，我们需要在每个句子的开头和结尾添加特殊标记，将所有句子填充并截断为单个恒定长度，并使用“attention mask”显式指明padding tokens。

BERT Tokenizer 的encode_plus方法：

（1）将文字分割成token，

（2）添加特殊的[CLS]和[SEP]token，并

（3）将这些token转换为tokenizer词汇表的索引，

（4）将句子填充或截断到最大长度，以及

（5）制作attention mask。

from transformers import BertTokenizer

# 加载 BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)

# 创建一个函数来tokenize一串文本
def preprocessing_for_bert(data):
    """
    @传入参数(param)  一串存储在np.array格式下的文本数据: Array of texts to be processed.
    @该函数返回（return1）：   input_ids (torch.Tensor格式): Tensor of token ids to be fed to a model.
    @该函数返回（return2）：   attention_masks (torch.Tensor格式): 用于指示句子中的哪些token用于模型训练
    """
    # 创建空列表来存储output数据
    input_ids = []
    attention_masks = []

    # 对存储在data(np.array)中的每个句子....
    for sent in data:
        encoded_sent = tokenizer.encode_plus(  #进行编码
            text=text_preprocessing(sent),  # 调用上面创建的略微预处理文本的函数
            add_special_tokens=True,        # Add `[CLS]` and `[SEP]`
            max_length=MAX_LEN,             # 指定max_length（后面会指定）
            padding='max_length',         # 补长 padding
            #return_tensors='pt',           # Return PyTorch tensor 是否返回PyTorch张量
            return_attention_mask=True,      # Return attention mask
            truncation=True                  #截短
            )
        
        # 从上面编码得到的对象中用get获取input_ids和attention_mask存储到各自的列表中
        input_ids.append(encoded_sent.get('input_ids'))
        attention_masks.append(encoded_sent.get('attention_mask'))

    # 再将input_ids列表和attention_masks列表转换成torch的张量格式
    input_ids = torch.tensor(input_ids)
    attention_masks = torch.tensor(attention_masks)
	#返回所有句子的input_ids, attention_masks（tensor格式）
    return input_ids, attention_masks

上面函数中 tokenize.encode_plus 会：
# (1) 将句子进行切词，Tokenize the sentence
# (2) 添加特殊符号，Add the [CLS] and [SEP] token to the start and end
# (3) 截长补短， Truncate/Pad sentence to max length
# (4) 将每个token映射到指定的词汇表里面对应的索引， Map tokens to their IDs
# (5) 创建attention mask， Create attention mask
# (6) 返回一个输出字典，Return a dictionary of outputs，输出字典用get来获取对应的input_id, attention_mask

4.3 确定输入句子的固定长度

# 将训练数据集和测试数据集合并
all_tweets = np.concatenate([data.tweet.values, test_data.tweet.values])

# 对合并的数据进行编码
encoded_tweets = [tokenizer.encode(sent, add_special_tokens=True) for sent in all_tweets]

# 将编码后的句子长度,存储到一个列表中,找最大值
max_len = max([len(sent) for sent in encoded_tweets])
print('Max length: ', max_len)

还可以通过画图，找阈值

token_lens = []

for txt in all_tweets :
  tokens = tokenizer.encode(txt)
  token_lens.append(len(tokens))

sns.distplot(token_lens)
plt.xlim([0, 256]); # x轴长度
plt.xlabel('Token count')

def find_max_length(set_a_num,token_lens):
    '''set_a_num是要设置一个句子长度，看看有多少样本的长度小于这个阈值'''
    how_many_samples = len(token_lens) #有多少个样本
    how_many_samples_length_less_than_set_num = sum(i<set_a_num for i in token_lens) # 有多少样本，句子长度小于所设定的阈值
    percentage = how_many_samples_length_less_than_set_num/how_many_samples
    percentage = round(percentage,6)#保留六位小数
    percentage_str = format(percentage,'.4%') #将小数转换为百分比的字符串
    print("有{}的样本，分词后，句子的长度小于{}".format(percentage_str,set_a_num))

4.4 tokenize data 正式对数据进行分词

# 指定 `MAX_LEN`
MAX_LEN = 64

# 打印示例：第一个句子的token_id
token_ids = list(preprocessing_for_bert([X[0]])[0].squeeze().numpy())
print('Original: ', X[0])
print('Token IDs: ', token_ids)

# 运行函数 `preprocessing_for_bert`来处理训练集和验证集
print('Tokenizing data...')
train_inputs, train_masks = preprocessing_for_bert(X_train)
val_inputs, val_masks = preprocessing_for_bert(X_val)

4.5 创建PyTorch DataLoader

我们将使用Torch 的 DataLoader类为数据集创建一个迭代器。这将有助于在训练期间节省内存并提高训练速度。

from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler

# 将训练集和验证集的label转化成 torch.Tensor格式
train_labels = torch.tensor(y_train)
val_labels = torch.tensor(y_val)

# 针对微调fine-tuning BERT, 作者推荐 batch size 16或32
batch_size = 32

# 为训练集创建DataLoader
train_data = TensorDataset(train_inputs, train_masks, train_labels)# 将训练集的input_id，mask和label都封装进TensorDataset
train_sampler = RandomSampler(train_data) # 将封装好的数据洗牌
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size) #将洗牌好的数据传进DataLoader，并指定batch_size

# 为验证集创建DataLoader
val_data = TensorDataset(val_inputs, val_masks, val_labels)
val_sampler = SequentialSampler(val_data)
val_dataloader = DataLoader(val_data, sampler=val_sampler, batch_size=batch_size)

5.训练模型Train model

5.1 创建 BertClassifier

BERT基由12个Transformer层组成，每个Transformer层都接受token embeddings 的列表，并在输出上产生相同数量的且具有相同隐藏大小（或尺寸）的embedding。【CLS】token作为最后一个Transformer层的输出，被用于当作一个句子的features，来传入分类器中
Transformer库有BertForSequenceClassification 类，是设计用来做分类任务的，然而，这篇文章会创建一个新的类来定制自己的分类器

%%time
import torch
import torch.nn as nn
from transformers import BertModel

# 创建 BertClassfier 类
class BertClassifier(nn.Module):
    def __init__(self, freeze_bert=False):
        """
        实例化BertClassifier需要三个参数
        @param1    bert: a BertModel object （BertModel对象）
        @param2    classifier: a torch.nn.Module classifier （一个自定义的分类器，该分类器继承nn.Module）
        @param3    freeze_bert (bool): Set `False` to fine-tune the BERT model （设置是否冻结BERT里的权重参数）
        """
        super(BertClassifier, self).__init__()
        # 指定 hidden size of BERT(默认768维), hidden size of our classifier（自己设置为50）, and number of labels（2分类问题）
        D_in, H, D_out = 768, 50, 2 

        # 实例化BERT模型（Instantiate BERT model）
        self.bert = BertModel.from_pretrained('bert-base-uncased')

        # 实例化一层前向传播分类器（Instantiate an one-layer feed-forward classifier）
        self.classifier = nn.Sequential( # Sequential 就是一个有序容器，添加一层层神经网络
            nn.Linear(D_in, H),
            nn.ReLU(),
            #nn.Dropout(0.5),
            nn.Linear(H, D_out)
        )

        # 冻结 BERT model（是否让BERT的权重参数进行更新）
        if freeze_bert:
            for param in self.bert.parameters():
                param.requires_grad = False
        
    def forward(self, input_ids, attention_mask):
        """
        将输入传进BERT中，让classifier来计算logits，logits类似于未进行归一化的softmax的概率
        @输入(param1):input_ids (torch.Tensor): 传入一个id张量tensor，其形状为(batch_size, max_length)
        @输入(param2)：attention_mask (torch.Tensor): 传入一个mask张量，形状为(batch_size, max_length)
        @返回(return): logits (torch.Tensor): 一个输出张量，类似于softmax(batch_size, num_labels)
        """
        # 将input_ids,和attention_mask传入 BERT
        outputs = self.bert(input_ids=input_ids,
                            attention_mask=attention_mask)
        
        #提取用于分类任务的特殊token[CLS]的最后一个隐层参数 （Extract the last hidden state of the token `[CLS]` for classification task）
        last_hidden_state_cls = outputs[0][:, 0, :]

        # 将上面获得CLS的最后一个隐层参数传入classifier计算logits值
        logits = self.classifier(last_hidden_state_cls) #可以将logits理解成未进入softmax时的概率

        return logits

5.2 创建优化器和学习率规划器Optimizer & Learning Rate Scheduler

为了微调Bert分类器，需要创建一个optimizer，作者推荐如下超参数设置：

Batch size: 16 or 32
Learning rate (Adam): 5e-5, 3e-5 or 2e-5
Number of epochs: 2, 3, 4

这里使用AdamW 优化器，创建一个模型初始化函数，函数中实例化了上面定义的BertClassifier分类器类

from transformers import AdamW, get_linear_schedule_with_warmup

def initialize_model(epochs=4):
    """
    初始化Bert Classifier, optimizer ，learning rate scheduler.
    """
    # 实例化 Bert Classifier
    bert_classifier = BertClassifier(freeze_bert=False)

    # 告诉这个实例化的分类器，使用gpu还是cpu
    bert_classifier.to(device)

    # 创建优化器optimizer
    optimizer = AdamW(bert_classifier.parameters(),
                      lr=5e-5,    # Default learning rate
                      eps=1e-8    # Default epsilon value
                      )

    # 总共训练步数是多少？Total number of training steps
    total_steps = len(train_dataloader) * epochs

    # 设置learning rate scheduler
    scheduler = get_linear_schedule_with_warmup(optimizer,
                                                num_warmup_steps=0, # 默认值是0，意思是预热期要几步达到预设的学习率
                                                num_training_steps=total_steps)
    return bert_classifier, optimizer, scheduler

使用Warmup预热学习率的方式,即先用最初的小学习率训练，然后每个step增大一点点，直到达到最初设置的比较大的学习率时（注：此时预热学习率完成），采用最初设置的学习率进行训练（注：预热学习率完成后的训练过程，学习率是衰减的），有助于使模型收敛速度变快，效果更佳。

5.3 设置Training Loop 训练循环

我们将会训练我们的Bert分类器进行4个epoch，并在验证集上评估每一轮的表现：
训练具体步骤：

从dataloader解压出我们的训练集数据，将这些数据传进GPU/CPU
将之前一步算出的梯度，清零
进行前向传播，计算logits概率和损失
执行后向传播，计算梯度 (loss.backward())
将梯度进行归一化，防止梯度爆炸 Clip the norm of the gradients to 1.0 to prevent “exploding gradients”
更新模型的权重参数(optimizer.step())
更新学习率 (scheduler.step())

评估具体步骤：

从dataloader解压验证集数据，传入GPU/CPU
前向传播
在验证数据集上，计算损失值和准确率

import random
import time

# 指定 loss function
loss_fn = nn.CrossEntropyLoss() #交叉熵损失函数

def set_seed(seed_value=42):
    """设置随机种子，为了之后复现。Set seed for reproducibility.
    """
    random.seed(seed_value)
    np.random.seed(seed_value)
    torch.manual_seed(seed_value)
    torch.cuda.manual_seed_all(seed_value)

def train(model, train_dataloader, val_dataloader=None, epochs=4, evaluation=False):
    """正式 BertClassifier model.
    """
    # 开始training loop
    print("Start training...\n")
    for epoch_i in range(epochs):
        # =================================================================================================
        #                                            Training
        # =================================================================================================
        # 打印结果表格的表头，epoch显示当前训练是第几个epoch，训练到第几个batch了，Elapsed是耗时多少秒
        print(f"{'Epoch':^7} | {'Batch':^7} | {'Train Loss':^12} | {'Val Loss':^10} | {'Val Acc':^9} | {'Elapsed':^9}")
        print("-"*70)

        # 开始计时，测算每轮epoch耗时多长时间
        t0_epoch, t0_batch = time.time(), time.time()

        # 每轮epoch开始前将各个计数器归零
        total_loss, batch_loss, batch_counts = 0, 0, 0

        # 这个train函数需要往里传入一个model参数，而这个model参数接收的就是之前initialize_model函数会返回的一个bert分类器模型
        model.train() #这个model = 一个实例化的bert_classifier

        # For each batch of training data... 从dataloader读取数据
        for step, batch in enumerate(train_dataloader):
            batch_counts +=1
            # 加载 batch到GPU/CPU
            b_input_ids, b_attn_mask, b_labels = tuple(t.to(device) for t in batch)

            # 将累计梯度清零
            model.zero_grad()

            # 往模型中传入从上面得到的input_id和mask，模型会进行前向传播得到logits值
            logits = model(b_input_ids, b_attn_mask)

            # 通过损失函数计算logits跟label之间的差距得到损失值，Compute loss and accumulate the loss values
            loss = loss_fn(logits, b_labels)
            batch_loss += loss.item()
            total_loss += loss.item()

            # 执行后向传播计算梯度
            loss.backward()

            # 修剪梯度进行归一化防止梯度爆炸
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

            # 更新model参数，更新学习率
            optimizer.step()
            scheduler.step()

            # 每20个batch打印损失值和时间消耗
            if (step % 20 == 0 and step != 0) or (step == len(train_dataloader) - 1):
                # Calculate time elapsed for 20 batches
                time_elapsed = time.time() - t0_batch

                # Print training results
                print(f"{epoch_i + 1:^7} | {step:^7} | {batch_loss / batch_counts:^12.6f} | {'-':^10} | {'-':^9} | {time_elapsed:^9.2f}")

                # 将计数器清零
                batch_loss, batch_counts = 0, 0
                t0_batch = time.time()

        # 计算整个训练数据集的平均损失（Calculate the average loss over the entire training data）
        avg_train_loss = total_loss / len(train_dataloader)

        print("-"*70)
        # =========================================================================================
        #               Evaluation
        # =========================================================================================
        if evaluation == True:
            # 在每个epoch结束后会用验证集来测试模型的表现
            val_loss, val_accuracy = evaluate(model, val_dataloader) # 这个evaluate函数下面有定义

            # 打印这一轮epoch下，在训练集上训练完所有数据后所耗得总体时间
            time_elapsed = time.time() - t0_epoch
            
            print(f"{epoch_i + 1:^7} | {'-':^7} | {avg_train_loss:^12.6f} | {val_loss:^10.6f} | {val_accuracy:^9.2f} | {time_elapsed:^9.2f}")
            print("-"*70)
        print("\n")
    
    print("Training complete!")


def evaluate(model, val_dataloader):
    """在每个epoch结束后会用验证集来测试模型的表现
    """
    # Put the model into the evaluation mode. The dropout layers are disabled during
    # the test time.
    model.eval()

    # 创建空集，为了之后记录每一个batch的accuracy和loss
    val_accuracy = []
    val_loss = []

    # F在验证集中，每个batch....
    for batch in val_dataloader:
        # 加载 batch 数据到 GPU/CPU
        b_input_ids, b_attn_mask, b_labels = tuple(t.to(device) for t in batch)

        # 计算 logits
        with torch.no_grad():
            logits = model(b_input_ids, b_attn_mask)

        # 计算损失值
        loss = loss_fn(logits, b_labels)
        val_loss.append(loss.item())

        # 获取预测值
        preds = torch.argmax(logits, dim=1).flatten()

        # 计算准确率
        accuracy = (preds == b_labels).cpu().numpy().mean() * 100
        val_accuracy.append(accuracy)

    # 计算验证集的accuracy和loss
    val_loss = np.mean(val_loss)
    val_accuracy = np.mean(val_accuracy)

    return val_loss, val_accuracy

5.4 训练

set_seed(42)    # Set seed for reproducibility
bert_classifier, optimizer, scheduler = initialize_model(epochs=2)
train(bert_classifier, train_dataloader, val_dataloader, epochs=2, evaluation=True)

5.5 训练后验证模型精度

步骤跟train loop里的evaluation很像

import torch.nn.functional as F

def bert_predict(model, test_dataloader):
    """Perform a forward pass on the trained BERT model to predict probabilities
    on the test set.
    """
    # Put the model into the evaluation mode. The dropout layers are disabled during
    # the test time.
    model.eval()

    all_logits = []

    # For each batch in our test set...
    for batch in test_dataloader:
        # Load batch to GPU
        b_input_ids, b_attn_mask = tuple(t.to(device) for t in batch)[:2]

        # Compute logits
        with torch.no_grad():
            logits = model(b_input_ids, b_attn_mask)
        all_logits.append(logits)
    
    # Concatenate logits from each batch
    all_logits = torch.cat(all_logits, dim=0)

    # Apply softmax to calculate probabilities
    probs = F.softmax(all_logits, dim=1).cpu().numpy()

    return probs

画图：ROC曲线

from sklearn.metrics import accuracy_score, roc_curve, auc

def evaluate_roc(probs, y_true):
    """
    - Print AUC and accuracy on the test set
    - Plot ROC
    @params    probs (np.array): an array of predicted probabilities with shape (len(y_true), 2)
    @params    y_true (np.array): an array of the true values with shape (len(y_true),)
    """
    preds = probs[:, 1]
    fpr, tpr, threshold = roc_curve(y_true, preds)
    roc_auc = auc(fpr, tpr)
    print(f'AUC: {roc_auc:.4f}')
       
    # Get accuracy over the test set
    y_pred = np.where(preds >= 0.5, 1, 0)
    accuracy = accuracy_score(y_true, y_pred)
    print(f'Accuracy: {accuracy*100:.2f}%')
    
    # Plot ROC AUC
    plt.title('Receiver Operating Characteristic')
    plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
    plt.legend(loc = 'lower right')
    plt.plot([0, 1], [0, 1],'r--')
    plt.xlim([0, 1])
    plt.ylim([0, 1])
    plt.ylabel('True Positive Rate')
    plt.xlabel('False Positive Rate')
    plt.show()

# Compute predicted probabilities on the test set
probs = bert_predict(bert_classifier, val_dataloader)

# Evaluate the Bert classifier
evaluate_roc(probs, y_val)

5.6 用所有的Traing data来训练模型

之前是吧train_data分出一部分validation data，现在要合并

#Concatenate the train set and the validation set
full_train_data = torch.utils.data.ConcatDataset([train_data, val_data])# 调用torch库中的合并数据集函数
full_train_sampler = RandomSampler(full_train_data) #将数据洗牌，打乱顺序
full_train_dataloader = DataLoader(full_train_data, sampler=full_train_sampler, batch_size=32) #将打乱的数据放进DataLoader中

# Train the Bert Classifier on the entire training data
set_seed(42)
bert_classifier, optimizer, scheduler = initialize_model(epochs=2)
train(bert_classifier, full_train_dataloader, epochs=2)

6. 对测试集进行预测

6.1 Test Data Preparation

#再浏览下测试集长什么样
test_data.sample(5)

对test data运行数据预处理程序

# Run `preprocessing_for_bert` on the test set
print('Tokenizing data...')
test_inputs, test_masks = preprocessing_for_bert(test_data.tweet)

# Create the DataLoader for our test set
test_dataset = TensorDataset(test_inputs, test_masks)
test_sampler = SequentialSampler(test_dataset)
test_dataloader = DataLoader(test_dataset, sampler=test_sampler, batch_size=32)

6.2 预测

此项目的测试集是没有label的，只能估算，其中大约有300条非负面的推文。因此，我们将继续调整决策阈值，直到我们拥有约300条非负面的推文为止。

我们将使用的阈值为0.992，这意味着预测概率大于99.2％的推文将被预测为阳性。与默认的0.5阈值相比，该值非常高。

手动检查测试集后，我发现这里的情感分类任务对人类来说都很困难。因此，较高的阈值将为我们提供安全的预测。

# Compute predicted probabilities on the test set
probs = bert_predict(bert_classifier, test_dataloader) #这里的bert_classifier是上面训练好的分类器

# Get predictions from the probabilities
threshold = 0.9
preds = np.where(probs[:, 1] > threshold, 1, 0) #满足判断预测值大于阈值就使出1，不满足输出0

# Number of tweets predicted non-negative
print("Number of tweets predicted non-negative: ", preds.sum())

解释np.where(condition, x, y)
满足条件(condition)，输出x，不满足输出y。
——————————————————————————————————————————————————————

现在随机，选20个推特，来看预测的准确性

output = test_data[preds==1] # preds==1 可以看作是掩码，false，false，Ture，Flase....
list(output.sample(20).tweet)

[’@AmericanAir nope. Too late now. I hope it works for my next flight!’,
"I can’t get over how much different it is flying @VirginAmerica than any other airline! I Love it! I can’t wait to be home (for a week) ",
‘@BrysonJennings @SouthwestAir having the same issue as we speak with @SilverAirways!’,
“Was there an inflight movie? Watch Airbus’ mad stunt with $1.5 billion worth of #airplanes http://t.co/s6DIuB0vs6 #travel @americanair”,
‘@carlyaquilino @JetBlue Ahhhh Florida deepest part of the Deep South. I want to leave too. although South Florida is not as bad’,
‘Cant wait for @SouthwestAir to bring me to florida in a couple weeks maybe I will even get a new plane ’,
“@ajblankenship @Expedia @AmericanAir @emirates I am looking into @emirates flying to Dubai and Nairobi … Can’t wait! #ExpediaChat”,
‘@Zak_Bagans @SouthwestAir it will go by quickly sorry you didnt get what you desired i hate when people say thats life but sadly it is’,
‘Not a bad rate for #Paris @AmericanAir $701 LA->Paris RT/incl taxes/ Valid for #travel starting March 31st/Sun-Thurs departures’,
‘When did @AlaskaAir become the most expensive way to fly from Seattle to Hawaii? Weird. Sad. Want to support the hometown team, but…’,
“@thekenyeung PS always always fly @VirginAmerica their operations are the best and the planes are new. I’ve almost never had delays.”,
‘@DeltaAssist DM me. Have had an issue and like to discuss.’,
'@airfarewatchdog: NYC #JFK to Los Angeles #LAX $261 round-trip, on @united travel in Feb/March http://t.co/FRUzSysaXO_ need late April _’,
‘Thanks @AlaskaAir for covering my damaged back from an incident in Bozeman, MT. I appreciate it and look forward to flying with you again’,
‘@AmericanAir I never thought I would have to use social media to complain, but I had purchased two tickets to Cabo last year for this week.’,
“Hope the new @AmericanAir weeds out the worst of @USAirways in the merger. And there’s a lot that can be weeded out.”,
'@AmericanAir can you help @camerondallas get to Shreveport cos he missed his flight? ',
‘@united I miss @JetBlue you could learn a few things from them’,
“34 dais waiting for info about my luggag@Castellanosgena @AmericanAir @British_Airways what to spect? When you’re going to do somenthing?”,
“@easyJet I hope U don’t kick out crying toddlers from Ur flights @united @SarahBlackwood1”]

7. 总结

通过在BERT之上添加简单的单层神经网络分类器并对BERT进行微调，我们可以获得很好的性能，尽管我们只有3400个数据，但它比基线方法要好10%（基线方法用的是TF-DF将句子词向量化，然后用贝叶斯进行分类）

另外，尽管BERT很大，很复杂并且具有数百万个参数，但我们只需要在2-4个时间段内对其进行微调即可。由于BERT接受了大量培训，并且已经编码了许多有关我们语言的信息，因此可以实现该结果。在短时间内通过少量数据获得的非凡性能表明了为什么BERT是目前可用的最强大的NLP模型之一。

你可能感兴趣的:(文本挖掘,情感分类)

Python的情感词典情感分析和情绪计算 yava_free python 大数据人工智能
一.大连理工中文情感词典情感分析(SentimentAnalysis)和情绪分类(EmotionClassification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。目
三国演义python分析系统_Python之三国演义(上) weixin_40002692 三国演义python分析系统
一、设计实现详细说明1.1任务详细描述以中国四大名著之一——《三国演义》为蓝本，结合python数据分析知识进行本次的文本分析。《三国演义》全书共120回。本次的分析主要基于统计分析、文本挖掘等知识。1.2设计思路详细描述数据准备、数据预处理、分词等全书各个章节的字数、词数、段落等相关方面的关系整体词频和词云的展示全书各个章节进行聚类分析并可视化，主要进行了根据IF-IDF的系统聚类和根据词频的L
**解读心理健康，引领未来智能——MentaLLaMA：大型语言模型的革命性应用** 滑辰煦Marc
解读心理健康，引领未来智能——MentaLLaMA：大型语言模型的革命性应用在如今的数字时代，社交媒体成为人们分享生活、表达情绪的重要平台。然而，从中洞察公众的心理健康状况并提供及时帮助却是一大挑战。为此，由国际知名科研机构如英国曼彻斯特大学的国家文本挖掘中心（NaCTeM）和人工智能研究中心（AIST）等合作研发的开源项目——MentaLLaMA应运而生。这个项目不仅提供了一种创新的方法来分析社
fastText 情感分类 dreampai
情感分类任务就是看一段文本，然后分辨这个人是否喜欢他们在讨论的这个东西。情感分类一个最大的挑战就是可能标记的训练集没有那么多，但是有了词嵌入，即使只有中等大小的标记的训练集，你也能构建一个不错的情感分类器image.pngimage.png假设有一个句子：“这个衣服质量不错”通过分词、去除停用词等预处理操作，得到“衣服/质量/不错”获取“衣服”、“质量”、“不错”的对应词向量（可以通过TF-IDF
情感分析相关汇总宁缺100 自然语言处理自然语言处理情感分析
文章目录情感分析语音情感识别句子or文档级别情感分析情感词汇字典大连理工大学中文情感词汇本体中文金融情感词典金融社交媒体数据应用的市场情绪词典中文情感分析常用词典台湾大学NTUSD简体中文情感词典BosonNLPABSA细腻度情感分析相关比赛【千言情感分析】SKEP句子级情感分析相关博客或者论文中文情感分析(SentimentAnalysis)的难点在哪？现在做得比较好的有哪几家？文本挖掘在商品评
计算机毕业设计之基于Python的旅游景点评论内容分析与研究微信bishe58 课程设计 spring boot python 信息可视化
旅游景点评论内容分析与研究是一个涉及文本挖掘、情感分析和数据可视化等多领域技术的复杂过程。本研究以Python编程语言为基础，首先收集了来自不同旅游平台的用户评论数据。通过运用自然语言处理（NLP）技术，清洗并预处理了这些数据，以便于后续分析。随后，采用情感分析方法来识别和量化评论中的主观态度和情绪倾向，从而判断游客的整体满意度。此外，还运用词云、主题建模等手段来探索游客评论中的关键词汇和讨论主题
【Python机器学习】NLP的部分实际应用 zhangbin_237 Python机器学习机器学习自然语言处理人工智能 python 大数据
自然语言处理在现实中非常多的应用，下表是其中的一些例子：应用示例1示例2示例3搜索web文档自动补全编辑拼写语法风格对话聊天机器人助手行程安排写作索引用语索引目录电子邮件垃圾邮件过滤分类优先级排序文本挖掘摘要知识提取医学诊断法律法律断案先例搜索传票分类新闻事件检索真相核查标题排字归属剽窃检测文字取证风格指导情感分析团队士气监控产品评论分类客户关怀行为预测金融选举预测营销创作电影脚本诗歌歌词如果在索
Python中的自然语言处理和文本挖掘 api77 电商api api python 自然语言处理 easyui 开发语言网络前端 java
在Python中，自然语言处理（NLP）和文本挖掘通常涉及对文本数据进行清洗、转换、分析和提取有用信息的过程。Python有许多库和工具可以帮助我们完成这些任务，其中最常用的包括nltk（自然语言处理工具包）、spaCy、gensim、textblob和scikit-learn等。以下是一个简单的例子，展示了如何使用Python和nltk库进行基本的自然语言处理和文本挖掘。安装必要的库首先，确保你
挑战杯基于GRU的电影评论情感分析 - python 深度学习情感分类 laafeer python
文章目录1前言1.1项目介绍2情感分类介绍3数据集4实现4.1数据预处理4.2构建网络4.3训练模型4.4模型评估4.5模型预测5最后1前言优质竞赛项目系列，今天要分享的是基于GRU的电影评论情感分析该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1.1项目介绍其实，很明显这个项目和
【医学大模型知识增强】SMedBERT：结构化语义知识 + 医学大模型 = 显著提升大模型医学文本挖掘性能 Debroon 医学大模型：个性化精准安全可控人工智能
SMedBERT：结构化语义知识+医学大模型=显著提升医学文本挖掘任务性能名词解释结构化语义知识预训练语言模型医学文本挖掘任务提出背景具体步骤提及-邻居混合注意力机制实体嵌入增强实体描述增强三元组句子增强提及-邻居上下文建模域内词汇权重学习领域自监督任务预训练SMedBERT图示左半部分：SMedBERT架构右半部分：预训练任务方法部分数学部分效果论文：https://arxiv.org/pdf/
人工智能阳光照我心房
今天看了下人工智能的资料，了解了下，人工智能的应用方向，实现技术。了解到人工智能、机器学习、深度学习的关系，神经网络是深度学习的实现的模型。语音、图像、机器翻译、机器人、文本挖掘和分类。感觉机器学习自己挺感兴趣啊
Python实现文本情感分析漫走云雾 python easyui 开发语言
前言文本情感分析是一种重要的自然语言处理(NLP)任务，旨在从文本数据中推断出情感信息，例如正面、负面或中性情感。它在社交媒体分析、产品评论、市场调研等领域都有广泛的应用。本文将详细介绍如何使用Python进行文本情感分析，包括基础概念、数据预处理、情感分类模型和实际示例。目录编辑前言基础概念数据预处理1.文本清洗2.分词3.词干提取和词形还原情感分类模型1.特征提取2.模型训练实际示例总结基础概
探索NLP中的N-grams：理解，应用与优化冷冻工厂程序人生
简介n-gram[1]是文本文档中n个连续项目的集合，其中可能包括单词、数字、符号和标点符号。N-gram模型在许多与单词序列相关的文本分析应用中非常有用，例如情感分析、文本分类和文本生成。N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的替代方法是词嵌入技术，例如word2vec。N-grams广泛用于文本挖掘和自然语言处理任务。示例通过计算每个唯一的n元语
机器学习概述及流程机智的冷露机器学习人工智能机器学习 python
概述一、目标1、掌握机器学习基础环境安装2、掌握常用的科学计算库对数据进行展示、分析二、人工智能三要素1、数据2、算法2、算力：CPU适合I/O密集型程序，GPU适合计算密集型和易于并行的程序。三、人工智能主要分支1、计算机视觉（CV）2、自然语言处理（NLP）：文本挖掘/分类、机器翻译、语音识别3、机器人四、机器学习工作流程简介从数据中自动分析获得模型，再利用模型对未知数据进行预测。1、获取数据
文本挖掘HW3 在做算法的巨巨
importosimportos.pathimportcodecsimportpandasaspdimportnumpyasnpfilePaths=[]fileContents=[]a=os.walk("C:/Users/dell/Desktop/datamining/2.1+语料库/2.1/SogouC.mini/Sample")forroot,dirs,filesina:fornameinfi
数据科学 | Python酷炫词云图原来可以这么玩欣一2002 可视化 python 数据分析数据可视化 csv
↑↑↑↑↑点击上方蓝色字关注我们！『运筹OR帷幄』转载作者：费弗里编者按词云图是文本挖掘中用来表征词频的数据可视化图像，通过它可以很直观地展现文本数据中的高频词。词云图过滤掉大量的低频低质的文本信息，使得浏览者只要一眼扫过文本就可领略文本的主旨。很多文章都会用词云图来直观的表示数据分析结果，词云图是如果制作的就在这篇文章中寻找答案吧。本文对应脚本及数据在后台领取，回复【词云图】1简介词云图是文本挖
新书速览|PyTorch 2.0深度学习从零开始学全栈开发圈深度学习 pytorch 人工智能
实战中文情感分类、拼音汉字转化、中文文本分类、拼音汉字翻译、强化学习、语音唤醒、人脸识别01本书简介本书以通俗易懂的方式介绍PyTorch深度学习基础理论，并以项目实战的形式详细介绍PyTorch框架的使用。为读者揭示PyTorch2.0进行深度学习项目实战的核心技术，实战案例丰富而富有启发。02本书内容本书共分15章，内容包括PyTorch概述、开发环境搭建、基于PyTorch的MNIST分类实
新媒体与传媒行业数据分析实践：从网络爬虫到文本挖掘的综合应用，以“中国文化“为主题八块腹肌的小胖数据分析 python
大家好，我是八块腹肌的小胖，下面将围绕微博“中国文化”以数据分析、数据处理、建模及可视化等操作目录1、数据获取2、数据处理3、词频统计及词云展示4、文本聚类分析5、文本情感倾向性分析6、情感倾向演化分析7、总结1、数据获取本任务以新浪微博为目标网站，爬取“中国文化”为主题的微博数据进行数据预处理、数据可视化等操作。目标网站如图1所示：图1微博网站及分析通过分析微博网站，使用爬虫获取代码，爬虫核心伪
毕业设计：深度学习在文本情感分类中的研究与实践 Krin_IT 深度学习毕业设计毕业设计毕设 python 人工智能深度学习分类
目录前言设计思路一、课题背景与意义二、算法理论原理2.1神经网络2.2YOLOv5算法三、检测的实现3.1数据集3.2实验环境搭建3.3实验及结果分析最后前言大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投
深度学习-自注意力机制 Cuteboom 深度学习人工智能
文字编码one-hot编码，让模型自己去学习怎么进行编码常见的输出1.每个词都有一个输出值2.每个句子输出一个值，情感分类3.输入与输出长度不对应，翻译任务，生成任务。RNN最早的语言处理RNN解决的是模型去考虑前面的输入RNN的缺点，每一代都要向传家宝中装东西，导致后面看不到祖先。长短期记忆（LSTM,longshort-termmemory）RNN与LSTM速度很慢，需要一代一代，无法一下生成
互联网加竞赛基于深度学习的中文情感分类 - 卷积神经网络情感分类情感分析情感识别评论情感分类 Mr.D学长 python java
文章目录1前言2情感文本分类2.1参考论文2.2输入层2.3第一层卷积层：2.4池化层：2.5全连接+softmax层：2.6训练方案3实现3.1sentence部分3.2filters部分3.3featuremaps部分3.41max部分3.5concat1max部分3.6关键代码4实现效果4.1测试英文情感分类效果4.2测试中文情感分类效果5调参实验结论6建议7最后1前言优质竞赛项目系列，今天
基于粒子群改进的支持向量机SVM的情感分类识别，pso-svm情感分类识别神经网络机器学习智能算法画图绘图支持向量机SVM 支持向量机机器学习分类 matlab 人工智能
目录支持向量机SVM的详细原理SVM的定义SVM理论Libsvm工具箱详解简介参数说明易错及常见问题SVM应用实例，基于SVM的情感分类预测代码结果分析展望支持向量机SVM的详细原理SVM的定义支持向量机（supportvectormachines,SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性
竞赛保研电影评论情感分析 - python 深度学习情感分类 iuerfee 分类 python
1前言学长分享优质竞赛项目，今天要分享的是GRU的电影评论情感分析-python深度学习情感分类学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分这是一个较为新颖的竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1项目介绍其实，很明显这个项目和微博谣言检测是一样的，也是个二分类
基于TF-IDF的关键词提取的实现 Algorithm_Engineer_ 自然语言处理 tf-idf python 人工智能
一.TF-IDF的简单介绍TF-IDF（TermFrequency-InverseDocumentFrequency）是一种用于信息检索与文本挖掘的常用加权技术，用于评估一个词在文档集合中的重要性。它结合了词频和逆文档频率的概念。以下是TF-IDF的简单介绍：词频（TF-TermFrequency）：表示一个词在文档中出现的频率。通常，词频越高，说明该词在文档中越重要。公式：TF(t,d)=词t在
python语音情感分类（训练过程+预测）小孔不爱coding python 分类开发语言
1.SVMimportlibrosaimportosfromrandomimportshuffleimportnumpyasnpfromsklearnimportsvmimportjoblibimportsklearn#C:误差项惩罚参数,对误差的容忍程度。C越大，越不能容忍误差#gamma：选择RBF函数作为kernel，越大，支持的向量越少；越小，支持的向量越多#kernel:linear,p
【深度学习：Word embeddings 】理解深度学习中的文本表示 jcfszxc 深度学习知识专栏深度学习人工智能
【深度学习：Wordembeddings】理解深度学习中的文本表示将文本表示为数字One-hotencodings独热编码使用唯一的数字对每个单词进行编码词嵌入设置下载IMDb数据集配置数据集以提高性能使用嵌入层文本预处理创建分类模型编译和训练模型检索经过训练的单词嵌入并将其保存到磁盘可视化嵌入下一步工作本教程包含单词嵌入的介绍。您将使用简单的Keras模型来训练自己的词嵌入，以执行情感分类任务，
看书标记【R语言数据分析项目精解：理论、方法、实战 9】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter9文本挖掘——点评数据展示策略9.1项目背景、目标和方案9.1.1项目背景9.1.2项目目标9.1.3项目方案1.建立评论文本质量量化指标2.建立用户相似度模型3.对用户评论进行情感性分析9.2项目技术理论简介9.2.1评论文本质量量化指标模型1.主题覆盖量2.评论文本分词数量3.评论点赞数4.评论中的照片数5.评论分值偏移9.2.2用户相似度模型1.pearson
NLP深入学习（三）：TF-IDF 详解以及文本分类/聚类用法 Smaller、FL NLP 自然语言处理学习 tf-idf nlp 人工智能
文章目录0.引言1.什么是TF-IDF2.TF-IDF作用3.Python使用3.1计算tf-idf的值3.2文本分类3.3文本聚类4.参考0.引言前情提要：《NLP深入学习（一）：jieba工具包介绍》《NLP深入学习（二）：nltk工具包介绍》1.什么是TF-IDFTF-IDF（TermFrequency-InverseDocumentFrequency）是一种用于信息检索和文本挖掘的常用加权
[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门 Eastmount 文本挖掘和知识发现 Python学习系列 CiteSpace 数据分析文本挖掘主题演化图书情报
八月太忙，还是写一篇吧！本文是作者2023年8月底新开的专栏——《文本挖掘和知识发现》，主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。此外，这些内容也是作者《文本挖掘和知识发现（Python版）》书籍的部分介绍，本书预计2024年上市，采用通俗易懂和图文并茂的形式藐视，会更加系统地介绍文本挖掘和知识发现，共计20章节内容，涵盖上百个案例。您的关注、点赞
与微信小程序相爱相杀之旅泰斯特_
起源基于对AI的爱好与兴趣，我走上了独自钻研机器学习的道路。和所有热爱AI的人们一样，在一段孤独的摸索旅程中，我勉强完成了几次深度学习模型的训练。其中令我印象较深的成果就是情感分类模型。他能够根据你的文字生成其背后作者的喜怒哀乐，这让人感到非常有意思，原来深度学习模型也是可以很"人性化的"。于是某天一个大胆的想法出现在了我的脑海中：基于这个情感模型建立一个上层应用，让他的能力在人类社会中增添不一样
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。