bianhuaHYQ

李宏毅机器学习特训营机器学习作业4-语句分类

项目描述

本次作业是要让同学接触自然语言处理当中一个简单的任务 —— 语句分类（文本分类）
给定一个语句，判断他有没有恶意（负面标 1，正面标 0）

数据集介绍

有三个文件，分别是 training_label.txt、training_nolabel.txt、testing_data.txt

training_label.txt：有标签的训练数据（句子配上 0 or 1，+++$+++ 只是分隔符号，不要理它）
- e.g., 1 +++$+++ are wtf … awww thanks !
training_nolabel.txt：没有标签的训练数据（只有句子），用来做半监督学习
- ex: hates being this burnt !! ouch
testing_data.txt：你要判断测试数据里面的句子是 0 or 1

id,text

0,my dog ate our dinner . no , seriously … he ate it .

1,omg last day sooon n of primary noooooo x im gona be swimming out of school wif the amount of tears am gona cry

2,stupid boys … they ’ re so … stupid !

项目要求

用一些方法 pretrain 出 word embedding (e.g., skip-gram, CBOW. )
请使用 RNN 实现文本分类
不能使用额外 data (禁止使用其他 corpus 或 pretrained model)

环境配置/安装

作业基于paddle2.0

pip install gensim==3.8.3
path_prefix = "./"
pip install -U numpy

import numpy
numpy.__version__

'1.20.2'

先看一下文本数据。

带有标签的文本数据：

不带有标签的文本数据：

编码

计算机要分析一句话的情感，前提是计算机要能“认识”单词，这就需要把单词转为能够被计算机处理的数据。单词的表示方法有下面几种：

1-of-N encoding

也叫one-hot编码，中文翻译过来就是“独热编码”。

这里用training_ label.txt里面的一个句子：are wtf … awww thanks ! → are wtf awww thanks （去掉标点符号）

编码后就成了 a1：[1,0,0,0] are

a2：[0,1,0,0] wtf
a3：[0,0,1,0] awww
a4：[0,0,0,1] thanks (当然编码的顺序也可以变)

Bag of Words (BOW)

词袋。BOW 的概念就是将句子里的文字变成一个袋子装着这些词，BOW不考虑文法以及词的顺序。很形象的说明了一个袋子里有很多单词。

这里用training_ label.txt里面的句子： i feel icky i need a hug. 然后袋子里有单词[“i”,“feel”,“icky”,“need”,“a”,“hug”]

上面的句子的表示向量就是[2,1,1,1,1,1]，含义就是"i"在句子中出现了2次，"feel"在句子中出现了1次等等

再比如一个句子i feel icky. 表示向量就是[1,1,1,0,0,0] 0就表示袋子里的单词没出现在句子里。

word embedding

词嵌入。也叫词的向量化（word to vector），即把单词变成向量（vector）。这也是作业要求的：用一些方法 pretrain 出 word embedding (e.g., skip-gram, CBOW. )

在1-of-N encoding中，表示一个单词are是[1,0,0,0]，如果一个单词经过1-of-N encoding是1000维，其实是很浪费空间的，还有就是1-of-N encoding相当于简单的给每个单词编了个号，但是单词和单词之间的关系则完全体现不出来。这时候word embedding的优势就体现出来了。

word embedding可以简单地理解为：经过某种变换处理，为单词分配一个维度比较低的向量，这个向量可以丢进模型中处理。同时，向量与向量之间可能还有一些相似性，比如father和mother这两个单词的向量在空间中会比较相近，而father和pencil这两个单词的向量在空间中就会离得比较远。

安装的gensim就是常用的一个NLP工具包，其中的word2vec模块可以把单词转为向量。把很多单词转为向量后，就可以得到一个word embedding矩阵。比如：

are [0.3,0.5,0.6]
wtf [0.9,0.8,0.6]
awww [0.1,0.2,0.3]
thanks [0.8,0.7,0.6]

如果有10000个单词，每个单词分配的向量是20维，那么word embedding矩阵就是10000 20的矩阵。*

文本数据预处理

一，读取文件，这里可以用正则表达式把标点符号都去掉，然后把英文都转为小写；

比如：

import re
x=["are wtf ... awww thanks !","i know eep ! i can ' t wait for one more day ...."]
x = [re.sub(r"([.!?,'])", r"", s) for s in x]
x = [' '.join(s.split()) for s in x]
x = [s.split() for s in x]
x

[['are', 'wtf', 'awww', 'thanks'],
 ['i', 'know', 'eep', 'i', 'can', 't', 'wait', 'for', 'one', 'more', 'day']]

二，word embedding。利用gensim中的word2vec模块可以把单词转为向量。

import re
import paddle
import numpy as np

def load_training_data(path='work/data/training_label.txt'):
    # 读取 training 需要的数据
    # 如果是 'training_label.txt'，需要读取 label，如果是 'training_nolabel.txt'，不需要读取 label
    if 'training_label' in path:
        with open(path, 'r') as f:
            lines = f.readlines()
            lines = [line.strip('\n') for line in lines]
        x = [line[10:] for line in lines]  #1 +++$+++ are wtf ... awww thanks !  从are开始往后读取
        x = [re.sub(r"([.!?,'])", r"", s) for s in x]
        x = [' '.join(s.split()) for s in x]
        x = [s.split() for s in x]
        # 每行按空格分割后，第0个符号是label
        y = [line[0] for line in lines]
        return x, y
    else:
        with open(path, 'r') as f:
            lines = f.readlines()
            x = [line.strip('\n') for line in lines]
            x = [re.sub(r"([.!?,'])", r"", s) for s in x]
            x = [' '.join(s.split()) for s in x]
            x = [s.split() for s in x]
        return x

def load_testing_data(path='work/data/testing_data.txt'):
    # 读取 testing 需要的数据
    with open(path, 'r') as f:
        lines = f.readlines()
        # 第0行是表头id，tex，从第1行开始才是要读取的数据
        # 第0列是id，第1列是文本，按逗号分割，需要逗号之后的文本
        X = [line.strip('\n') for line in lines[2:]]
        #X = ["".join(line.strip('\n').split(",")[1:]).strip() for line in lines[1:]]
        X = [re.sub(r"([.!?,'])", r"", s) for s in X]
        X = [' '.join(s.split()) for s in X]
        X = [s.split() for s in X]
    return X

# 读取 训练 数据
print("加载训练数据 ...")
train_x, y = load_training_data('work/data/training_label.txt')
train_x_no_label = load_training_data('work/data/training_nolabel.txt')

# 读取测试数据
print("加载测试数据 ...")
test_x = load_testing_data('work/data/testing_data.txt')
print("完成。")

#查看加载好的数据
print(train_x[0],y[0])
print(train_x_no_label[1])
print(test_x[0])

打印：

Word2Vec

把上面读取出来的单词转为向量，用word2vec 模块，具体 API 如下：

class gensim.models.word2vec.Word2Vec( sentences=None, size=100, alpha=0.025, window=5, min_count=5,
max_vocab_size=None,
sample=0.001,
seed=1,
workers=3,
min_alpha=0.0001,
sg=0,
hs=0,
negative=5,
cbow_mean=1,
hashfxn=,
iter=5,
null_word=0,
trim_rule=None,
sorted_vocab=1,
batch_words=10000,
compute_loss=False)

size就是词向量的维度。主要需要设置的就是size，min_count：过滤掉语料中出现频率小于min_count的词。其他都可以按默认的来。

from gensim.models.word2vec import Word2Vec

def train_word2vec(x):
    # 训练 word to vector 的 word embedding
    model = Word2Vec(x, size=250, window=5, min_count=5, workers=12, iter=10, sg=1)
    return model

# 把所有文本数据中的单词变成 向量
model = train_word2vec(train_x + train_x_no_label + test_x)
# 保存
model.save('w2v_all.model')

训练好的word embedding矩阵，可以通过Word2Vec.load()得到

想获取一个单词的词向量，可以通过embedding[‘dog’]获得。

embedding = Word2Vec.load('w2v_all.model')
embedding_dim = embedding.vector_size  #词向量维度 250
print(embedding['dog'])
print(embedding_dim) 
#可以查看一共有多少个单词
len(embedding.wv.vocab)

拿到word embedding矩阵后，需要考虑如何用到模型中去。就比如有一组单词[‘are’, ‘wtf’, ‘awww’, ‘thanks’]，可以通过word embedding矩阵查到得到对应的词向量，组成一个4* 250的矩阵，然后把矩阵送到模型中。但是通过embedding[‘are’]的方式获取词向量是很麻烦的。

这里需要用paddle的一个函数，paddle.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, sparse=False, weight_attr=None, name=None)

嵌入层(Embedding Layer)
该接口用于构建 Embedding 的一个可调用对象 。其根据input中的id信息从embedding矩阵中查询对应embedding信息，并会根据输入的size (num_embeddings, embedding_dim)和weight_attr自动构造一个二维embedding矩阵。

这里先把构造方法给出来embedding=paddle.nn.Embedding(embedding.shape[0],embedding.shape[1],weight_attr=paddle.framework.ParamAttr(initializer=paddle.nn.initializer.Assign(embedding)))

这句代码的意思就是构造了一个embedding层，层的参数初始化为word embedding矩阵中的向量的值。当一个输入进来后，会根据输入矩阵中的值（单词的序号）查找对应词向量，如下图所示：

现在明白了embedding层可以通过inputs输入中的值，找到对应的词向量。

现在就把一组单词变成一组序号；比如[‘are’, ‘wtf’, ‘awww’, ‘thanks’] → [1,2,3,4]

序号又怎么来？就是通过查找一个单词在词袋中的位置。比如有词袋：

[‘are’, ‘wtf’, ‘awww’, ‘thanks’,‘to’, ‘find’, ‘out’, ‘that’, ‘the’, ‘ending’, ‘sucks’]

那么单词’are’的序号就是1，wtf的序号就是2。。。。。。

下面就要有一个数据预处理类：类中有能把一个句子中的单词转为词袋中的序号的函数，def sentence_word2id(self):

函数def make_embedding（）：获取训练好的word embedding矩阵

为方便模型的进行批处理，所以需要把长度不一的句子调整为相同长度的。

定义数据读取器

# 数据预处理
class Preprocess():
    def __init__(self,sen_len, w2v_path):
        self.w2v_path = w2v_path   # word2vec的存储路径
        self.sen_len = sen_len    # 句子的固定长度，方便模型进行批处理
        self.BagofWords = []      #保存获取到的所有单词（单词不重复），词袋
        self.dic_word2id = {}        # 比如{"dog":0,"hug":1},字典中的key为单词，value为对应的序号
        self.embedding_matrix = []  #用于保存之前训练得到的词向量矩阵

    def get_w2v_model(self):
        # 读取之前训练好的 word2vec 
        self.embedding = Word2Vec.load(self.w2v_path)
        self.embedding_dim = self.embedding.vector_size  #获取词向量维度

    def add_embedding(self, word):
        # 这里的 word 只会是 "" 或 ""  是空白符，是未知单词符号
        # 把一个随机生成的向量作为 "" 或 "" 的词向量
        vector = paddle.uniform(shape=[1,self.embedding_dim]) 
        # 它的 序号id 是 dic_word2id 这个词典的长度，即最后一个
        self.dic_word2id[word] = len(self.dic_word2id)
        self.BagofWords.append(word)
        self.embedding_matrix = paddle.concat([self.embedding_matrix, vector], 0)

    def make_embedding(self, load=True):
        # 获取训练好的 Word2vec word embedding
        if load:
            print("加载word embedding矩阵 ...")
            self.get_w2v_model()
            print("加载完成。")
        else:
            raise NotImplementedError
        # 遍历嵌入后的单词
        for i, word in enumerate(self.embedding.wv.vocab):
            print('单词数量：#{}'.format(i+1), end='\r')
            # 新加入的 单词 的索引号是 dic_word2id 这个词典的长度，即最后一个
            self.dic_word2id[word] = len(self.dic_word2id)
            self.BagofWords.append(word)
            self.embedding_matrix.append(self.embedding[word])
        print('')
        # 把 embedding_matrix 变成 tensor，因为要用于设置embedding层参数
        self.embedding_matrix = paddle.to_tensor(self.embedding_matrix)
        # 将  和  加入 embedding 
        self.add_embedding("")
        self.add_embedding("")
        print("单词总数量: {}".format(len(self.embedding_matrix)))
        return self.embedding_matrix

    def pad_sequence(self, sentence):
        # 将每个句子变成一样的长度，即 sen_len 的长度
        if len(sentence) > self.sen_len:
        # 如果句子长度大于 sen_len 的长度，就截断
            sentence = sentence[:self.sen_len]
        else:
        # 如果句子长度小于 sen_len 的长度，就补上  符号，缺多少个单词就补多少个  
            pad_len = self.sen_len - len(sentence)
            for _ in range(pad_len):
                sentence.append(self.dic_word2id[""])
        assert len(sentence) == self.sen_len
        return sentence

    def sentence_word2id(self,sentences):
        # 把句子里面的单词变成相对应的序号
        sentence_list = []
        for i, sen in enumerate(sentences):
            print('句子数量 #{}'.format(i+1), end='\r')
            sentence_idx = []
            for word in sen:
                if (word in self.dic_word2id.keys()):
                    sentence_idx.append(self.dic_word2id[word])
                else:
                # 没有出现过的单词就用  表示
                    sentence_idx.append(self.dic_word2id[""])
            # 将每个句子变成一样的长度，方便批量处理
            sentence_idx = self.pad_sequence(sentence_idx)
            sentence_list.append(sentence_idx)
        return sentence_list

#定义数据读取器
from paddle.io import Dataset,DataLoader

class Reader(Dataset):
    def __init__(self, datas, labels):
        self.data = datas
        self.label = labels
    def __getitem__(self, idx):
        if self.label is None:
            return np.array(self.data[idx])
        else:
            return np.array(self.data[idx]), np.array(self.label[idx],dtype='float32') #dtype='float32'是因为paddle.nn.BCELoss()需要input数据类型是float32、float64。
    def __len__(self):
        return len(self.data)

定义模型

from paddle import nn

class LSTM_Net(nn.Layer):
    def __init__(self, embedding, embedding_dim, hidden_dim, num_layers, dropout=0.5):  #, fix_embedding=True
        super(LSTM_Net, self).__init__()
        # embedding layer
        self.embedding = paddle.nn.Embedding(embedding.shape[0],embedding.shape[1],weight_attr=paddle.framework.ParamAttr(initializer=paddle.nn.initializer.Assign(embedding)))
        self.embedding_dim = embedding.shape[1]
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.dropout = dropout
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=num_layers)
        self.classifier = nn.Sequential( 
        		nn.Dropout(dropout),
                nn.Linear(hidden_dim, 1),
                nn.Sigmoid() 
         )
        
    def forward(self, inputs):
        inputs = self.embedding(inputs)
        x, _ = self.lstm(inputs, None)
        # 取用 LSTM 最后一层的 hidden state 丢到分类器中
        x = x[:, -1, :] 
        x = self.classifier(x)
        return x

半监督学习

利用没有标签的文本数据进行半监督学习，比如说：在验证过程中，对一句文本进行情感分类预测，得到概率值为0.98，假设这时预测为标签1，其实这种预测的可信度还是挺高了，那就把这个文本数据和预测的标签添加到训练集中去；同理，如果概率值为0.02，这时预测为标签0，同样也把文本数据和标签添加到训练集中去。训练集的数据会越来越多，样本越多，对于模型训练是好事。

#函数用于打标签（大于0.99的，标签为1，小于0.01的标签为0）
#此时的outputs是张量！
#负面标 1，正面标 0
def make_tag(outputs):
    outputs = outputs.numpy()
    outputs = outputs.reshape((1,-1))    
    outputs[outputs>=0.99] = 1 
    outputs[outputs<=0.01] = 0
    index = np.argwhere([outputs==1,outputs==0])
    index = index[:,-1]
    return outputs,index

#计算模型预测的准确率
def evaluation(outputs, labels):
    # outputs => 预测值，概率（float）
    # labels => 真实值，标签（0或1）
    # 负面标 1，正面标 0
    outputs = outputs.reshape((1,-1))
    labels = labels.reshape((1,-1))
    outputs = paddle.round(outputs)
    accuracy = outputs.shape[1]-paddle.sum(paddle.abs(outputs-labels))
    return accuracy

def training(batchSize, epochs, learningRate, data_train, lable_train,val_loader, data_train_no_label, model,start_selftraining=18):  
    v_batch = len(val_loader)  # validation 数据的batch size大小
    loss = nn.BCELoss() # 定义损失函数为二元交叉熵损失 binary cross entropy loss
    #lable_train = np.array(lable_train)
    optimizer = paddle.optimizer.Adam(learning_rate=learningRate,parameters=model.parameters()) # optimizer用Adam
    total_loss, total_acc, best_acc = 0, 0, 0
    for epoch in range(epochs):
        print('训练集大小：{}'.format(len(data_train)))
        train_dataset = Reader(datas=data_train, labels=lable_train)  #因为是半监督学习，所以训练集数据会增加，每个epoch都需要重新实例化数据读取器
        train_loader = DataLoader(train_dataset, batch_size = batchSize, shuffle = True) 
        total_loss, total_acc = 0, 0

        # 训练
        model.train() #train模式
        for i, (inputs, labels) in enumerate(train_loader):			
            optimizer.clear_grad() # 由于 loss.backward() 的 gradient 会累加，所以每一个 batch 后需要归零
            outputs = model(inputs) # 模型输入Input，输出output
            outputs = outputs.squeeze() # 删除等于1的维度
            batch_loss = loss(outputs, labels) # 计算模型此时的 training loss
            batch_loss.backward() # 计算 loss 的 gradient
            optimizer.step() # 更新模型参数
			
            accuracy = evaluation(outputs, labels) # 计算模型此时的训练准确率
            total_acc += (accuracy / batchSize)
            total_loss += batch_loss.numpy()[0]   #从张量转为numpy
        print('Epoch | {}/{}'.format(epoch+1,epochs))
        n_batch = len(train_loader) #获取数据共有几个批次（batch）
        print('训练集 | Loss:{:.5f} Acc: {:.3f}'.format(total_loss/n_batch, total_acc.numpy()[0]/n_batch*100))

        #self training
        model.eval() # 将 model 的模式设为 eval
        if epoch >= start_selftraining :
            temp_data = data_train_no_label
            train_no_label_dataset = Reader(datas=temp_data, labels=None)
            train_no_label_loader = DataLoader(train_no_label_dataset, batch_size = batchSize, shuffle = True)
            print("self training...")
            print("总批次：{}".format(len(train_no_label_loader)))
            with paddle.no_grad():
                for ii, (inputs) in enumerate(train_no_label_loader):
                    print('Batch | {}/{}'.format(ii+1,len(train_no_label_loader)), end='\r')
                    inp = inputs[0]
                    outputs = model(inp)
                    outputs = outputs.squeeze() # 删除等于1的维度
                    #给无标签文本打上标签
                    labels_tag,index = make_tag(outputs= outputs)
                    # index = index.tolist()
                    # 加入新标注的数据
                    for iii in index:
                        data_train.append(inp[int(iii)].numpy().tolist())
                        lable_train.append(labels_tag[0][iii])
                    if ii == 0:
                        data_train_no_label = np.delete(inp.numpy(), index, 0).tolist()
                    else:
                        data_train_no_label.extend(np.delete(inp.numpy(), index, 0).tolist())
            print("self training finished!")
		
        # 验证
        with paddle.no_grad():
            total_loss, total_acc = 0, 0				
            for i, (inputs, labels) in enumerate(val_loader):				
                outputs = model(inputs) # 模型输入Input，输出output
                outputs = outputs.squeeze()                
                batch_loss = loss(outputs, labels) # 计算模型此时的 training loss
                accuracy = evaluation(outputs, labels) # 计算模型此时的 training accuracy
                total_acc += (accuracy / batchSize)
                total_loss += batch_loss.numpy()[0]
            print("验证集 | Loss:{:.5f} Acc: {:.3f} ".format(total_loss/v_batch, total_acc.numpy()[0]/v_batch*100))
            if total_acc > best_acc:
                # 如果验证集的准确率优于之前所有的准确率，就把当下的模型保存下来，用于之后的testing
                best_acc = total_acc
                paddle.save(model.state_dict(), "model.pdparams")
        print('-----------------------------------------------')

from sklearn.model_selection import train_test_split

# 定义句子长度、要训练几个 epoch、 学习率的值、 w2v的路径
sen_len = 20
batchsize = 128
epoch = 50
lr = 0.000125
w2v_path = 'w2v_all.model' 

print("加载文本数据 ...") # 读取 'training_label.txt'  'training_nolabel.txt' 
train_x, y = load_training_data('work/data/training_label.txt')
train_x_no_label = load_training_data('work/data/training_nolabel.txt')
print("加载完成。")

# 对 input 跟 labels 做预处理
preprocess = Preprocess(sen_len, w2v_path=w2v_path)
embedding_ = preprocess.make_embedding(load=True)
train_x = preprocess.sentence_word2id(train_x)
train_x_no_label = preprocess.sentence_word2id(train_x_no_label)

# 定义模型
model = LSTM_Net(embedding_, embedding_dim=250, hidden_dim=150, num_layers=1, dropout=0.5) #, fix_embedding=fix_embedding

#用sklearn中的函数，划分训练集与验证集
X_train, X_val, y_train, y_val = train_test_split(train_x, y, test_size = 0.1, random_state = 4)
print('Train | Len:{} \nValid | Len:{}'.format(len(y_train), len(y_val)))

# 把 data 做成 dataset 供 dataloader 取用
# train_dataset = TwitterDataset(X=X_train, y=y_train)
val_dataset = Reader(datas= X_val, labels= y_val)

# 把 data 转成 batch of tensors
# train_loader = DataLoader(train_dataset, batch_size= batchsize, shuffle = True) 
val_loader = DataLoader(val_dataset, batch_size= batchsize, shuffle = False)

打印：

训练

验证集上的准确率在76％左右

# 开始训练
training(batchsize, epoch, lr, X_train,y_train,val_loader, train_x_no_label, model)

预测测试集

#加载测试数据
print("加载测试数据 ...")
test_x = load_testing_data('work/data/testing_data.txt')
print("完成。")

#对测试数据进行预处理
test_x = preprocess.sentence_word2id(test_x)

# 测试数据读取
test_dataset = Reader(datas= test_x, labels= None) 
test_loader = DataLoader(test_dataset, batch_size= batchsize, shuffle = False)

#加载模型
model = LSTM_Net(embedding_, embedding_dim=250, hidden_dim=150, num_layers=1, dropout=0.5)
model.set_state_dict(paddle.load("model.pdparams"))

#测试函数
def testing(test_loader, model):
    model.eval()
    results = []
    print("预测中...")
    print("总批次：{}".format(len(test_loader)))
    with paddle.no_grad():
        for i, inputs in enumerate(test_loader):
            print('Batch | {}/{}'.format(i+1,len(test_loader)), end='\r')
            inp = inputs[0] #取出tensor
            outputs = model(inp)
            outputs = outputs.squeeze() # 删除等于1的维度
            outputs = outputs.numpy()
            outputs = outputs.reshape((1,-1))
            #负面标 1，正面标 0
            outputs[outputs>=0.5] = 1 # 大于等于0.5为负面
            outputs[outputs<0.5] = 0 # 小于0.5为正面
            outputs = outputs.astype(int)
            results += outputs[0].tolist()
        print('预测完成！')
    return results

#开始预测
outputs = testing(test_loader, model)

#把预测结果保存起来
import pandas as pd
tmp = pd.DataFrame({"id":[str(i) for i in range(len(test_x))],"label":outputs})
tmp.to_csv('predict_result.csv', index=False)

修改

把句子长度改为28

from sklearn.model_selection import train_test_split

# 定义句子长度、要训练几个 epoch、 学习率的值、 w2v的路径
sen_len = 28
batchsize = 128
epoch = 50
lr = 0.000125
w2v_path = 'w2v_all.model' 

print("加载文本数据 ...") # 读取 'training_label.txt'  'training_nolabel.txt' 
train_x, y = load_training_data('work/data/training_label.txt')
train_x_no_label = load_training_data('work/data/training_nolabel.txt')
print("加载完成。")

# 对 input 跟 labels 做预处理
preprocess = Preprocess(sen_len, w2v_path=w2v_path)
embedding_ = preprocess.make_embedding(load=True)
train_x = preprocess.sentence_word2id(train_x)
train_x_no_label = preprocess.sentence_word2id(train_x_no_label)

#用sklearn中的函数，划分训练集与验证集
X_train, X_val, y_train, y_val = train_test_split(train_x, y, test_size = 0.1, random_state = 4)
print('Train | Len:{} \nValid | Len:{}'.format(len(y_train), len(y_val)))

# 把 data 做成 dataset 供 dataloader 取用
# train_dataset = TwitterDataset(X=X_train, y=y_train)
val_dataset = Reader(datas= X_val, labels= y_val)

# 把 data 转成 batch of tensors
# train_loader = DataLoader(train_dataset, batch_size= batchsize, shuffle = True) 
val_loader = DataLoader(val_dataset, batch_size= batchsize, shuffle = False)

使用双向LSTM

from paddle import nn

class LSTM_Net(nn.Layer):
    def __init__(self, embedding, embedding_dim, hidden_dim, num_layers, dropout=0.5):
        super(LSTM_Net, self).__init__()
        # embedding layer
        self.embedding = paddle.nn.Embedding(embedding.shape[0],embedding.shape[1],weight_attr=paddle.framework.ParamAttr(initializer=paddle.nn.initializer.Assign(embedding)))
        # self.embedding_dim = embedding.shape[1]
        # self.hidden_dim = hidden_dim
        # self.num_layers = num_layers
        # self.dropout = dropout
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=num_layers,direction='bidirect')
        self.classifier = nn.Sequential( 
        		nn.Dropout(dropout),
                nn.Linear(hidden_dim*2, 128),
                nn.Dropout(dropout),
                nn.Linear(128, 64),
                nn.Dropout(dropout),
                nn.Linear(64, 1),
                nn.Sigmoid() 
         )
        
    def forward(self, inputs):
        inputs = self.embedding(inputs)
        x, _ = self.lstm(inputs)
        # 对 LSTM 输出层的结果按列平均
        x = paddle.mean(x, axis=1)
        x = self.classifier(x)
        return x

训练集上的准确率提升到77％左右

# 开始训练
training(batchsize, epoch, lr, X_train,y_train,val_loader, train_x_no_label, model)

总结

句子长度对模型训练结果有影响。

验证集上的准确率还不够高，后面可以考虑增加LSTM 的num_layers 网络层数，加入注意力机制。

你可能感兴趣的:(笔记,python,深度学习,自然语言处理,nlp)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟