CoreJT

文本分类(一) | (9) 项目组织结构

项目Github地址

在学习某个深度学习框架时，掌握其基本知识和接口固然重要，但如何合理组织代码，使得代码具有良好的可读性和可扩展性也必不可少。本文不会深入讲解过多知识性的东西，更多的则是传授一些经验，关于如何使得自己的程序更pythonic，更符合pytorch的设计理念。这些内容可能有些争议，因其受我个人喜好和coding风格影响较大，你可以将这部分当成是一种参考或提议，而不是作为必须遵循的准则。归根到底，都是希望你能以一种更为合理的方式组织自己的程序。

在做深度学习实验或项目时，为了得到最优的模型结果，中间往往需要很多次的尝试和修改（也就是所谓地调参）。根据我的个人经验，在从事大多数深度学习研究时，程序都需要实现以下几个功能：

1）模型定义

2）数据处理和加载

3）训练模型（Train&Validate）

4）训练过程的可视化或相关指标的计算

5）测试/预测（Test/Inference）

另外程序还应该满足以下几个要求：

1）模型需具有高度可配置性，便于修改参数、修改模型，反复实验

2）代码应具有良好的组织结构，使人一目了然

3）代码应具有良好的说明，使其他人能够理解

接下来我将应用这些内容，并结合实际的例子，来讲解如何合理组织我们的文本分类项目。

1. 文件组织结构

2. 数据预处理和加载

3. 模型定义

4. 配置文件

5. main.py

6. 使用方式

7. 实验结果与分析

8. 预测与网页Demo

9. 程序所依赖的环境

10. 总结

1. 文件组织结构

首先来看程序文件的组织结构：

其中：

1）checkpoints/：用于保存训练好的模型，可使程序在异常退出后仍能重新载入模型，恢复训练

2）data/：数据相关操作，包括数据预处理、dataset实现等

3）models/：模型定义，可以有多个模型，例如上面的FastText、TextCNN等，一个模型对应一个文件

4）config.py：配置文件，所有可配置的变量都集中在此，并提供默认值

5）main.py：主文件，训练和预测程序的入口，可通过不同的命令来指定不同的操作和参数

6）load_word_vector.py:定义加载预训练词向量的函数

7）.idea/、static/、templates/、settings.py、urls.py、views.py、wsgi.py、db.sqlite3、manage.py:网页Demo运行支撑文件。

8）requirements.txt：程序依赖的第三方库

9）README.pdf：项目说明文档

2. 数据预处理和加载

数据的相关预处理函数主要保存在data/dataset.py中。关于数据加载的相关操作，其基本原理就是使用Dataset进行数据集的封装，再使用Dataloader实现数据并行加载。

具体的预处理过程和实现细节在文本分类专栏的第(2)篇博客中已经详细介绍了。

使用时，我们可通过dataloader加载数据：

#读取之前预处理过程 保存的处理好的训练集、验证集和测试集
    X_train = torch.load('./data/X_train.pt')
    y_train = torch.load('./data/y_train.pt')
    X_val = torch.load('./data/X_val.pt')
    y_val = torch.load('./data/y_val.pt')
    X_test = torch.load('./data/X_test.pt')
    y_test = torch.load('./data/y_test.pt')
    
    #封装成DataSet
    trainset = Data.TensorDataset(X_train,y_train)
    valset = Data.TensorDataset(X_val,y_val)
    testset = Data.TensorDataset(X_test,y_test)

    #使用DataLoader并行加载数据
    train_iter = Data.DataLoader(trainset,opt.batch_size,shuffle=True,num_workers=opt.num_workers)
    val_iter = Data.DataLoader(valset,opt.batch_size)
    test_iter = Data.DataLoader(testset,opt.batch_size)

加载预训练词向量

load_word_vector.py定义了加载预训练词向量的函数：

def read_word_vector(path): #path为 下载的预训练词向量 解压后的文件所在的路径
    #读取预训练词向量
    with open(path, 'r') as f:
        words = set()  # 定义一个words集合
        word_to_vec_map = {}  # 定义词到向量的映射字典
        for line in f:  #跳过文件的第一行 
            break

        for line in f:  # 遍历f中的每一行
            line = line.strip().split()  # 去掉首尾空格，每一行以空格切分  返回一个列表  第一项为单词 其余为单词的嵌入表示
            curr_word = line[0]  # 取出单词
            words.add(curr_word)  # 加到集合/词典中
            # 定义词到其嵌入表示的映射字典
            word_to_vec_map[curr_word] = np.array(line[1:], dtype=np.float64)

    return words, word_to_vec_map



def load_pretrained_embedding(word2index, word2vector):#word2index是构建的词典（单词到索引的映射），word2vector是预训练词向量（单词到词向量的映射）
  
    embed = torch.zeros(len(word2index), opt.embed_size) # 初始化词嵌入矩阵为0
    oov_count = 0 # 找不到预训练词向量的词典中单词的个数

    for word, index in word2index.items(): #遍历词典中的每个单词 及其在词典中的索引
        try: #如果单词有对应的预训练词向量 则用预训练词向量对词嵌入矩阵的对应行进行赋值
            embed[index, :] = torch.from_numpy(word2vector[word])
        except KeyError:
            oov_count += 1

    if oov_count > 0:
        print("There are %d oov words."%oov_count)
    return embed #返回词嵌入矩阵

在主程序main.py 的train函数中调用：

  #加载预训练词向量
    if opt.use_pretrained_word_vector:
        words,word2vec = read_word_vector(opt.word_vector_path) #opt.word_vector_path为下载的预训练词向量 解压后的文件所在的路径
        print("预训练词向量读取完毕！")
        #读取之前预处理过程保存的词典（词到索引的映射）
        with open('./data/word2index.json') as f:
            word2index = json.load(f)

        model.embedding.weight.data.copy_(load_pretrained_embedding(word2index, word2vec)) #使用加载完预训练词向量的词嵌入矩阵 对embdding层的词嵌入矩阵赋值
        print("预训练词向量加载完毕！")
        if opt.frozen: #冻结还是finetuning
            model.embedding.weight.requires_grad = False

3. 模型定义

各个模型的定义主要保存在models/目录下，其中BasicModule是对nn.Module的简易封装，提供快速加载（可以处理GPU训练、CPU加载的情况）和保存模型（提供多GPU训练时的模型保存方法）的接口，其他模型都继承自BasicModule。

class BasicModule(nn.Module):
   '''
   封装了nn.Module，主要提供save和load两个方法
   '''

   def __init__(self,opt=None):
       super(BasicModule,self).__init__()
       self.model_name = str(type(self)) # 模型的默认名字

   def load(self, path):
       '''
       加载模型
       可指定路径
       '''
       self.load_state_dict(torch.load(path))

   def load_map(self, path,device): #如果在GPU上训练 在CPU上加载 可以调用这个函数
       '''
       加载模型
       可指定路径
       '''
       self.load_state_dict(torch.load(path,map_location=device))

   def save(self, name=None):
       '''
       保存模型，默认使用“模型名字_best”作为文件名，
       '''
       if name is None:
           prefix = 'checkpoints/' + self.model_name.split('.')[-2] + '_best.pth'
           #name = time.strftime(prefix + '%m%d_%H:%M:%S.pth')
       torch.save(self.state_dict(), prefix) #只保存模型的参数
       return name

   def save_multiGPU(self, name=None):  #如果使用多GPU训练，保存模型时，可以调用这个函数。
       '''
       保存模型，默认使用“模型名字_best”作为文件名，
       '''
       if name is None:
           prefix = 'checkpoints/' + self.model_name.split('.')[-2] + '_best.pth'
           # name = time.strftime(prefix + '%m%d_%H:%M:%S.pth')
       torch.save(self.module.state_dict(), prefix)  # 只保存模型的参数
       return name

在实际使用中，直接调用model.save()及model.load(opt.load_path)即可,我们已经对保存和加载做了封装。

其它自定义模型一般继承BasicModule，然后实现自己的模型。其中TextCNN.py实现了TextCNN，FastText.py实现了FastText等。在models/__init__py中，代码如下：

#本项目可选择的模型：
from .FastText import FastText
from .TextCNN import TextCNN
from .MulBiLSTM import MulBiLSTM
from .MulBiLSTM_Atten import MulBiLSTM_Atten
from .RCNN import RCNN
from .DPCNN import DPCNN

这样在主函数中就可以写成：

from models import TextCNN

或：

import models
model = models.TextCNN()

或：

import models
model = getattr(models, 'TextCNN')()

其中最后一种写法最为关键，这意味着我们可以通过字符串直接指定使用的模型，而不必使用判断语句，也不必在每次新增加模型后都修改代码。新增模型后只需要在models/__init__.py中加上

from .new_module import NewModule

各个模型的原理和实现细节在文本分类专栏博客的第(3)-(8)篇博客中已经详细介绍过了。

4. 配置文件

在模型定义、数据处理和训练等过程都有很多变量，这些变量应提供默认值，并统一放置在配置文件中，这样在后期调试、修改代码或迁移程序时会比较方便，在这里我们将所有可配置项放在config.py中。

class DefaultConfig(object):

    model = 'FastText'  # 使用的模型，名字必须与models/__init__.py中的名字一致

    load_model_path = None  # 加载预训练的模型的路径，为None代表不加载

    batch_size = 256  # batch size
    num_workers = 4  # 加载数据使用的线程数

    #下载数据集 解压缩后得到的文件夹所在的路径
    data_root = '/Users/apple/Downloads/THUCNews-1'


    max_epoch = 20
    lr = 0.01  # initial learning rate
    weight_decay = 1e-4  # 损失函数 正则化
    embed_size = 100 #词嵌入维度
    drop_prop = 0.5 #丢弃率
    classes = 14  #分类类别数
    max_len = 500 #序列最大长度

    #学习率衰减相关超参数
    use_lrdecay = True #是否使用学习率衰减
    lr_decay = 0.95  # 衰减率
    n_epoch = 1  #每隔n_epoch个epoch衰减一次 lr = lr * lr_decay

	
    #TextCNN相关的超参数
    kernel_sizes = [3,4,5] #一维卷积核的大小
    num_channels = [100,100,100] #一维卷积核的数量

    #FastText相关的超参数
    linear_hidden_size =512  #隐层单元数

    #MulBiLSTM/MulBiLSTM_Atten相关超参数
    recurrent_hidden_size = 128 #循环层 单元数
    num_layers = 2      #循环层 层数
    
    #RCNN相关超参数
    num_layers_rcnn = 1 #循环层 层数
    drop_prop_rcnn = 0.0 #1个循环层设置为0 丢弃率  
	
    #DPCNN相关超参数
    channel_size = 250
    drop_prop_dpcnn = 0.2

    #梯度裁剪相关超参数
    use_rnn = False
    norm_type = 1
    max_norm = 5

    #预训练词向量相关超参数
    use_pretrained_word_vector = False
    word_vector_path = '/Users/apple/Downloads/sgns.sogou.word'
    frozen = False

    #待分类文本
    text="众所周知，一支球队想要夺冠，超级巨星必不可少，不过得到超级巨星并不简单，方式无非两种，一是自己培养，这种方式适用于所有球队，二是交易，这种方式基本只适用于大市场球队——事实就是，30支球队之间并非完全公平，超级巨星依然更愿意前往大城市。"

    #预测时是否对文本进行填充或截断
    predict_pad = False

可配置的参数主要包括：

1）训练参数（学习率、训练epoch等）

2）各个模型相关的参数

这样我们在程序中就可以这样使用：

import models
from config import DefaultConfig

opt = DefaultConfig()
lr = opt.lr
model = getattr(models, opt.model)

这些都只是默认参数(如果后续不在命令行指定的话，就是用默认参数)，在这里还提供了更新函数（根据命令行中指定的参数进行更新），根据字典更新配置参数。

def parse(self, kwargs):
    '''
    根据字典kwargs 更新 默认的config参数
    '''
    # 更新配置参数
    for k, v in kwargs.items():
        if not hasattr(self, k):
            # 警告还是报错，取决个人喜好
            warnings.warn("Warning: opt has not attribut %s" % k)
        setattr(self, k, v)

    # 打印配置信息
    print('user config:')
    for k, v in self.__class__.__dict__.items(): #python3 中iteritems()已经废除了
        if not k.startswith('__'):
            print(k, getattr(self, k))

这样我们在实际使用时，并不需要每次都修改config.py（默认配置），只需要通过命令行传入所需参数，覆盖默认配置即可。

opt = DefaultConfig()
new_config = {'lr':0.1,'use_gpu':False}
opt.parse(new_config)
opt.lr == 0.1

5. main.py

在讲解主程序main.py之前，我们先来看看2017年3月谷歌开源的一个命令行工具fire ，通过pip install fire即可安装。下面来看看fire的基础用法，假设example.py文件内容如下：

import fire
def add(x, y):
 return x + y
 
def mul(**kwargs):
   a = kwargs['a']
   b = kwargs['b']
   return a * b

if __name__ == '__main__':
 fire.Fire()

那么我们可以使用：

python example.py add 1 2 # 执行add(1, 2)
python example.py mul --a=1 --b=2 # 执行mul(a=1, b=2),kwargs={'a':1, 'b':2}
python example.py add --x=1 --y=2 # 执行add(x=1, y=2)

可见，只要在程序中运行fire.Fire()，即可使用命令行参数python file [args,] {--kwargs,}。fire还支持更多的高级功能，具体请参考官方指南。

在主程序main.py中，主要包含四个函数，其中三个需要命令行执行，main.py的代码组织结构如下：

def train(**kwargs):
   '''
   训练
   '''
   pass
    
def evaluate_accuracy(data_iter, net,flag=False,labels=None):
   '''
   计算模型在验证集/测试集上的准确率等信息，用以辅助训练
   '''
   pass

def predict(**kwargs):
   '''
   对新样本进行预测
   '''
   pass

def help():
   '''
   打印帮助的信息 
   '''
   print('help')

if __name__=='__main__':
   import fire
   fire.Fire()

训练

训练的主要步骤如下：

1）定义网络

2）定义数据

3）定义损失函数和优化器

4）计算重要指标

5）开始训练

6）训练网络

7）计算在验证集上的指标

训练函数的代码如下：

def train(**kwargs):

    # 根据命令行参数更新配置 否则使用默认配置
    opt.parse(kwargs)

    # step1: 数据
    #词典大小
    with open('./data/vocabsize.json') as f:
        vocab_size = json.load(f)
    print("词典大小:",vocab_size)
    #标签
    with open('./data/labels.json') as f:
        labels = json.load(f)

    #读取之前预处理过程 保存的处理好的训练集、验证集和测试集
    X_train = torch.load('./data/X_train.pt')
    y_train = torch.load('./data/y_train.pt')
    X_val = torch.load('./data/X_val.pt')
    y_val = torch.load('./data/y_val.pt')
    X_test = torch.load('./data/X_test.pt')
    y_test = torch.load('./data/y_test.pt')

    #封装成DataSet
    trainset = Data.TensorDataset(X_train,y_train)
    valset = Data.TensorDataset(X_val,y_val)
    testset = Data.TensorDataset(X_test,y_test)

    #使用DataLoader并行加载数据
    train_iter = Data.DataLoader(trainset,opt.batch_size,shuffle=True,num_workers=opt.num_workers)
    val_iter = Data.DataLoader(valset,opt.batch_size)
    test_iter = Data.DataLoader(testset,opt.batch_size)

    # step2: 模型
    model = getattr(models, opt.model)(vocab_size,opt)
    if opt.load_model_path:
        model.load(opt.load_model_path)

    #加载预训练词向量
    if opt.use_pretrained_word_vector:
        words,word2vec = read_word_vector(opt.word_vector_path) #opt.word_vector_path为下载的预训练词向量 解压后的文件所在的路径
        print("预训练词向量读取完毕！")
        #读取之前预处理过程保存的词典（词到索引的映射）
        with open('./data/word2index.json') as f:
            word2index = json.load(f)

        model.embedding.weight.data.copy_(load_pretrained_embedding(word2index, word2vec)) #使用加载完预训练词向量的词嵌入矩阵 对embdding层的词嵌入矩阵赋值
        print("预训练词向量加载完毕！")
        if opt.frozen: #冻结还是finetuning
            model.embedding.weight.requires_grad = False


    print("使用设备：",device)
    if torch.cuda.device_count() > 1: #使用多GPU进行训练
        print("Let's use", torch.cuda.device_count(), "GPUs!")
        model = torch.nn.DataParallel(model)

    model.to(device)

    # step3: 目标函数和优化器
    criterion = torch.nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(),
                             lr = opt.lr,
                             weight_decay = opt.weight_decay)
    scheduler = lr_scheduler.StepLR(optimizer,opt.n_epoch,opt.lr_decay)
    # 训练
    batch_count = 0
    best_f1_val = 0.0


    for epoch in range(opt.max_epoch):
        train_l_sum, train_acc_sum, n, start = 0.0, 0.0, 0, time.time()
        if opt.use_lrdecay:
            scheduler.step()
        for X, y in train_iter:
            X = X.to(device)
            y = y.to(device)
            y_hat = model(X)
            loss = criterion(y_hat, y)
            optimizer.zero_grad()
            loss.backward()
            if opt.use_rnn: #梯度裁剪
                nn.utils.clip_grad_norm_(model.parameters(), max_norm=opt.max_norm, norm_type=opt.norm_type)
            optimizer.step()
            train_l_sum += loss.cpu().item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().cpu().item()
            n += y.shape[0]
            batch_count += 1


        #一个epoch后在验证集上做一次验证
        val_f1,val_acc = evaluate_accuracy(val_iter, model)
        if val_f1 > best_f1_val:
            best_f1_val = val_f1
            # 保存在验证集上weighted average f1最高的参数（最好的参数）
            if torch.cuda.device_count() > 1: #多GPU训练时保存参数
                print("Saving on ", torch.cuda.device_count(), "GPUs!")
                model.save_multiGPU()
            else:
                print("Saving on one GPU!")#单GPU训练时保存参数
                model.save()
            #使用当前最好的参数，在测试集上再跑一遍
            best_f1_test,best_acc_test = evaluate_accuracy(test_iter,model,True,labels)

        print('epoch %d, lr %.6f,loss %.4f, train acc %.3f, val acc %.3f,val weighted f1 %.3f, val best_weighted f1 %.3f,test best_acc %.3f,test best_weighted f1 %.3f,time %.1f sec'
              % (epoch + 1, optimizer.state_dict()['param_groups'][0]['lr'],train_l_sum / batch_count, train_acc_sum / n, val_acc,val_f1, best_f1_val,best_acc_test,best_f1_test,time.time() - start))

验证

验证相对来说比较简单，但要注意需将模型置于验证模式(model.eval())，验证完成后还需要将其置回为训练模式(model.train())，这两句代码会影响BatchNorm和Dropout等层的运行模式。

多分类我们使用 weighed average f1-score作为评估指标，主要使用sklearn中的指标计算函数。

代码如下：

def evaluate_accuracy(data_iter, net,flag=False,labels=None):
    #计算模型在验证集上的相关指标 多分类我们使用 weighed average f1-score

    acc_sum, n = 0.0, 0
    net.eval()  # 评估模式, 这会关闭dropout
    y_pred_total = []
    y_total = []
    with torch.no_grad():
        for X, y in data_iter:
            #acc_sum += (net(X.to(device)).argmax(dim=1) == y.to(device)).float().sum().cpu().item()
            #n += y.shape[0]
            y_pred = net(X.to(device)).argmax(dim=1).cpu().numpy()
            y_pred_total.append(y_pred)
            y_total.append(y.numpy())

    y_pred = np.concatenate(y_pred_total)
    y_label = np.concatenate(y_total)
    weighted_f1 = f1_score(y_label,y_pred,average='weighted') #weighed average f1-score

    accuracy = accuracy_score(y_label,y_pred) #准确率
    if flag: #当在测试集上验证时 flag设置为True  额外打印分类报告和混淆矩阵
        print(classification_report(y_label,y_pred,digits=4,target_names = labels))
        cm = confusion_matrix(y_label,y_pred)
        print(cm)
    net.train()  # 改回训练模式

    return weighted_f1,accuracy

预测

对于新的输入文本，我们加载训练好的模型进行预测，输出类别标签：

def predict(**kwargs):
    # 根据命令行参数更新配置 否则使用默认配置
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    print("使用设备:", device)
    opt.parse(kwargs)
    text = opt.text #待分类文本

    # 词典大小
    with open('./data/vocabsize.json') as f:
        vocab_size = json.load(f)
    print(vocab_size)
    
    #创建指定的模型对象
    model = getattr(models, opt.model)(vocab_size, opt)
    
    #加载训练好的模型参数
    if device.type=='cpu': #GPU训练 CPU预测 加载参数时需要对参数进行映射
        model.load_map('./checkpoints/'+opt.model+'_best.pth',device)
    else:
        model.load('./checkpoints/' + opt.model + '_best.pth')
    
    #加载之前预处理过程 保存的词到索引的映射字典
    with open('./data/word2index.json') as f:
        word2index = json.load(f)

    #device = list(model.parameters())[0].device
    if opt.predict_pad: #预测时对文本进行填充（若文本长度opt.max_len）
        sentence = [word2index.get(word, 1) for word in jieba.lcut(text)]
        sentence = sentence[:opt.max_len] if len(sentence) > opt.max_len else sentence + [0] * (opt.max_len - len(sentence))
        sentence = torch.tensor(sentence,device=device)
    else:
        sentence = torch.tensor([word2index.get(word,1) for word in jieba.lcut(text)],device=device)
    print(sentence)
    #预测
    with torch.no_grad():
        model.eval()
        label = torch.argmax(model(sentence.view((1,-1))),dim=1)
    
    # 加载之前预处理过程 保存的索引到类别标签的映射字典
    with open('./data/index2labels.json') as f:
        index2labels = json.load(f)
    #输出新文本的类别标签
    print(index2labels[str(label.item())])

帮助函数

为了方便他人使用, 程序中还应当提供一个帮助函数，用于说明函数是如何使用。程序的命令行接口中有众多参数，如果手动用字符串表示不仅复杂，而且后期修改config文件时，还需要修改对应的帮助信息，十分不便。这里使用了Python标准库中的inspect方法，可以自动获取config的源代码。help的代码如下:

def help():

    '''
    打印帮助的信息： python file.py help
     '''

    print('''
   usage : python {0}  [--args=value,]
    := train | test | help
   example: 
           python {0} train --model='TextCNN' --lr=0.01
           python {0} test --text='xxxxx'
           python {0} help
   avai    able
    args: '''.format(__file__))

    from inspect import getsource
    source = (getsource(opt.__class__))
    print(source)

6. 使用方式

正如help函数的打印信息所述，可以通过命令行参数指定变量名.下面是三个使用例子，fire会将包含-的命令行参数自动转层下划线_，也会将非数值的值转成字符串。所以--train-data-root=data/train和--train_data_root='data/train'是等价的。

下载THUCnews数据集(完整数据集压缩包下载)，解压缩，并修改config.py:

#下载数据集 解压缩后得到的文件夹所在的路径
data_root = '/Users/apple/Downloads/THUCNews-1'

下载预训练词向量（项目所使用预训练词向量），解压缩，并修改config.py:（更多预训练词向量下载(中文)）

 #预训练词向量相关超参数
word_vector_path = '/Users/apple/Downloads/sgns.sogou.word' #下载的预训练词向量 解压后的文件所在的路径

进入data目录下，运行dataset.py，对数据进行预处理并生成必要的中间文件（数据集非常大，此过程需要3-4小时）：

python dataset.py

之后便可以训练模型（在main.py所在的目录下运行）：

可以在命令行指定新的超参数覆盖默认超参数配置 不然将使用config.py中的默认超参数
# 训练模型 单GPU  
CUDA_VISIBLE_DEVICES=5 nohup python -u main.py train 
        --model='TextCNN' 
        --lr=0.01
        --batch-size=256  
        --max-epoch = 20 >zdz.log 2>&1 &

# 训练模型 多GPU
CUDA_VISIBLE_DEVICES=0,1,2,5 nohup python -u main.py train 
        --model='DPCNN'
        --drop_prop_dpcnn=0.2
        --batch-size=256  
        --max-epoch = 10 >zdz.log 2>&1 &


# 打印帮助信息
python main.py help

7. 实验结果与分析

实验结果

训练各个模型的超参数均采用默认超参数，具体的配置在config.py中。各个模型在测试集上的weight f1-score值如下表所示：

实验分析

FastText模型是我们的Baseline，在测试集上的weighted f1-score为92.6%。

DPCNN模型在测试集上取得了最好的性能，其weighted f1-score为95.4%。

Attention机制在分类问题上的效果不是很明显，多层双向LSTM和多层双向LSTM with Attention的性能几乎差不多。

比较意外地是RCNN模型(结合RNN与CNN)并没有取得预期的性能，相比FastText提升不大，可能模型细节还需要细。

TextCNN是"性价比"最高的模型，模型比较简单，训练很容易，但效果非常不错。

上述实验结果均基于默认的超参数配置，调参可能会取得更好的性能。

基于RNN的模型相对基于CNN的模型更难训练（相同配置下，训练时间更长），但效果并没有显著优势。基于RNN的模型训练一定轮数后可能会出现梯度爆炸，注意使用梯度剪切技巧。

深层网络(DPCNN)相对于浅层网络(TextCNN)更难训练，但效果提升比较明显。深层网络要注意缓解梯度消失现象（比如，使用残差连结）。

8. 预测与网页Demo

通过命令行执行预测

模型训练完成后，便可以对新闻文本执行预测过程，预测其对应的主题标签（在main.py所在的目录下运行）：

# 通过命令行运行预测过程
python main.py predict
       --model='RCNN'  #指定预测所使用的model
       --text='众所周知，一支球队想要夺冠，超级巨星必不可少，不过得到超级巨星并不简单，方式无非两种，一是自己培养，这种方式适用于所有球队，二是交易。'  #待分类文本

通过网页Demo进行预测

1）进入项目目录，运行manage.py（在manage.py所在的目录下运行）：

 python manage.py runserver

2）在浏览器打开网址：

http://127.0.0.1:8000/index  #不要忘了index

3）界面如下所示：

把待分类的文本粘贴到上图中的红框中，在蓝框的下拉列表中选择模型，点击上传分析后，在下方的绿框中便可显示分类结果。

4）支持的新闻类别有14个：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

以下是一些示例（注意：我们的系统是对篇章进行分类，最长不要超过500个词。)：

a. 体育：“众所周知，一支球队想要夺冠，超级巨星必不可少，不过得到超级巨星并不简单，方式无非两种，一是自己培养，这种方式适用于所有球队，二是交易，这种方式基本只适用于大市场球队——事实就是，30支球队之间并非完全公平，超级巨星依然更愿意前往大城市。”

b. 体育：“德国球星萨内告知拜仁慕尼黑，他希望在一月份转会加盟，但据英国媒体报道，曼城方面对他的要价高达1亿英镑。尽管萨内自从8月份以来就一直伤停，但拜仁仍对他感兴趣。曼城方面也清楚萨内想走，但他们的立场是，买家出价合适才会放人，而瓜迪奥拉对他的要价是1亿英镑，这笔钱将用来买进新球员补充阵容。”

c. 娱乐：“有网友晒出了范冰冰现身好莱坞华裔导演温子仁新作《恶毒》的杀青晚宴现场的照片。照片中范冰冰戴着暗绿色帽子，穿着黑色皮衣，留着大波浪长发，五官精致笑容甜美，与众主创合照站C位，很有排面。”

d. 娱乐：“北京时间12月20日消息，据香港媒体报道，电影《急先锋》日前在北京举行发布会，导演唐季礼联同成龙、杨洋、艾伦、朱正廷、母其弥雅（MIYA）等主角齐齐亮相，并分享台前幕后的故事。其中导演唐季礼特别提到，在拍摄过程中快艇不慎被石头掀翻，一下将成龙扣在水下，把自己吓哭了！今年成龙大哥又有新作，与老拍档唐季礼导演连手打造新片《急先锋》，并且找来一班新血组成中国版“复仇者”，在大年初一与观众贺岁，让影迷万分期待，《急先锋》日前在北京举行发布会。”

e. 游戏：“尽管新英雄厄斐琉斯还没有正式登陆各大服务器，但拳头已经通过邮件向国外网友发送了另一名新英雄的神秘技能卡片，卡片描绘出其他的英雄被某个技能打中的效果，但是这个打击效果的来源却是未知的。之前拳头曾在英雄制作大纲写道：“在厄斐琉斯之后的英雄会是一位来自艾欧尼亚的斗士。这名英雄在打斗中茁壮成长，在受到过对方强烈的击打后，他（她）会狂笑，并且将所有受到的挑衅全部释放到对方的脸上。如果你喜欢用拳头说话，喜欢致命搏击，或者喜欢在激烈的战斗中把对手的头打得粉碎，他（她）可能是你的本命英雄。”这是铁拳要进入联盟了吗”

9. 程序所依赖的环境

numpy    >=1.16.2
json    >=2.0.9
jieba    >=0.39
torch    >=1.1.0
torchtext    >=0.4.0
sklearn    >=0.20.3
django    >=3.0.1
fire    >=0.2.1

10. 总结

1）本项目并没有解决训练集样本类别分布不均衡的问题，之后会考虑解决这个问题。

2）尽管各个模型在测试集上的准确率都在90%以上，但在预测时，准确率会有一定程度的下降，原因在于真实(预测)数据的分布和训练集数据的分布不同。

3）本项目主要实现了一些基于CNN、RNN(Attention)的文本分类模型，并没有实现一些基于预训练语言模型（如Bert、XLNet等）的分类模型，之后会逐步完善。

你可能感兴趣的:(文本分类(一),文本分类,项目组织结构)

机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
ES6解构赋值详解漫天转悠 ES6 es6 前端 ecmascript
ES6解构赋值详解ES6解构赋值是JavaScript语言的一项强大特性，它允许从数组或对象中提取数据，并将其赋值给变量。这一特性不仅简化了代码，提高了可读性，还增强了代码的灵活性。本文将详细介绍ES6解构赋值的基本概念、语法、应用场景以及一些高级用法。1.基本概念解构赋值是对赋值运算符的扩展。它允许按照一定的模式，从数组或对象中提取值，并赋值给变量。这种语法使得从复杂数据结构中提取数据变得更加简
快速入门：利用fast-elasticsearch-vector-scoring提升ES向量搜索效率劳泉文Luna
快速入门：利用fast-elasticsearch-vector-scoring提升ES向量搜索效率fast-elasticsearch-vector-scoringScoredocumentsusingembedding-vectorsdot-productorcosine-similaritywithESLuceneengine项目地址:https://gitcode.com/gh_mirro
ES6解构语法详解勇敢小陈 javascript vue.js 前端 es6
ES6的解构语法简化了我们开发过程中复杂的取值过程，可能你在a.b.c.d的时候别人早就把值一开始就取出来了，使代码更加简洁。下面开始进行语法的详解。一、单层解构单层解构constearth={people:'人类',animal:'动物'}const{people,animal}=earthconsole.log(people,animal);//人类动物单层解构并更改变量名称consteart
Go 语言使用Protobuf 进行序列化详解尘鹄 Go 语言学习之路 golang 开发语言后端 rpc go
文章目录Go语言使用Protobuf进行序列化详解1.Protobuf是什么?2.安装Protobuf及Go依赖3.编写.proto文件4.实现序列化和反序列化Go语言使用Protobuf进行序列化详解1.Protobuf是什么?以下是Protobuf官方中文文档的概述:Protobuf(ProtocolBuffers)是一种语言中立、平台中立的可扩展机制，用于序列化结构化数据。它类似于JSON，
web前端期末大作业：婚纱网页主题网站设计——唯一旅拍婚纱公司网站HTML+CSS+JavaScript IT-司马青衫前端课程设计 html
‍静态网站的编写主要是用HTMLDⅣV+CSSJS等来完成页面的排版设计‍，一般的网页作业需要融入以下知识点：div布局、浮动定位、高级css、表格、表单及验证、js轮播图、音频视频Fash的应用、uli、下拉导航栏、鼠标划过效果等知识点，学生网页作业源码，制作水平和原创度都适合学习或交作业用，记得点赞。精彩专栏推荐【作者主页——获取更多优质源码】【web前端期末大作业——毕设项目精品实战案例(1
在 ASP.NET Core WebAPI 中使用 JWT 验证 .NET跨平台 ASP.NET Core Web API IdentityServer4 OAuth2.0协议 .NET CORE WEBAPI JWT
为了保护WebAPI仅提供合法的使用者存取，有很多机制可以做，透过JWT(JSONWebToken)便是其中一种方式，这篇示范如何使用官方所提供的System.IdentityModel.Tokens.Jwt扩充套件，处理呼叫API的来源是否为合法的使用者身分。顺道一提，要产生JWTToken有很多套件可以帮助开发者快速建立，JWT这个NuGet套件就是其中一个，但这裡我使用官方所提供的Syste
API身份验证使用JWT的.NET实现雨夜思绪~静谧思考 .net
API身份验证使用JWT的.NET实现在现代的应用程序开发中，API身份验证是一项至关重要的任务。JWT（JSONWebToken）是一种常用的身份验证机制，它使用JSON格式表示身份验证信息，并使用签名进行验证。在.NET平台上，我们可以使用一些库来实现JWT身份验证。本文将介绍如何使用.NET来进行API身份验证并使用JWT作为身份验证机制。引入依赖项首先，我们需要在我们的项目中引入相关的依赖
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
【Go语言圣经1.1】 Pyroyster golang 开发语言后端
目标学习Go的编译方式、包的组织方式以及工具链的统一调用方式概念与定义packageGo语言通过包来组织代码。包类似于其它语言的库librarries或模块modules，每个包通常对应一个目录，目录中的所有.go文件都属于同一个包。特殊的main包:当代码使用packagemain声明时，表示这是一个可独立执行的程序而非一个库。程序的执行入口就是main函数import通过import语句，编译
Spike Neural Network Introduction and Research Directions Debug_Snail SNN Neuralnetwork 人工智能 AIGC
1.SNNs是一类神经网络,其中的神经元通过脉冲(spikes)来传递信息,而不是像传统的人工神经网络中那样使用实数值激活。SNNs更接近生物学上的神经系统,因为生物神经元也是通过电信号脉冲来传递信息的。与传统神经网络相比,SNNs具有以下几个特点:更低的功耗-因为只在发生脉冲时才激活神经元,所以整体功耗会比传统神经网络低很多。这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
灵犀X2：人形机器人的新篇章 Anima.AI 机器人
简介灵犀X2是智元机器人推出的最新款人形机器人，很可能是其前代产品灵犀X1的升级版本。灵犀X1作为一款开源的模块化机器人，其机械设计和软件代码完全公开，全球开发者都可以参与优化和创新。这款机器人身高130厘米，体重33公斤，具备34到44个自由度（DegreesofFreedom,DoF，即关节活动范围），能够执行轻型任务，如端茶送水、整理房间等。灵犀X2在继承这些特性的基础上，可能进一步提升了动
哪个AI论文生成助手好用？5 款AI论文工具深度评测 AI论文图鉴人工智能
2025年，AI论文写作工具如雨后春笋般涌现，迅速在学术圈走红。身为一个常被论文写作困扰的“懒人”，我对这些工具的实际表现充满好奇。于是，我亲测了五款当下国内外最热门的AI论文写作助手，从功能、交互、写作水平、写作效率等维度进行全面评测，结果令人惊喜。相信这篇文章能为仍在观望的你带来新的启发与认识。这次测评，我挑选了五款极具代表性的AI工具，以“基于大语言模型的医疗诊断研究”为主题，看它们如何大显
笔记:在.Net Core Web Api里使用JWT 风中的余烬~ .netcore 笔记 linux
首先，先建一个JWT配置类//////JWT配置类///publicclassJwtTokenOption{//////Token过期时间，默认为60分钟///publicintTokenExpireTime{get;set;}=60;//////接收人///publicstring?Audience{get;set;}//////秘钥///publicstring?SecurityKey{get
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
webpack 码上跑步 webpack 前端 node.js
webpack介绍webpack是一个构建工具,实现了模块化管理项目.他的工作方式是用各种loader将各种资源转化为js文件或者对js文件进行压缩编译亦或对静态资源进行处理.官网:webpack由来模块化存在一些问题1.ESM的兼容性问题2.模块文件过多,网络请求频繁3.前端的所有资源包括html和css都需要模块化构建工具应运而生,需要一个集编译,模块打包,支持不同的资源的模块打包工具.Web
Vue初体验码上跑步 vue.js 前端
Vue基础Vue是什么？Vue是javascript的渐进式框架。Vue初识Vue工作时必须要创建一个Vue的实例，并且传入一个配置对象。root容器里的代码是符合html的语法但是新添加了一些Vue语法，在这些地方Vue会自动进行解析。root容器里的代码称为Vue模版。Vue实例和容器是一一对应的。在实际开发中只有一个Vue，配合组件使用。在vue里的插值{{}}内部只要写js表达式就能正常解
vue脚手架码上跑步 vue.js 前端 javascript
Vue脚手架脚手架是官方提供的标准化开发工具。下载配置//全局安装vue的脚手架npminstall@vue/cli-g//在项目目录下开启一个脚手架vuecreate‘项目名’//进入项目目录，直接运行npmrunserve1.vue.js与vue.runtime.xxx.js的区别：（1).vue.js是完整版的Vue，包含：核心功能+模板解析器。（2）.vue.runtime.xxx.js是
AI-大模型中的流式输出与非流式输出岂不闻 AI 人工智能开发语言 AI编程
1.前言在大模型API开发中，流式与非流式输出对应着两种不同的数据交互，在代码中stream中通过参数true与false来进行设定。2.流式输出与非流式输出的原理2.1.非流式输出-请求一次响应返回完整数据非流式输出，传统的请求-响应模式，发起请求-等待完整内容生成后一次性返回给客户端。完整性：返回经过处理和验证的完整响应。单次传输：采用标准HTTP请求与响应模式，一次传输所有数据。等待时间：用
ES6 解构详解 yqcoder es6 前端 javascript
一、数组解构1.基本用法可以按照数组元素的顺序将数组中的值提取到变量中。constarr=[1,2,3];const[a,b,c]=arr;console.log(a);//1console.log(b);//2console.log(c);//32.忽略某些元素如果不想提取数组中的某些元素，可以使用逗号占位。const[x,,z]=[1,2,3];console.log(x);//1consol
JWT在.NET8 Webapi中的使用 Evan.Pei .net
JWT身份验证在现代Web应用中广泛使用，主要用于安全地传输用户身份信息.1.身份验证(用户登录后，服务器生成一个JWT并返回给客户端。客户端在后续请求中携带该JWT，服务器通过验证JWT来确认用户身份)2.授权(JWT中可以包含用户的角色或权限信息（如role:“admin”）。服务器根据JWT中的信息决定用户是否有权访问特定资源)3.信息交换(JWT可以包含一些非敏感的用户信息（如用户ID、用
Bug:QT不能生成可执行文件 lkasi bug
问题描述：为了生成可执行文件，将项目以release方式进行构建，并且在.pro文件中加入TEMPLATE=app#这生成一个exeQMAKE_LFLAGS+=-no-pie并且执行runqmake，生成的仍是sharedlibrary!!!解决方法：将下面代码放在.pro靠下的位置，并且再次执行runqmake,再构建就成功了TEMPLATE=app#这生成一个exeQMAKE_LFLAGS+=
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
MAC电脑配置VSCode写JAVA davidson1471 macos vscode java homebrew
一、安装JDK（Homebrew安装openJDK）使用清华源安装Homebrew清华源安装Home-brew教程Homebrew安装JDK8brewtapadoptopenjdk/openjdkbrewinstall--caskadoptopenjdk8查看JDK路径/usr/libexec/java_home二、配置VSCodeMAC配置VSCode教程
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
github 仓库查看git第一次commit的记录 HHHHy2019 GIT github git
github仓库查看git第一次commit的记录步骤我们这里选仓库TuSimple/naive-ui，首页显示这个仓库最新的git的状态是8978fa923minutesagoGitstats4,460commits，说明现在有4460个commit。我们再点击4,460commits进入查看commit的页面，滑到最底部，点击Older，（网址）地址栏显示为https://github.com
vue打包编译【自动删除node_modules下的.cache缓存文件夹】 Eternitysy javascript 前端 vue.js
vue项目不断打包编译后，在node_modules目录下的.cache文件夹里的文件就越来越多，手动删除数量巨大，时间太长，下面是自动删除.cache这个文件夹的方法1.先安装依赖包rimraf：npminstallrimraf-g--save-dev2.在package.json文件的scripts部分添加一个脚本命令："scripts":{"clean":"rimrafnode_module
【Unity】灯光Light xiaoaiyu___ unity 游戏引擎
Type：光照类型，一共有四种Directionallight：方向光，类似太阳的日照效果。Pointlight：点光源，类似蜡烛。Spotlight：聚光灯，类似手电筒。AreaLight：区域光，无法用作实时光照，一般用于光照贴图烘培Color：光源的颜色，自己选Mode：光照模式Realtime实时：运行时每帧计算并更新实时灯光。没有预先计算实时灯光。Mixed混合：一种提供烘焙和实时功能的
Linux提权-02 sudo提权藤原千花的败北权限提升 linux 运维网络安全
文章目录1.sudo提权原理1.1原理1.2sudo文件配置2.提权利用方式2.1sudo权限分配不当2.2sudo脚本篡改2.3sudo脚本参数利用2.4sudo绕过路径执行2.5sudoLD_PRELOAD环境变量2.6sudocaching2.7sudo令牌进程注入3.参考4.附录什么是环境变量**一、环境变量是什么？****二、为什么`sudo`可以重置环境变量？****1.防止权限提升攻
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f