#手写代码# 使用Bert进行文本分类（包含文本预处理、自定义分类器、模型训练与评估）

文章目录

1 配置文件
2 定义模型（Bert+分类器）
- 2.1 __ init __(self,config)函数
- 2.2 forward(self,x)函数
3 数据预处理
- 3.1 生成数据集
- 3.1 生成数据集迭代器
4 模型训练
5 模型测试
6 模型评估（在模型测试中被调用）
6 执行整个过程

用预训练的Bert模型进行文本分类，主要的工作有以下几个：

文本预处理
自定义全连接层分类网络并将分类网络连接到预训练好的Bert网络之后
模型训练
模型评估

1 配置文件

首先，我们需要定义一个配置文件，定义一系列要使用到的参数

class Config(object):
    '''
    配置参数
    '''
    def __init__(self,dataset):
        self.model_name='LiChenhao Bert Model'
        # 训练集，测试集，检验集，类别，模型训练结果保存路径
        # self.train_path=dataset+'/data/dev.txt'
        # self.test_path=dataset+'/data/dev.txt'
        # self.dev_path=dataset+'/data/dev.txt'

        self.train_path=dataset+'/data/train.txt'
        self.test_path=dataset+'/data/test.txt'
        self.dev_path=dataset+'/data/dev.txt'

        self.class_list=[x.strip() for x in open(dataset+'/data/class.txt').readlines()]
        self.save_path=dataset+'/saved_dict/'+self.model_name+'.ckpt'

        # 配置使用检测GPU
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        # 若超过1000还没有提升就提前结束训练
        self.require_improvement=1000
        # 类别数
        self.num_classes = len(self.class_list)

        # 整体训练次数
        self.num_epoch=3
        # batch大小
        self.batch_size=128
        #每个序列最大token数
        self.pad_size=32
        #学习率
        self.learning_rate = 1e-5

        self.bert_path='bert_pretrain'	#预训练网络相对路径
        self.tokenizer=BertTokenizer.from_pretrained(self.bert_path) #加载预训练Bert网络对输入数据进行embedding
        self.hidden_size=768  #Bert模型后自定义分类器（单隐层全连接网络）的隐层节点数

上述配置文件中定义了如下内容

测试集，开发集，训练集的路径
定义了数据要被分到类别
模型微调后模型参数的保存路径
训练模型Bert使用CPU还是GPU
超过多少次loss函数不在减小，自动停止训练
epoch大小（数据集整体训练多少次）
batch_size大小
每个序列最大token数量
学习率
Bert预训练模型的路径
定义了分词器
Bert模型后自定义分类器（单隐层全连接网络）的隐层节点数

2 定义模型（Bert+分类器）

我们自定义的网络要继承自 nn.Module
详细代码如下：

class Model(nn.Module):
    def __init__(self,config):
        super(Model,self).__init__()
        self.bert=BertModel.from_pretrained(config.bert_path)  #从路径加载预训练模型
        for param in self.bert.parameters():
            param.requires_grad = True # 使参数可更新
        self.fc=nn.Linear(config.hidden_size,config.num_classes) # 自定义全连接层 ，输入数，输出数（多分类数量），bert 模型最后带了一个输出输出是768，这里的输入要和bert最后的输出统一

    def forward(self,x):
        context=x[0] #128*32 batch_size*seq_length
        mask=x[2]   #128*32 batch_size*seq_length

        # 第一个参数 是所有输入对应的输出  第二个参数 是 cls最后接的分类层的输出
        _,pooled = self.bert(context,attention_mask=mask,output_all_encoded_layers=False) # output_all_encoded_layers 是否将bert中每层(12层)的都输出，false只输出最后一层【128*768】
        out=self.fc(pooled) # 128*10
        return out

2.1 init (self,config)函数

通过配置文件中的路径加载预训练Bert模型
将Bert模型中的参数设置为可更新（使用Fine-Tuning训练方式，同时更新Bert和分类器中的参数）
根据配置文件定义分类器（全连接网络）

2.2 forward(self,x)函数

forward(self,x)函数是Bert中一个特殊文章函数，forward(self,x)函数详细解析请看此文章

这里输入的数据的结构为 [输入的token序列，序列真实长度，mask序列]，输入数据的格式和数据预处理部分相关，这部分将在后边详细叙述

预训练的bert模型，需要输入的token序列和mask序列，因此前两行代码分别用于提取输入数据中的token序列和mask序列，Bert模型中还有一个output_all_encoded_layers参数需要指定，这个参数为True时，Bert模型会将内部12层结构的输出拼接在一起并返回，如果为False，Bert只返回最后一层的输出；

接下来获取bert模型的返回值，bert会有两个返回值；

第一个参数返回的是每个token对应的输出，当output_all_encoded_layers参数值不同时，第一个参数返回的结构也不同

当output_all_encoded_layers参数为 True时，第一个参数是一个数组，数组内包含12个完整的torch.FloatTensor，对应 Bert 的12层 Self-Attention 块每个torch.FloatTensor的维度是：batch_size * 序列长度 * Bert内部FC网络节点数
当output_all_encoded_layers参数为 False时，第一个参数是一个torch.FloatTensor，为Bert最后一层 Self-Attention 块的输出维度是：batch_size * 序列长度 * Bert内部FC网络节点数

第二个参数返回的是：第一个token对应的输出经一个分类器（全连接网络）处理后得到的值，这个全连接网络的隐层节点数和Bert的隐层节点数相同，因此分类器前后数据结构并未改变；这个参数主要用于解决序列级任务，后边可以连接各种网络结构

在我们的模型中我们使用Bert做语句分类，属于序列级任务因此要使用Bert的第二个参数；
我们将Bert的第二个参数放入在__ init _函数中定义好的全连接网络中，最后将结果返回（最后两行代码）

注：有人会问，Bert返回的第二个参数不是已经经过分类器处理了吗，为什么还要在接一个分类器？因为Bert
内部的预训练分类器输出一般不等于我们数据总得类别数，因此这个外接的全连接网络除了进一步分类，还有改变分类器输出结构的作用

3 数据预处理

3.1 生成数据集

PAD,CLS='[PAD]','[CLS]'

def load_dataset(file_path,config):
    """
    :param file_path:
    :param config:
    :return:
    """
    contents=[]
    with open(file_path,encoding='utf-8') as f:
        pad_size = config.pad_size
        for line in tqdm(f):
            line=line.strip()
            if not line:
                continue
            content,label=line.split('\t')
            token=config.tokenizer.tokenize(content)
            token=[CLS]+token #序列级任务，要在当前序列前增加一个[CLS]标志位
            seq_len=len(token)
            mask=[]
            token_ids=config.tokenizer.convert_tokens_to_ids(token)
            if len(token_ids) < pad_size:  #长度不够 补0
                mask = [1] * len(token_ids) + ([0] * (pad_size - len(token_ids))) # mask,token_size 顺序不能变，先弄token_ids 冷（）会变，无法设置 mask
                token_ids = token_ids + ([0]*(pad_size-len(token_ids)))
                # token_ids += pad_size-len(token)*[0]
            else:   #长度过长 截断
                mask=[1]*pad_size
                token_ids=token_ids[:pad_size]
                seq_len=pad_size #seq_len长度改变，重新赋值

            contents.append((token_ids,int(label),seq_len,mask))

    return contents

这部分代码的工作就是按行读取数据文件，并生成Bert能够识别的数据结构和标签列表，这里解释一下几个关键问题：

首先使用 tokenizer.tokenize() 函数对句子进行分词，英文一般以 WordPiece 为单位，中文一般以字为单位；关于wordpiece的详细介绍请看此文章
对于每一个 token 字符，使用 tokenizer.convert_tokens_to_ids() 返回token 字符在Bert内部词表的索引
因为文本分类属于序列级任务，因此要在当前序列前增加一个[CLS]标志位，分类时将[CLS]标志位对应的输出输出自定义的分类器进行分类
因为数据集中每个语句的长度存在差异，但输入Bert的语句长度必须相同，因此当语句长度大于最大序列长度时只保留序列中最大序列长度的数据；如果语句长度小于最大序列长度则使用 [0] 进行补位；
mask数组的作用是：当序列真实长度小于最大序列长度时，标识序列的真实序列长度；如果此位置保存的是真实数据，则mask数组对应的位置填1，如果保存的是补位数据，则mask数组对应的位置填0；之所以要记录序列的真实长度，目的是在计算是尽可能减小补位数据的权重，这样可以减小补位数据对分类结果的影响

补充：
当token长度大于510时（预训练模型Bert中token最长512，但首尾需要去添加[CLS]和[SEP]），需要对token进行截断，当前有以下三种截断方式：

head-only ：取前510个字符
tail-only：取后510个字符
head-tail：取前128，后382个字符
将token序列分段，然后分别放入Bert得到每段的表示，然后通过 max mean 或者 self attention 的方式得到整个句子的表示

3.1 生成数据集迭代器

迭代器只在调用时生成当前需要的这部分数据，而不是一次性生成所有数据；我们知道，程序在运行时会加载所有需要的数据，而训练Bert模型时每个epoch都需要打乱数据集内部顺序，如果一次性生成所有epoch需要的数据并加载到内存，很容易出现内存不足的情况；而使用迭代器就能够极大的降低内存的占用

将数据集转化成迭代器的代码如下：

class DatasetIterator(object):
    def __init__(self,dataset,batch_size,device):
        self.dataset=dataset
        self.batch_size=batch_size
        self.index=0
        self.device=device
        self.n_batches = len(dataset)//batch_size
        self.residue = False #记录batch数量是否为整数
        if len(dataset)%batch_size!=0:
            self.residue = True

    def __next__(self):
        if  self.residue and self.index==self.n_batches:
            batches=self.dataset[self.index*self.batch_size:len(self.dataset)]
            self.index += 1
            batches=self._to_tensor(batches)
        elif self.index>self.n_batches:
            self.index=0
            raise StopIteration
        else:
            batches = self.dataset[self.index*self.batch_size:(self.index+1)*self.batch_size]
            self.index+=1
            batches = self._to_tensor(batches)
        return batches

    def _to_tensor(self,datas):
        x=torch.LongTensor([item[0] for item in datas]).to(self.device) #样本
        y=torch.LongTensor([item[1] for item in datas]).to(self.device) #标签
        seq_len= torch.LongTensor([item[2] for item in datas]).to(self.device) #序列真实长度
        mask = torch.LongTensor([item[3] for item in datas]).to(self.device) #序列真实长度
        return (x,seq_len,mask),y

    def __iter__(self):
        return self

    def __len__(self):
        if self.residue:
            return self.n_batches
        else:
            return self.n_batches+1

迭代器的原理是按顺序在数据集中每次返回batch_size个数据，如果最后的数据量不足batch_size，则将剩余的数据全部返回；这里没有添加 shuffle，后期会改进（没有shuffle会使模型记录样本之间的先后关系）

我们也可以使用现成的 DataLoader() 函数构建数据集迭代器，这是DataLoader()函数的举例，需要根据上边的代码进行修改

def data_loader(input_ids,input_masks,input_segments,label_ids):
    all_input_ids = torch.tensor(input_ids, dtype=torch.long)
    all_input_mask = torch.tensor(input_masks, dtype=torch.long)
    all_segment_ids = torch.tensor(input_segments, dtype=torch.long)
    all_label = torch.tensor(label_ids, dtype=torch.long)
    train_data = TensorDataset(all_input_ids, all_input_mask, all_segment_ids, all_label)
    train_dataloader = DataLoader(train_data, batch_size=batch_size,shuffle=True)
    return train_dataloader

4 模型训练

模型训练主要由以下几步组成：

根据配置文件，设置哪些权重参数使用梯度衰减（修正的L2正则化），哪些不使用（梯度衰减率为0）；当然也可以设置学习率衰减率
配置优化器
开启 train() 模式

————————以下对每个样本进行的操作——————————

得到模型输出
清空梯度
计算损失函数
将损失函数反向传播得到每个参数的梯度
根据每个参数的梯度，使用优化函数对每个参数更新
计算每个样本的的预测值（所有输出节点中）

————————以上对每个样本进行的操作——————————

并计算测试集每次迭代的准确率
计算开发集上的损失和准确率，如果损失小于当前历史最小损失，则保存模型参数
如果模型loss长时间没有更新则自动结束训练
最后执行test()函数，测试模型效果

def train(config,model,train_iter,dev_iter,test_iter):
    """

    :param config:
    :param model:
    :param train_iter:
    :param dev_iter:
    :param test_iter:
    :return:
    """
    start_time=time.time()
    model.train() #设置为训练模式，是参数可反向更新
    #启动 batchNormal 和 dropout
    param_optimizer=list(model.named_parameters())
    # 不需要衰减的参数
    no_decay=['bias','LayerNorm.bias','Layerweight']
	
	# 指定哪些权重更新，哪些权重不更新
    optimizmer_grouped_parameters=[
        {'params':[p for n,p in param_optimizer if not any( nd in n for nd in no_decay)],'weight_decay':0.001}, #遍历所有参数，如果参数名字里有no_decay镍的元素则取出元素
        {'params':[p for n,p in param_optimizer if any( nd in n for nd in no_decay)],'weight_decay':0.0}#遍历所有参数，如果参数名字里没有no_decay镍的元素则取出元素
    ]
    # 配置优化器，t_total是总的迭代次数=epoch数*每个epoch中遍历完全部数据所需的迭代次数
    optimizmer = BertAdam(params=optimizmer_grouped_parameters,
                          lr=config.learning_rate,
                          warmup=0.05, #预热学习率比例
                          t_total=len(train_iter)*config.num_epoch)

    total_batch=0   #记录进行多少batch
    dev_best_loss=0 #记录校验集最后的loss
    last_improve=0  #记录上次校验集loss下降的batch数 上一次哪个batch更新了loss
    flag=False #是否很久没有效果提升，停止训练

    for epoch in range(config.num_epoch):
        print('Epoch[{}/{}]'.format(epoch+1,config.num_epoch))
        for i,(trains,labels) in enumerate(train_iter): #每次取出一个 batch 的数据 更新一次梯度
            outputs = model(trains)
            model.zero_grad() #梯度清零
            loss = F.cross_entropy(outputs,labels)
            loss.backward()
            optimizmer.step()  #更新参数
            if total_batch%100==0: # 100个batch输出一次状态
                true = labels.data.cpu()  #.cpu() 表示转化为cpu的数据类型,迭代100次 计算一次准确率
                predit = torch.max(outputs.data,1)[1].cpu()
                train_acc = metrics.accuracy_score(true,predit) # 计算准确率
                dev_acc,dev_loss = evaluate(config,model,dev_iter)  #计算dev的损失和准确率
                if dev_loss < dev_best_loss:
                    dev_best_loss=dev_loss
                    torch.save(model.state_dict(),config.save_path)
                    improve='*'
                    last_improve=total_batch
                else:
                    improve = ''
                time_dif=utils.get_time_dif(start_time)
                msg='Iter:{0:6},Train Loss:{1:5.2},Train Acc{2:>6.2},Val Loss:{3:>5.2},Val Acc:{4:>6.2},Time:{5} {6}'
                print(msg.format(total_batch,loss.item(),train_acc,dev_loss,dev_acc,time_dif,improve))
                model.train() #不明白

            total_batch+=1
            if(total_batch-last_improve>config.require_improvement):
                # 大于 require_improvement 次没有更新loss则结束
                print('已经长时间没有提升，自动退出...')
                flag=True
                break
        if flag:
            break

    test(config,model,test_iter)

5 模型测试

模型测试主要分为以下几个步骤：

读取训练好的模型参数
启用 eval()模式，dropout层会让所有的激活单元都通过，batch norm 层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。
调用评估函数计算测试集的损失、准确率等信息
启用 train()模式

def test(config,model,test_iter):
    """
    模型测试
    :param config:
    :param model:
    :param test_iter:
    :return:
    """
    model.load_state_dict(torch.load(config.save_path))
    model.eval()
    start_time=time.time()
    test_acc,test_loss,test_report,test_confusion =evaluate(config,model,test_iter,test=True)
    msg='Test Loss:{0:>5.2}, Test Acc:{1:>6,2%}'
    print(msg.format(test_loss,test_acc))
    print("Precision,Recall and F1-Score")
    print('Confusion Maxtrix')
    print(test_confusion)
    time_def=utils.get_time_dif(start_time)
    print('使用时间：',time_def)

6 模型评估（在模型测试中被调用）

模型评估主要计算模型在测试集上的准确率、损失值等信息
主要步骤如下：

根据配置文件，读取测试数据
使用 with torch.no_grad()语句，使PyTorch不在记录梯度
将样本放入模型中并得到模型输出
计算损失函数值
计算预测值，并计算在测试集上的准确率
将结果返回

def evaluate(config,model,dev_iter,test=False):
    """

    :param config:
    :param model:
    :param dev:
    :param iter:
    :return:
    """
    # 在 eval模式下，dropout层会让所有的激活单元都通过，而batchnorm层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。
    # model.eval()

    loss_total=0
    predict_all= np.array([],dtype=int)
    labels_all= np.array([],dtype=int)

    with torch.no_grad():
        for texts,labels in dev_iter:
             outputs=model(texts)
             loss = F.cross_entropy(outputs,labels)
             loss_total += loss
             labels=labels.data.cpu().numpy()
             # torch.max 返回两个值，一个每个样本最大分类类别的概率，一个是最大值对应的索引，参数1是对每行求最大值
             predict = torch.max(outputs.data,1)[1].cpu().numpy()
             labels_all=np.append(labels_all,labels)
             predict_all=np.append(predict_all,predict)
        acc = metrics.accuracy_score(labels_all,predict_all)
    if test:
        report=metrics.classification_report(labels_all,predict_all,target_names=config.class_list,digits=4)
        confusion = metrics.confusion_matrix(labels_all,predict_all)
        return acc,loss_total / len(dev_iter), report,confusion
    return acc,loss_total / len(dev_iter)

6 执行整个过程

执行整个过程的步骤如下：

设置数据集路径
加载指定的自定义Bert模型（py文件）
设置torch相关的种子，保持每次迭代产生的随机数相同，方便代码调试
生成测试集、开发集、训练集
生成测试集、开发集、训练集对应的迭代器
实例化模型并训练

关于bert模块两个返回值的深度解析请参考此文章 ->从源码层面，深入理解 Bert 框架

代码如下：

if __name__ == "__main__":
    dataset='THUCNews' # 数据地址
    model_name=args.model
    x=import_module('models.'+model_name)  #读取指定的 bert 模型
    config = x.Config(dataset)      #根据数据路径生成配置文件
    np.random.seed(1)
    torch.manual_seed(1)
    torch.cuda.manual_seed_all(4)
    torch.backends.cudnn.deterministic=True

    start_time=time.time()  #训练开始时间
    print('load dataset...')
    train_data,dev_data,test_data=utils.build_dataset(config)   #根据配置文件，生成测试集 训练集，开发集
    dev_iter = utils.build_iterator(dev_data, config)   #生成数据迭代器
    train_iter=utils.build_iterator(train_data,config)
    test_iter=utils.build_iterator(test_data,config)

    # for i,(train,label) in enumerate(dev_iter):
    #     print(i,label)

    time_dif=utils.get_time_dif(start_time) #数据准备结束
    print('准备数据时间为：',time_dif)

    #模型训练
    model=x.Model(config).to(config.device)     #实例化model
    train.train(config,model,train_iter,dev_iter,test_iter) #训练

【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
Jooq 框架介绍及其核心要点木南曌 Java java
一、引言Jooq（JavaPersistenceforRelationalDatabases）是一个强大的类型安全的SQL查询构建器和ORM（Object-RelationalMapping）框架，专为Java和Kotlin设计。它为开发者提供了一种优雅的方式来编写SQL代码，同时还能享受到静态类型检查带来的好处。本文将详细介绍Jooq的核心功能，并通过一系列的代码示例来展示如何使用Jooq。二、
一串奇特的代码 hi武林高手
一个空的div元素，所有浏览器的渲染结果都不一样。body{display:table-cell;vertical-align:middle;//垂直居中}div{margin:atuo;height:100px;width:100px;outline:inset100pxgreen;//设置4个边框的样式outline-offset:-125px;//对轮廓进行偏移}html{display：t
页面报错 POST 413错误 (Request Entity Too Large) 小黑屋说YYDS 踩坑 nginx java linux 服务器
一般来说是服务器使用nginx作为反向代理出现的问题，post请求长度超过了nginx默认的缓存大小和最大客户端最大请求大小。解决方式如下，更该nginx代理配置：在nginx.conf配置文件中，找到http{}代码块，添加如下配置client_max_body_size20m;重启nginx即可。
ODOO不同版本与平台选择 chouchengyin2080 c#操作系统运维
1.10.0vs11.0vs8.0截至2017年底，最新的ODOO发布版为ODOO11.0，但功能上有一定精简（去除财务模块，去除工作流支持），技术上变动较大（代码逐步迁移至Python3，前端框架改写得抽象）。所以如果是从生产使用的角度来讲，ODOO10.0是当前最好选择，因为其更稳定，第三方模块也更多更全面。而如果是ODOO技术爱好从业者，则逐步迁移至ODOO11.0也有必要，因为其底层技术架
Linux命令行基础——软件包管理 HHwxtx linux 运维服务器
1.软件包管理的发展初始阶段最早的软件包管理可以追溯到Unix系统的早期版本。在那时，软件通常以源代码的形式分发，并由系统管理员手动编译和安装。这种方式的管理比较原始和繁琐，因为每次安装都需要手动解决依赖关系和编译问题。软件包的引入为了简化安装过程，软件包被引入Linux，它将软件及其所有文件和资源打包在一起的集合，通常包括可执行文件、库文件、配置文件、文档和元数据（如软件名称、版本号、依赖关系等
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】004 - Kernel 启动引导代码head.S 源码逐行分析 "小夜猫&小懒虫&小财迷"的男人鸿蒙OH-v5.0源码分析之 Uboot+Kernel 部分 harmonyos linux 华为
【鸿蒙OH-v5.0源码分析之LinuxKernel部分】004-Kernel启动引导代码head.S源码逐行分析系列文章汇总：《鸿蒙OH-v5.0源码分析之Uboot+Kernel部分】000-文章链接汇总》本文链接：《【鸿蒙OH-v5.0源码分析之LinuxKernel部分】004-Kernel启动引导代码head.S源码逐行分析》head.S主要工作如下：保存内核启动参数,无效化处理器缓存(
CMU 15-445/645 Lab2-B+Tree Index yyy_3y CMU-15/445 b树数据结构 CMU15-445 数据库
0.写在前面GitHub同步更新https://github.com/kaniel-outis/CMU15-445Lab2的地址：https://15445.courses.cs.cmu.edu/fall2020/project2/本文主要总结一下在写Lab2需要的基础知识以及Task的解决思路（不公开代码，如果有问题可以留言）。Lab2的主要内容是B+tree的定义和Insert、Delete操
android ndk 开发jni调用对象方法，数组参数 wulongkou 开发问题安卓的事 ndk android studio jni
一、JNI和NDK关系JNI是Java语言提供的Java和C/C++相互沟通的机制，Java可以通过JNI调用本地的C/C++代码，本地的C/C++的代码也可以调用java代码。JNI是本地编程接口，Java和C/C++互相通过的接口。Java通过C/C++使用本地的代码的一个关键性原因在于C/C++代码的高效性。NDK是一系列工具的集合。它提供了一系列的工具，帮助开发者快速开发C（或C++）的动
【RabbitMQ 项目】服务端数据管理模块之交换机管理月夜星辉雪 rabbitmq oracle 数据库
文章目录一.编写思路二.代码实践一.编写思路定义交换机类型直接交换广播交换主题交换定义交换机名字类型是否持久化定义交换机持久化类(持久化到sqlite3)构造函数(只能成功，不能失败)如果数据库(文件)不存在则创建打开数据库打开exchange_table数据库表插入交换机移除交换机将数据库中的交换机恢复到内存中传入一个哈希表，key为名字，value为交换机的智能指针，填充该哈希表定义交换机管理
【编译原理】方舟编译技术课程 — 词法分析 CSU_THU_SUT 编译原理编译器编译原理 llvm
打开目录阅读更佳参考视频：方舟·编译技术入门与实战以及西交冯博琴老师的相关视频编译的过程包括词法分析（分析程序符号）、语法分析（分析语法单位）、中间代码生成、代码优化和目标代码生成。一、编译过程各部分的任务（1）词法分析：输入源程序，扫描分解源程序字符串，识别五类符号，包括定义符、标识符、运算符、界符和常数，转为单词符号。（2）语法分析：在词法分析基础上，将单词符号转为语法单位（如短句、子句、句子
JVM 调优篇7 调优案例1-堆空间的优化解决健康平安的活着 jvm调优 jvm
一jvm优化1.1优化实施步骤*1)减少使用全局变量和大对象；2)调整新生代的大小到最合适；3)设置老年代的大小为最合适；4)选择合适的GC收集器；1.2关于GC优化原则多数的Java应用不需要在服务器上进行GC优化；多数导致GC问题的Java应用，都不是因为我们参数设置错误，而是代码问题；在应用上线之前，先考虑将机器的JVM参数设置到最优（最适合）；减少创建对象的数量；减少使用全局变量和大对象；
Android jni中数组参数的传递方式 lokeyme Andriod android开发 JNI NDK java c语言
1、背景今天调试了一下Androidjni关于Java中调用C代码的程序，发现我的数组参数传递方式不对，导致值传递不正确，我的方法是：C代码，入口函数#include#includejintJava_sony_MedicalRecordDemo_MainActivity_decryptionSuccess(JNIEnv*env,jobjectthiz,jintAttr[]){returnAttr[
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
CTF常见编码及加解密（超全）第二篇不会代码的小徐编码密码网络安全密码学预编码
HTML实体编码简述：字符实体是用一个编号写入HTML代码中来代替一个字符，在使用浏览器访问网页时会将这个编号解析还原为字符以供阅读。举例：highlighter-HTML明文：hello，world.十进制：hello，world.十六进制：hel
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
STM32——看门狗通俗解析百里与司空 stm32 嵌入式硬件单片机门控循环单元
笔者在学习看门狗的视频后，对看门狗仍然是一知半解，后面在实际应用中发现它是一个很好用的检测或者调试工具。所以总结一下笔者作为初学小白对看门狗的理解。主函数初始化阶段、循环阶段和复位众所周知，程序的运行一般是这样的：程序在进入循环阶段之前，会在初始化阶段将每个寄存器或者某些变量赋值。初始化阶段的代码执行一次后，就不再执行了。而循环阶段的代码会执行很多次，一直循环反复的执行下去。这时，如果进行了复位，
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
php 实现JWT 每天瞎忙的农民工 php php
在PHP中，JSONWebToken(JWT)是一种开放标准(RFC7519)用于在各方之间作为JSON对象安全地传输信息。JWT通常用于身份验证系统，如OAuth2或基于令牌的身份验证。以下是一个基本的PHP实现JWT生成和验证的代码示例。JWT的组成部分JWT包含三个部分：Header（头部）：说明算法和令牌类型。Payload（有效载荷）：包含声明（如用户数据、过期时间等）。Signatur
MyBatis 查询数据库_mybatis查询某个库的所有表名(2) 2401_84181942 程序员 mybatis oracle tomcat
标签说明：***``标签**：需要指定namespace属性，表示命名空间，值为mapper接口的全限定名，包括全包名.类名。***``查询标签**：是用来执行数据库的查询操作的：`id`：是和Interface（接口）中定义的方法名称一样的，表示对接口的具体实现方法。`resultType`：是返回的数据类型，也就是开头我们定义的实体类。####2.4.4添加Service服务层实现代码如下：@
JVM简介林小果呀 jvm jvm java 开发语言
JVM简介JVM本质上是一个运行在计算机上的程序，他的职责是运行Java字节码文件。JVM功能解释和运行：对字节码文件中的指令，实时的解释成机器码，让计算机执行内存管理：自动为对象、方法等分配内存自动的垃圾回收机制，回收不再使用的对象即时编译：对热点代码进行优化，提升执行效率常见的JVM
Linux驱动开发-字符设备驱动开发可能只会写BUG linux linux驱动开发 c语言 linux 驱动开发运维
linux驱动开发1.驱动程序的类型2.驱动开发流程字符设备驱动1.基本概念2.字符设备驱动的基本结构架构字符设备驱动开发中常用的API示例以下代码加入了设备类和设备实例的创建linux驱动开发1.驱动程序的类型在Linux中，驱动程序主要有以下几种类型：字符设备驱动：处理字节流的设备，如串口、键盘等。它们通过字符设备接口（如/dev/tty）与用户空间进行交互。块设备驱动：处理块存储设备，如硬盘
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
用了这么多年的PCA可视化竟然是错的！！！生信宝典
本文启发于上周开的单细胞转录组课程，本次课程由资深单细胞算法研究者戴老师主讲，深入浅出，各部分分析原理从理论到应用层面解释透彻，最新流程，最新代码，绝对值得学习。课程尚未结束，我就迫不及待向一位未能安排出时间参加此课程的老友及时安利了视频课。言归正传，介绍培训课程的一张幻灯片：很多PCA可视化结果都是不合适的。PCA或PCoA是常用的降维工具，之前有几篇文章介绍PCA的原理和可视化。一文看懂PCA
5-【JavaWeb】JUnit 单元测试及JUL 日志系统 weixin_44329069 JavaWeb junit 单元测试
1.使用JUnit进行单元测试JUnit是Java中非常流行的单元测试框架，MyBatis与JUnit可以很好地结合，来测试持久层代码的正确性。1.1添加JUnit依赖在使用JUnit之前，需要在pom.xml中引入JUnit依赖。junitjunit4.13.2test1.2单元测试基本结构假设我们要测试UserMapper中的getUserById方法，测试代码如下：importorg.apa
java打印标签（机型TOSHIBA条码打印机B-EX4T）  嘘  JAVA java
java打印标签实现方式标签效果代码获取更多相关资料实现rfid写入功能实现方式打印机设置网络ipjava获取socket连接，调用TPCL指令标签效果代码packageorg.jeecg.modules.invinfo.util;importorg.jeecg.modules.invinfo.vo.BatKcInventoryDetailVo;importorg.springframework.
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul