colourmind

模型蒸馏原理和bert模型蒸馏以及theseus压缩实战

一、模型蒸馏简介和步骤

二、模型蒸馏实战

1、Bilstm和Roberta文本分类效果展示

2、roberta蒸馏到bilstm

三、Roberta压缩——theseus理解和实战

1、bert-of-theseus思想和方法

2、利用bert-of-theseus实现的roberta压缩

模型压缩有剪枝、蒸馏和量化等一些方法，模型蒸馏实现起来比较容易简单，这里对模型蒸馏进行分析和实战效果展示。

一、模型蒸馏简介和步骤

模型蒸馏的思想就是利用一个已经训练好的、大型的、效果比较好的Teacher模型，去指导一个轻量型、参数少的student模型去训练——在减小模型的大小和计算资源的同时，尽量把Student模型的准确率保证在Teacher模型附近。这种思想和方法在Hinton等论文Distilling the Knowledge in a Neural Network中做了详细的介绍和说明。

模型蒸馏训练的框架结构图

第一步：训练big模型(Teacher model)，这里用到的就是正常的label(hard label)——尽量把模型的准确率训练提升上来。

第二步：联合小模型和大模型进行蒸馏训练(参考上图)。加载大模型的权重后冻结大模型的权重，得到输出soft target；小模型对soft target和hard target(数据的真实label)进行损失计算，对损失进行加权求和，然后在更新梯度，从而更新小模型的参数。值得注意的是大模型和小模型的输出计算loss的时候，需要对输出进行一个整除T的操作——论文提出的softmax-T：

这里的T是为了使得logit输出的各个类别的概率比较平滑，使得分布比较均匀，小模型在训练的时候就能学习到概率比较小的类别的一些信息。

总体loss如下：

一般而言这里的loss加权选择1:1就可以了，具体设计到loss函数的选择L_hard就选择交叉熵损失函数，L_soft可以选择相对熵KLDivLoss函数、MseLoss函数、CosineEmbeddingLoss(有人用过，我没使用过)。

具体选择什么样的loss函数，就需要针对不同的业务场景和数据来进行实验，那个效果好选择那一个(这个没有很强的理论来分析那个loss更好，一切看效果)

二、模型蒸馏实战

之前做过一个文本分类的任务，这里想进行一个文本分类任务的模型蒸馏实验，看看具体的效果怎么样。

首先看看大模型和小模型单独的效果如何，这里就把单独训练的过程和结果展示一下，具体的代码不做演示(可参考我的博客文章——基于机器学习算法和pytorch实现的深度学习模型的中文长文本多分类任务实战——TextBert和TextRNN部分内容)。特此说明该次训练采用的预训练模型是roberta模型而不是Chinese-BERT-wwm模型。

1、Bilstm和Roberta文本分类效果展示

Bilstm——TextRNN训练过程和最终结果如下：

可以看到最终在验证集上的准确率是：74.65%

Roberta——TextBert训练过程和效果如下：

可以发现roberta在验证集上最好的准确率是84.72%

2、roberta蒸馏到bilstm

蒸馏示意图如下

蒸馏的思路比较简单，把上述微调训练好的roberta模型作为teacher模型，Bilstm作为student模型。然后使用不同的loss函数，进行文本分类任务的训练。核心代码如下：

    train_data = ReadDataSet('train.tsv',args)
    train_loader = DataLoader(dataset=train_data, batch_size=args.batch_size, shuffle=True)

    dev_data = ReadDataSet('dev.tsv',args)
    dev_loader = DataLoader(dataset=dev_data, batch_size=args.batch_size, shuffle=True)

    teacher_model = torch.load('savedmodel/TextBert_model.bin')
    student_model = TextRNN()

    train(teacher_model,student_model,train_loader,dev_loader,args)

以上训练集和验证集数据加载、教师模型和学生模型定义

完整的训练代码如下：

def train(teacher_model,student_model,train_loader,dev_loader,args):
    teacher_model.to('cuda')
    student_model.to('cuda')

    #teacher网络参数不更新
    for name,params in teacher_model.named_parameters():
        params.requires_grad = False

    # 初始学习率，student网络参数梯度更新
    optimizer_params = {'lr': 1e-3, 'eps': 1e-8}
    optimizer = AdamW(student_model.parameters(), **optimizer_params)
    scheduler = ReduceLROnPlateau(optimizer, mode='max', factor=0.5, min_lr=1e-6, patience=2, verbose=True,
                                    eps=1e-8)  # mode max表示当监控量停止上升时，学习率将减小；min表示当监控量停止下降时，学习率将减小；这里监控的是dev_acc因此应该用max
    # #teacher网络输出和student网络输出进行损失计算
    # soft_criterion = nn.KLDivLoss()

    #teacher网络输出和student网络输出进行损失计算
    soft_criterion = nn.MSELoss()

    #student网络和label进行损失计算
    hard_criterion = nn.CrossEntropyLoss()
    
    #alpha(0,1)之间——两个loss的权重系数
    alpha = args.alpha

    #T_softmax()的超参[1,10,20]等等值可以多测试几个
    T = 10

    early_stop_step = 50000
    last_improve = 0 #记录上次提升的step
    flag = False  # 记录是否很久没有效果提升
    dev_best_acc = 0
    dev_loss = float(50)
    dev_acc = 0
    correct = 0
    total = 0
    global_step = 0
    epochs = args.epochs


    for epoch in range(args.epochs):
        for step,batch in enumerate(tqdm(train_loader,desc='Train iteration:')):
            global_step += 1
            optimizer.zero_grad()
            batch = tuple(t.to('cuda') for t in batch)
            input_ids = batch[0]
            input_mask = batch[1]
            label = batch[2]

            student_model.train()
            stu_output = student_model(input_ids)
            tea_output = teacher_model(input_ids,input_mask).detach()

            #soft_loss————studetn和teach之间做loss，使用的是散度loss
            soft_loss = soft_criterion(F.log_softmax(stu_output/T,dim=1),F.softmax(tea_output/T,dim=1))*T*T

            # #soft_loss————studetn和teach之间做loss，使用的是logits的Mse损失
            # soft_loss = soft_criterion(stu_output,tea_output)

            #hard_loss————studetn和label之间的loss，交叉熵
            hard_loss = hard_criterion(stu_output,label)

            loss = soft_loss*alpha + hard_loss*(1-alpha)

            loss.backward()
            optimizer.step()
            total += label.size(0)
            _,predict = torch.max(stu_output,1)
            correct += (predict==label).sum().item()
            train_acc = correct / total
            if (step+1)%1000 == 0:
                print('Train Epoch[{}/{}],step[{}/{}],tra_acc{:.6f} %,loss:{:.6f}'.format(epoch,epochs,step,len(train_loader),train_acc*100,loss.item()))
            if (step+1)%(len(train_loader)/2)==0:
                dev_acc,dev_loss = dev(student_model, dev_loader)
                dev_loss = dev_loss.item()
                if dev_best_acc < dev_acc:
                    dev_best_acc = dev_acc
                    path = 'savedmodel/TextRnn_distillation_model_mse.bin'
                    torch.save(student_model,path)
                    last_improve = global_step
                print("DEV Epoch[{}/{}],step[{}/{}],tra_acc{:.6f} %,dev_acc{:.6f} %,best_dev_acc{:.6f} %,train_loss:{:.6f},dev_loss:{:.6f}".format(epoch, epochs, step, len(train_loader), train_acc * 100, dev_acc * 100,dev_best_acc*100,loss.item(),dev_loss))
            if global_step-last_improve >= early_stop_step:
                print("No optimization for a long time, auto-stopping...")
                flag = True
                break
            writer.add_scalar('textBert_distillation_bilstm/train_loss', loss.item(), global_step=global_step)
            writer.add_scalar('textBert_distillation_bilstm/dev_loss', dev_loss, global_step=global_step)
            writer.add_scalar('textBert_distillation_bilstm/train_acc', train_acc, global_step=global_step)
            writer.add_scalar('textBert_distillation_bilstm/dev_acc', dev_acc, global_step=global_step)
        scheduler.step(dev_best_acc)
        if flag:
            break
    writer.close()

注释写的比较详细，最重要的地方：

    #teacher网络参数不更新
    for name,params in teacher_model.named_parameters():
        params.requires_grad = False 
......           

            student_model.train()
            stu_output = student_model(input_ids)
            tea_output = teacher_model(input_ids,input_mask).detach()

            #soft_loss————studetn和teach之间做loss，使用的是散度loss
            soft_loss = soft_criterion(F.log_softmax(stu_output/T,dim=1),F.softmax(tea_output/T,dim=1))*T*T

          
            hard_loss = hard_criterion(stu_output,label)

            loss = soft_loss*alpha + hard_loss*(1-alpha)

注意到teacher模型参数不更新，在计算softloss的时候，对于teacher和student模型的输出需要做softmax_T的操作，然后使用KLDivLoss或者MseLoss来计算loss。

KLDivLoss结果如下

roberta 蒸馏到Bilst——KLDivLoss准确率：78.78%

MseLoss结果如下

roberta蒸馏到Bilstm采用MseLoss的准确率是80.99%

注意以上蒸馏过程中采用不同的loss函数的时候，其他的参数没有变化。

可以得出结论，蒸馏确实能提高小模型的性能，不同的loss函数也是具有不同的效果；另外还有其他的超参就没有去验证做实验了，读者可以自行去做实验。

三、Roberta压缩——theseus理解和实战

针对Bert系列模型的蒸馏方法，有distillbert和tinybert，这些模型都是直接作用在bert预训练的阶段，然后把训练好的模型应用到下游任务，这样的压缩蒸馏方法对一般人来说不太友好。论文：ERT-of-Theseus: Compressing BERT by Progressive Module Replacing——提出了一种适合在funetune阶段对bert模型进行压缩蒸馏的方法，可以把Bert按照module replacing的方式来做压缩。

1、bert-of-theseus思想和方法

把训练分为两个过程，第一阶段使用模块替换(就是把原来的模型中的一些模块按照某些规则替换成更细更小的子层)。论文中把原始模型称为P_model,压缩后的模型称之为S_model，该训练阶段中考虑了P_model和S_model，它们都参与了训练；第二阶段单独S_model的微调阶段，就是为了让所有的S_model的模块参数训练任务中去。

第一阶段：压缩训练阶段——模块替换

它的思想——就是在训练的时候把S_model中的某一个模块按照一定的规则平行替换掉P_model对应的模块。当然这里不会在每个训练的step的时候把所有的P_model模块替换掉，不然就是直接用S_model来进行训练了。

论文提出替换的规则是：通过一个伯努利分布，采样一个随机变量，概率是p，那么P_model每个模块有p的概率替换掉，1-p的概率不被替换。

这里还有一个值得注意的地方，P_model和S_model在训练的时候，属于P_model的权重参数都要冻结起来，不参数梯度计算和更新，只有S_model的权重参数参与梯度计算和更新。

第二阶段：S_model finetune后的finetune——psot training

在第一阶段训练完成后，得到了S_model模型结构和权重，只需要把它组合成一个单独的模型，正常的进行同样的数据集和任务进行微调，起到一个精炼的作用，进一步提升S_model的效果。

2、利用bert-of-theseus实现的roberta压缩

参考bert-of-theseus的pytorch版本源码，实现了个人的MY_BERT_THESEUS项目。

模型代码：

from bert_theseus.modeling_bert_of_theseus import BertModel
import torch
import torch.nn as nn
import torch.nn.functional as F

class TextBert(nn.Module):
    def __init__(self,args=None):
        super(TextBert,self).__init__()
        self.bert = BertModel.from_pretrained(args.model_path)
        self.dropout = nn.Dropout(0.5)
        self.cl1 = nn.Linear(768,768)
        self.cl2 = nn.Linear(768,384)
        self.cl3 = nn.Linear(384, 8)

    def forward(self,input_ids,attention_mask):
        embedding = self.bert(input_ids,attention_mask)[0]
        mean_embedding = torch.mean(embedding,dim=1)
        x = self.dropout(mean_embedding)
        x = F.relu(self.cl1(x))
        x = F.relu(self.cl2(x))
        logit = self.cl3(x)
        return logit

同样的这里加载Bert系列模型和抱抱脸的transformer是差不多的

from bert_theseus.modeling_bert_of_theseus import BertModel

self.bert = BertModel.from_pretrained(args.model_path)

这里的BertModel实现如下：

class BertModel(BertPreTrainedModel):
    def __init__(self, config):
        super(BertModel, self).__init__(config)
        self.config = config

        self.embeddings = BertEmbeddings(config)
        self.encoder = BertEncoder(config)
        self.pooler = BertPooler(config)

        self.init_weights()
     def forward():
        ......

核心的在BertEncoder的实现，如下(其实就是bert-of-theseus库的实现)

class BertEncoder(nn.Module):
    def __init__(self, config):
        super(BertEncoder, self).__init__()
        self.prd_n_layer = config.num_hidden_layers
        self.scc_n_layer = config.scc_n_layer
        assert self.prd_n_layer % self.scc_n_layer == 0
        self.compress_ratio = self.prd_n_layer // self.scc_n_layer
        self.bernoulli = None
        self.output_attentions = config.output_attentions
        self.output_hidden_states = config.output_hidden_states
        self.layer = nn.ModuleList([BertLayer(config) for _ in range(self.prd_n_layer)])
        self.scc_layer = nn.ModuleList([BertLayer(config) for _ in range(self.scc_n_layer)])

    def set_replacing_rate(self, replacing_rate):
        if not 0 < replacing_rate <= 1:
            raise Exception('Replace rate must be in the range (0, 1]!')
        self.bernoulli = Bernoulli(torch.tensor([replacing_rate]))

    def forward(self, hidden_states, attention_mask=None, head_mask=None, encoder_hidden_states=None,
                encoder_attention_mask=None):
        all_hidden_states = ()
        all_attentions = ()
        if self.training:
            inference_layers = []
            for i in range(self.scc_n_layer):
                if self.bernoulli.sample() == 1:  # REPLACE
                    inference_layers.append(self.scc_layer[i])
                else:  # KEEP the original
                    for offset in range(self.compress_ratio):
                        inference_layers.append(self.layer[i * self.compress_ratio + offset])

        else:  # inference with compressed model
            inference_layers = self.scc_layer
        ......

这里就仅仅是对self.scc_n_layer的定义修改为config文件来配置的。

第一步：进行roberta中模块替换训练，把模型由12层压缩为6层。

使用bert_theseus定义的模型结构代码来初始化一个bert_theseus系列的模型，然后把微调好的roberta权重加载到该模型中。该模型有12层P_model子层——self.layer，它和roberta权重一一对应；然后还有6层S_model的子层，加载的时候torch会随机初始化，我们这边直接把roberta前6层模型权重赋值给S_model子层——self.scc_layer。代码如下：

    #加载并初始化大小模型
    model = TextBert(args)
    model_state_dic = model.state_dict()

    stand_model = torch.load('savedmodel/TextBert_model.bin')
    stand_model_state_dic = stand_model.state_dict()

    #把训练好的大模型权重赋值给P_model
    for k, v in model_state_dic.items():
        for name, param in stand_model_state_dic.items():
            if name==k:
                model_state_dic[k] = param
    
    model.load_state_dict(model_state_dic)
    #给S_model赋予大模型的权重值————初始化
    scc_n_layer = model.bert.encoder.scc_n_layer
    model.bert.encoder.scc_layer = nn.ModuleList([deepcopy(model.bert.encoder.layer[index]) for index in range(scc_n_layer)])

剩下的训练和就普通的模型训练一样了，代码不展示，上结果图和训练过程的一些曲线图

训练过程收敛的比较快速，验证集在S_model的推理下准确率最高是84.16%

第二步：S_model组合成一个新的模型持续训练精调——post training

在第一步训练过程中，保存了bert_theseus的P_model的self.layer12层和S_model的self.scc_layer的6层权重以及做分类用的全连接权重。那么就需要对S_model的self.scc_layer的6层权重拿出来组合为一个新的小模型，继续在相同的数据集上训练。代码如下：

 # 初始化Bert模型为6层小模型TextBert中的self.bert是直接由transformer来实现的而不是bert_theseus
    config = BertConfig.from_pretrained(args.model_path,num_hidden_layers=6)
    model = TextBert(args,config)
    model_state_dic = model.state_dict()

    #加载压缩后的6层模型权重
    theseus_model_state_dic = torch.load('savedmodel/TexrBert_distillation_theseus_state_dict_scc_n_layer_6.bin')


    #把训练好的模型权重赋值给重新融合的小模型参数字典中，进行post_training
    for k,v in model_state_dic.items():
        for name,params in theseus_model_state_dic.items():
            if '.layer.' not in name:
                if k==name or k==name.replace('.scc_layer.','.layer.'):
                    model_state_dic[k] = params
    
    #一定要重新装载，不然不生效
    model.load_state_dict(model_state_dic)

效果如下：

可以看到进行post training后准确率得到了进一步的提升：84.70%

总结

本博客介绍了经典的模型蒸馏的思想和步骤，并对文本分类任务由Roberta蒸馏到BiLstm的效果做了比对实验；同时也介绍了一种比较方便在微调阶段对Bert模型进行压缩的方法——bert-of-theseus，实验得出该方法在模型的准确率保留上效果明显。

BiLstm：74.68%

roberta：84.72%

Roberta蒸馏到BiLstm+KLDivLoss：78.78%——相比Bilstm上升4个点，相对roberta下降了6个点

Roberta蒸馏到BiLstm+MseLoss：80.99%——相比Bilstm上升6个点，相对roberta下降了4个点

Bert_of_theseus+第一阶段：84.16%，下降了0.56%

bert_of_theseus+post_training:84.70% 下降了0.02%

post_training也是有作用的。

参考文章

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

模型蒸馏原理和bert模型蒸馏以及theseus压缩实战

一、模型蒸馏简介和步骤

二、模型蒸馏实战

1、Bilstm和Roberta文本分类效果展示

2、roberta蒸馏到bilstm

三、Roberta压缩——theseus理解和实战

1、bert-of-theseus思想和方法

2、利用bert-of-theseus实现的roberta压缩

你可能感兴趣的:(#,模型训练和加速)