汀、

AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE表现

项目链接：
https://aistudio.baidu.com/aistudio/projectdetail/4592515?contributionType=1
如果有图片缺失参考项目链接

0.项目背景

CBLUE又是一个CLUE榜单，大家都知道近年来NLP领域随着预训练语言模型（下面简称PTLM）的兴起又迎来了一波迅猛发展，得益于PTLM技术的推动，催生出一批多任务的benchmark榜单，代表性的工作是GLUE，在中文领域也有CLUE。CBLUE的全名是Chinese Biomedical Language Understanding Evaluation，是目前国内首个医疗AI方向的多任务榜单，相信这个榜单的推出会促进医疗语言模型的发展和医疗NLP领域的发展。榜单的官网介绍如下：

中文医疗信息处理评测基准CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、阿里夸克、腾讯天衍实验室、北京大学、鹏城实验室、哈尔滨工业大学（深圳）、郑州大学、同济大学、中山大学、复旦大学等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。榜单在设计上综合考虑了任务类型和任务难度两个维度，目标是建设一个任务类型覆盖广、同时也要保证任务的难度的benchmark，因此榜单在吸收往届CHIP/CCKS/CCL等学术评测任务的同时也适当增加了业界数据集，业务数据集的特点是数据真实且有噪音，对模型的鲁棒性提出了更高的要求。CBLUE评测基准2.0包括医学文本信息抽取（实体识别、关系抽取、事件抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医疗对话理解与生成共5大类任务14个子任务。

blog.csdnimg.cn/ef2cb516bcfa481ab30b0f345c4bf11a.png)

中文领域也有CLUE：
https://www.cluebenchmarks.com/index.html

英文

https://gluebenchmark.com/

官网介绍榜单一共包含了4大类8细类任务，下面分别介绍：

医学信息抽取：

主要包含了实体识别NER任务和关系抽取RE两个数据集：
CMeEE（Chinese Medical Entity Extraction）：是由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学（深圳）”联合提供。共包括9大类实体：疾病(dis)，临床表现(sym)，药物(dru)，医疗设备(equ)，医疗程序(pro)，身体(bod)，医学检验项目(ite)，微生物类(mic)和科室(dep)，其中“临床表现”实体类别中允许嵌套，该实体内部允许存在其他八类实体。嵌套实体一向是NER任务中一个难点。
CMeIE（Chinese Medical Information Extraction）：和CMeEE任务一样，也是由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学（深圳）”联合提供的。共包括53类关系类型（具体类型参见官网介绍），这个任务需要打榜选手完成端对端的模型预测，即输入是原始的句子，选手需要完成实体识别和关系抽取两个任务。从关系种类的数量53类来看，且标注规范中有提及到关系可能是跨句子分布的（“Combined”字段为false），这是一个比较难的任务。

医学术语归一化：

这个任务按照我的理解是应该归属到信息抽取这个大类的，都属于知识图谱构造的关键技术，不知道官方为什么单独划分为一类，可能是有其他考虑。包括了一个数据集：
CHIP-CDN（CHIP - Clinical Diagnosis Normalization dataset）：CHIP这个名字一开始比较困惑，Google上查找了半天也没有找到是什么，后来仔细看官方文档才发现CHIP就是这个榜单的发起单位组织的专业会议（历史经验告诉我们任何时候都要认真读文档），CHIP表示中国健康信息处理会议，全称是China Health Information Processing Conference，是中国中文信息学会医疗健康与生物信息处理专业委员会主办的关于医疗、健康和生物信息处理和数据挖掘等技术的年度会议，是中国健康信息处理领域最重要的学术会议之一，这个会议已经连续举办了六届，最近几届都发布了医疗方向的学术评测任务，这个榜单很多以CHIP开头的数据集就是来源于大会上发布的评测任务。言归正传，CHIP-CDN数据集是由北京医渡云公司提供的，这是一个标准的实体标准化／归一化任务，将给定的医学症状实体映射到医学标准字典（ICD-10）上。这是一个很有实际意义的任务，医生在书写病历的时候，同一个术语往往有多种不同的写法，甚至一个症状可能是多个标准症状的叠加（如官网中的例子：“右肺结节转移可能大” -> “肺占位性病变##肺继发恶性肿瘤##转移性肿瘤”），非常的复杂。这类任务一般不能只靠模型来解决，需要结合具体的行业知识来做判定。

医学文本分类：

包括两个任务：
CHIP-CTC（CHiP - Clinical Trial Criterion dataset）：是由同济大学生命科学与技术学院提供，主要针对临床试验筛选标准进行分类，所有文本数据均来自于真实临床试验，也是一个有真实意义的任务。从技术上看，这是一个典型的短文本多分类问题，共有44个类别（具体类别请参照官网），分类任务研究相对较多，一般需要注意的是类别比例的分布。
KUAKE-QIC（KUAKE-Query Intention Classification dataset），是由夸克浏览器提供。这也是一个文本分类问题，共有11种分类（具体分类请查看官网），和CHIP-CTC数据集的区别是这个任务的输入均来自于真实的用户query，数据存在大量的噪音。

医学句子关系判定/医学QA：

包括3个数据集：
CHIP-STS（CHIP - Semantic Textual Similarity dataset）：是由平安医疗科技公司提供。是一个典型的语义相似度判断问题，数据集共包含5大类疾病，输出结果是0/1两类标签。这个任务应该不算太难，其中疾病的类别信息也是一个输入，模型在设计的时候要把这个feature考虑进去。
KUAKE-QTR（KUAKE-Query Title Relevance dataset）：也是由夸克公司提供，搞搜索推荐算法的小伙伴们一看就知道是一个QT match的问题，相比CHIP-STS，这个数据集是一个4分类问题（共0～3分 4档）。官网给的例子还是挺有难度区分的，感觉模型不太容易跑出高性能。
KUAKE-QQR（KUAKE-Query Query Relevance dataset）：也是由夸克公司提供。和KUAKE-QTR类似，是一个典型的Query-Query match问题，是一个3分类问题（共0～2分 3档）。难点同QTR。

1.数据集加载&安装环境

KUAKE-QIC（KUAKE-Query Intention Classification dataset），是由夸克浏览器提供。这也是一个文本分类问题，共有11种分类（具体分类请查看官网），和CHIP-CTC数据集的区别是这个任务的输入均来自于真实的用户query，数据存在大量的噪音。

!wget https://paddlenlp.bj.bcebos.com/datasets/KUAKE_QIC.tar.gz
!tar -zxvf KUAKE_QIC.tar.gz
!mv KUAKE_QIC data
!rm KUAKE_QIC.tar.gz

!pip install --upgrade paddlenlp 
!pip install scikit-learn

数据集展示

心肌缺血如何治疗与调养呢？	治疗方案
19号来的月经，25号服用了紧急避孕药本月5号，怎么办？	治疗方案
什么叫痔核脱出？什么叫外痔？	疾病表述
您好，请问一岁三个月的孩子可以服用复方锌布颗粒吗？	其他
多发乳腺结节中药能治愈吗	疾病表述
有了中风怎么样治最好	治疗方案
输卵管粘连的基本检查	其他
尖锐湿疣吃什么中草药好	治疗方案
细胞病理学诊断非典型鳞状细胞，意义不明确。什么意思	指标解读
性生活后白带有酸味是怎么回事？	病情诊断
会是胎动么？	其他
经常干呕恶心，这是生病了吗	其他

标签合集：

病情诊断
治疗方案
病因分析
指标解读
就医建议
疾病表述
后果表述
注意事项
功效作用
医疗费用
其他

2 预训练模型微调

2.1 知识点：学习率warm-up

由于神经网络在刚开始训练的时候是非常不稳定的，因此刚开始的学习率应当设置得很低很低，这样可以保证网络能够具有良好的收敛性。但是较低的学习率会使得训练过程变得非常缓慢，因此这里会采用以较低学习率逐渐增大至较高学习率的方式实现网络训练的“热身”阶段，称为 warmup stage。但是如果我们使得网络训练的 loss 最小，那么一直使用较高学习率是不合适的，因为它会使得权重的梯度一直来回震荡，很难使训练的损失值达到全局最低谷。

在实际中，由于训练刚开始时，训练数据计算出的梯度 grad 可能与期望方向相反，所以此时采用较小的学习率 learning rate，随着迭代次数增加，学习率 lr 线性增大，增长率为 1/warmup_steps；迭代次数等于 warmup_steps 时，学习率为初始设定的学习率；

另一种原因是由于刚开始训练时,模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率,可能带来模型的不稳定(振荡)，选择Warmup预热学习率的方式，可以使得开始训练的几个epoches内学习率较小,在预热的小学习率下，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快，模型效果更佳。

迭代次数超过warmup_steps时，学习率逐步衰减，衰减率为1/(total-warmup_steps)，再进行微调。

常见的warmup方式有三种：constant，linear和exponent。

constant：在warmup期间，学习率。ResNet论文中就使用了这种方式，在cifar10上训练ResNet 101时，先用0.01的学习率训练直到训练误差低于80%（大概训练了400个steps），然后使用0.1的学习率进行训练。

linear：constant的不足之处在于从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。linear方式可以避免这种问题，在warmup期间，学习率从线性增长到。

exponent：在warmup期间，学习率从指数增长到。

参考链接：https://zhuanlan.zhihu.com/p/508953700

warmup 方法的优势：

有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳

有助于保持模型深层的稳定性

paddlenlp参考文档：

https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/optimizer/lr/LinearWarmup_cn.html#linearwarmup

2.2 模型训练和预测

!python train.py \
    --dataset_dir "data/KUAKE_QIC" \
    --device "gpu" \
    --save_dir "./checkpoint" \
    --max_seq_length 256 \
    --model_name "ernie-3.0-xbase-zh" \
    --batch_size 32 \
    --learning_rate 3e-5 \
    --early_stop  \
    --early_stop_nums 5 \
    --epochs 20 \
    --warmup \
    --warmup_steps 1000 \
     --weight_decay 0.01 \
    --logging_steps 50  \
    --valid_steps   100

save_dir：保存训练模型的目录；默认保存在当前目录checkpoint文件夹下。

train_file：本地数据集中训练集文件名；默认为"train.txt"。
dev_file：本地数据集中开发集文件名；默认为"dev.txt"。
label_file：本地数据集中标签集文件名；默认为"label.txt"。

device: 选用什么设备进行训练，选择cpu、gpu、xpu、npu。如使用gpu训练，可使用参数–gpus指定GPU卡号；默认为"gpu"。

dataset_dir：：本地数据集路径，数据集路径中应包含train.txt，dev.txt和label.txt文件;默认为None。

dataset_dir：本地数据集路径，数据集路径中应包含train.txt，dev.txt和label.txt文件;默认为None。

max_seq_length：分词器tokenizer使用的最大序列长度，ERNIE模型最大不能超过2048。请根据文本长度选择，通常推荐128、256或512，若出现显存不足，请适当调低这一参数；默认为128。

model_name：选择预训练模型,可选"ernie-1.0-large-zh-cw",“ernie-3.0-xbase-zh”, “ernie-3.0-base-zh”, “ernie-3.0-medium-zh”, “ernie-3.0-micro-zh”, “ernie-3.0-mini-zh”, “ernie-3.0-nano-zh”, “ernie-2.0-base-en”, “ernie-2.0-large-en”,“ernie-m-base”,“ernie-m-large”；默认为"ernie-3.0-medium-zh"。

batch_size：批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。

learning_rate：Fine-tune的最大学习率；默认为3e-5。

weight_decay：控制正则项力度的参数，用于防止过拟合，默认为0.0。可以设置小点如0.01等

** epochs:** 训练轮次，使用早停法时可以选择100；默认为10。

early_stop：选择是否使用早停法(EarlyStopping)；模型在开发集经过一定epoch后精度表现不再上升，训练终止；默认为False。

early_stop_nums：在设定的早停训练轮次内，模型在开发集上表现不再上升，训练终止；默认为4。

warmup：是否使用学习率warmup策略，使用时应设置适当的训练轮次（epochs）；默认为False。

warmup_proportion：学习率warmup策略的比例数，如果设为0.1，则学习率会在前10%steps数从0慢慢增长到learning_rate, 而后再缓慢衰减；默认为0.1。

**warmup_steps：**学习率warmup策略的比例数，如果设为1000，则学习率会在1000steps数从0慢慢增长到learning_rate, 而后再缓慢衰减；默认为0。

logging_steps: 日志打印的间隔steps数，默认5。

init_from_ckpt: 模型初始checkpoint参数地址，默认None。

seed：随机种子，默认为3。

训练结果：

[2022-09-24 23:46:42,282] [    INFO] - global step 2900, epoch: 14, batch: 79, loss: 0.08345, speed: 4.60 step/s
[2022-09-24 23:46:47,353] [    INFO] - eval loss: 1.06234, acc: 0.80102
[2022-09-24 23:46:47,355] [    INFO] - Current best accuracy: 0.81330
[2022-09-24 23:46:58,502] [    INFO] - global step 2950, epoch: 14, batch: 129, loss: 0.00550, speed: 3.09 step/s
[2022-09-24 23:47:10,650] [    INFO] - global step 3000, epoch: 14, batch: 179, loss: 0.00378, speed: 4.12 step/s
[2022-09-24 23:47:15,735] [    INFO] - eval loss: 1.13159, acc: 0.80767
[2022-09-24 23:47:15,737] [    INFO] - Current best accuracy: 0.81330
[2022-09-24 23:47:23,969] [    INFO] - Early stop!
[2022-09-24 23:47:23,969] [    INFO] - Final best accuracy: 0.81330

!python predict.py \
--device "gpu" \
--max_seq_length 128 \
--batch_size 32 \
--dataset_dir "data/KUAKE_QIC" \
--params_path  "./checkpoint/" \
--output_file "output.txt"

预测结果

text	label
黑苦荞茶的功效与作用及食用方法	功效作用
交界痣会凸起吗	疾病表述
检查是否能怀孕挂什么科	就医建议
鱼油怎么吃咬破吃还是直接咽下去	其他
幼儿挑食的生理原因是	病因分析

3.小样本学习

提示学习（Prompt Learning）适用于标注成本高、标注样本较少的文本分类场景。在小样本场景中，相比于预训练模型微调学习，提示学习能取得更好的效果。

提示学习的主要思想是将文本分类任务转换为构造提示中掩码 [MASK] 的分类预测任务，也即在掩码 [MASK]向量后接入线性层分类器预测掩码位置可能的字或词。提示学习使用待预测字的预训练向量来初始化分类器参数（如果待预测的是词，则为词中所有字的预训练向量平均值），充分利用预训练语言模型学习到的特征和标签文本，从而降低样本需求。提示学习同时提供 R-Drop 和 RGL 策略，帮助提升模型效果。

.
├── train.py    # 模型组网训练脚本
├── utils.py    # 数据处理工具
├── infer.py    # 模型部署脚本
└── README.md

## 3.1 知识点：Rdrop技术(Regularized Dropout)

对比学习 RDrop: Regularized Dropout for Neural Networks

每个数据样本重复经过带有Dropout的同一个模型，再使用KL散度约束两次的输出，使得尽可能一致，而由于 Dropout的随机性，可以近似把输入X走过两次的路径网络当作两个略有不同的模型，如下图所示:

R-Dropout的原理

简单地说，就是模型中加入dropout，训练阶段的预测预测两次，要求两次的结果尽可能接近，这种接近体现在损失函数上。

那么，这个“接近”用的是什么呢？作者用的是KL散度。数学上的KL散度是用来对比两个分布是否相同，其连续型和离散型的公式分别是：

OK，有这个基础，来继续看R-Dropout就更清晰了，我们要让两次预测结果的KL散度尽可能小，那么这部分的损失函数就可以构造出来了：

KL散度本身是不具有自反性的，所以要用第一次预测对第二次的KL散度和第二次预测对第一次预测的KL散度的均值来进行计算。

这部分损失可以加入到整体损失里面作为最终优化的一部分，例如是log loss（当然，其他任务可以用其他的损失）：

为什么R-Dropout会有用

其实dropout的本质就是给模型加一些扰动，而R-dropout就是要扰动，更要保证这种扰动对结果尽可能小，毕竟这里还优化了两次预测的KL散度，所以其实这种训练就让模型的稳定性大幅提升。最近是遇到一些问题，一句话改一两个字意思还一样但是结果差距很大，这个r-dropout应该可以缓解这个问题，甚至说解决。

但是注意，这里是稳定性提升，我的感觉是并没有拉高模型本身的上限，甚至可能拉低上限。我们知道模型是存在不稳定性的，同一套数据的不同顺序，参数的不同初始化，不同的dropout都会导致模型效果存在波动，而且这个波动还不小，R-dropout本质上即使控制这种波动对结果的影响，从而保证了稳定性。而有关拉低上限，我的解释是最终的参数估计预测，相比不带有新的loss子项，这应该是一个有偏估计，还是可能一定程度拉低上限的。

为什么用KL散度

KL散度本质上是一个对比分布的函数，这与R-Dropout的初衷一致的，要求两次预测尽可能相同，这里是指完全相同，例如多分类下要求的是所有预测的对应概率也是一致的，相比于交叉熵的只针对最优值的prob，这个对比会更加全面和完整。

知识点参考链接：

https://blog.csdn.net/Jiana_Feng/article/details/123573686

https://blog.csdn.net/baidu_25854831/article/details/120136660?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-120136660-blog-123573686.t0_edu_mlt&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-120136660-blog-123573686.t0_edu_mlt&utm_relevant_index=5

https://zhuanlan.zhihu.com/p/391881979

3.2 模型训练与预测

!python few-shot/train.py \
--device gpu \
--data_dir ./data/KUAKE_QIC \
--output_dir ./checkpoints_shot/ \
--prompt "这个分类是" \
--max_seq_length 128  \
--learning_rate 3e-5 \
--ppt_learning_rate 3e-4 \
--do_train \
--do_eval \
--use_rdrop \
--num_train_epochs 20 \
--eval_steps 200 \
--logging_steps 50 \
--per_device_eval_batch_size 32 \
--per_device_train_batch_size 32 \
--load_best_model_at_end \
--weight_decay 0.01 \
--save_steps 600 \
--warmup_ratio 0.15
# --warmup_steps 1000 \
#warm_up_ratio = 0.1 # 定义要预热的step
#num_warmup_steps = warm_up_ratio * total_steps, num_training_steps = total_steps

# --max_steps 5000 \ 可以选择epochs or steps 
# --do_predict \
# --do_export
# --save_steps 500 #默认500
#--warmup_ratio 
#--warmup_steps
#--weight_decay

model_name_or_path: 内置模型名，或者模型参数配置目录路径。默认为ernie-3.0-base-zh。

data_dir: 训练数据集路径，数据格式要求详见数据准备。

output_dir: 模型参数、训练日志和静态图导出的保存目录。

prompt: 提示模板。定义了如何将文本和提示拼接结合。

soft_encoder: 提示向量的编码器，lstm表示双向LSTM, mlp表示双层线性层, None表示直接使用提示向量。默认为lstm。

use_rdrop: 使用 R-Drop 策略。

use_rgl: 使用 RGL 策略。

encoder_hidden_size: 提示向量的维度。若为None，则使用预训练模型字向量维度。默认为200。

max_seq_length: 最大句子长度，超过该长度的文本将被截断，不足的以Pad补全。提示文本不会被截断。

learning_rate: 预训练语言模型参数基础学习率大小，将与learning rate scheduler产生的值相乘作为当前学习率。

ppt_learning_rate: 提示相关参数的基础学习率大小，当预训练参数不固定时，与其共用learning rate scheduler。一般设为learning_rate的十倍。

do_train: 是否进行训练。

do_eval: 是否进行评估。

do_predict: 是否进行预测。

do_export: 是否在运行结束时将模型导出为静态图，保存路径为output_dir/export。

max_steps: 训练的最大步数。此设置将会覆盖num_train_epochs。

eval_steps: 评估模型的间隔步数。

device: 使用的设备，默认为gpu。

logging_steps: 打印日志的间隔步数。

per_device_train_batch_size: 每次训练每张卡上的样本数量。可根据实际GPU显存适当调小/调大此配置。

per_device_eval_batch_size: 每次评估每张卡上的样本数量。可根据实际GPU显存适当调小/调大此配置。
部分训练结果展示:

跑了两次:最优acc为0.81279-3400steps

4. 模型优化：TrustAI、数据增强

训练后的模型我们可以使用模型分析模块对每个类别分别进行评估，并输出预测错误样本（bad case），默认在GPU环境下使用，在CPU环境下修改参数配置为–device “cpu”:

模型表现常常受限于数据质量，在analysis模块中基于TrustAI的稀疏数据筛选、脏数据清洗、数据增强三种优化方案助力开发者提升模型效果，更多模型评估和优化方案细节详见训练评估与模型优化指南。

analysis/
├── evaluate.py # 评估脚本
├── sparse.py # 稀疏数据筛选脚本
├── dirty.py # 脏数据清洗脚本
├── aug.py # 数据增强脚本
└── README.md # 多分类训练评估与模型优化指南

参考链接：

多分类训练评估与模型优化指南：
https://github.com/PaddlePaddle/PaddleNLP/blob/develop/applications/text_classification/multi_class/analysis/README.md

Data Augmentation API：
https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/dataaug.md

TrustAI：
https://github.com/PaddlePaddle/TrustAI

4.1 模型评估

使用训练好的模型计算模型的在开发集的准确率，同时打印每个类别数据量及表现：

!python analysis/evaluate.py \
--device "gpu" \
--max_seq_length 128 \
--batch_size 32 \
--bad_case_path "./bad_case.txt" \
--dataset_dir "data/KUAKE_QIC" \
--params_path "./checkpoint"

验证结果部分展示：

[2022-09-24 23:54:13,923] [    INFO] - -----Evaluate model-------
[2022-09-24 23:54:13,923] [    INFO] - Train dataset size: 6931
[2022-09-24 23:54:13,923] [    INFO] - Dev dataset size: 1955
[2022-09-24 23:54:13,923] [    INFO] - Accuracy in dev dataset: 81.38%
[2022-09-24 23:54:13,924] [    INFO] - Top-2 accuracy in dev dataset: 92.02%
[2022-09-24 23:54:13,925] [    INFO] - Top-3 accuracy in dev dataset: 97.19%
[2022-09-24 23:54:13,925] [    INFO] - Class name: 病情诊断
[2022-09-24 23:54:13,925] [    INFO] - Evaluation examples in train dataset: 877(12.7%) | precision: 97.65 | recall: 99.43 | F1 score 98.53
[2022-09-24 23:54:13,925] [    INFO] - Evaluation examples in dev dataset: 288(14.7%) | precision: 82.26 | recall: 88.54 | F1 score 85.28
[2022-09-24 23:54:13,925] [    INFO] - ----------------------------
[2022-09-24 23:54:13,925] [    INFO] - Class name: 治疗方案
[2022-09-24 23:54:13,926] [    INFO] - Evaluation examples in train dataset: 1750(25.2%) | precision: 98.48 | recall: 99.77 | F1 score 99.12
[2022-09-24 23:54:13,926] [    INFO] - Evaluation examples in dev dataset: 676(34.6%) | precision: 88.86 | recall: 93.20 | F1 score 90.97
[2022-09-24 23:54:13,926] [    INFO] - ----------------------------

…

可以看出不同类别识别难度不一：

预测错误的样本保存在bad_case.txt文件中：

0.98	病情诊断	其他	最近好像有感冒，身上感觉不定位不定时的痛特别的左边背上还长了一个大包，右眼酸胀。我这样严重吗
0.98	注意事项	其他	月经来后能否继续用月经前用的药
0.97	治疗方案	其他	外阴骚痒，每次跟老公做完事后就有点痒，后来老公说是以前大腿内侧得过皮炎，请问是不是这个造成的，该如何..
0.99	后果表述	其他	雌二醇在排卵期会怎样？
1.00	病情诊断	其他	白带变黄异味重，怎么会事
0.76	病情诊断	指标解读	孕酮低是不是更年期到了要绝经了
0.98	疾病表述	其他	喉癌的高发人群与先兆
0.99	疾病表述	注意事项	忧郁症的表现及注意点
0.79	功效作用	其他	医师您好：VE是什么，VE真的可以除去黑...
0.53	注意事项	治疗方案	如何预防春天感冒
0.92	病情诊断	其他	四个月大的宝宝喜欢反手抓人正常吗?

可以看到有364条预测错误，占比不少有待改进

4.2 TrustAI：稀疏数据筛选方案

总结为样本多样性丰富度不够！

稀疏数据：指缺乏足够训练数据支持导致低置信度的待预测数据，简单来说，由于模型在训练过程中没有学习到足够与待预测样本相似的数据，模型难以正确预测样本所属类别。

本项目中稀疏数据筛选基于TrustAI（可信AI）工具集，利用基于特征相似度的实例级证据分析方法，抽取开发集中样本的支持训练证据，并计算支持证据平均分（通常为得分前三的支持训练证据均分）。分数较低的样本表明其训练证据不足，在训练集中较为稀疏，实验表明模型在这些样本上表现也相对较差。

稀疏数据筛选旨在开发集中挖掘缺乏训练证据支持的稀疏数据，通常可以采用数据增强或少量数据标注的两种低成本方式，提升模型预测效果。

实例级证据分析：
https://github.com/PaddlePaddle/TrustAI/blob/main/trustai/interpretation/example_level/README.md

实例级证据分析旨在从训练数据中找出对当前预测起重要作用的若干条实例数据。开发者基于实例级证据可对训练数据中的问题进行分析，如识别训练集中的脏数据、识别数据稀疏等。

本工具包含多种实例级证据分析方法，如表示点方法、基于梯度的相似度方法、基于特征的相似度方法等。

表示点方法
基于梯度的相似度方法
基于特征的相似度方法

表示点方法 【脏数据清洗】

表示点方法(Representer Point)将训练数据对当前预测数据的重要度影响（即表征值），分解为训练数据对模型的影响和训练数据与预测数据的语义相关度。对于一条给定的测试数据和测试结果，表征值为正的训练数据表示支持该预测结果，相反，表征值为负的训练数据表示不支持该预测结果。同时，表征值的大小表示了训练数据对测试数据的影响程度。

在真实情况下，众包标注的语料通常掺杂噪音（标注错误），易干扰模型预测。表示点方法倾向于召回梯度较大的训练数据，因此开发者不仅可以使用实例级证据分析方法了解模型行为，也可以通过人工检测标注数据错误，提升模型效果。

基于梯度的相似度方法

基于梯度的相似度方法(Grad-Cosin, Grad-Dot)通过模型的梯度挑选对当前测试数据产生正影响和负影响的数据。

基于梯度的相似度方法召回了在梯度意义上对测试数据有正影响和负影响的实例数据。召回的正影响数据往往是与测试数据语义上比较相似且标签一致的数据，负影响数据通常可能是标注错误的、类别模糊的甚至是存在冲突的数据。

基于特征的相似度方法 【稀疏数据识别】

基于特征的相似度方法(Feature-Cosin, Feature-Dot, Feature-Euc)通过模型的特征挑选对当前测试数据有正影响和负影响的数据。

基于特征的相似度方法召回了在特征意义上对测试数据有正影响和负影响的实例数据。召回的正影响数据与GC方法相似，负影响数据更倾向于召回和测试数据字面不相似的数据。

详细demo见参考文档

4.2.1稀疏数据识别–数据增强

这里我们将介绍稀疏数据识别–数据增强流程，

首先使用数据增强脚本挖掘开发集中的稀疏数据
然后筛选训练集中对稀疏数据的支持数据进行数据增强，
最后将得到的数据增强后的支持数据加入到训练集中进行训练。

现在我们进行稀疏数据识别–数据增强，得到新增训练数据：

4.2.2稀疏数据识别–数据标注

这里我们将介绍稀疏数据识别–数据标注流程，

首先使用数据增强脚本挖掘开发集中的稀疏数据，
然后筛选对稀疏数据支持的未标注数据，
最后将得到支持数据进行标注后加入到训练集中进行训练。

现在我们进行稀疏数据识别–数据标注，得到待标注数据：

annotate：选择稀疏数据识别–数据标注模式；默认为False。

unlabeled_file： 本地数据集中未标注数据文件名；默认为"data.txt"。

[2022-09-25 20:52:35,898] [    INFO] - Sparse data saved in ./data/KUAKE_QIC/sparse.txt
[2022-09-25 20:52:35,898] [    INFO] - Accuracy in sparse data: 41.00%
[2022-09-25 20:52:35,898] [    INFO] - Average score in sparse data: 0.7830
[2022-09-25 20:52:35,902] [    INFO] - We are using  to load './checkpoint/'.
[2022-09-25 20:52:40,282] [    INFO] - We are using  to load './checkpoint/'.
Extracting feature from given dataloader, it will take some time...
[2022-09-25 20:52:40,878] [   ERROR] - The index is out of range, please reduce support_num or increase support_threshold. Got 1 now.
[2022-09-25 20:52:40,879] [    INFO] - support data saved in ./data/KUAKE_QIC/support.txt
[2022-09-25 20:52:40,879] [    INFO] - support average scores: 0.7153

简单来讲就是标注一些困哪样本

4.3 脏数据清洗方案

训练数据标注质量对模型效果有较大影响，但受限于标注人员水平、标注任务难易程度等影响，训练数据中都存在一定比例的标注较差的数据（脏数据）。当标注数据规模较大时，数据标注检查就成为一个难题。
本项目中脏数据清洗基于TrustAI（可信AI）工具集，利用基于表示点方法的实例级证据分析方法，计算训练数据对模型的影响分数，分数高的训练数据表明对模型影响大，这些数据有较大概率为脏数据（标注错误样本）。

现在我们进行脏数据识别，脏数据保存在"train_dirty.txt",剩余训练数据保存在"train_dirty_rest.txt"：

4.4 数据增强策略方案

在数据量较少或某些类别样本量较少时，也可以通过数据增强策略的方式，生成更多的训练数据，提升模型效果。

Data Augmentation API：https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/dataaug.md

词级别数据增强策略

词替换
词插入
词删除
词交换

采取替换就好：

同义词替换、同音词替换、本地词表替换、随机词替换

上下文替换：上下文替换是随机将句子中单词进行掩码，利用中文预训练模型ERNIE 1.0，根据句子中的上下文预测被掩码的单词。相比于根据词表进行词替换，上下文替换预测出的单词更匹配句子内容，数据增强所需的时间也更长。

基于TF-IDF的词替换：TF-IDF算法认为如果一个词在同一个句子中出现的次数多，词对句子的重要性就会增加；如果它在语料库中出现频率越高，它的重要性将被降低。我们将计算每个词的TF-IDF分数，低的TF-IDF得分将有很高的概率被替换。

train_path：待增强训练数据集文件路径；默认为"…/data/train.txt"。

aug_path：增强生成的训练数据集文件路径；默认为"…/data/train_aug.txt"
。
aug_strategy：数据增强策略，可选"mix", “substitute”, “insert”, “delete”, “swap”,“mix"为多种数据策略混合使用；默认为"substitute”。

aug_type：词替换/词插入增强类型，可选"synonym", “homonym”, “mlm”，建议在GPU环境下使用mlm类型；默认为"synonym"。同义词、同音词、mlm:上下文替换

create_n：生成的句子数量，默认为2。

aug_percent：生成词替换百分比，默认为0.1。

device: 选用什么设备进行增强，选择cpu、gpu、xpu、npu，仅在使用mlm类型有影响；默认为"gpu"。

WordSubstitute 参数介绍：

    aug_type(str or list(str))：
        词替换增强策略类别。可以选择"synonym"、"homonym"、"custom"、"random"、"mlm"或者
        前三种词替换增强策略组合。

    custom_file_path (str，*可选*）：
        本地数据增强词表路径。如果词替换增强策略选择"custom"，本地数据增强词表路径不能为None。默认为None。

    create_n（int）：
        数据增强句子数量。默认为1。

    aug_n（int）：
        数据增强句子中被替换词数量。默认为None

    aug_percent（int）：
        数据增强句子中被替换词数量占全句词比例。如果aug_n不为None，则被替换词数量为aug_n。默认为0.02。

    aug_min (int)：
        数据增强句子中被替换词数量最小值。默认为1。

    aug_max (int)：
        数据增强句子中被替换词数量最大值。默认为10。

    tf_idf (bool)：
        使用TF-IDF分数确定哪些词进行增强。默认为False。

    tf_idf_file (str，*可选*)：
        用于计算TF-IDF分数的文件。如果tf_idf为True，本地数据增强词表路径不能为None。默认为None。

4.5数据增强后进行预训练+小样本训练

把final_data放回到data进行训练

5.总结

本项目主要讲解了再主流中文医疗信息处理评测基准CBLUE榜单的一个多分类任务，并对warmup、Rdrop等技术进行简单介绍，使用预训练，小样本学习并通过AITrust可信分析提升模型性能，结果如下：

模型	acc
预训练 ernie3.0	0.81330
小样本 ernie3.0	0.81279
预训练 ernie3.0 +数据增强（aitrust）	0.81688
小样本 ernie3.0+数据增强（aitrust）	0.81764

可以看出在样本量还算大的情况下，预训练方式更有优势（准确率略高一点且训练更快一些），通过AITrust可信分析：稀疏数据筛选、脏数据清洗、数据增强等方案看到模型性能都有提升；
这里提升不显著的原因是，这边没有对筛选出来数据集进行标注：因为没有特定背景知识就不花时间操作了，会导致仍会有噪声存在。相信标注完后能提升3-5%点

对于大多数任务，我们使用预训练模型微调作为首选的文本分类方案：准确率较高，训练较快
提示学习（Prompt Learning）适用于标注成本高、标注样本较少的文本分类场景。在小样本场景中，相比于预训练模型微调学习，提示学习能取得更好的效果。对于标注样本充足、标注成本较低的场景，推荐使用充足的标注样本进行文本分类预训练模型微调

为了增加性能—可以做成持续学习： 参考如下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GxqipqCM-1664249547079)(https://ai-studio-static-online.cdn.bcebos.com/fb138bc1013b489a96ec0ac8803d9085a1e565125492409cbc522168f3a68814)]

项目链接：
https://aistudio.baidu.com/aistudio/projectdetail/4592515?contributionType=1
如果有图片缺失参考项目链接

具体代码fork项目即可

你可能感兴趣的:(NLP,学习,人工智能,自然语言处理)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul