changreal

【总结向】从CMRC2019头部排名看中文MRC

文章目录

0 预备知识

数据集
中文MRC任务要点（融合CMRC2018-2019）

任务类型
数据增强与扩充
数据处理
文本向量化表达
特征融合
训练方法
预训练模型
预测目标
其他：trick & 问题
实用工具
应用

1 冠军：平安金融

纲要
策略
核心

连贯性学习

SiBert
负样本的连贯性

非独立性的预测方式
文本长度与分词
领域迁移

消融实验

总结

2 亚军：顺丰 Mojito System

预处理
预训练
模型
预测策略
实验结果
错误分析

3 季军：6Estates

数据集分析
策略与方法

数据集扩充，分布调整
预训练
单个choice拼接预测
多个choice拼接预测
多choice vs 单choice
集成模型

改进

4 季军：哈工大

模型架构
数据增强
学习率
训练方法
数据增强与原始数据的混合模式选择
排除干扰项
实验结果

5 季军：CICC

实验结果和消融分析
反思

6 启发
7 参考

网页
ppt提到的论文

0 预备知识

数据集

CMRC 2019的任务是句子级填空型阅读理解（Sentence Cloze-Style Machine Reading Comprehension, SC-MRC）。我个人感觉类似7选5 or 5选5的题型。.根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子，参赛者需要建立模型将候选句子精准的填回原篇章中，使之成为完整的一篇文章。SC级的任务提升了MRC难度。

难点：需要根据上下文逻辑关系判断空穴部分；减少干扰项的影响

数据集样式

JSON字段	介绍
context	带空缺的篇章，空缺以`[BLANK]`表示
context_id	篇章的ID, 唯一
choices	填入空缺内的候选句子，有序列表
answers	填入空缺的句子序号顺序（句子序号从0开始计数）

JSON举例（包含假选项）

{
    "data": [
        {
            "context": "森林里有一棵大树，树上有一个鸟窝。[BLANK1]，还从来没有看到过鸟宝宝长什么样。 
            小松鼠说：“我爬到树上去看过，鸟宝宝光溜溜的，身上一根羽毛也没有。” “我不相信，”小白兔说，“所有的鸟都是有羽毛的。” 
            “鸟宝宝没有羽毛。”小松鼠说，“你不信自己去看。” 
            小白兔不会爬树，它没有办法去看。小白兔说：“我请蓝狐狸去看一看，我相信蓝狐狸的话。” 小松鼠说：“蓝狐狸跟你一样，也不会爬树。” 
            蓝狐狸说：“我有魔法树叶，我能变成一只狐狸鸟。” [BLANK2]，一下子飞到了树顶上。 “蓝狐狸，你看到了吗？”小白兔在树下大声喊。 
            “我看到了，鸟窝里有四只小鸟，他们真是光溜溜的，一根羽毛也没有。”蓝狐狸说。 就在这时候，鸟妈妈和鸟爸爸回来了，
            [BLANK3]，....[BLANK8]....",
            "choices": [
                "蓝狐狸是第一次变成狐狸鸟",
                "森林里所有的鸟听到喊声",
                "他们看到鸟窝里蹲着一只蓝色的大鸟",
                "蓝狐狸真的变成了一只蓝色的大鸟",
                "小动物们只看到过鸟妈妈和鸟爸爸在鸟窝里飞进飞出",
                "小松鼠变成了一只蓝色的大鸟"
                ],
            "context_id": "SAMPLE_00002",
            "answers": [4,3,2,1,0]
        }
    ]
}

CMRC 2018的数据集和SQuAD类型相似，来源于中文维基百科，单文档，给定一篇文档和一个问题；参赛者需要解决的是，如何建立并训练 model，使其能更好地理解 context 与 query，并找到相应答案。

在数据方面，主要工作集中在数据的归一化和去噪音。CMRC 比赛训练集包含大约一万条数据，总体数据量偏少，这种情况下数据的标注一致性尤为重要。（标注不一致的问题会使模型的最终预测 EM 指标降低）

相关资讯

CMRC官网介绍：https://hfl-rc.github.io/cmrc2019/task/

中文MRC任务要点（融合CMRC2018-2019）

任务类型

完形填空
多选

考虑输入拼接方式，比如是单个choice预测还是多个choice预测（6estates的启发）
抽取式

数据增强与扩充

数据量少

back translatin：比如zh->en->zh(哈工大)，过程中保持[blank]位置不变，然后最强增强倍数N=1

用类似领域的数据作为补充；

人工标注（成本花费大）
数据增强方式
- 比如多选类型，对答案不属于文章任何一个choice的情况（unknow choice)，做简单DA
- 又或者动态数据增强（平安）？
- 又如增加假答案（从原文中随机选取一定数量句子作为候选答案（增加假答案）参与训练。（顺丰，CICC是每篇文章会从上一篇文章抽一个句子作为假例子）
- sample2paras：将所有原文中的 [BLANK] 用 choices 填充，重新随机生成新的 [BLANK] 位置与对应的 choices，新 [BLANK] 位置的原文长度分布与原始训练集一致
- 生成数据也要考虑去重，比如达到一个阈值或者尝试生成次数上限
- 设置增强倍数，即每个样本生成N个增强数据
抓取数据

如从故事网等网站上抓取相关文本作为数据集的扩充，并删去相似文本

扩充数据集的时候要注意分布（6estates)，从而生成新数据集
调整问题或者context长度的分布，也要研究一下（6estates和哈工大都有这思想），分布也会涉及重复的样本
增强数据与原始数据的混合模式选择
- 增强数据与目标数据领域完全一致
- 增强数据与目标数据领域有差异（适合迁移 or stage-wise）

数据处理

文本归一化处理（如：如繁简转换、中英文标点转换、去除拼音标注、长度限制、分布调整等）
增加假答案（从原文中随机选取一定数量句子作为候选答案（假答案）参与训练），CICC是每篇文章会从上一篇文章抽一个句子作为假例子
context norm
filter query is None or answer is None
Answer和Context长度限制
data augment
干扰项（CMRC2019）

重复干扰项，排除重复干扰项能明显提高推理效果

随机干扰项

文本向量化表达

如用预训练语言模型，如中文ELMo（英文ELMo是基于字符集的编码），可采用的粒度有：
- 中文词级
- 笔划级
字模型

优点：embedding参数少，unk少，语料中字出现的次数相对均匀；

缺点：中文字模型分词后文本可能过长，有些任务分段后性能下降，没有分词的先验信息。

Token level的分类任务(阅读理解，NER等)，字模型>>词模型。 虽然字模型整体表现更好，但是词模型能够有效降低文本长度使得attention视野更远，部分数据集会有奇效。
词模型

优点：有分词的先验信息。有预训练词向量，能够降低文本长度，节约显存。

缺点：Embedding参数巨大，UNK多，词频分布不均带来部分词的优化过于稀疏；week domain transfer ability；目前的分词工具表现还不是很好，会导致下游任务的bias

对于Transformer而言，受限于显存压力。模型大多长度受限，而长距离的attention在很多任务上非常关键，此时词模型对text level的分类任务上可能会有奇效。
sub-word 了解一下咯！
pos embedding
query type embedding
word match
长文档处理（比如结合tramsformer-xl, xlnet的自回归方式处理长文本）

特征融合

问题类型的one-hot特征

如：who, where, when, how, num, why, how long等类型，转为one-hot向量
POS信息
词共现特征
句子连贯性
- 候选答案回填（顺丰）
- SI，SSI方法（平安）

训练方法

蒸馏（distill）
- 自我蒸馏，self-distill。
  
  自我蒸馏就是不改变模型大小，循环进行 teacher-student 的训练，直到效果不再改进
- 知识蒸馏
  
  如student采用和teacher同样的网络结构（重生网络）
蒸馏通常用在模型压缩方面，即采用预训练好的复杂模型（teacher model）输出作为监督信号去训练另一个简单模型（student model），从而将 teacher 学习到的知识迁移到 student。
Post-process（要了解）

无监督数据预训练LM -> 特定任务数据上精调LM -> 任务标注数据精调模型（LM初始化）
打破模型训练消耗大对想法尝试的束缚：（CICC）

使用相同原理的tiny模型做benchmark,在其基础上做对比实验，最后应用到大模型上。
多层级任务的pretrain——字、词、句（cicc）

预训练模型

中文预训练BERT-wwm

预测目标

level：character level, word level, sentence level
NSP, MSP(6esetates)
这些训练目标和组合，比如同时预测character-level 和mask和mask sentence prediction，不知道能不能看做多任务学习
全词掩码 wwm, 快去了解

目标类型

语言模型
分类问题
合理性排序问题（顺丰），目标决定损失函数

其他：trick & 问题

Gate机制（关注核心单词）

如extra gated-dropout for query
答案抽取用PointerNetwork来预测答案起始与终止位置

prob = start * end
多任务
- 预测词是不是在答案的范围里，二分类，当做辅助任务去训练
- 预测答案是否在这个句子里
多任务其实是比较 trick 的东西，不同任务设置的权重不一样，需要不断去尝试。
显存优化方法
- blocksparse
- 避免对大tensor进行dropout
中文文档复杂性

当数据集是文本时，文档可能长至几百页，这时，机器就需要搭配文章分类和段落索引这样的技术来提升速度和准确性。

另外，文档中的一级标题、二级标题以及表格和图片等都是需要处理的问题。
学习率
- 学习率自适应，也就是每层组设置不同的学习率（哈工大）
- 三角周期学习率，学习率按照三角规律周期性变化（与固定学习率的指数衰减方式相比，有明显提升）
模型集成，模型融合
损失函数

marginLoss, CrossEntropyLoss

实用工具

了解一下SMRC，搜狗的机器阅读理解工具集合，https://github.com/sogou/SMRCToolkit ，它提供了CMRC2018的模块
blocksparse，一个用于块稀疏矩阵乘法和卷积的高效GPU内核， https://github.com/openai/blocksparse
SentencePiece(spm)，字词混合模型。作为一个高性能的无监督文本词条化工具，可以通过EM算法为预训练提供基于统计的高效分词。事实上xlnet即是用这个来进行分词的。 https://github.com/google/sentencepiece
中文bert预训练：https://github.com/ymcui/Chinese-BERT-wwm

应用

搜索引擎
客服
金融教育领域，有大量非结构化的文本

比如金融有很多公告类型的数据，纯靠人工提取知识点，并且由于长尾效应，难以覆盖到用户需要的所有点。依托阅读理解，机器可以直接从非结构化数据中提取到用户所需要的信息点。

CMRC2019对⾦融⻛控领域，针对企业年报中关键⾦融要素，抽取原因语句和相关段落的任务起到帮助

1 冠军：平安金融

纲要

如何更好地学习到句子之间的连贯性？——SI（Sentence Insertion）
非独立性条件下，合理的预测方式
中文NLP任务是否还需要分词？ ——SentencePiece
预训练模型中连贯性知识的进一步强化 —— SDRP
预训练模型的领域迁徙 ——SSI

策略

看来这也是单choice预测策略

核心

优化

针对BERT占用显存的地方优化

使用blocksparse
避免对大tensor进行dropout

预训练语料

使用多源数据重训练bert，在官方中文BERT使用中文wiki基础上，采集了百科、新闻、知乎等多源数据

连贯性学习

主题相同的情况下，学习句子的连贯性，并且还要学会拒绝不连贯的句子。

SiBert

Sentence Insertion（SI代替NSP）

NSP学到的更多是主题信息而不是连贯性信息（根据ALBert研究），因此这里替换NSP为SI；而cmrc2019句子位置预测本身就是一个可用于预训练的自监督方法，能够有效补充语言模型对连贯性 和 顺序学习 的需求。

SI能学习到在判断 主题相同的情况下，句子放在哪里最连贯。

其中，sentence2是其他文档的句子，sentence1-3等是该篇文章，

SiBert结果与动态mask

在SiBert基础上基于 全词MASK继续fine-tune
全词mask[1] 与英文中的ngram-mask相对应，在**spanBert[2]**中表示该方法对MRC提升显著

Sibert vs 2Sibert结论：

基于sentencepiece统计得到的字词混合模型能够基本解决词模型UNK的问题，在预训练中远优于传统分词+统计得到的词模型。
Token level的分类任务(阅读理解，NER等)，字模型>>词模型。

负样本的连贯性

受到ERNIE2.0[3]的启发，我们为模型新增了Sentence-Document Relation Prediction(SDRP)任务。使得模型针对负样本不仅仅专注于主题，更能判别它们的连贯性。下图结果称为3SiBert（2SiBert见下文）。

非独立性的预测方式

因为多个choice之间也会提示信息（比如顺序关系，会有对比信息，6estates也有用到这个启发），从而在推断过程中相互提供有效信息得到答案，因此每个choice之间的预测不应该是独立的。

原始的独立的预测目标：

动态预测

在推断的阶段，逐渐还原文本，增加先验信息。

文本长度与分词

问题

文本长度过长（＞512），限制模型性能，因此要探索如何 无损缩减长度，可以用到 SentencePiece[spm]分词工具来降低context文本长度，并得到字词混合模型，能够基本解决词模型unk的问题。

SentencePiece

高性能的无监督文本词条化工具，可以通过EM算法为预训练提供基于统计的高效分词，并得到字词混合模型，能够基本解决词模型unk的问题。下图里，分词后context长度明显降低。（2SiBert）

领域迁移

为了使得预训练模型更贴近cmrc2019的任务，在之前预训练模型的基础上把Sentence Insertion任务替换为短句抽取(Short Sentence Insertion, SSI)，进一步训练了500k步。

消融实验

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BsugYJvs-1586241113301)(https://i.loli.net/2020/04/05/38HFotdpklg7Ky5.png)]

总结

预训练

BERT模型优化，预训练语料丰富化；Sentence Insertion 和 全词mask任务；句子篇章关系预测任务；预训练模型的领域迁移
数据增强

简单负样本增强；动态数据增强（配合SDRP）
数据处理

SentencePiece字词混合模型；动态预测

2 亚军：顺丰 Mojito System

预处理

数据清理
增加假答案
候选答案回填（判断句子 合理性、连贯性）
多**[mask]填充**（与掩码语言模型保持一致性、一定程度上还原候选答案与上下文的相对距离）

区分mask和blank哦

预训练

模型

Margin Loss

候选答案是一个 合理性排序问题！而不是分类问题

知识蒸馏，重生网络，对应的loss

预测策略

关键是构造这个候选答案的得分矩阵（下文6estates的是choice-unused矩阵，反正关键是构建矩阵），在这个基础上采用 差值排序。

有图知，答案的选择策略有两种，一种的方案A直接取最高分，还有一种是方案B采用差值排序选择。

实验结果

总之有和其他模型的对比；自己的消融分析；采用不同预训练语言模型的对比；采用集成模型的对比

错误分析

对于需要一些推理的blank（好像不同的方法叫法不同，在6esetate里不知道是不是又处理了，叫作unsed），观察出缺乏一定知识推理能力；候选答案无法区分，答案都合理；预测方案不同导致不同的预测答案；关键上下文缺失的情况下，已有信息无法得到真正的答案；语序方面的问题；

3 季军：6Estates

数据集分析

问题

数据不充分；
TTD数据问题数量分布差异；（结合1，所以可以考虑自己增加一些数据集）
TTD 文本长度分布也有差异；
相似文本值得答案有所泄露或者互相干扰

策略与方法

策略

改进bert
增加数据量，并调整数据分布（研究一下）
尝试不同预训练任务
问题转化为针对context构建 choice-unused 概率矩阵
分别以choice 和 unused 为中心构建不同模型进行预测

矩阵如图：

数据集扩充，分布调整

从故事网等网站抓取更多相关文本；删去trail/dev/qualify中的相似文本；
问题可以包含符号，字符长度15-30，问题数量5-15；不允许采样时出现相似文本，从而生成新的数据集

预训练

预训练的几种objective，这就涉及多任务学习的范畴

在新数据上⽣成了⼤约600W预训练数据
Mask Prediction 1（character level）
Mask Prediction 2 （word level）
Next Sentence Prediction
Mask Sentence Prediction

单个choice拼接预测

将单个choice放入一个example中，从而训练新的预训练模型。

由此产生发方法有：

model1 : 新的预训练模型
model2 : 新的与训练模型 + 更大训练集
model3 : 加⼊更多中间层，在最终输出层之前增加更⾼概率的Dropout
model4 : 增加单独的输出和Attention⽤来检测是否为假的Choice

多个choice拼接预测

所有choice都放入一个example中，从而建模的时候做choice rep和unused rep的text pooling

多choice vs 单choice

当需要⻓⽂本上下⽂来辅助判断时，同样max_seq_len情况下多 choice模型能够建模的context⻓度⼤⼤减少（可以结合xlnet的自回归建模方式处理长文档）
当存在有多个空位距离较近时，需要更多的choice之间的对⽐信息（顺丰也考虑到这个，就是choice之间的关系）才能辅助确定空位应该填⼊的choice

集成模型

单choice和多choice模型预测概率线性回归
根据choice预测概率和choice部分⽂本在context中的出现情况判断是否直接排除该choice
将置信度较⾼的choice填⼊context中，构建新的case， 迭代式预测

改进

长文档，xlnet的自回归思想建模方式，处理更长文本
多choice模型中增加更合适的pairwise loss，使得模型能在choice选取中更有区分度

4 季军：哈工大

模型架构

创新点：

个人感觉主要是在数据、训练方式上做加法，模型架构没有什么创新

提出了一种填空型阅读理解任务的通用数据增强方法
在特定任务数据上精调 LM 明显地提升了语言模型对该任务的表达能力
学习率的领域自适应与三角周期性学习
数据增强与原始数据的混合模式选择

优点

单模型，训练及推理效率高
通用数据增强方法可使用其他领域数据做迁移或者从任意领域无监督数据直接生成训练集

改进

模型结构上有待进一步改进，如加入更能表征句子位置的结构
对每个样本的多个 choice 位置的损失加入整体性约束

数据增强

重排填空位置
Back Translate
- zh->en->zh：保持 [BLANK] 位置不变
- 最佳增强倍数 N=1：使用重排对每个样本生成1个增强数据

学习率

学习率领域自适应

三角周期学习率：学习率按照三角规律周期性变化

训练方法

数据增强与原始数据的混合模式选择

增强数据与目标数据领域完全一致
增强数据与目标数据领域有差异
- 适合迁移：增强数据模型->目标数据模型
- stage_wise: 从距离最远的优先训练，依次迁移到距离较近的增强数据，最后迁移到目标数据，这样有效利用其它领域信息并减少遗忘
该句子填空任务的增强数据与目标数据领域完全一致

排除干扰项

实验结果

5 季军：CICC

实验结果和消融分析

由上图知：

增加假例子：每篇文章会从上一篇文章抽一个句子作为假例子
domain pretrain
mix pretrain
阅读理解策略
三模型融合

反思

如何打破模型训练消耗大对想法尝试的束缚：

使用相同原理的tiny模型做benchmark,在其基础上做对比实验，最后应用到大模型上。

多层级任务的pretrain——字、词、句

6 启发

动机出发，比如探索更好的MRC落地应用，或者探索PTM的新的任务。通过改进不同模型的缺点来找到创新点和推动发展。

根据具体数据集任务分析数据集好像是个之前被我很忽略的一个点，这里好几个队伍都进行了数据集的分析，从而观察数据集的分布、选项、长度、数据数量、重复项，判断选项之间的顺序性或者独立性影响，选项与上下文之间的影响作用，这都是我之前没有考虑到的！分析任务是个首当其冲的大事啊！分析任务还包括分析任务的难点，比如这个任务的难点就包括句子连贯性的学习，因此针对连贯性，冠军也亚军团队都有自己的连贯性学习方案，具体见上文因为这里我突然想不起来了（记性真的好差，因此要多回顾呀）。

每个模型基本都使用了数据增强来拓展数据集，其中包括领域迁移、back translate、生成假数据、假答案、简单粗暴抓取数据等不同的拓展数据的方式与数据混合方式，并且对原始的数据与生成的数据也要做进一步的处理比如分布调整、去重等，但我对这些方面的认识还是十分模糊！如果要做中文MRC任务，这方面我还要多下点功夫研究和归纳一下，数据的扩充和处理是个大任务！

适合中文任务的预训练模型也要了解哦，比如常用的bert-wwm，这是个啥玩意？快去搞！

spanBert似乎是2019的实用方法，在mask词上有所帮助；总之在语言模型的 mask 上面要看些论文了，估计其中一部分论文还要从预训练模型里面找。

采用Post-training的multi-task方法再次在顺丰的模型上证明，多任务学习的损失loss的设计，涉及数学知识的部分如何把握？还有有点担心计算量，又预训练又post training的，我们学校的服务器能跑多少？还是只能跑fine-tune？也许这需要一个很轻便的预训练模型吧？这点要找学长问问，以及问问学长做过哪些训练实验，如果能发现能直接拿来用的实验结果就更好了。看到CICC那边对于到模型消耗大的反思，我也要有所启发，比如如何构建一个相同原理的tiny模型来组benmark？

上面也设计到训练方式，训练方式里的各种蒸馏也可以了解一下呢，知识蒸馏是啥？快去看呐。

中文MRC的训练单位，及词、字作为输入单位的不同特点，中文还是需要分词的；而在cicc看到多层级的任务的预训练：字、词、句，这方面学习到的知识如何抽取和融合利用，也要探索。

大部分模型的输入，好像还是单个choice拼接context的，学习打分的矩阵很关键，即得到一个交融的矩阵还是很重要的；模型的预测目标设计上，要针对数据集的特点，思考要让模型学到什么。并且预测的类型也可以不一样，比如多选题的目标可以是分类，而又可以是一个排序问题（多个选项中找最高可能）；

最后还要拥有一种 分析思想，要总结经典套路的消融分析、错误分析方式，还要结合模型特点和创新点来设置分析对比实验，并且还可以从任务特点来做分析，比如CICC的对不同位置的结果也可以做分析，总之能找出问题的话，就可以找出可改进的地方。在消融分析上做减法或者做加法都可，涉及的组件比如预训练组件、语言模型差异、数据的增强方法（比如领域迁移、假答案等）、训练方式的不同（比如融合模型）。总之这里的分析思想也和上面的任务分析思想对应，要多分析，多思考，想不出来抱大腿（不是。

看论文的时候不仅要学会找能用的东西，还要思考自己能不能创新？就是既要思考模型的优点，更要找到模型的缺点，但是目前我好像还是只在汲取知识的阶段，缺点根本看不出来好伐。。因为要看的太多了，找到一些可用的素材就已经很难，找到关系更是难上加难，如果要创新的话，怎么站在巨人的肩膀上？更如何在错综复杂的关系里选择合适的轮子？如果专注于造轮子的话如何稳住心态不会崩？

7 参考

网页

https://www.leiphone.com/news/201811/3KC2OSaNQDzhTDDJ.html

雷锋网的RC进阶：https://www.leiphone.com/news/201811/wr62uxvN0dJDbLwF.html ，2018

从字到词，大词典中文BERT模型的探索之旅，https://www.jiqizhixin.com/articles/2019-06-27-17?from=synced&keyword=%E8%AF%8D%E5%90%91%E9%87%8FBERT

ppt提到的论文

[1] Cui, Yiming, et al. “Pre-Training with Whole Word Masking for Chinese BERT.” arXiv preprint arXiv:1906.08101 (2019)
[2] Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training by representing and predicting spans[J]. arXiv preprint arXiv:1907.10529, 2019. 【平安、顺丰，动态mask和spanmask】
[3] Sun, Yu, et al. “Ernie 2.0: A continual pre-training framework for language understanding.” arXiv preprint arXiv:1907.12412 (2019).
[4] Li, Xiaoya, et al. “Is word segmentation necessary for deep learning of Chinese representations?.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
[5] Furlanello T, Lipton Z C, Tschannen M, et al. Born again neural networks. International Conference on Machine Learning (ICML), 2018 【重生网络】
[6] Clark K, Luong M T, Khandelwal U, et al. Bam! born-again multi-task networks for natural language understanding. Association for Computational Linguistics (ACL), 2019. 【重生网络的一种策略】

你可能感兴趣的:(NLP)

大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
略说NLP引入公理模型的可行性金井PRATHAMA 知识图谱与NLP 自然语言处理人工智能知识图谱
在自然语言处理（NLP）的深层语义分析中，公理化体系的引入具有理论可行性，但其实际应用仍面临挑战。以下从公理模型的设计思路、关键技术要点及注意事项三个方面展开分析，结合搜索结果的多个相关技术点进行综合说明：一、公理模型在深层语义分析中的设计思路公理的定义与语义形式化公理模型需以形式化逻辑为基础，定义语义分析中的原始概念（如谓词、实体、关系）和推理规则。例如：原始概念：将语义角色（如施事者、受事者）
NLP中情感分析如何结合知识图谱在跨文化领域提升观念分析和价值判断的准确性？
情感分析结合知识图谱，能够显著提升观念分析和价值判断的准确性。这一融合的核心在于利用知识图谱的结构化语义网络，为情感分析提供深层语境、实体关联和领域知识支撑。以下是具体机制和应用场景的分析：一、知识图谱如何提升情感分析的语义理解1.解决歧义与上下文依赖问题：情感词（如“冷”）在不同语境中含义不同（“服务态度冷”表负面，“冷静分析”表中性）。方案：知识图谱通过实体链接识别文本中的对象（如“服务态度”
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
入门大模型神器：开源项目Happy LLM保姆级教程！
Happy-LLMHappy-LLM——从零开始的大语言模型原理与实践教程。本项目是一个系统性的LLM学习教程，将从NLP的基本研究方法出发，根据LLM的思路及原理逐层深入，依次为读者剖析LLM的架构基础和训练过程。同时，我们会结合目前LLM领域最主流的代码框架，演练如何亲手搭建、训练一个LLM，期以实现授之以鱼，更授之以渔。希望大家能从这本书开始走入LLM的浩瀚世界，探索LLM的无尽可能。特点•
【原创】下雨天要游泳饶金霞家庭教育心理咨询
下午，我照着昨天与小儿的约定，在四点半，就来到幼儿园门口接孩子。老师打开大门，孩子从教室里走出来，一见到我就问:“老妈，泳衣准备好了吗？”我半蹲下来拥抱他说：“都放在车上啦！”儿子在我额头上亲一口说：“你真是世界上最讲信用的好妈妈！”我有点怀疑我这儿子有NLP的基因，总是能及时地给沟通者作出良好的回应，而且还会用米尔顿。其实看着这满天的乌云，我心里还在嘀咕，这场大雨可能不会等到我们去游泳场。果不其
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

【总结向】从CMRC2019头部排名看中文MRC

文章目录

0 预备知识

数据集

中文MRC任务要点（融合CMRC2018-2019）

任务类型

数据增强与扩充

数据处理

文本向量化表达

特征融合

训练方法

预训练模型

预测目标

其他：trick & 问题

实用工具

应用

1 冠军：平安金融

纲要

策略

核心

连贯性学习

SiBert

负样本的连贯性

非独立性的预测方式

文本长度与分词

领域迁移

消融实验

总结

2 亚军：顺丰 Mojito System

预处理

预训练

模型

预测策略

实验结果

错误分析

3 季军：6Estates

数据集分析

策略与方法

数据集扩充，分布调整

预训练

单个choice拼接预测

多个choice拼接预测

多choice vs 单choice

集成模型

改进

4 季军：哈工大

模型架构

数据增强

学习率

训练方法

数据增强与原始数据的 混合模式 选择

排除干扰项

实验结果

5 季军：CICC

实验结果和消融分析

反思

6 启发

7 参考

网页

ppt提到的论文

你可能感兴趣的:(NLP)

数据增强与原始数据的混合模式选择