青萍之默

菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（七）—— 模型训练-数据准备

系列目录：

菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——
介绍及分词
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（五）—— 准备数据
菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（六）—— 模型构建

未完待续 … …

上一篇文章对模型的结构进行了介绍，本文开始介绍训练中的数据准备，数据经过预处理后，到真正输入模型进行训练还需要进一步的处理。

训练主函数

首先来看一下训练的主函数，主函数train如下：

def train(args):
    """
    训练阅读理解模型
    """
    logger = logging.getLogger("brc")
    logger.info('Load data_set and vocab...')
    # 加载字典
    with open(os.path.join(args.vocab_dir, 'vocab.data'), 'rb') as fin:
        vocab = pickle.load(fin)
    # 加载数据
    brc_data = BRCDataset(args.max_p_num, args.max_p_len, args.max_q_len,
                          args.train_files, args.dev_files)
    logger.info('Converting text into ids...')
    # 将数据转换为数字索引ids
    brc_data.convert_to_ids(vocab)
    logger.info('Initialize the model...')
    # 初始化模型
    rc_model = RCModel(vocab, args)
    logger.info('Training the model...')
    # 训练模型
    rc_model.train(brc_data, args.epochs, args.batch_size, save_dir=args.model_dir,
                   save_prefix=args.algo,
                   dropout_keep_prob=args.dropout_keep_prob)
    logger.info('Done with model training!')

有代码可以看到，训练主函数包含了加载词典、加载数据、将数据转换为索引、构建模型、训练模型几部分，本文重点介绍下其中加载数据部分。

BRCDataset

BRCDataset函数在准备数据部分简单介绍过，回顾一下：

类名 BRCDataset
功能：实现加载使用百度阅读理解数据集的APIs
类属性：
    self.max_p_num：最大段落数量
    self.max_p_len：最大段落长度
    self.max_q_len：最大问题长度
    self.train_set, self.dev_set, self.test_set：训练、验证、测试数据集
类主要方法：
	_load_dataset()：加载数据，数据集初始化时会自动调用这个函数加载数据
	_one_mini_batch：生成一个batch的数据
	_dynamic_padding：动态填充
	word_iter：遍历数据集中所有单词
	convert_to_ids：将数据集中的文本（问题、文档）转化为ids
	gen_mini_batches：为特定数据集生成batch数据

下面简单介绍其中数据处理的关键函数，其余的大家可以自行阅读源代码。

_load_dataset

_load_dataset函数是在BRCDataset类初始化时自动运行，加载训练、验证、测试数据集数据，其代码如下：

def _load_dataset(self, data_path, train=False):
    """
    加载数据集
    Args:
        data_path: 需要加载的数据集的路径
    """
    with open(data_path) as fin:
        data_set = []
        for lidx, line in enumerate(fin):
            # 开始处理单个样本
            sample = json.loads(line.strip())

            if train:
                if len(sample['answer_spans']) == 0:
                    continue
                if sample['answer_spans'][0][1] >= self.max_p_len:
                    continue
            # 答案所在的文档，后面在_one_mini_batch函数中用于计算答案范围的偏置
            if 'answer_docs' in sample:
                sample['answer_passages'] = sample['answer_docs']
            # 问题
            sample['question_tokens'] = sample['segmented_question']
            # 文档
            sample['passages'] = []
            # 遍历每个样本中的文档
            for d_idx, doc in enumerate(sample['documents']):
                if train:
                    # 如果是训练集，处理相对简单，只取预处理中计算的每个文档的最相关段落将其作为 
                    #`passage_tokens`与`is_selected`组成的字典插入`passages`
                    most_related_para = doc['most_related_para']
                    sample['passages'].append(
                        {'passage_tokens': doc['segmented_paragraphs'][most_related_para],
                         'is_selected': doc['is_selected']}
                    )
                else:
                    # 如果不是训练集，则遍历每个段落，计算段落与问题的recall值，
                    #并按照recall和段落长度排序(短的在前)，取前几个段落作为passage_tokens
                    para_infos = []
                    for para_tokens in doc['segmented_paragraphs']:
                        question_tokens = sample['segmented_question']
                        # 计算段落与问题的recall值
                        common_with_question = Counter(para_tokens) & Counter(question_tokens)
                        correct_preds = sum(common_with_question.values())
                        if correct_preds == 0:
                            recall_wrt_question = 0
                        else:
                            recall_wrt_question = float(correct_preds) / len(question_tokens)
                        para_infos.append((para_tokens, recall_wrt_question, len(para_tokens)))
                    para_infos.sort(key=lambda x: (-x[1], x[2]))
                    fake_passage_tokens = []
                    # 取第一个段落作为passage_tokens
                    for para_info in para_infos[:1]:
                        fake_passage_tokens += para_info[0]
                    sample['passages'].append({'passage_tokens': fake_passage_tokens})
            data_set.append(sample)
    return data_set

由代码可见，_load_dataset函数在加载数据的同时对数据集（尤其是校验集和测试集）进行了进一步处理，为样本添加了answer_passages、question_tokens、passages字段，其中passages对于训练集是每个文档中与答案最相关段落的列表，对其他数据集是与问题最相关段落的列表。

gen_mini_batches

gen_mini_batches可以为设定的数据集（train/dev/test）生成数据批次，训练中训练代码会调用这个函数来生成训练数据。

def gen_mini_batches(self, set_name, batch_size, pad_id, shuffle=True):
    """
    为设定的数据集（train/dev/test）生成数据批次
    参数:
        set_name: 数据集名称，使用train/dev/test 指明数据集
        batch_size: 每个批次样本的数量
        pad_id: 填充字符索引
        shuffle: 如果值为真，将数据打乱.
    返回值:
        所有批次的生成器
    """
    if set_name == 'train':
        data = self.train_set
    elif set_name == 'dev':
        data = self.dev_set
    elif set_name == 'test':
        data = self.test_set
    else:
        raise NotImplementedError('No data set named as {}'.format(set_name))
    data_size = len(data)
    indices = np.arange(data_size)
    if shuffle:
        np.random.shuffle(indices)
    for batch_start in np.arange(0, data_size, batch_size):
        batch_indices = indices[batch_start: batch_start + batch_size]
        # 根据索引生成一个样本批次
        yield self._one_mini_batch(data, batch_indices, pad_id)

由代码可见，这个函数主要的功能是选择数据集、打乱数据、确定每个批次样本索引，最终每一个批次数据的生成是调用了_one_mini_batch函数。

_one_mini_batch

_one_mini_batch根据输入的数据和所选索引生成一个数据批次，生成时还根据本批次的最长样本和设置的最大长度对这个批次的样本进行填充。

def _one_mini_batch(self, data, indices, pad_id):
    """
    生成一个批次
    参数:
        data: 所有数据
        indices: 所选样本的索引the indices of the samples to be selected
        pad_id:填充字符索引
    返回值:
        一个数据批次
    """
    batch_data = {'raw_data': [data[i] for i in indices],
                  'question_token_ids': [],
                  'question_length': [],
                  'passage_token_ids': [],
                  'passage_length': [],
                  'start_id': [],
                  'end_id': []}
    # 最大段落数量
    max_passage_num = max([len(sample['passages']) for sample in batch_data['raw_data']])
    max_passage_num = min(self.max_p_num, max_passage_num)
    for sidx, sample in enumerate(batch_data['raw_data']):
        # 遍历1到`max_passage_num`
        for pidx in range(max_passage_num):
            # 如果pidx小于段落数量，即有样本，将样本值赋给batch_data的对应字段
            if pidx < len(sample['passages']):
                batch_data['question_token_ids'].append(sample['question_token_ids'])
                batch_data['question_length'].append(len(sample['question_token_ids']))
                passage_token_ids = sample['passages'][pidx]['passage_token_ids']
                batch_data['passage_token_ids'].append(passage_token_ids)
                batch_data['passage_length'].append(min(len(passage_token_ids), self.max_p_len))
            # 如果没有样本，插入空样本
            else:
                batch_data['question_token_ids'].append([])
                batch_data['question_length'].append(0)
                batch_data['passage_token_ids'].append([])
                batch_data['passage_length'].append(0)
    # 动态填充批次数据，返回样本长度对齐的批次，及填充后的段落、问题长度
    batch_data, padded_p_len, padded_q_len = self._dynamic_padding(batch_data, pad_id)
    for sample in batch_data['raw_data']:
        if 'answer_passages' in sample and len(sample['answer_passages']):
            # 计算答案所在段落偏移，sample['answer_passages'][0]在_load_dataset中创建，是答案所在文档的索引
            gold_passage_offset = padded_p_len * sample['answer_passages'][0]
            # 根据偏移计算答案的起始索引和终止索引
            batch_data['start_id'].append(gold_passage_offset + sample['answer_spans'][0][0])
            batch_data['end_id'].append(gold_passage_offset + sample['answer_spans'][0][1])
        else:
            # 如果没有答案插入0
            batch_data['start_id'].append(0)
            batch_data['end_id'].append(0)
    return batch_data

由代码可以看到，这个函数功能如下：

根据批次索引列表读取该批次的数据并存入raw_data字段。
统计文档最大段落数目，如果超过设定值，取设定值。
将所有文档段落按照最大段落长度进行统一，多的删除，少的补空文档。
调用_dynamic_padding函数对每一个段落进行填充操作，根据最大段落长度，截取或填充。
根据答案所在的段落索引及段落长度计算答案索引偏移量，并计算新的答案索引。
返回batch_data。
所以最终返回的数据是文档中段落数目一致（不超过预设最大段落数目的统一值），段落长度一致（不超过预设最大段落长度的统一值）。

简单调用

import

import sys
import pickle
from run import *

WARNING:tensorflow:
The TensorFlow contrib module will not be included in TensorFlow 2.0.
For more information, please see:
  * https://github.com/tensorflow/community/blob/master/rfcs/20180907-contrib-sunset.md
  * https://github.com/tensorflow/addons
  * https://github.com/tensorflow/io (for I/O related ops)
If you depend on functionality not listed there, please file an issue.

args

sys.argv = []
args = parse_args()
print(args)

Namespace(algo='BIDAF', batch_size=32, brc_dir='../data/baidu', dev_files=['../data/demo/devset/search.dev.json'], dropout_keep_prob=1, embed_size=300, epochs=10, evaluate=False, gpu='0', hidden_size=150, learning_rate=0.001, log_path=None, max_a_len=200, max_p_len=500, max_p_num=5, max_q_len=60, model_dir='../data/models/', optim='adam', predict=False, prepare=False, result_dir='../data/results/', summary_dir='../data/summary/', test_files=['../data/demo/testset/search.test.json'], train=False, train_files=['../data/demo/trainset/search.train.json'], vocab_dir='../data/vocab/', weight_decay=0)

# 创建数据集
brc_data = BRCDataset(args.max_p_num, args.max_p_len, args.max_q_len,
                      args.train_files, args.dev_files)
# 打开词典
with open(os.path.join(args.vocab_dir, 'vocab.data'), 'rb') as fin:
    vocab = pickle.load(fin)
    
# 将样本文本转化为索引ids，并添加到数据集
brc_data.convert_to_ids(vocab)

# 准备参数，生成一个大小为4的批次
import numpy as np
data = brc_data.train_set
data_size = len(data)
indices = np.arange(data_size)
pad_id = vocab.get_id(vocab.pad_token)
batch_start = 0
batch_size = 4
batch_indices = indices[batch_start: batch_start + batch_size]
batch = brc_data._one_mini_batch(data, batch_indices,pad_id)
batch.keys()

dict_keys(['raw_data', 'question_token_ids', 'question_length', 'passage_token_ids', 'passage_length', 'start_id', 'end_id'])

由输出可见batch包含了以下字段：

raw_data：原始数据
question_token_ids：问题符号索引
question_length：问题长度列表
passage_token_ids：文档符号索引
passage_length：文档长度列表
start_id：答案起始索引
end_id：答案终止索引

其具体值如下：

print(batch['question_token_ids'])
print(np.shape(batch['question_token_ids']))
print(batch['question_length'])
print(np.shape(batch['passage_token_ids']))
print(batch['passage_length'])
print(batch['start_id'])
print(batch['end_id'])

[[2, 3, 4, 5, 6], [2, 3, 4, 5, 6], [2, 3, 4, 5, 6], [2, 3, 4, 5, 6], [2, 3, 4, 5, 6], [158, 31, 159, 26, 160], [158, 31, 159, 26, 160], [158, 31, 159, 26, 160], [158, 31, 159, 26, 160], [158, 31, 159, 26, 160], [437, 26, 438, 439, 440], [437, 26, 438, 439, 440], [437, 26, 438, 439, 440], [437, 26, 438, 439, 440], [437, 26, 438, 439, 440], [619, 1, 0, 0, 0], [619, 1, 0, 0, 0], [619, 1, 0, 0, 0], [619, 1, 0, 0, 0], [619, 1, 0, 0, 0]]
(20, 5)
[5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 2, 2, 2, 2, 2]
(20, 443)
[96, 147, 17, 51, 114, 31, 226, 12, 51, 443, 29, 204, 82, 279, 57, 404, 328, 118, 133, 27]
[1772, 4, 5, 445]
[1882, 11, 28, 601]

有输出可见，对于一个样本数量为4的批次，问题数据维度为(20, 5)，文档数据维度为(20, 443)，所以问题与文档的数量都是20，答案数量为4。这是因为加载数据时，代码根据预先设定的最大文档数量5，将每个样本的文档数量填充（空文档）为5个，同时将每个问题复制了5次，因此每个样本对应5个文档及问题。

另外可以看到一个批次中，所有问题与文档都被填充成相同的长度，长度大小取该批次所有文档（问题）的最大长度与预先设定的文档（文本）最大长度中较小的值。

参考文献：

DuReader数据集
DuReader Baseline Systems (基线系统)
BiDAF
Match-LSTM
Match-LSTM & BiDAF

大语言模型微调数据集（2）三更科技公社 AI前沿与LLM chatGPT 语言模型人工智能自然语言处理
CLUE数据集CLUE是一个中文语言理解测评基准，包括分类、命名实体识别和机器阅读理解任务。CLUE中的数据集为JSON格式。对于分类和命名实体识别数据集，我们将JSON格式转换为TSV格式，以便TencentPretrain可以直接加载它们；对于机器阅读理解数据集，我们保留原始格式，并将数据集预处理相关代码放在项目中。分类:数据集链接TNEWS---------------https://sha
将事件抽取看作机器阅读理解（EMNLP2020） Ly大可爱 NLP事件抽取人工智能自然语言处理
1、写作动机：以前的事件抽取方法通常被建模为分类任务，这些任务需要大量数据，并且存在数据稀缺问题。2、用MRC解决事件抽取的优势：1）通过将EE作为MRC，我们可以利用MRC的最新进展(例如，BERT)来增强EE任务，这可能会极大地加强模型中的推理过程。2）我们可以直接利用丰富的MRC数据集来提高EE的性能，这可能会缓解数据稀缺问题(这被称为跨域数据增强)。第二个优势也为零样本EE打开了一扇门:对
Naturali 论文 | 基于多篇章多答案的阅读理解系统奇点机智
——Naturali奇点机智2018机器阅读理解技术竞赛系统报告摘要：机器阅读理解任务一直是自然语言处理领域的重要问题。2018机器阅读理解技术竞赛提供了一个基于真实场景的大规模中文阅读理解数据集，对中文阅读理解系统提出了很大的挑战。为了应对这些挑战，我们在数据预处理、特征表示、模型选择、损失函数的设定和训练目标的选择等方面基于以往的工作做出了对应的设计和改进，构建出一个最先进的中文阅读理解系统。
【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC 辰阳星宇科研论文 prompt 策略模式
Abstract本文对中国高考阅读理解的对抗鲁棒性评价进行了研究。虽然语文阅读理解任务近年来得到了广泛的关注，但以往的方法对这一具有挑战性的数据集并不有效。我们专注于探索快速工程如何影响模型的阅读理解能力。通过使用ChatGLM、GPT3.5和GPT4进行实验，我们发现提示语和LLM阅读理解能力之间存在相关性，提示语工程提高了每种模型的阅读理解能力。我们团队提交了系统评估结果，在三项指标和总分中均
【NLP】第 1 章：机器阅读理解简介 Sonhhxg_柒基于Transformer 的 NLP 人工智能机器学习 python
大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流个人主页－Sonhhxg_柒的博客_CSDN博客欢迎各位→点赞+收藏⭐️+留言系列专栏-机器学习【ML】自然语言处理【NLP】深度学习【DL】foreword✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。如果你对这个系列感兴趣的话，可以关注订阅哟文章目录
(含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(六) Shu灬下雨天
来源:AINLPer微信公众号（每日更新...）编辑:ShuYini校稿:ShuYini时间:2020-03-25引言：本次整理的论文还是主要偏向于机器阅读理解的问答（MRC-QA），其中主要涉及到双向注意流(BIDAF)网络、GatedAttention模型、ASReader模型、问答句子识别、双向注意机制和层次表示学习的关系图神经网络、类人问答系统建立等。论文打包获取方式：关注AINLPer微
BERT-as-service 时隔三年突然更新，这次连名儿都改了 Jina AI 神经搜索全家桶_教程 bert 自然语言处理深度学习图搜索算法神经网络
无需担心复杂的实现细节，只需简单调用API，就可以为文本和图像创建SOTA表征向量。从BERT到BERT-as-service2018年9月，Google一篇BERT模型相关论文引爆全网：该自然语言模型，在机器阅读理解顶级水平测试SQuAD1.1中，连破11项NLP测试记录，两个衡量指标全面超越人类。BERT:Pre-trainingofDeepBidirectionalTransformersf
自然语言处理---Transformer机制详解之BERT模型介绍 lichunericli 自然语言处理自然语言处理 transformer 人工智能
1BERT简介BERT是2018年10月由GoogleAI研究院提出的一种预训练模型.BERT的全称是BidirectionalEncoderRepresentationfromTransformers.BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且在11种不同NLP测试中创出SOTA表现。包括将GLUE基准推高至80.4%(绝对改进7.
用BERT进行机器阅读理解 javastart 自然语言
这里可以找到带有代码的Github存储库:https://github.com/edwardcqian/bert_QA。本文将讨论如何设置此项功能.机器（阅读）理解是NLP的领域，我们使用非结构化文本教机器理解和回答问题。https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=J2RDoRlzkk&ra
The BELEBELE Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants UnknownBody LLM 机器学习深度学习人工智能
本文是LLM系列文章，针对《TheBELEBELEBenchmark:aParallelReadingComprehensionDatasetin122LanguageVariants》的翻译。BELEBELE基准:122种语言变体的并行阅读理解数据集摘要1引言2背景3BELEBELE数据集4实验5结果6讨论7结论摘要我们提出了BELEBELE，一个包含122种语言变体的多项选择机器阅读理解(MR
新科技创业2019 | 「云从科技」：2019年在资本方面或有新进展薇薇安是小仙女
新科技创业2019|「云从科技」：2019年在资本方面或有新进展Q1、2019年第一季度，公司在技术、产品、市场、商业化、融资、团队等方面取得了哪些进展？今年以来，云从科技已经在核心技术领域3次刷新世界纪录，分别在3D人体重建、机器阅读理解、跨镜追踪（Re-ID）技术上取得突破。与国美零售、东风日产数据公司、西南财经大学、老挝外贸银行等在零售、教育、金融等领域达成新的合作，同时发布了新一代“炬眼智
飞桨比赛春季上新啦！40万+奖池等你来拿飞桨PaddlePaddle 百度人工智能大数据编程语言机器学习
点击左上方蓝字关注我们本月，多场飞桨大赛齐上线，无论你是CV领域开发者，还是NLP领域炼丹师，总有一款比赛适合你！CVPRNASworkshop开启双赛道，聚焦神经网络结构搜索（NAS）技术。中国计算机学会(CCF)和中国中文信息学会(CIPS)联合举办语言与智能技术竞赛，赛题涵盖机器阅读理解、多技能对话与多形态信息抽取三个任务方向。更有专门为在校大学生准备的软件设计大赛和智能车竞赛，以及Padd
自然语言处理重点第11章机器阅读理解复习 SiYuanFeng 人工智能自然语言处理自然语言处理
机器阅读理解复习机器阅读理解概述机器阅读(MRC)理解与问答系统(QA)的区别:本章内容：MRC任务分类：完形填空形式（cloze-style）选项形式片段抽取形式（spanextraction）文本生成形式（free-answer/generation）阅读理解实现方法传统特征工程深层语义图匹配深度神经网络神经网络机器阅读理解基本框架嵌入编码：特征提取：文章-问题交互：答案预测：神经网络机器阅读
BERT 论文笔记 EdwardLee
BERT：Pre-trainingofDeepBidirectionalTransformerforLanguageUnderstanding谷歌AI团队发布，在机器阅读理解SQuAD1.1跑出的成绩，在两个指标上全面超越人类。GLUE基准80.04%（7.6%绝对提升），MultiNLI准确率86.7%（5.6%绝对提升）BERT=BidirectionalEncoderRepresentati
机器阅读理解之开山鼻祖Teaching Machines to Read and Comprehend smallBrilliant NLP 文献笔记 nlp
原文链接：TeachingMachinestoReadandComprehend数据的构建命名实体替换例子：TheBBCwillbeclosed将BBC替换成一个entity的标志，比如e01。之后去预测这个entity是哪个。构建了CNN和DailyMail语料库：实体类，答案在原文中。不适用与训练答案推理型的问题。模型架构用两层的LSTM去编码原文和问题AttentiveReader左边对应的
微调BaiChuan13B来做命名实体识别算法美食屋
传统上，一般把NLP的研究领域大致分为自然语言理解（NLU）和自然语言生成（NLG）两种。NLU侧重于如何理解文本，包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等；NLG则侧重于理解文本后如何生成自然文本，包括自动摘要、机器翻译、问答系统、对话机器人等。但是以ChatGPT为代表的大模型出来后，这些传统的NLP的细分研究领域基本可以说都失去了独立研究的价值。为什么呢？因为大模型可以
[论文阅读]Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction Little-yeah 论文阅读自然语言处理人工智能深度学习 nlp
摘要方面情感三元提取（ASTE）旨在识别评论句子中的方面及其相应的意见表达和情绪，是细粒度意见挖掘中的一项新兴任务。由于ASTE由多个子任务组成，包括意见实体提取、关系检测和情感分类，因此适当地捕获和利用它们之间的关联至关重要且具有挑战性。在本文中，我们将ASTE任务转换为多圈机器阅读理解（MTMRC）任务，并提出了一个双向MRC（BMRC）框架来应对这一挑战。具体来说，我们设计了三种类型的查询，
全球新闻数据可视化(3)--新闻文本情感分析小汤爱学习人工智能机器学习
一、Bert模型1、Bert介绍BERT是2018年10月由GoogleAI研究院提出的一种预训练模型。BERT的全称是BidirectionalEncoderRepresentationfromTransformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类，并且在11种不同NLP测试中创出SOTA表现，包括将GLUE基准推高至80.
CMRC 2018 中文数据集 Anunnaki
主要内容AbstractIntroductionTheProposedDatasetEvaluationMetricsExperimentalResultsConclusionOpenChallenge参考论文：《ASpan-ExtractionDatasetforChineseMachineReadingComprehension》正文Abstract本文介绍了一个用于中文机器阅读理解的片段抽取
NLP必读 | 十分钟读懂谷歌BERT模型奇点机智
目录一、前言二、如何理解BERT模型三、BERT模型解析1、论文的主要贡献2、模型架构3、关键创新3、实验结果四、BERT模型的影响五、对BERT模型的观点六、参考文献一、前言最近谷歌搞了个大新闻，公司AI团队新发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4
阅读理解调研及NLP其它任务转化为MRC参考 Quentin_nb 普通人的搬砖日子 python 机器学习自然语言处理人工智能深度学习
阅读理解概述所谓的机器阅读理解（MachineReadingComprehension,MRC）就是给定一篇文章，以及基于文章的一个问题，让机器在阅读文章后对问题进行作答。机器阅读理解（MRC）是一项任务，用于测试机器通过要求机器根据给定的上下文回答问题来理解自然语言的程度。早期的MRC系统是基于规则的，性能非常差。随着深度学习和大规模数据集的兴起，基于深度学习的MRC显著优于基于规则的MRC。一
机器阅读理解 | (2) 文本问答概述 CoreJT 机器阅读理解机器阅读理解文本问答概述
本篇博客主要基于微软亚洲研究院段楠老师的《智能问答》第七章文本问答进行整理。随着互联网的普及和搜索引擎的发展,人们可以越来越方便地从海量信息中检索到大量相关的文本。而海量的信息也催生了文本问答技术的发展,从而可以帮助人们更快速更精确地找到用户所需要的信息片段。在本节中,我们定义文本问答是从互联网或者线下收集的文本集合中,找到可以回答用户问题的文字片段作为答案的任务。目录1.文本问答整体框架2.答案
神经机器阅读理解综述是小橙子呀
本文参考了陈丹琦博士的毕业论文《NeuralReadingComprehensionandBeyond》以及国防科技大的神经机器阅读理解综述《NeuralMachineReadingComprehension:MethodsandTrends》，便于了解神经阅读理解的背景知识、基于深度网络的阅读理解模型和未来的研究趋势。1、背景知识机器阅读理解是指让机器根据给定的文本回答与文本相关的问题，来衡量机
EasyNLP集成K-Global Pointer算法，支持中文信息抽取阿里云大数据AI技术开源技术人工智能深度学习算法
作者：周纪咏、汪诚愚、严俊冰、黄俊导读信息抽取的三大任务是命名实体识别、关系抽取、事件抽取。命名实体识别是指识别文本中具有特定意义的实体，包括人名、地名、机构名、专有名词等；关系抽取是指识别文本中实体之间的关系；事件抽取是指识别文本中的事件信息并以结构化的形式呈现出来。信息抽取技术被广泛应用于知识图谱的构建、机器阅读理解、智能问答和信息检索系统中。信息抽取的三大任务不是相互独立的关系，而是相互依存
EasyNLP集成K-Global Pointer算法，支持中文信息抽取人工智能深度学习算法模型
作者：周纪咏、汪诚愚、严俊冰、黄俊导读信息抽取的三大任务是命名实体识别、关系抽取、事件抽取。命名实体识别是指识别文本中具有特定意义的实体，包括人名、地名、机构名、专有名词等；关系抽取是指识别文本中实体之间的关系；事件抽取是指识别文本中的事件信息并以结构化的形式呈现出来。信息抽取技术被广泛应用于知识图谱的构建、机器阅读理解、智能问答和信息检索系统中。信息抽取的三大任务不是相互独立的关系，而是相互依存
ExpMRC: Explainability Evaluation for Machine ReadingComprehension SU_ZCS nlp 自然语言处理 bert
题目：ExpMRC：机器阅读理解的可解释性评估作者：YimingCui,TingLiu,WanxiangChe,ZhigangChen,ShijinWang发布地方：arXiv面向任务：阅读理解类问答论文地址：https://arxiv.org/abs/2105.04126论文代码：GitHub-ymcui/expmrc:ExpMRC:ExplainabilityEvaluationforMach
ACL2021_ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information All in . 论文笔记 nlp
ChineseBERT：利用字形和拼音信息加强中文预训练摘要介绍相关工作NLP中的大规模预训练模型学习字形信息模型概述输入输出预训练设置数据掩蔽策略预训练细节实验机器阅读理解(MRC)自然语言推断(NLI)文本分类(TC)句子对匹配(SPM)命名实体识别(NER)中文分词(CWS)消融研究字形嵌入和拼音嵌入的效果训练数据大小的影响总结论文源码摘要目前的中文预训练模型忽略了汉字特有的两个重要方面：字
深度学习技术在机器阅读理解应用的研究进展 stay_foolish12 阅读理解深度学习机器阅读理解
深度学习解决机器阅读理解任务的研究进展:https://blog.csdn.net/malefactor/article/details/52832134深度学习技术在机器阅读理解应用的研究进展:https://www.imooc.com/article/30060/*版权声明：可以任意转载，转载时请标明文章原始出处和作者信息.*/author:张俊林关于阅读理解，相信大家都不陌生，我们接受的传统
SQuAD文本理解挑战赛十大模型解读 stay_foolish12 机器学习阅读理解 SQuAD 文本理解
教机器学会阅读是近期自然语言处理领域的研究热点之一，也是人工智能在处理和理解人类语言进程中的一个长期目标。得益于深度学习技术和大规模标注数据集的发展，用端到端的神经网络来解决阅读理解任务取得了长足的进步。转载：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/79056446本文是一篇机器阅读理解的综述文章，主要聚焦于介绍公布在SQuAD
【论文笔记】QBSUM: 基于查找的文本摘要数据集啦啦伟vv 论文笔记自然语言处理神经网络深度学习 nlp
QBSUM:aLarge-ScaleQuery-BasedDocumentSummarizationDatasetfromReal-worldApplications论文下载地址https://arxiv.org/abs/2010.14108v2摘要基于查询的文档摘要旨在提取或生成直接回答或与搜索查询相关的文档的摘要。这是一项重要的技术，可以有益于各种应用程序，例如搜索引擎、文档级机器阅读理解和聊
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round