Raphael9900

李宏毅深度学习HW7

李宏毅深度学习---HW7

1、任务介绍
2、数据集
3、词语划分
- - 为什么长段落是一个问题？
4、训练数据窗口划分
5、测试数据窗口划分
6、提示
- - （1）线性学习速率衰减
  - （2） stride
  - （3）预处理
  - （4）其他预训练模型
  - （5）后加工
  - （7）自动混合精度
  - （8）梯度累积
7、实验
- （1）Simple Baseline (Acc>0.45139)
- （2）Medium Baseline (Acc>0.65)
- （3）Strong Baseline (Acc>0.78136)

1、任务介绍

使用BERT模型，微调用于下游任务，解决从文章提取答案的问答题。

2、数据集

ARCD：增量阅读理解数据集
ODSQA：开放域口语问题回答数据集
●train： DRCD + DRCD-TTS ○10524段，31690个问题
●dev： DRCD + DRCD-TTS ○1490段，4131个问题
●test： DRCD + ODSQA ○1586段，4957个问题
训练数据集含有答案：

测试数据集没有答案：

3、词语划分

把句子断词，然后转换成代码才能传到模型训练。

文章和问题输入之前要用一些特殊符号，[PAD]表示文章不够长时的占位符。传进模型有两段文字时使用token_type_ids，用0表示前一段文字，1表示后一段文字，[PAD]用0表示。attention_mask表示我们希望模型学习attention的位置，用1表示，[PAD]用0表示，不学习。

为什么长段落是一个问题？

总序列长度=问题长度+段落长度+3（特殊标记）。
BERT的最大输入序列长度被限制为512，为什么？变压器中的➔transformer中的自注意具有（ O（n²））的复杂度，因此，我们可能无法处理整个段落。我们能做什么？
在训练集中的数据长度一般都是位于300-400之间，但是也有很长的到1200。

解决方法分为训练和测试数据的方案：

4、训练数据窗口划分

我们知道在训练中答案在哪里！
假设：回答这个问题所需的信息可以在答案附近找到！
简单的解决方案：只要在答案周围画一个窗口（尽可能大）！
例如，窗口大小为= max_paragraph_len = 32。

5、测试数据窗口划分

我们不知道答案是在测试分裂到窗口！
答案可能不在中间，而在窗口的两边，这样我们怎么做呢？如果每个划分的句子之间是没有重叠的，那如果答案分布在两个句子里面怎么办？所以我们希望句子之间可以设置重叠，然后根据下面的总分数得到答案的位置。

6、提示

（1）线性学习速率衰减

方法1：手动调整学习率
这种方法需要注意学习率不能是太明显的复数

Decrement optimizer.param_groups[0][“lr”] by learning_rate / total training step per step

方法2：通过调度程序自动调整学习速率

（2） stride

doc_stride：两个连续窗口的起始位置之间的距离
doc_stride在示例代码中被设置为“max_paragraph_len”（即没有重叠），如果答案是在窗口的边界附近或跨窗口怎么办？提示：重叠窗口。

（3）预处理

提示：如何防止模型学习到它在训练过程中不应该学习的东西？（即答案并不总是靠近窗口的中间）

        ##### TODO: Preprocessing #####
        # Hint: How to prevent model from learning something it should not learn

        if self.split == "train":
            # 将paragraph_text中答案的开始/结束位置转换为tokenized_paragraph中的开始/结束位置 
            answer_start_token = tokenized_paragraph.char_to_token(question["answer_start"])
            answer_end_token = tokenized_paragraph.char_to_token(question["answer_end"])

            #通过对包含答案的段落部分进行切片来获得单个窗口
            mid = (answer_start_token + answer_end_token) // 2
            paragraph_start = max(0, min(mid - self.max_paragraph_len // 2, len(tokenized_paragraph) - self.max_paragraph_len))
            paragraph_end = paragraph_start + self.max_paragraph_len
            
            # 分割问题/段落并添加特殊标记(101: CLS, 102: SEP)
            input_ids_question = [101] + tokenized_question.ids[:self.max_question_len] + [102] 
            input_ids_paragraph = tokenized_paragraph.ids[paragraph_start : paragraph_end] + [102]		
            
            # 将tokenized_paragraph中答案的开始/结束位置转换为窗口中的开始/结束位置
            answer_start_token += len(input_ids_question) - paragraph_start
            answer_end_token += len(input_ids_question) - paragraph_start
            
            # 填充序列并获得模型输入
            input_ids, token_type_ids, attention_mask = self.padding(input_ids_question, input_ids_paragraph)
            return torch.tensor(input_ids), torch.tensor(token_type_ids), torch.tensor(attention_mask), answer_start_token, answer_end_token

（4）其他预训练模型

可以在里面找到。

（5）后加工

如果预测的end_index <预测的start_index怎么办？

在evaluate函数中，可能出现预测的start index比end index大的情况，要添加代码修复。

（7）自动混合精度

●PyTorch训练默认使用32位浮点（FP32）算法
●自动混合精度（AMP）使自动转换某些GPU操作，从FP32精度到半精度（FP16）。
●提供约1.5-3.0倍的速度，同时保持精度。

警告：仅适用于某些gpu（如T4、V100)

（8）梯度累积

当gpu内存不足，但您想使用更大的批量大小
●将全局批量分割成更小的小批
●为每个小批量：累积梯度而不更新模型参数
●更新模型参数

7、实验

（1）Simple Baseline (Acc>0.45139)

保持不变：

（2）Medium Baseline (Acc>0.65)