Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:Mention Memory: incorporating textual knowledge into Transformers through entity mention attention
模型名称:TOME (Transformer Over Mention Encodings)

ArXiv网址:https://arxiv.org/abs/2110.06176
OpenReview网址:https://openreview.net/forum?id=OY1A8ejQgEX

官方代码:https://github.com/google-research/language/tree/master/language/mentionmemory

本文是2022年ICLR论文,作者来自南加州大学和谷歌。

本文也是关注如何在LM中引入实体知识。

mention memory:语料库中所有entity mention的表征(在使用LM时是冻结的)
TOME是从这个实体表征库里检索除稠密向量,然后融合到LLM中

模型能在未出现的实体上表现出泛化能力。

这篇读得比较简陋,很多内容还没看懂。只写了一些我认为比较重要且看懂了的要点。

文章目录

  • 1. 研究背景与研究内容
    • 1. MemoryAttention
    • 2. ANNS
    • 3. Mention Encoder预训练
    • 4. TOME预训练
  • 2. 实验
  • 3. 其他

1. 研究背景与研究内容

以前的方法:virtual knowledge base (VKB)构建实体mention的稠密表征以反应关系

本文将VKB应用于LM,作为外部知识库

TOME:mention encoder→构建英文维基百科中150M实体mention的表征库(mention memory)→通过sparse attention的方式将实体表征结合到Transformer中

Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第1张图片

优势是不用对输入文本进行特殊处理,不用检索阅读长文本,省时间,而且也不用受上下文长度限制。而且不用监督信息(也可以监督)。

直接联合训练代价太大了,所以是分两步训练的:Mention Encoder(得到Mention Memory)→TOME
TOME中输入文本用NER系统对每个mention加了特殊tokens:What is the [Estart] nationality [Eend] of the [Estart] hero [Eend] who killed [Estart] Medusa [Eend]

span的表征是开头和结尾表征的线性转换:
在这里插入图片描述

TOMEBlock:
在这里插入图片描述

TOME:
在这里插入图片描述

TOME-1 & TOME-2

1. MemoryAttention

在这里插入图片描述
Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第2张图片

2. ANNS

3. Mention Encoder预训练

加了个TOME尾巴进行预训练

预训练目标:MLM+指代消解(根据表征相似性)

4. TOME预训练

预训练目标:预测实体
在这里插入图片描述

Disallowed same passage retrieval:删掉同文实体

2. 实验

claim verification:判断维基百科是否支持某一claim
没有使用参考检索章节

Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第3张图片

QA:只要有实体的

Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第4张图片

Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第5张图片

Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第6张图片

memory尺寸越大,效果越好:
Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第7张图片

零样本泛化能力:
Re57:读论文 Mention Memory: incorporating textual knowledge into Transformers through entity mention at_第8张图片

3. 其他

这个附录里面ANNS这块我还挺感兴趣的,但是有点太底层了,如果以后需要研究的话可以回来看看。

看了一下openreview上的评价,有两点比较在乎:

  1. Reviewers generally found the paper is solid. However, the novelty appears to be limited and is mainly in the combination of existing models. … 还行吧这还不够novel
  2. 在这里插入图片描述
    这个Bender rule我去查了一下,意思是说,不要以为研究英语就能代表研究所有语言了,如果你的论文只研究了英语,你应该指明你只研究了英语。
    (打击文化霸权,我辈义不容辞!)
    参考资料:NLP被英语统治?打破成见,英语不应是「自然语言」同义词(原文:https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/)

你可能感兴趣的:(人工智能学习笔记,人工智能,深度学习,RAG,实体识别,LLM,大规模预训练语言模型,自然语言处理)