周论文速读(一)

一、QMUL-SDS at CheckThat! 2020: Determining COVID-19 Tweet Check-Worthiness Using an Enhanced CT-BERT with Numeric Expressions

这是一篇比赛分享类的论文,介绍了QMUL SDS队参与CLEF 2020 任务1比赛的经验。这项任务的目的是确定确定Covid-19的推文的真实性需要被核查的优先级。该任务设立的目标是为了保护公众免受假新闻的侵害,并帮助人们获取可靠的信息。论文使用了一种数字表达式增强的Covid Twitter-BERT(CT-BERT)的CNN,实验结果表明,该方法可以有效地提高基线结果的性能。

论文的任务其实就是一个推特发帖检测是否是假新闻的一个二分类,论文的主体模型就是BERT+CNN,BERT在任务数据集上进行了再次预训练

周论文速读(一)_第1张图片

论文对他们在比赛中使用的各种trick和实际取得的效果进行了介绍,主要使用了以下几种操作:

  • 对特文中的账号、标签、URLs和数字用特殊标签代替
周论文速读(一)_第2张图片
  • 对一些词进行表达的归一化
周论文速读(一)_第3张图片
  • 引入外部数据集
论文中做了下面几种实验
周论文速读(一)_第4张图片
  • 验证集上的效果图:
周论文速读(一)_第5张图片
  • 测试集上的效果图
周论文速读(一)_第6张图片

其他思路没什么好介绍的,主要是模型1、2和3的思路,模型1的思路各种trick都用,但是可以看出在验证集上效果好,测试集上差,作者认为可能是泛化的原因。模型2是仅将数字进行特殊标签化,其他直接从文本中删除。

周论文速读(一)_第7张图片

将数字特征符号化的有效性其实看模型6和模型8的对比更能看出来

最后模型3是将外部数据集中的负样本引入,作者发现仅引入负样本比全部数据引入效果更好,估计提升更多来自分布的平衡而不是数据本身

周论文速读(一)_第8张图片
任务数据集CLEF和外部数据


二、 Embedding-based Retrieval Facebook Search

这篇各种公众号上已经看过了,所以基本就是扫了一下原文复习一下

相对于传统的网页搜索,社交网络中的搜索问题不仅需要关注输入 query 的信息,还需要考虑用户的上下文信息,在 Facebook 搜索场景中用户的社交图网络便是这种上下文信息中非常重要的一部分。

怎么把各式各样的信息进行融合呢?

虽然语义检索技术(Embedding-based Retrieval,EBR)在传统的搜索引擎中得到了广泛应用,但是 Facebook 搜索之前主要还是使用布尔匹配模型,本文就来谈谈如何将 Embedding 检索技术应用在 Facebook 搜索场景中。

文中共介绍了三方面的经验:

  1. 提出了一套统一的 embedding 框架用于建模个性化搜索中的语义
  2. 提出了基于经典的倒排索引进行在线 embedding 检索的系统
  3. 讨论了整个个性化搜索系统中很多端对端的优化技巧,例如最近邻搜索调参经验、全链路优化等

最后,在Facebook 垂直搜索场景下验证了本文方法的有效性,在线上 A/B 实验取得了显著的收益。

周论文速读(一)_第9张图片


三、MarkedBERT: Integrating Traditional IR Cues in Pre-trained Language Models for Passage Retrieval

如果看过Matching the Blanks: Distributional Similarity for Relation Learning和R-BERT论文的话,估计就觉得论文挺水的了,就是在原来做bert的基础上,把query和Doc共现的term两边加上特殊符号。

  • 基础的BERT做法:
  • MarkedBERT:
周论文速读(一)_第10张图片
Training过程设置

BERT模型为12层的base模型,训练的batch_size为32,最大长度为512,使用Adam优化器,初始学习率设为3e−6,并且线性衰减,Dropout Rate为0.1,模型最终训练2个epoch。避免模型偏向于预测不相关的标签,对数据集进行采样,平衡相关与不相关的q-p pair对比例。

实验结果
周论文速读(一)_第11张图片

你可能感兴趣的:(周论文速读(一))