BERT-based Lexical Substitution论文阅读

摘要:

之前的词汇替换是通过查询目标词汇的同义词来实现的(e.g. WordNet), 然后基于文本对候选词打分。这种方法有两个限制:

  1. 忽略了不是同义词的但是效果很好的候选词汇

  2. 没有考虑同意替换对整个文本的影响

主体:

对目标词进行embedding dropout,使得可以平衡目标词的语义信息和上下文信息。

如果完全遮盖,返回的候选词可能与原词意思不同,却能满足上下文信息;

如果不遮盖,返回的候选词大约99.99%会预测到原词。

计算相似度时,将BERT前四层的表示做拼接来计算相似度。

推荐时使用了词的似然和句子的余弦相似度求和:

 

Reference:

Zhou, W., Ge, T., Xu, K., Wei, F., & Zhou, M. (2019, July). BERT-based lexical substitution. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 3368-3373).

你可能感兴趣的:(算法,论文阅读,自然语言处理)