[论文阅读笔记69]医学术语标准化-CODER

1. 题目

CODER: Knowledge infused cross-lingual medical term embedding for term normalization
Zheng Yuan团队
CODER: contrastive learning on knowledge graphs for cross-lingual medical term reprensentation.
跨语言医学术语表示的知识图对比学习

2. 贡献

  1. 提出了KG的对比训练模型;
  2. 对现有医疗嵌入进行评估。zero-shot术语标准化、医学概念相似性度量和概念关系分类任务中实现了最先进的结果( state-of-the-art);
  3. CODER是第一个跨语言的医学术语表示,支持英语、捷克语、法语、德语、意大利语,日语、葡萄牙语、俄语、西班牙语、荷兰语和汉语。

3. 方法

定义基于嵌入的术语规范化任务以及如何嵌入术语;然后引入KG对比学习进行项归一化。

  1. 提出了对kg的两术语和关系三元组的对偶对比学习。
  2. 术语关系项相似度是术语关系(ℎ,r)和术语(t)之间的相似度。

3.1 基于嵌入术语正则化

image-20220121164655537

即是把术语向量化,然后计算cos距离,选择最大的那个标准术语作为最后的结果;

3.2 术语表达

image-20220121164923723

初始化PLM: PubMedBERT [17] ,mBERT [12];

术语表示,方法1:采用[CLS]的向量来表示;image-20220121165029323

方法2:采用平均pooling来表示:image-20220121165200428

3.3 同义词的对比学习框架

正样本主要是来自图谱:term-term对;term-relation-term对;

label定义:

image-20220121174245563

术语相似性定义:

image-20220121174412757

相关技术

a. 医学嵌入

  1. 词嵌入[9,30,38];
  2. 概念嵌入[3,6,10,11,52,56];
  3. 上下文嵌入[2,4,17,20,21,26,42,56]。

Word和概念嵌入在评估相似性方面具有良好的基础性能,但面临OOV问题,不能处理临床文本中普遍存在的拼写错误。
基于PLM的上下文嵌入可以通过使用子单词token来缓解OOV问题,但如果不进行微调,它们在评估相似性方面的性能就会弱于单词和概念嵌入。

SapBERT(基于UMLS训练) [32],
mBERT(跨语言)[12]:将不同语言的文本编码到一个统一的空间中.

词嵌入:word2vec model[36],使用医学语料[9, 30, 38];

概念嵌入:从emr或生物医学论文中识别出的医学概念序列被认为是句子,用word2vec[6,10,11,52]训练并进行嵌入;

​ Cui2vec [3]:将 CUI-CUI之间的逐点互信息PMI(Pointwise Mutual Information)矩阵分解,得到嵌入; PMI可以衡量两变量之间的相关性。

​ Zhang et al. [56] :提出概念上下文嵌入和UMLS关系语料库的训练。

医学上下文嵌入(医学语料):BERT [2, 4, 17, 20, 26, 42];

​ Jin et al. [21]:BioELMo;SapBERT[32]:关于UMLS同义词的自对齐预训练

b. 医学术语标准化

  1. 分类方法;
    生成术语的隐藏表示,并使用softmax层将术语分类为概念。
    编码模型(CNN, RNN, or PLM); attention机制使用来获取重要的字或字符;
    这个方法只能用类别,不能用到语义信息。
  2. 排名方法;
    排序方法通过训练术语和候选目标术语之间正负样本对,来预测他们相似度而进行排序。例如 DNorm [25]是能过TF-IDF vectors来计算相似性;Li et al. [28] 使用CNN编码,NSEEN [14]使用 siamese LSTM;BNE [45]编码术语,概念,上下文;Pattisapuet al. [41] 通过graph embeddings; BIOSYN [49]使用TF-IDF 与 BioBERT [26];【这些都是英文的】
    Niu et al. [39]构建中文医学概念标准库;另外还有基于翻译的方法在进行 [1, 43, 47]。

c. 对比学习

**[16]:**对于NLP,DeCLUTR[16]从同一文档中收集positive的句子对。
CERT [15]: 创建句子对;
SapBERT [32]:使用UMLS的同义词对作为正样本;

损失函数也对比学习一块很关键的内容:
Triplet loss [19] 最小化正负样本对的关系距离;
InfoNCE[40]认为一小量批次的其它样本作为负样本对;

Multi-Similarity loss (MS-loss) [53]:多维相似损失;

参考

【1】githut:https://github.com/GanjinZero/CODER
【2】Zheng Yuan, Zhengyun Zhao, Haixia Sun, Jiao Li, Fei Wang, and Sheng Yu. 2021. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. In Proceedings of ACM Conference (Conference’17).
ACM, New York, NY, USA, 11 pages.https://arxiv.org/pdf/2011.02947.pdf
【3】Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng, Marco Basaldella, and Nigel Collier. 2020. Self-alignment Pre-training for Biomedical Entity Representations. arXiv
preprint arXiv:2010.11784 (2020).

你可能感兴趣的:(NLP,人工智能,机器学习,算法)