生物医学文献挖掘的最新进展

Recent advances in biomedical literature mining

1. Introduction

相较于其他的生物医学资料,生物医学文献具有以下特征
(1)可获得性:可从公开可用的数据库 MEDLINE 和免费搜索引擎 PubMed 中获得;
(2)专业性:往往使用专业术语;
(3)多样性:相同的概念有多种不同的表达方式;
(4)长度:新的生物医学知识的内容可能会很长,而且不尽相同。

生物医学文献挖掘(Biomedical literature mining,BLM)是指开发文本挖掘自然语言处理(Nature language processing,NLP)技术从生物医学文献中自动提取和挖掘知识的领域。BLM 技术已成功应用于生物医学文献检索、生物医学问答、临床决策支持等领域。

在过去的十年中,来自生物医药信息学(Biomedical informatics,BMI)和计算机科学(Computer Science,CS)的研究人员在 BLM 领域做出了巨大的贡献。一般来说,BMI 社区往往更多地关注具体的应用问题,使用更具解释性和描述性的方法;CS 社区则更追求卓越的性能和泛化能力,从而开发出更复杂、更通用的模型,致力于开发新算法。

近年来,深度学习技术发展迅速,在包括 NLP 在内的各种学科中显示出强大的潜力。深度学习模型,如长短期记忆(Long Short-Term Memory,LSTM)、卷积神经网络(Convolutional Neural Networks,CNN)和来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)是命名实体识别(Named Entity Recognition,NER)和关系提取(Relation Extraction,RE)等 NLP 任务中的 SOTA(state-of-art)方法。

本文旨在综述 BLM 的最新进展,特别是各种深度学习技术。

图1 PRISMA 流程图:BLM 的最新进展

分为五个不同的部分展开:生物医学命名实体识别与归一化(BioNER,BioNEN)、生物医学文本分类生物医学关系提取(RE)、路径提取假设生成

BioNER 和 BioNEN 是从生物医学文献中提取有意义和有趣的实体的最基本任务;
RE 可以识别实体之间的关系;
生物医学文本分类对于生物医学文章分类和索引等任务至关重要;
路径提取可以合并连接关系,并通过整合它们来生成路径;
假说生成通过从生物医学文献中产生关于新的潜在的生物医学发现的假说。

在这些任务中,BioNER 和 BioNEN 以及生物医学文本分类是其他任务的基础,是实现包括 RE 在内的其他下游任务的必要步骤。路径提取假设生成通常是在 RE 之上进行的。图2 说明了这些不同任务之间的层次关系。

图2 BLM 不同任务的层次结构

表1 总结了这些任务所实现的 SOTA 性能及其相应的模型。

表1 文章中不同任务的 SOTA 研究

2. BioNER 与 BioNEN

生物医学命名实体识别(BioNER):为了将生物医学文献中的非结构化文本结构化以便于进一步分析,一个根本的任务是准确识别读者感兴趣的各种生物医学实体,如化学成分、基因、蛋白质、药物、疾病、症状等。
有效的 NER 在一般的 NLP 中已被广泛研究,BioNER 也是如此。BioNER 将文本中的实体识别为预定义的类别(例如疾病、化学物质、基因等),是许多下游分析任务的基础,例如搜索引擎进行索引、组织和链接生物医学文档,从生物医学文献中挖掘实体关系等。

BioNER 与 BioNEN 意义:由于高质量的标签数据较少,以及文本中使用语言的多变性(缩写、非标准化名称(如药物名称)、冗长的描述性信息等等),构建高性能(此处高性能以精确度和召回率等衡量)的 BioNER 系统是相当具有挑战性的,BioNEN 也成为一项关键任务。

2.1 任务定义

BioNER 与 BioNEN 的目标
BioNER 的目标是从文本中找到提到生物医学实体的界限
BioNEN 的目标是将获得的生物医学命名实体映射受控词汇表中。

BioNER 与 BioNEN 的关系
一方面,NEN 可以被认为是 NER后续任务,因为归一化通常是针对 NER 的输出结果进行的;
另一方面,NERNEN 都可以看作是序列标注问题

图3 展示了 BioNERBioNEN 任务的一个例子:
输入:Takotsubo syndrome secondary to Zolmitriptan(包含1个疾病名称 Takotsubo syndrome 和1个化学名称 Zolmitritan);
输出:该句子中每个单词的 B-I-O(Begin-Inside-Outside)标记和每个生物医学实体的 ID

图3 生物医学 NER 和 NEN 任务的一个例子

B-I-O 标记:将元素进行定位和分类,将每个元素标注为 B-X、I-X 或者 O。其中,B-X 表示此元素所在的片段属于 X 类型并且此元素在此片段的开头;I-X 表示此元素所在的片段属于 X 类型并且此元素在此片段的中间位置,O 表示不属于任何类型。
比如,将 X 表示为名词短语(Noun Phrase, NP),则 B-I-O 的三个标记为:
(1)B-NP:名词短语的开头
(2)I-NP:名词短语的中间
(3)O:不是名词短语https://blog.csdn.net/HappyRocking/article/details/79716212

2.2 BioNER 方法

传统的 BioNER 方法大致可以分为三类:基于词典的方法、基于语义的方法和统计方法。
基于词典的方法使用术语匹配策略在文本中查找出现在词典中的相同实体,因此该方法很难推广到识别词汇表之外的实体;
基于语义的方法需要丰富的领域知识来构建识别命名实体的规则或模式;
统计方法将 NER 视为一个分类问题,并训练统计模型(如决策树或支持向量机,或基于马尔可夫模型的序列标注方法,如 HMM 和 CRFS)来实现目标。
深度学习技术可以在没有其他特征工程的情况下以端到端的方式进行训练,因此现在常用于 NER

图4 展示了 NER 的典型神经网络模型,该模型由以下几层组成:
字符级嵌入:将每个单词中的每个字符表示为一个向量
CNN 层:对每个字符中编码形态和词汇的信息进行特征提取,最终输出每个词的向量;
双向长短期记忆网络层(Bi LSTM):对医学文本的长期依存结构进行建模,为序列中每个单词计算两个单独的潜在嵌入向量,捕捉单词序列的正向和反向语义依存关系,最后将这两个向量连接起来;
解码层:通过仿射变换转换 BiLSTM 含义
CRF 层:单词序列的似然计算

图4 BioNER 任务的神经网络模型,其中字符级嵌入被组合为一个向量,然后连接起来形成预先训练的单词嵌入。

最近在 NLP 中流行的一个特定模型是 BERT 模型,其中主要的组成是TransformerTransformer使用注意力机制学习句子中单词间的上下文关系,由对文本输入进行编码的编码器和预测特定任务标签的解码器两个组件组成。BERT 是一种新型Transformer,在所有的注意力层中同时考虑左文和右文,预先训练来自未标记文本深层的双向标记。

BERT预训练微调两个步骤:
预训练过程中,模型通过预测文本中的掩蔽标记预测下一个句子等不同的预训练任务对大量未标记文本进行训练,与传统的从左到右的语言建模目标不同,BERT 的预训练包含预测随机的掩蔽标记预测两个句子是否相连两个目标,这种设置与以前的从左到右或以双向顺序对文本序列进行编码语言的建模研究非常不同;
微调过程中,首先使用预训练的参数来初始化 BERT 模型,然后使用来自下游任务的标记数据来微调所有参数。

图5 BERT 的整体训练框架,包括预训练和微调过程,使用相同的多层架构(除了输出层)进行预训练和微调

Attention:https://zhuanlan.zhihu.com/p/43493999
Transformer:https://zhuanlan.zhihu.com/p/44121378
BERT:https://zhuanlan.zhihu.com/p/46652512

BERT 可以通过将每个标记的输出向量反馈到预测 NER 标签的分类层训练 NER 模型。Beltagy 等提出了一种基于 BERT 预训练的科学文本上下文嵌入模型 SciBERT,在 BioNER 基准的 BC5CDR 和 NCBI-DISTY 数据集上都取得了 SOTA BioNER 的性能。BioBERT 利用 PubMed 的文章摘要和全文中的生物医学文本训练了一个 BERT 模型,发现 BioBERT 可以提高 BioNER 等生物医学 NLP 任务的性能。Peng 等人介绍了生物医学语言理解评估的基准,并对几条基线进行了评估,发现在 PubMed 摘要和 Mimic-III 临床记录上预训练的 BERT 模型在 BioNER 上取得了最好的效果。

2.3 BioNEN 方法

BioNEN 往往假设命名实体已经被识别,并将重点放在开发归一化技术上。将 BioNEN归一化视为两个独立的过程,BioNEN 的精度直接影响归一化的性能。
例如,Kang 等人应用基于规则的 NLP 技术,改进了生物医学文本中疾病的归一化。Leaman 等人开发了一个名为 DNorm 的系统,通过对级排序学习对基于 CRF 的排序方法进行疾病名称归一化。Lee 等人利用一种用于医学名词的字典查找方法。

2.4 BioNER 和 BioNEN 的联合建模方法

近年来,由于 BioNERBioNEN 之间的相互依赖关系,人们对它们的联合建模进行了研究。

学术研究者提出了许多方法,例如:
Semi-CRF :用于联合实体识别歧义消除,其中 Viterbi 译码用于分配词性标签,同时归一化非标准化标记;
半马尔可夫模型:用于关节疾病实体的识别和规范化;
联合评分功能:使用精确推理动态编程阻止非本地的特征:Leaman 等人通过将两个独立的机器学习模型集成为一个,开发了一种高性能的化学命名实体的 Recognizer 和 Normalizer;Lou 等人提出了一种基于转移的疾病 NER 和归一化联合执行模型,将输出构建过程转化为增量状态转移过程
Zhao 等人进一步提出了一种具有显式反馈策略的深层神经多任务学习框架,结合了从低级任务(生物医学 NER)到高级任务(生物医学 NEN)的反馈策略,使任务层次结构转换为并行模式成为可能,同时保持了任务之间的相互支持。

2.5 挑战

精确的 BioNER 和 BioNEN 面临着许多挑战:
(1)同一实体的大量同义词替代表达导致了词汇量的爆炸性增长;
(2)许多实体涉及长序列标记,使得准确检测边界变得更加困难;
(3)实体的非标准化缩写一词多义或歧义。

BioNER:嵌套实体在生物医学文本中很常见,其中不同的生物实体由彼此组成,然而目前的 BioNER 研究通常只关注最外层的实体。

BioNEN:即使在某些情况下可以将归一化任务视为数据库查找,但通常无法做到精确匹配。主要原因是生物医学术语有很多变体:第一种是句法变化,其中所识别的实体与其在参考集中存在的规范形式包含相对较小的字符差异,例如不同的大小写、单词的重新排序、打字错误或错误(例如:FOXP2 和 FOX-P2);第二种是同一生物医学术语的不同形式,如同义词和缩略语;第三种是语义变异,即使在采用外部知识库来获得生物医学实体的同义词时,识别的实体也不存在于参考集中。

3. 生物医学文献分类

文本分类问题在 NLP 领域得到了广泛的研究。在这一部分中,我们将回顾 BLM 中的文本分类研究。

3.1 任务定义

有两种典型的生物医学文献分类任务,相关主题识别生物医学文献索引相关主题识别确定生物医学出版物是否与给定主题相关,生物医学文献索引将一组术语分配给每一篇特定的生物医学文章,以表示文章中提到的概念。

3.2 生物医学文献分类方法

传统的相关主题识别研究采用经典的机器学习模型,如有监督机器学习模型、排序模型和本体匹配模型来实现这一目标。

给生物医学文章分配 MeSH 术语本质上是一个多标签分类问题,将每个 MeSH 术语看做一个二进制分类任务,因此可以使用机器学习分类模型对生物医学文献进行分类。

3.3 深度学习的最新进展

深度神经网络的最新进展已被建立为生物医学文本分类的 SOTA 模型。传统的有监督机器学习模型需要人工特征工程,而深度学习模型可以直接接受原始文本输入,并以端到端的方式工作。

许多基于深度学习方法的网格索引模型已被提出,通常包括两个模块:(1)神经网络用于产生每个网格项的似然分数;(2)分类器用于确定该项是否相关。

不同的神经网络结构已经被采用,包括多层前馈神经网络、卷积神经网络(CNN)、RNN、预训练的深度神经语言模型(如 BERT 和 ELMO)、基于注意力的模型。值得一提的是,FullMeSH 模型为每个部分训练了一个基于注意力的 CNN,在不频繁的网格标题上取得了 SOTA 性能。

3.4 挑战

尽管生物医学文本分类是一个经典的课题,但仍然存在一些尚未完全解决的挑战:
(1)标签空间很大:有超过 29000 个网格术语用于索引生物医学文章,使得在如此大的空间中进行高效的多标签学习变得困难;
(2)标签之间的关系比较复杂
(3)标签存在偏差:真实标签在训练数据集上很难精确,可能会影响学习的分类器的质量,创建准确而公正的训练数据集是一个挑战。

4. BioRE

4.1 任务定义

生物医学关系抽取(BioRE)是指对正文中不同的生物医学概念之间的关系进行检测和分类,目标是检测实体对之间出现的预先指定类型的关系。与生物医学实体的类型相比,实体关系的类型更加多样。图6 给出了生物医学实体关系抽取的任务示例,输入是一组句子,输出是一组识别的关系

图6 BioRE 的一个示例。在这篇文章中,有三个生物医学实体同时出现。BioRE 过程将这些实体组装起来,并确定每一对是否存在特定的关系。

现有的关于 BioRE 的研究很多。基于模板/规则的方法使用领域专家的模式(通常是正则表达式的形式)从文本中提取关系和相关概念;自动模板构建方法通过检查概念对周围的文本模式自动创建关系模板;统计方法通过寻找经常同时出现的概念识别这些关系;基于 NLP 的方法执行句子解析,以将文本分解成便于从中提取关系的结构。

4.2 不同关系抽取任务的方法

将生物医学关系提取分为4类:蛋白质-蛋白质相互作用(protein-protein interactions,PPIs)基因型-表型关系(genotype-phenotype relations,GPA)化学-蛋白质相互作用(chemical-protein interactions,CPI)药物-药物相互作用(drug-drug interactions,DDI)

4.2.1 蛋白质-蛋白质相互作用(protein-protein interactions,PPIs)

PPI 对于理解复杂的疾病机制和设计适当的治疗方法是必不可少的。现有的 PPI 提取方法有基于规则的自动的。其中,共现就是基于规则的一种方法。这些方法假设,如果两个蛋白质在同一句子/摘要中同时出现,它们可能会相互作用。这些方法的一个潜在问题是,它们的假阳性率往往很高。后来的研究使用了人工指定的规则,可以大大降低假阳性率,但召回率低

最近,机器学习方法被用于自动提取 PPI。通过从标注文本中学习语言规则,机器学习技术在降低误报率和提高覆盖率方面都优于基于规则的方法。例如,Huang 等开发了一种动态规划算法,从词性标记器中提取带有词性标签的句子的模式;Kim 等人开发了一种基于核的方法来学习基因和蛋白质-蛋白质相互作用模式;Chowdhary 等人提出了一种基于贝叶斯网络的非结构化文本 PPI 三元组提取方法;Yu 等人提出利用 NLP 技术提取的每个 PPI 三元组之间的语法关系,构造基于最短路径的特征来构建 PPI 提取的分类器。

4.2.2 基因型-表型关系(genotype-phenotype relations,GPA)

从生物医学文献中识别 GPA 在精确医学中起着核心作用。关于物种类型的研究大多集中在人类基因和表型之间的联系,关于实体类型的研究通常集中在特定的表型,如疾病和基因关联。根据提取方法,也有基于模式的方法或基于学习的方法。

4.2.3 化学-蛋白质相互作用(chemical-protein interactions,CPI)

CPI 识别人体内化合物和蛋白质之间的相互作用,是药物发现和开发的一项基本任务。由于化合物和基因数量众多,因此自动提取的方法就具有很大的吸引力。
Zhu 等人提出了一种基于化合物-靶点共现模式的概率模型,称为混合体模型(MAM),用于挖掘文本中隐含的 CPI;Wariko 等人使用语言模式感知依存树核来提取 CPI,F-Score 为 36.54 %;Long 等人通过分析句子结构,构建了 CPI 二元对和三元组,挖掘了复杂的特征,F-Score 为 56.71 %。

4.2.4 药物-药物相互作用(drug-drug interactions,DDI)

DDI 鉴定是上市后药物安全监测或药物安全监视中的一项重要任务。DDI 检测问题可以看作是一个二进制分类问题。现有的 DDI 提取方法有基于共现的、基于规则的和机器学习的方法。
基于共现的方法根据两种药物的共现建立它们之间的关系;基于语言规则的方法将浅层解析和句法简化与模式匹配相结合,如复句被分解成从句,从句中可以使用触发词或主谓宾语模式来识别它们之间的关系;随着人工标注语料库可用性的提高,基于机器学习的方法,特别是基于深度神经网络的方法在 DDI 关系抽取任务中也得到了广泛的应用。

4.3 生物医学知识库管理

BioRE 可以支持生物医学知识库的精选,包括生物医学实体和关系(如基因 A 抑制基因 B,基因 C 参与疾病 G),是生物医学知识和关系抽取的自然集合。在这个话题上,Ren 等人开发了 iTextmine 系统,包括一个自动化工作流程,可在大型文本语料库上运行多个文本挖掘工具,用于知识库管理;Singhal 等人提出了一种通过从生物医学文献中提取疾病基因变异三元组来精选生物医学知识库的机器学习方法。

4.4 深度学习的最新进展

RE 本质上是一个分类问题,可以用经典的有监督机器学习技术来解决。这些方法将人工特征作为输入,例如表面特征、词汇特征、句法特征或从现有本体派生的特征。同时,还探索了基于依赖树的内核的使用。但构建有用的人工特征是困难和耗时的,所以最近一些研究调查了深层神经网络的使用,该研究详细介绍了如何将 CNN 和 RNN 应用于生物医学关系抽取。

基于 CNN 的 RE 框架:主要由四层组成。CNN 层捕捉 N 元语法层次特征;嵌入层通过查找表将每个单词转换成嵌入向量;具有纠正线性单元 ReLU 激活的卷积层通过在单词标记上滑动过滤器将嵌入向量变换成特征映射;池化层通过选择最高、最低或平均的特征值降低要素地图向量的维度;多层感知器层(MLP 层)输出每个关系的概率。在此框架下,Liu 等人提出了一种 DDI 提取方法。

图7 基于 CNN 的 RE 框架

基于 RNN 的 RE 框架:通过探索单词序列中的长期和短期依存关系对文本进行建模,提取词汇和句子级别的特征,而不需要任何复杂的 NLP 预处理过程,如句法分析。RNN 可以直接代表基本的语言结构,即单词序列和成分/依存关系树。Hsieh 等人提出了一种新的基于 RNN 的词语间长期关系获取方法,用于识别 PPI。交叉验证结果表明,该方法在最大的两个语料库 BioInfer 和 All 上的性能优于现有方法,在这两个数据集上的相对改进分别为 10 % 和 18 %。
图8 基于 RNN 的 RE 框架

与以往侧重于从单个句子中提取二元关系的研究相比,最近的研究更多针对的是跨多个句子的 N 元关系的提取。例如,Peng 等人探索了一种基于图 LSTM 的跨句 N 元关系抽取的通用框架。图形结构使其很容易融入丰富的语言特征。在生物医学语料库上的实验表明,超越句子边界的抽取利用了更多的知识,而对如此丰富的语言知识进行编码可以获得一致的性能提升。

BERT 模型在 RE 方面也被证明是非常成功的。Beltag 等人使用语义学者随机挑选的 114 万篇论文对 BERT 进行微调,建立了 SciBERT。语料库包括 18 % 的 CS 论文和 82 % 的生物医学论文。在 RE 方面,SciBERT 获得了与 SOTA 模型相当的结果。Lee等人提出了 BioBERT,这是一种生物医学领域的预训练的语言表示模型。图9 说明了预训练和微调 BioBERT 的整个过程。

图9 BioBERT 框架

首先,用通用领域语料库预训练的 BERT 初始化 BioBERT。然后,对 BioBERT 进行生物医学文本的预训练,在几个生物医学语料库上进行进一步的微调,以执行 BLM 任务。BioBERT 只需要有限数量的特定任务的参数,但比 SOTA 模型高出 3.49 F1 score。SciBERT 和 BioBERT 共享相同的基本 BERT 模型架构,如图5 所示。

4.5 挑战

与一般领域的 RE 任务相比,BioRE 有几个挑战:
(1)生物医学实体的非标准表达变体
(2)一般的 RE 模型通常从文本中提取二元关系,但医学文献中涉及的关系可以是一元、二元或 N 元关系,其中多个实体包含在单个关系中
(3)由于生物医学关系对领域专业知识的要求,缺少标注良好的生物医学关系,使得充分训练复杂的深度学习模型具有挑战性;
(4)生物医学领域不断有新发现出现,开发识别新的看不见的关系的模型具有挑战性。

5. 生物医学路径提取

5.1 任务定义

生物路径是细胞中分子之间的一系列行为,导致细胞中产生物质或发生变化。路径还可以开启和关闭基因,或者刺激细胞移动。生物医学路径对于理解癌症等复杂疾病的潜在机制至关重要。大多数路径知识都包含在自由文本(如生物医学文献)中,需要大量的人力来解析。因此,开发从生物医学文献中自动提取生物医学路径的计算方法是非常必要的。

生物路径涉及不同的实体(如基因、基因产物)和小分子(如代谢物)之间的相互作用,如转录调节(如转录起始中的转录因子结合)和翻译后调节(如蛋白活性调节的激酶磷酸化)。现有的大多数研究都集中在信号转导和基因调控等静态途径上,而不是代谢网络和动力学

图10 显示了从生物医学文献中提取癌症路径的示例。每个节点代表一个基因或基因产物,每条边代表一个相互作用。

图10 从生物医学文献中提取通路的示例

路径提取任务通常被描述为分类问题,即将每个提取的成对关系分类为明确定义的关系类型,合并这些提取的关系得到最终的通路结构。

5.2 方法

许多现有的路径提取研究都是基于规则的系统,但是手工生成的规则提取昂贵、耗时且召回率低。此外还有机器学习的方法可以执行有效的自动规则工程,但它们需要大规模的标注示例才能达到满意的性能。因此许多学术者提出了从现有知识库中进行远程监督的方法、同时利用基于规则和机器学习混合的方法。

在精确医学时代,除了生物路径,蛋白质相互作用网络和基因-疾病-药物相互作用网络等其他结构也是生物医学研究人员感兴趣的。然而,目前还没有直接从文献中自动提取这种网络结构的研究,而目前的研究通常是先提取成对关系,然后离线进行集成

5.3 深度学习的潜在应用

目前还没有利用深度学习技术解决路径提取的问题,主要原因是没有公开可用的训练数据,使得训练有监督的深度学习模型很难实现。但如果有足够的训练数据,那一些基本的深度方法如 RNN、CNN 等都可以用于生物医学路径提取

5.4 挑战

计算路径提取系统的一个主要挑战是用户的参与不足,尽管某些系统提供了一种与用户交互的方式,但是由于以下原因,难以在没有任何用户干预的情况下实现全自动通路提取系统:
(1)生物医学文献具有多样且复杂的表达方式,使得很难准确地提取通路;
(2)提取结果的低准确性阻碍了系统的进一步利用;
(3)缺少一些必要的上下文信息,例如交互条件;
(4)不断变化的需求使得系统很难迅速适应;
(5)科学出版物中的许多单句往往涉及多个生物医学实体

6 生物医学假说生成

6.1 任务定义

假设生成,也被称为基于文献的发现(literature-based discovery,LBD),用计算方法从文献中获得新的生物医学发现
假设生成的目标利用已发表的文章,检测文本中不存在的潜在关系,通过其他显性关系的存在推断出新的生物医学知识。具体地说,假设生成通常指的是将以前被认为不相关的两条知识连接起来的过程。例如,我们可能知道 A 型疾病是由化学物质 B 引起的,而药物 C 可以减少体内化学物质B的含量。然而,由于各自的文章是彼此分开发表的(不相交数据),疾病 A 和药物 C 之间的关系可能是未知的。假设生成的目的是从生物医学文章中检测这些隐含的关系。图11 给出了通过推断看不见的关系来生成假设的示例。

图11 通过从生物医学文章中推断看不见的关系产生假说的例子

生物医学假设生成不同于 RERE 侧重于提取文本中明确确定的实体之间的关系,而假设生成试图揭示未知的关系。

6.2 问题设置

假设生成核心目标基于文本语料库预测两个生物医学术语之间的可能关系。与典型的基于三角形闭合模型或正半定图核的链接预测问题不同,假设生成的目的是以连接项的形式提供理论基础和证据。问题设置有封闭式发现和开放式发现两种变体,前者使人们能够执行验证性分析,而后者用于需要更多探索性范式的场景。
比如:
“鱼油和雷诺氏病有联系吗?”是一个封闭的发现问题,答案可能是肯定的,也可能是否定的。如果答案是肯定的,下面的步骤应该是确定支持这一主张的证据。
“雷诺氏病有哪些治疗选择?”是一个开放的发现问题。需要通过探索雷诺病作为潜在治疗适应症的所有概念来获得答案。这类问题通常有一个基础的生物医学概念和一个元类型定义可能出现在另一边的术语的特征。

药物再利用:指将疾病靶点确定为现有药物的潜在替代适应症的过程,成功的药物再利用可以为药物开发节省大量的时间和财务成本,因为它不需要经历最初的体内和部分体外阶段。例如,新冠肺炎现在是一种全球性的流行病,迫切需要发展有效的治疗方法,而完全从头发现药物非常耗时。最初开发用于治疗埃博拉病毒的药物雷米德韦已经证明对治疗新冠肺炎有效,最初开发用于疟疾治疗的羟基氯喹也是如此。LBD 可以为药物再利用过程提供必要的帮助。Andronis 等人回顾了各种对检测生物医学实体之间隐藏联系至关重要的 LBD 方法,并建议可视化技术可以帮助科学家进行测试。Tari 等人利用声明性编程语言 AnsProlog 实现了对药物适应症间接关系不完全信息的自动推理。他们还介绍了几个公开可用的知识资源,如化学结构、副作用和识别替代药物适应症的信号通路。

药物警戒:指与药品不良反应的收集、检测、评估、监测和预防有关的药理学科学。Shang 等人开发了一种可扩展的 LBD 方法,使用分布统计来推断并应用发现模式来评估药物/不良药物反应对用于药物警戒的可信性。Hristovski 等人介绍了一种通过将药物与不良反应联系起来的基因或蛋白质为已知不良反应提供药理学和药物基因组学解释的工具。Mower 等人将机器学习分类器应用于从文献中提取的关系的高维表示作为识别证实的药物/不良药物反应对的方法,通过评估机器学习分类器扩展了这一范式。

6.3 方法

ABC 共现模型:大多数 LBD 系统都是基于或派生自 Swanson 的 ABC 共现模型。显性知识以 “A 暗示 B” 和 “B 暗示 C” 的形式编码在文本中,隐含知识可以通过得出 “因此 A 蕴含 C” 的结论来发现。例如,在具有血液粘度和血管反应性的文章中提到了食用鱼油,这两个术语在雷诺氏病的文章中也有提及,推论食用鱼油可能与雷诺氏病有关。

图12 连接鱼油和雷诺氏病的 ABC 模型的例子

目前,已经开发了各种工具使用 ABC 共现模型来生成假设。例如:从 MEDLINE 摘要标题中的生物医学术语的共现识别现有的关联、利用全面的文本和结构知识来推断因果假设等等。

其他 LBD 的方法稀有性原则着眼于不常见的共现词语,而不是频繁共现的词语;基于文献计量学的系统使用引用信息来查找链接和目标文献;Sang 等人研究了一种基于生物医学知识图谱的 LBD 药物发现方法

图13 显示了 LBD 典型的端到端流程图,由于这些模块的级联性质,假设生成模块的输出质量将影响最终结果的整体质量。
输入:一对医学术语;
假设生成模块:列出一组假设,通过中介将两个输入联系起来(如:鱼油→β-血栓球蛋白→雷诺病);
排名模块:生成假设;
输出:将假设提供给终端用户进行进一步的验证,生成的假设可以通过排序模块的工具和算法进行排序

图13 LBD 端到端的流程图

6.4 深度学习的潜在应用

大多数关于假设生成的研究都是基于 ABC 模型的。因为 LBD 过程的高可解释性要求,深度学习模型很少直接用于这项任务。在有效的深度学习可解释性机制下,深度学习模型应该能够在假设生成上获得更好的数值性能。

6.5 挑战

(1)基于 ABC 共现等方法的假设过于简单,无法捕捉到生物医学过程的复杂性;
(2)许多现有的 LBD 方法和系统开发的目的都是研究目的,而缺乏在实际环境中的应用,例如基础科学研究、制药研究和开发以及临床护理等;
(3)生物医学文章的内容可能偏向于它们的专业学科,不同文章的发现可能会相互矛盾,很难获取可靠的假设。

你可能感兴趣的:(生物医学文献挖掘的最新进展)