生物医学文本挖掘BioNLP

1、简介

BioNLP Shared Task(BioNLP-ST)是一个生物文本挖掘领域的国际比赛,截止到2016年,已经举办了10年,每年都吸引了来自剑桥大学、麻省理工学院等国际一流大学的科研人员参加。比赛的任务就是看哪个团队研发的算法模型能够精准智能地从文本中自动提取出复杂的生化反应网络。

2、国内相关资讯

  • 实验室参加BioNLP-ST 2016评测并取得优异成绩
  • 李辰教授团队获得文本挖掘国际比赛BioNLP第一名

3、论文/文章

  • [生物医学文本挖掘]利用文本特征用于提取文献中药物之..._CSDN博客
  • BioNLP概述

4、BioNLP-ST 2016

日期 描述
1月 训练数据集公布
3月25 测试集公布
4月1 结果提交
4月8 评测结果通知
5月8-5月15 论文提交

BioNLP-ST系列比赛代表了在生物学文本挖掘领域,全社区开始转向对细粒度信息提取(IE)的趋势。 BioNLP-ST 2016遵循了2011和2013的任务目标,致力于生物学本体目标的识别提取以及推出目标之间的事件表示方法。
【日程安排】

日期 描述
1月 训练数据集公布
3月25 测试集公布
4月1 结果提交
4月8 评测结果通知
5月8-5月15 论文提交

【任务描述】
下面是关于三个事件提取任务的数据集,任务和数据集详细介绍可在对应页面看到。

  • SeeDev Genetic and molecular mechanisms involved in plant seed development
  • BB3 Bacteria Biotope, bacteria locations and normalization with an ontology
  • GeniaNFkB Knowledge base construction

SeeDev语料库主要涉及生物领域中种子发展的内容;BB任务旨在从生物文献中自动地抽取微生物和栖息地之间的复杂关系;GE任务语料仍沿用往届的语料资源,但更加强调从中抽取多方面的知识,是一个开放性任务。

5、论文阅读

Dutir in bionlp-st 2016: Utilizing convolutional network and distributed representation to extract complicate relations
[利用卷积网络和分布式表示来提取复杂关系]
这篇文章来自大连理工大学信息检索实验室,主要讲述了SeeDev-binary task和BB-event task

5.1摘要

我们参加了BioNLP-ST 2016的两个子任务:SeeDev 二分类关系提取任务和Biotope位置关系提取任务。卷积神经网络(CNN)通过卷积和池化两种操作,来对带有词嵌入的原始输入句子将行构建模型。然后,使用全连接神经网络来自动地学习深度的特征。该模型主要有两个模块:分布式语义表示构建,例如词嵌入、pos嵌入、距离嵌入,实体类型嵌入,CNN模型训练。最终结果的F-score分别为0.370和0.478,本文提出的方法能够高效地进行二分类关系提取,同时通过自动特征学习减少了人工特征工程的影响。

5.2 引言

信息提取(IE)能够从大量语料文本中挖掘有用的数据和隐藏知识。随着关于生命和生物学关键问题定位的需求日益增长,生物学信息提取(bio-IE)出现很及时,并且吸引越来越多的研究人员用来解决问题,比如在命名实体识别、蛋白质-蛋白质间的关系分类和药物-药物间的联系提取。除此之外,生物学领域的信息提取,尤其事件提取已经进入人们的眼界中,这将会是一项意义深远的工作,同时也是信息提取任务的挑战。

5.3 方法

SeeDev-binary 和BB-event的任务都可以看做是二分类关系提取任务,因为都是要确定两个实体之间是否有联系。在关系提取中,句子的语义和语法特征都是关键的信息。传统的方法需要从特定领域知识中设计和抽取复杂特征,例如树核和图核,从而构建模型。这种方法很难生成独立知识语料。因此,我们使用卷积神经网络。通过卷积和池化操作来训练特征,从而构建模型。该模型主要有两个模块:分布式语义表示构建和CNN模型训练。


生物医学文本挖掘BioNLP_第1张图片
卷积神将网络和分布式向量表示

词嵌入

为了简单起见,我们定义句子的词序列:S=E1W1W2W3...WnE2,其中E1,E2是两个实体,W1...Wn为两个实体之间的单词。

  • 词嵌入


    word embedding matrix

    下面三种嵌入是对词嵌入的特征补充

  • 实体类型嵌入


  • POS嵌入


  • 距离嵌入


    生物医学文本挖掘BioNLP_第2张图片

    将四种嵌入联合起来组成最终的分布式语义表示:


    生物医学文本挖掘BioNLP_第3张图片

模型训练和参数调优

应用卷积操作和max-pooling操作从原始输入来学习全局特征表示。下面是具体的计算公式:



其中W是卷积过滤窗口,它可以抽取给定大小词序列的特征。是从原始分布式表示Φ(S)学习的全局特征,然后会“喂养”给全连接层来学习隐藏和高级特征。


生物医学文本挖掘BioNLP_第4张图片

6、相关实战(待更)

你可能感兴趣的:(生物医学文本挖掘BioNLP)