知识库构建相关技术前沿动态(健康管理领域)

知识库构建相关技术前沿动态

(健康管理领域)

 

目前构建知识库的技术可以分为两大类,一种利用机器学习,另外一种bootstrapping pattern。 若把知识库的理解分为实体之间的关系图谱,主要可以分为两个NLP任务:(1)实体名识别(NameEntity Recognition)(2)关系提取。(RelationExtraction)。这两个任务又和信息提取有很大的渊源(Information Extraction)。

这两种技术都是general,not highly domain dependent。所以在金融知识图谱上也可以使用。

 

1.    机器学习来识别命名体识别与关系提取

 

BSettles(Settles,2004)基于语言的形态学特征和语义特征,利用条件随机场模型ABNER来识别在生物医疗实体名。Jianbo Lei(Jianbo Lei,etc;2013)综合比较了包括文字,词语,词性等特征,以及不同的机器学习模型包括条件随机场(CRF),支持向量机(SVM),最大熵模型(ME)以及结构支持向量机(SSVM)模型,在中文医疗问题,医疗程序,实验检验的效果。

 

1 如何用机器学习识别中文症状

 

Supervisedmethods for symptom name recognition in free-text clinical records oftraditional Chinese medicine: An empirical study

 

2. LeiJian bo Named Entity Recognition in Chinese Clinical Text

 

这两篇文章非常具有代表性,讲如何基于机器学习对中文的健康领域实体进行识别。故做推荐。

 

3. Data-DrivenInformation Extraction from Chinese Electronic Medical Records

朱老师的文章,比较综合讲如何用机器学习,pattern based model 来解决中文健康文本的提取问题。

 

 

4. _2010_i2b2VA_challenge_on_concepts_assertions_and_relations_in_clinical_text

关注一下这篇文章,2010年举办了一个自动识别英文概念,关系分类的比赛,里面提及了许多的文章。 主要的方法都是采取机器学习模型。

 

5. 20160912_003基于深度学习的关系抽取技术进展_刘知远_熊德意

这篇文章比较综合地探索了目前用于关系提取的技术,文中认为主要分为bootstraping,有监督,半监督。 这篇文章主要从有监督开始谈起,从比较古老的模型 如CRF,HMM等开始讲到深度学习。从如何从有监督的标注任务中解放出来,采取远程监督的思想。这篇文章可以比较综合地看到目前基于机器学习来做关系提取的最新技术状态。

 

 

2.    基于模式来识别命名体识别与关系提取

 

 

半监督的学习方法主要采用 Bootstrapping 进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据从抽取关系对应的关系模板和更多的实例。这种基于模式匹配的算法已经用于构造了许多著名的开源的知识库,比如Probase, TextRunner, NELL和Know-It-All。

 

1.    Rong Xu.  UnsupervisedMethod for Automatic Construction of a Disease Dictionary from a Large FreeText Collection. Stanford University School of Medicine.提出一种从大量的非结构化的文本中自动构建疾病词典的非监督性方法。该方法仅仅要求人工输入一个初始的可靠的疾病实体提取的语言模式,主要利用文本中一个疾病名称在文中反复出现,以此来扩大疾病语言提取模式,并且反过来利用提取出来的疾病名称来扩大提取模式。

 

 

2.    (Voorham et al., 2007)提出基于模式的方法来识别诊断单中出现的糖尿病测量数值。3. (Dong Xu, et al.,2015)提出了结合词典和非监督的迭代式的基于模式的模型来识别中文电子医疗记录(EMR)中出现的疾病,药品,时间等实体名。

 

3.    Semantic Bootstrapping- A Theoretical Perspective;  Probase:a probabilistic taxonomy for textunderstanding讲述了如何基于Semantic Bootstrapping来构建 probase知识库。

 

 

 

两者的不同,机器学习模型是研究NLP,发现语言上的内在规律性(regularity),小样本,一半都是supervised。 基于Bootstrapping pattern 利用大样本之下统计显著性(significance) 。

你可能感兴趣的:(知识库构建相关技术前沿动态(健康管理领域))