NLP信息提取

 

Information Extraction简介

抽取实体(entities):
·通用性:人(person), 地名(location),时间(time)
·专业性:医疗领域(蛋白质,疾病,药物)

抽取关系(relations)
·位于(located in), 工作在(work at), 部分(is part of)
基于规则的方法,基于监督学习的方法,boostrap方法,distant-supervision方法,
无监督学习
·实现消歧 ·实现统一 ·指代消解 ·句法分析 ·CKY算法

applications:
·知识库的搭建 ·Google Scholar,CiteSeerX
·用户库:Repleaf,Spoke ·购物引擎,产品搜索
·专利分析·证券分析·问答系统

NER(Named Entity Recongntion)

命名实体识别,也称为"专名识别",是指识别文本中具有特定意义的实体,主要包括人名,地名,机构名,专有名词

applications:
Chat bot中的"domain-intent-slots"在意图识别中要抽取实体。

English Toolkits:
·NLTK NE ·Spacy·Stanford Parser

Chinese Toolkits:
·Han NLP ·HIT NLP ·Fudan NLP ·or yours(自己搭建特定领域使用)

Creat NER Recognizer
·定义实体种类 ·准备训练数据 ·训练NER

Evaluate NER Recognizer: Precision/Recall/F_1score

Methods for NER:
·利用规则(比如正则)
·投票模型(Majority Voting)
·利用分类模型
\quad·非时序模型:逻辑回归,SVM…
\quad·时序模型:HMM,CRF,LSTM-CRF
 

 

参考:NLP---信息抽取

你可能感兴趣的:(NLP)