自然语言处理基本概念

本文为 http://blog.sina.com.cn/s/blog_1334cae810102wovb.html 笔记

自然语言处理常用术语

文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是对自由文本进行的处理。常见的基本操作如下:

分词

通常我们处理的自由文本分为中文、英文等。词为文本最基本的单位,分词是进行自然语言处理中最基本的步骤。分词算法分为词典方法和统计方法。其中,基于词典和人工规则的方法是按照一定的策略将待分析词与词典中的词条进行匹配(正向匹配、逆向匹配、最大匹配)。统计方法是基本字符串在语料库中出现的统计频率,典型的算法有HMM\CRF等。其中CRF相比HMM有更弱的上下文无相关性假设,理论上效果更好一点。

英文以空格为分割符,因此不需要进行分词的操作(这是片面的,对于一些特殊情况,依旧需要分词的操作 ,例如 it's等,另外对于英文中复合词的情况,也需要进行一定的识别,因此在进行关键词识别的时候会运营到分词的一些技术)。中文的分词工具有很多,近年来常用的是jieba 和stanford corenlp等。

词性标注

在进行词性标注时,需先定义出词性的类别:名词、动词、形容词、连词、副词、标点符号等。词性标注是语音识别、句法分析、信息抽取技术的基础技术之一,词性标注是标注问题,可以采用最大熵、HMM或CRF等具体算法进行模型的训练。自动问答系统中,为了提高用户问题匹配后端知识库的召回率,对一些关键词进行了过滤,包括连词、副词对于全文检索系统,理论上可以通过对用户输入的查询条件进行词性过滤,但由于全文检索是基于词袋模型的机械匹配,并且采用IDF作为特征值之一,因此词性标注的效果不大。

句法分析

句法分析的目的是确定句子的句法结构,主谓宾、动宾、定中、动补等。在问答系统和信息检索领域有重要的作用。


命名实体识别

命名实体识别是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于标注问题,因此可以采用HMM\CRF等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体定义了五大类类型:设施(FAC)\地理政治实体(GPE)\位置(LOC)\人物(PER)。在实际应用中,可以根据自己的业务需求,定义实体类别,并进行模型训练。


实体关系抽取

实体关系抽取是自动识别非结构化文档中两个实体之间的关联关系,属于信息抽取领域的基础知识之一。近年来,搜索领域流行的知识图谱技术是构建实体关系。实体关系抽取有多种方式,包括规则匹配、有监督学习、无监督学习。其中有监督学习需要预先定义实体关系类别,并通常将问题建模为分类问题。有监督学习需要预先人工标注语料库。






你可能感兴趣的:(自然语言处理基本概念)