自然语言处理概述(一)

自然语言处理(NLP) 可以看作自然语言生成(NLG)+自然语言理解(NLU)。NLG是:意思(meanning)→文本/语音,NLU是:文本/语音→意思。

Case: Machine Translation

自然语言处理概述(一)_第1张图片
Statistical MT: Three Problems
• 语⾔模型(Language Model):给定⼀句英⽂e, 计算概率(e),如果是符合英⽂语法的, p(e)会⾼;如果是随机语句, p(e)会低。
• 翻译模型:给定⼀对,计算p(c|e),语义相似度⾼, 则p(c|e)⾼;语义相似度低,则p(c|e)低
• Decoding Algorithm:给定语⾔模型,翻译模型和f, 找出最优的使得p(e)p(c|e)最⼤。

⾃然语⾔处理技术四个维度

Semantic(语义): NLU

Syntax(句⼦结构) :Syntactic Parsing(句法分析),Dependency Parsing(依存分析)。

例子:
句法分析: 作用是识别出句子中的短语结构以及短语之间的层次句法关系。
自然语言处理概述(一)_第2张图片
依存分析: 作用是识别句子中词汇与词汇之间的相互依存关系。
自然语言处理概述(一)_第3张图片

Morphology(单词): Word Segmentation(分词),Part-Of-Speech(词性),Named Entity Recognition(命名实体识别)。

例子:

分词:自然语言处理的第一次笔记
自然语言处理 | 的 | 第一次 | 笔记

词性:词性指以词的特点作为划分词类的根据。词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。名词(Nouns),动词(Verbs),形容词(Adjectives), 副词(Adverbs)等等就是我们想要研究的词性。

命名实体识别:命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。如·:

2008年8月8日 北京 举办了 奥运会

Phonetics(声⾳): 暂不讨论。

关系抽取: 关系抽取可分为全局关系抽取与提及关系抽取。全局关系抽取基于一个很大的语料库,抽取其中所有关系对,而提及关系抽取,则是判断一句话中,一个实体对是否存在关系,存在哪种关系的工作。

关系抽取分两步,一步是判断一个实体对是否有关系,而另一步则是判断一个有关系的实体对之间的关系属于哪种。当然这两步可变成一步,即把无关系当作关系的一种(特殊的),来进行多类别分类。
自然语言处理概述(一)_第4张图片

你可能感兴趣的:(自然语言处理概述(一))