深度理解机器学习4-自然语言处理的应用

自然语言处理的应用

·描述词性标注及其应用。·区分基于规则的和随机的词性标注器。·对文本数据进行词性标注、分块和加缝。·为信息提取执行命名实体识别。·开发和训练你自己的词性标注器和命名实体识别器。·使用NLTK和spaCy来执行词性标注、分块、加缝和命名实体识别。

首先简要回顾什么是自然语言处理,以及它可以提供什么服务。然后讨论自然语言处理的两个应用:词性标注和命名实体识别。之后解释这两种算法的功能、必要性和目的。此外,还有用来执行词性标注和命名实体识别的练习与活动,并构建和开发这些算法。

词性标注

词类是我们大多数人在学习英语的早期被教授的东西。它们是根据自身句法或语法功能分配给单词的类别。这些功能是不同单词之间存在的功能关系。

词性

英语有九个主要的词性:

·名词:事物或人示例:table、dog、piano、London、towel·代词:代替名词的词示例:I、you、he、she、it

·动词:动作词示例:to be、to have、to study、to learn、to play·形容词:描述名词的词示例:intelligent、small、silly、intriguing、blue

·限定词:限制名词的词示例:a few、many、some、three

·副词:描述动词、形容词或副词本身的词示例:quickly、shortly、very、really、drastically

·介词:将名词和其他词联系起来的词示例:to、on、in、under、beside

·连词:连接两个句子或单词的单词示例:and、but、yet

·感叹词:感叹词示例:ouch、Ow!Wow!!

词性标注器

词性标注是给单词指定标签的过程。这是通过一种称为词性标注器的算法来完成的。算法的目的就这么简单。大多数词性标注器都是有监督学习算法。有监督学习算法是机器学习算法,学习根据以前标记的数据执行任务。这些算法以数据行作为输入。该数据包含特征列(用于预测某些事物的数据),通常是一个标签列(需要预测的事物)。模型在这个输入上被训练,以学习和理解哪些特征对应于哪个标签,从而学习如何执行预测标签的任务。最终,它们会得到未标记的数据(仅由特征列组成的数据),它们必须为这些数据预测标记。

总之,有监督学习方法和无监督学习方法的主要区别如下:·有监督词性标注器将预标注语料库作为输入进行训练,而无监督词性标注器将未标注的语料库作为输入来创建一组词性标注。·有监督词性标注器根据标注的语料库创建带有各自词性标注的单词词典,而无监督词性标注器使用自己创建的词性标注集生成这些词典。

你可能感兴趣的:(深度学习,自然语言处理,人工智能)