《python自然语言处理》学习笔记——第一二章

NLTK
《python自然语言处理》学习笔记——第一二章_第1张图片

1.语言处理与python

1.1python相关用法:

nltk.book()

text.concordance(‘单词’) 查询文本中的单词

text.similar(“单词”)

text.generate()

len()

列表:

​ +进行列表连接

​ append()追加

索引

​ 切片

变量

字符串

频率分布:

FreqDist

​ hapaxes()低频词

细粒度的选择词:选择出现次数多且长的词语

词语搭配和双连词:

​ 使用bigrams函数提取双连词

​ ?.collocation_list()
《python自然语言处理》学习笔记——第一二章_第2张图片
在这里插入图片描述

条件:

《python自然语言处理》学习笔记——第一二章_第3张图片

循环

1.2自动理解自然语言

信息提取、推理和总结

词义消歧

需要上下文

指代消解

确定代词或名词指的是什么

语义角色标注

确定名词短语如何动词相关联

自动生成语言

自动问答,机器翻译

机器翻译

文本对齐

人机对话系统

流程:语音输入,识别单词,文法分析,上下文解释

反向:响应规划,实现文法结构,适当词形变化,语音输出

《python自然语言处理》学习笔记——第一二章_第4张图片

2.获得文本语料和词汇资源

2.1 获取文本语料库

古腾堡语料集、网络与聊天文本、布朗语料库(研究文体之间的系统性差异)、路透社语料库、就职演说语料库、标注文本语料库、

raw函数获取未经处理的文件内容

sents函数把文本划分成句子

《python自然语言处理》学习笔记——第一二章_第5张图片

2.2条件频率分布

条件与事件:(条件,事件)

按文体计数词汇:

绘制分布图和分布表:plot方法,tabulate方法

使用双连词生成随机文本:

《python自然语言处理》学习笔记——第一二章_第6张图片

2.3代码复用

函数

模块

2.4词典资源

词典资源为一个词和\或短语以及一些相关信息的集合

一个词项包括词目以及其他附加信息。

词性加注释信息

停用词语料库

比较词表

词汇工具:ToolBox,Shoebox

2.5wordnet

wordnet是面向语义的英语词典

意见和同义词:

​ wordnet.synsets(?)

​ wordnet.synset(?).lemma_names

​ wordnet.synset(?).definition

​ wordnet.synset(?).examples

层次结构:

根同义词集

下位词

语义相似度

min_depth()

你可能感兴趣的:(NLP)