Python自然语言处理第一章

  • 初识NLTK
  • 方法介绍
  • Python&NLP

NLTK即Natural Language Toolkit, 是一个先进的用于处理自然语言的python程序,和python中的其他库一样,我们可以调用它来处理各种文本信息。
NLTK功能强大,它不仅为我们学习NLP提供了丰富的语料库,也为我们处理这些语料库信息提供了大量的方法,比如concordance,similar, common_contexts, generate,FreqDist
下面一一来介绍这些方法
- concordance
使用方法:text.concordance(” word “) 其中text可以用要查询的文本名代替,word用要搜索的单词代替,该方法的功能为在text匹配到word所在的上下文
- similar
使用方法:text.similar(“word”),规则同上,该方法的功能为在text中查找与word上下文相同的词
- common_contexts
使用方法:text.common_contexts([“word1”,”word2”,…]),方法返回列表中单词共用的上下文
- generate
使用方法:text.generate,该方法可生成一个与text相同风格的文本
- FreqDist
使用方法:FreqDist(text),该方法可以对text中的所有词汇进行统计,返回的结果为一个字典,其中键为词汇名,值为词汇的个数

我们知道文本中存在者大量相同的词汇,要区分文本标识符和词类型的区别,比如文本text,我们使用len(text),得到的结果是text中词汇的个数,但是当我们使用len(set(text))时,我们得到的结果肯定是小于等于len(text),set(text)的作用是获得文本的词类型,即文本中所有不同的词汇。

Python在处理文本时,通常会将文本当作词链表,学过数据结构的同学链表的概念应该不会陌生,这是python中经常使用的一种数据结构,当然python也提供了相应的方法用于和字符串进行转换,链表中的内容可以通过索引获取。

你可能感兴趣的:(自然语言处理,python)