【人工智能】NLP自然语言处理-第三节 简单的统计

【人工智能】NLP自然语言处理-第三节 简单的统计_第1张图片
1 简介
在本节中,我们重新拾起是什么让一个文本不同与其他文本这样的问题, 并使用程序自动寻找特征词汇和文字表达。
正如在上一节中那样,可以通过复制它们到 Python 解释器中来尝试Python 语言的新特征。
在这之前,你可能会想通过预测下面的代码的输出来检查你对上一节的理解。你可以使用解释器来检查你是否正确。如果你不确定如何做这个任务, 你最好在继续之前复习一下上一节的内容。
【人工智能】NLP自然语言处理-第三节 简单的统计_第2张图片
2 频率分布
我们如何能自动识别文本中最能体现文本的主题和风格的词汇?试想一下,要找到一本书中使用最频繁的 50 个词你会怎么做?
【人工智能】NLP自然语言处理-第三节 简单的统计_第3张图片
上表被称为频率分布,它告诉我们在文本中的每一个词项的频率。一般情况下, 它能计数任何观察得到的事件。这是一个“分布”因为它告诉我们文本中词标识符的总数是如何分布在词项中的。因为我们经常需要在语言处理中使用频率分布,NLTK 中内置了它们。
【例3 - 1 】使用 Freq Dist 寻找《白鲸记》中最常见的
50 个词。尝试下面的例子,然后阅读接下来的解释。

fdist1 = FreqDist(text1) #解释

你可能感兴趣的:(自然语言处理,人工智能)