Python 文本挖掘(一)

(一)定义

  • 是什么:
    文本挖掘是从大量文本中,比如微博评论,知乎评论,JD,天猫淘宝大量评论中,文本中,抽取出有价值的知识,并利用这些知识创造出价值,实现变现的过程。

  • 目的:

    把文本信息转化为人类可利用的知识

(二)语料库

  • 是什么:

    语料库就是我们要分析的所有文档的集合,

生活中,在高中,特别是高三的时候,很多次大考小考模拟考,留下了很多很多试卷,然后试卷多了,弄得一团糟,这时候我们需要对考过的试卷进行分类,比如分类为语文,数学,英语,物理 等等,也有根据考试的时间分类,一月考,二月考等。然后再放在不同的容易找到的位置。

在Python技术中,我们把需要分析的文本文件,读取到内存变量中,在内存变量中使用不同的数据结构,然后进行存储,以便下一步的分析。

这个内存变量就是语料库

(三)应用

记录一下语料库是为了理解如何在很多数据里面进行数据的相似度分析,从而去除一些相似度高的文章,留下部分质量好的文章。 比如说,从不同网站爬取的资讯,有可能是说的相同的一件事,也有可能是同一网站不同作者发布的是同一篇文章,这种现象在CSDN,在,在百度云,在互联网上一直存在着这种现象, 而语料库的搜集,就是作为数据的来源

附:

(心得)语料库并不是一成不变的,它可以一直增大,根据时间,比如半个月,一个月,一个季度等,我们可以从这半个月,一个月,季度来对文本进行分析,筛选掉重复的数据,只保留文本内容与主题相似度更高的文章。

学习地址

你可能感兴趣的:(Python 文本挖掘(一))