Python与自然语言处理库Gensim实战

一、Gensim 简介

Gensim 是一款 Python 自然语言处理库。它能够自动化训练出一个文本语料库,然后用该语料库来训练出一个词向量模型。在语料库中,每个语料库都是由一个个文档组成,每个文档则是由若干个单词组成。

Gensim 相对于其他 Python 自然语言处理库的优点在于它的速度和内存占用率较低。同时它还提供了许多文本处理的功能,比如文档相似度计算和主题建模等。

二、安装Gensim

在安装 Gensim 之前,需要确认已经安装了 NumPy 和 SciPy 库。如果没有安装,可以使用 pip 安装。

可以通过以下命令安装 Gensim:

pip install gensim

 

三、语料库的建立

在进行自然语言处理之前,需要将文本文件转换成语料库。在这里,我们就以新闻文章为例进行语料库的建立。

在建立语料库之前,需要将新闻文章转化为可供计算机处理的形式。我们采用的方法是,先将文章划分为单词,再去除停用词和标点符号,最后将单词组成的列表存储在文本文件中。

以下是对一个新闻文章进行预处理的代码示例:

import nltk
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize

def pre_process(text):
    stop_words = set(stopwords.words('english') + list(punctuation))
    tokens = word_tokenize(text.lower())
    return [token for token in tokens if t

你可能感兴趣的:(python,自然语言处理,easyui)