自然语言处理基础

从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。

gensim读取语料,输出词向量。词向量可以用来训练各种分类器模型。

这三个模型是理解gensim的核心概念。

语料

语料是指一组电子文档的集合。这个集合是gensim的输入,gensim会从这个语料中推断出它的结构,主题等。从语料中推断出的隐含结构,可以用来对一个新的文档指定一个主题。我们也把这个集合叫做训练语料。这个训练过程不需要人工参与,所以主题分类是无监督的。

eg:

raw_corpus = ["Human machine interface for lab abc computer applications",
             "A survey of user opinion of computer system response time",
             "The EPS user interface management system",
             "System and human system engineering testing of EPS",              
             "Relation of user perceived response time to error measurement",
             "The generation of random binary unordered trees",
             "The intersection graph of paths in trees",
             "Graph minors IV Widths of trees and well quasi ordering",
             "Graph minors A survey"]

收集语料之后,需要做一些预处理:移除一些英文虚词、仅仅出现一次的词。

这个处理过程,我们需要对数据进行单词切分。把文档分成一个个单词。

 

 

 

你可能感兴趣的:(NLP自然语言处理)