本文为翻译博客,详见: 原文
在使用文本数据建立预测模型之前,需要做特别的数据预处理工作。
文本必须先进行分词(tokenization)操作,然后进行特征提取,即向量化(vectorization)操作,将分词后的词编码成整形或浮点数据作为机器学习算法的输入。
scikit-learn库提供了易用的工具来对文本数据做分词和特征提取。
学完这个教程后,你将会知道:
CountVectorizer
将文本转化成词统计向量TfidfVectorizer
将文本转化成词频向量HashingVectorizer
将文本转化成唯一数字向量在进行模型训练之前,我们需要将文本转化成数字。如果我们对文档进行分类,那么每一个文档都是一个输入,并且有一个对应的输出类别。因为算法都是将数字向量作为输入,所以我们需要将文档转换成指定长度的数字向量。
一种简单有效的模型叫:Bag-of-Words(BoW)模型。这个模型之所以简单,是因为它将单词之间的顺序关系全部丢弃,只关注文档中单词出现的次数。该方法为每个单词分配一个唯一编号,这样一个文档就能够被编码成与已知词汇数量相同长度的向量。向量中每一个位置上的值就是其编号对应单词在文档中出现的次数。
BoW模型有许多优化版本,优化方向包括:1)对词义的更好阐述 2)对向量中每个词的编码方式
scikit-learn库中提供了三种可用的解决方案,下面作简要介绍。
CountVectorier 不仅提供了一个简单的方法为一系列文本文件进行分词操作,从而用这些已有的词建立一个词汇表,同时还能用这个词汇表对新文档编码。
使用步骤如下:
CountVectorizer
类的一个实例fit()
函数从一个或多个文件中学习一个词汇表transform()
函数,将一个文件编码成一个向量返回一个与词汇表同长的向量,向量中每个位置对应词汇表该位置上的词在当前文件中出现的次数。因为向量中包含很多的0,所以很稀疏,Python在scipy.sparse 包中提供了一个有效的方法处理稀疏向量。
上述步骤3中的transform()
函数返回一个稀疏向量,为了直观理解,我们可以用toarray()
将稀疏向量转化成numpy数组。
下面是用CountVectorizer
进行分词、建立词汇表、编码一个文件的实例。
导入CountVectorizer
库和文件:
from sklearn.feature_extraction.text import CountVectorizer
text = ["The quick brown fox jumped over the lazy dog."]
建立词汇表:
# 创建transform
vectorizer = CountVectorizer()
# 分词并建立词汇表
vectorizer.fit(text)
# 结果输出
print vectorizer.vocabulary_
输出词汇表为:
{u'brown': 0, u'lazy': 4, u'jumped': 3, u'over': 5, u'fox': 2, u'dog': 1, u'quick': 6, u'the': 7}
按照词汇表,对文件进行编码:
vector = vectorizer.transform(text)
# 输出编码后的向量信息
print vector.shape
print type(vector)
print vector.toarray()
输出为:
(1, 8)
'scipy.sparse.csr.csr_matrix'>
[[1 1 1 1 1 1 1 2]]
需要重点指出的是,相同的方法可以对包含词汇表之外词汇的文件进行编码,这些词汇表中不存在的词将在返回的向量中被忽略,举个例子:
# 对另一个文件进行编码
text2 = ["the puppy"]
vector = vectorizer.transform(text2)
print vector.toarray()
输出为:
[[0 0 0 0 0 0 0 1]]
只有词汇表中存在的第七个词”the”出现一次被编码了,词汇表中不存在的“puppy”直接被忽略。
词数统计是一个好的着手点,但是很基础。简单的词数统计存在一个问题,比如:一些像“the”这样的单词可能出现很多次,虽然在编码的向量中他们对应的数值很大,但并没有什么意义。
一种解决方案是计算词频,TF-IDF 是眼下最流行的词频计算方法,它是“Term Frequency - Inverse Documentation Frequency” 首字母的缩写。
本文不作数学计算解释,可参考weki 。TF-IDF是词频得分,它更偏重于某个文件中新颖的单词,比如:在一个文件中多次出现,但在其他文件很少出现的单词。
TfidfVectorizer 可以对文件进行分词、学习词汇表、计算词频得分,使你能够编码新文件。如果你已经学习了一个CountVectorizer
,你可以只需用TfidfTransformer
计算inverse document frequency ,然后编码新文件。
TfidfVectorizer的使用步骤和CountVectorizer一样:创建、fit操作、transform操作。
下面是用TfidfVectorizer对3个小文件学习词汇表和inverse document frequencies,然后编码其中一篇文件的例子:
先分词并建立词汇表,计算idf得分。
from sklearn.feature_extraction.text import TfidfVectorizer
# 文件列表
text = ["The quick brown fox jumped over the lazy dog.",
"The dog.",
"The fox"]
# 建立transform
vectorizer = TfidfVectorizer()
# 分词,建立词汇表
vectorizer.fit(text)
# 输出结果
print vectorizer.vocabulary_
print vectorizer.idf_
输出结果:
{u'brown': 0, u'lazy': 4, u'jumped': 3, u'over': 5, u'fox': 2, u'dog': 1, u'quick': 6, u'the': 7}
[ 1.69314718 1.28768207 1.28768207 1.69314718 1.69314718 1.69314718
1.69314718 1. ]
编码其中一个文件:
# 编码文件
vector = vectorizer.transform([text[0]])
# 输出编码结果
print vector.shape
print vector.toarray()
输出结果:
(1, 8)
[[ 0.36388646 0.27674503 0.27674503 0.36388646 0.36388646 0.36388646
0.36388646 0.42983441]]
这些得分向量被规范化到0-1之间,可以直接作为机器学习任务的输入。
词数和词频一般很有用,但这些方法有个限制——词汇表可能很大。
如果词汇表很大,那么就需要大的向量来编码文件,对存储造成压力,进而拖慢算法。
一个聪明的解决方案是对单词进行单向哈希操作,将它们转换成整数。聪明的地方在于不需要词汇表,你可以选择一个指定任意长度的向量。该方法的缺点是哈希是一个单向函数,所以不能将编码好的词变回原来的词(在大多数监督学习任务中没啥影响)。
HashingVectorizer 类步骤是先对词进行hash操作,然后对指定文件进行分词和编码。
下面的例子是使用HashVectorizer对单个文件进行操作。选择一个任意定长为20的向量,这对应了哈希函数的范围,选择的哈希长度太小(比如20)可能导致哈希冲突,这需要我们根据估计的词汇长度计算冲突的可能性,并选择合适的哈希长度。
注意这种向量化方法不需要在训练文件数据上调用fit函数,在实例化之后,它可以直接被用来编码文件。
from sklearn.feature_extraction.text import HashingVectorizer
# 文件列表
text = ["The quick brown fox jumped over the lazy dog."]
# 创建transform
vectorizer = HashingVectorizer(n_features=20)
# 编码文件
vector = vectorizer.transform(text)
# 输出编码后的结果
print vector.shape
print vector.toarray()
运行例子,将样本文件编码成一个有20个元素的稀疏数组。
文件编码向量中的值对应于将词数规范化到-1到1之间所得结果,也可以通过改变默认值修改范围。
上例所得结果如下:
(1, 20)
[[ 0. 0. 0. 0. 0. 0.33333333
0. -0.33333333 0.33333333 0. 0. 0.33333333
0. 0. 0. -0.33333333 0. 0.
-0.66666667 0. ]]
这个教程讲述了如何用scikit-learn为机器学习任务准备文本数据(文件预处理),只讲了简单的实现方式,有待深挖。