特征提取之文本特征提取

文章目录

  • 一、 文本特征抽取(处理英文)
    • 引入库
  • 二、文本特征抽取(处理中文)
    • 默认情况下
    • 对句子进行分割,再处理
      • 引入库

一、 文本特征抽取(处理英文)

引入库

from sklearn.feature_extraction.text import CountVectorizer
# 注意这个类的导入是从sklearn.feature_extraction.text中导入的,而不是从sklearn.feature_extraction中导入的

当处理的数据是英文短句时,会按照单词作为特征,对空格等进行分割,从而获得每个独立的单词
示例代码如下:

from sklearn.feature_extraction.text import CountVectorizer
# 注意这个库的导入是从sklearn.feature_extraction.text中导入的,而不是从sklearn.feature_extraction中导入的

# 文本特征抽取(处理英文):CountVecotrizer
def count_test():
    data = ["The voice of one man is the voice of no one one",
            "The voice of one woman is the voice of  one"]
    transfer = CountVectorizer() # 注意CountVecotrizer()没有sparse参数,所以无法通过调节sparse参数来调节返回的结果
    # transfer = CountVectorizer(stop_words=['one']) # 注意CountVecotrizer()有一个stop_words参数用于去除不需要提取的词,且stop_words必须传一个列表对象
    # 1.实例化一个转换器类
    new_data = transfer.fit_transform(data) # 会自动去除单个词
    # 2.调用实例对象的fit_transform()
    print('特征名称:\n',transfer.get_feature_names())
    # print("new_data:\n",new_data) # 返回稀疏矩阵(通常默认情况下都是返回稀疏矩阵)
    print("new_data:\n",new_data.toarray()) # 返回密集矩阵
    
if __name__=="__main__":
    count_test()

注意

- CountVecotrizer()没有sparse参数,所以无法通过调节sparse参数来调节返回的结果
- CountVecotrizer()有一个stop_words参数用于去除不需要提取的词,且stop_words必须传一个列表对象
- CountVectorizer这个类的导入是从sklearn.feature_extraction.text中导入的,而不是从sklearn.feature_extraction中导入的

代码运行结果如下:
特征提取之文本特征提取_第1张图片

二、文本特征抽取(处理中文)

默认情况下

示例代码如下:

from sklearn.feature_extraction.text import CountVectorizer
# 注意这个类的导入是从sklearn.feature_extraction.text中导入的,而不是从sklearn.feature_extraction中导入的
# 文本特征抽取(处理中文):CountVecotrizer
def count_test2():
    data = ["五十六个民族",
            "五十六朵花"]
    transfer = CountVectorizer() # 注意CountVecotrizer()没有sparse参数,所以无法通过调节sparse参数来调节返回的结果
    # 1.实例化一个转换器类
    new_data = transfer.fit_transform(data)
    # 2.调用实例对象的fit_transform()
    print('特征名称:\n',transfer.get_feature_names())
    print("new_data:\n",new_data) # 返回稀疏矩阵(通常默认情况下都是返回稀疏矩阵)
    print("new_data:\n",new_data.toarray()) # 返回密集矩阵
if __name__=="__main__":
    count_test2()

代码运行结果如下:
特征提取之文本特征提取_第2张图片
因为没有空格作为分隔符,所以处理中文句子的时候,会自动的将一段不含空格等的句子作为一个特征,这样的话就达不到特征提取的效果了。

对句子进行分割,再处理

引入库

import jieba
# 导入分词库,对中文短句进行分词预处理

为了达到对中文句子特征提取的效果,在提取中文文本特征之前,先要对文本进行分词预处理。
示例代码如下:

from sklearn.feature_extraction.text import CountVectorizer
# 注意这个类的导入是从sklearn.feature_extraction.text中导入的,而不是从sklearn.feature_extraction中导入的
import jieba
# 导入分词库,对中文短句进行分词预处理

# 对中文短句进行分词预处理
def cut_sentence(data):
    data_temp = []
    for sentence in data:
        # 先对短句进行分词,再用空格拼接起来,添加到data_temp中
        data_temp.append(' '.join(jieba.cut(sentence)))
    return data_temp

# 文本特征抽取(处理中文):CountVecotrizer
def count_test2():
    data = ["五十六个民族",
            "五十六朵花"]
    data_temp = cut_sentence(data)
    transfer = CountVectorizer() # 注意CountVecotrizer()没有sparse参数,所以无法通过调节sparse参数来调节返回的结果
    # 1.实例化一个转换器类
    new_data = transfer.fit_transform(data_temp)
    # 2.调用实例对象的fit_transform()
    print('特征名称:\n',transfer.get_feature_names())
    print("new_data:\n",new_data) # 返回稀疏矩阵(通常默认情况下都是返回稀疏矩阵)
    print("new_data:\n",new_data.toarray()) # 返回密集矩阵

if __name__=="__main__":
    count_test2()

代码运行结果如下:
特征提取之文本特征提取_第3张图片

你可能感兴趣的:(python,开发语言,后端)