python中文模糊关键词提取_python文本特征提取词频矩阵、中文文本的分词、jieba分词库...

单词、词语:作为特征值

方法1:sklearn.feature_extraction.text.CountVectorizer(stop_words=[]),

返回词语出现的次数,返回词频矩阵,stop_words=[]停用词列表

·CountVectorizer.fit_transform(X)X:文本或者包含文本字符串的可迭代对象返回值:返回sparse矩降

·CountVectorizer.inverse_transform(X)Xarray数组或者sparse矩阵返回值;转换之前数据格

·CountVectorizer.get_feature_names() 返回值;单词列表

import pandas as pdimport numpy as npfrom  sklearn.feature_extraction.text import CountVectorizerdata=["Maybe it was better to just really enjoy life. this is the life","享受生活,顺其自然。这就是生活"]transfer = CountVectorizer() #实例化一个转换器类data_new = transfer.fit_transform(data) #调用fit_transform()#print(data_new)print(transfer.get_feature_names())print(data_new.toarray()) #构建成一个二维表:data=pd.DataFrame(data_new.toarray(),columns=transfer.get_feature_names())display(data) #其实发现中文的分词效果并不好,原因:分词原理,根据空格、标点符号等特殊字符切分

python中文模糊关键词提取_python文本特征提取词频矩阵、中文文本的分词、jieba分词库..._第1张图片

中文文本的分词

需要借助jieba分词库

import pandas as pdimport numpy as npfrom  sklearn.feature_extraction.text import CountVectorizerimport jieba  #(jieba 分词,安装:pip install jieba) data=[u'今年国庆节打算去海南岛度假',"享受生活,顺其自然。这就是生活!"]#分词cut_data=[]for s in data:    cut_s=jieba.cut(s)    l_cut_s=' '.join(list(cut_s))    cut_data.append(l_cut_s)print(cut_data) #统计特征词出现次数transfer = CountVectorizer(stop_words=["打算","就是"]) #实例化一个转换器类,# stop_words=["打算","就是"],去除不想要的词data_new = transfer.fit_transform(cut_data) #调用fit_transform()#print(data_new)print(transfer.get_feature_names())print(data_new.toarray()) #构建成一个二维表:data=pd.DataFrame(data_new.toarray(),columns=transfer.get_feature_names())display(data)

python中文模糊关键词提取_python文本特征提取词频矩阵、中文文本的分词、jieba分词库..._第2张图片

方法2:sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None)

·TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。返回的值越高,找到这篇文章更为关键从词。
·TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

python中文模糊关键词提取_python文本特征提取词频矩阵、中文文本的分词、jieba分词库..._第3张图片

import pandas as pdimport numpy as npfrom  sklearn.feature_extraction.text import TfidfVectorizerimport jieba  #(jieba 分词,安装:pip install jieba) #数据data=["移动共享,共享汽车,共享经济,共享单车","财经栏目,财经政策,经济政策,共享经济"] #分词cut_data=[]for s in data:    cut_s=jieba.cut(s)    l_cut_s=' '.join(list(cut_s))    cut_data.append(l_cut_s)print(cut_data) #TF-IDFtransfer = TfidfVectorizer() #实例化一个转换器类data_new = transfer.fit_transform(cut_data) #调用fit_transform()#print(data_new)print(transfer.get_feature_names())print(data_new.toarray()) #构建成一个二维表:data=pd.DataFrame(data_new.toarray(),columns=transfer.get_feature_names())display(data)

python中文模糊关键词提取_python文本特征提取词频矩阵、中文文本的分词、jieba分词库..._第4张图片

你可能感兴趣的:(python中文模糊关键词提取)