python文本数据分析-新闻分类任务

python文本数据分析-新闻分类任务

文本分析

文本数据

python文本数据分析-新闻分类任务_第1张图片

停用词:1.语料中大量出现;2.没啥大用;3.留着过年嘛?所以根据停用词表进行筛选,去掉这些停用词。

Tf-idf:关键词提取

《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计
出现次数最多的词是----“的”、“是”、“在”----这一类最常用的词(停用词)
“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是一样的?
"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见

“逆文档频率”(Inverse Document Frequency,缩写为IDF)
如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性正是我们所需要的关键词

 词频  ( T F ) =  某个词在文章中的出现次数   文章中词的总数  \text { 词频 }(\mathrm{TF})=\frac{\text { 某个词在文章中的出现次数 }}{\text { 文章中词的总数 }}  词频 (TF)= 文章中词的总数  某个词在文章中的出现次数 

 逆文档频率  ( I D F ) = log ⁡ (  语料库的文档总数   包含该词的文档数  + 1 ) \text { 逆文档频率 }(\mathrm{IDF})=\log \left(\frac{\text { 语料库的文档总数 }}{\text { 包含该词的文档数 }+1}\right)  逆文档频率 (IDF)=log( 包含该词的文档数 +1 语料库的文档总数 )

T F − I D F =  词频  ( T F ) ×  逆文档频率  (  IDF  ) \mathrm{TF}-\mathrm{IDF}=\text { 词频 }(\mathrm{TF}) \times \text { 逆文档频率 }(\text { IDF }) TFIDF= 词频 (TF)× 逆文档频率 ( IDF )

《中国的蜜蜂养殖》:假定该文长度为1000个词,“中国”、“蜜蜂”、“养殖"各出现20次,则这三个词的"词频”(TF)都为0.02
搜索Google发现,包含"的"字的网页共有250亿张,假定这就是中文网页总数。
包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张

python文本数据分析-新闻分类任务_第2张图片

相似度

python文本数据分析-新闻分类任务_第3张图片

句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
语料库:我,喜欢,看,电视,电影,不,也。
词频:
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。
词频向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]

python文本数据分析-新闻分类任务_第4张图片

cos ⁡ θ = ∑ i = 1 n ( A i × B i ) ∑ i = 1 n ( A i ) 2 × ∑ i = 1 n ( B i ) 2 = A ⋅ B ∣ A ∣ × ∣ B ∣ \begin{aligned} \cos \theta &=\frac{\sum_{i=1}^{n}\left(A_{i} \times B_{i}\right)}{\sqrt{\sum_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum_{i=1}^{n}\left(B_{i}\right)^{2}}} \\ &=\frac{A \cdot B}{|A| \times|B|} \end{aligned} cosθ=i=1n(Ai)2 ×i=1n(Bi)2 i=1n(Ai×Bi)=A×BAB

cos ⁡ θ = 1 × 1 + 2 × 2 + 2 × 2 + 1 × 1 + 1 × 1 + 1 × 2 + 0 × 1 1 2 + 2 2 + 2 2 + 1 2 + 1 2 + 1 2 + 0 2 × 1 2 + 2 2 + 2 2 + 1 2 + 1 2 + 2 2 + 1 2 = 13 12 × 16 = 0.938 \begin{aligned} \cos \theta &=\frac{1 \times 1+2 \times 2+2 \times 2+1 \times 1+1 \times 1+1 \times 2+0 \times 1}{\sqrt{1^{2}+2^{2}+2^{2}+1^{2}+1^{2}+1^{2}+0^{2}} \times \sqrt{1^{2}+2^{2}+2^{2}+1^{2}+1^{2}+2^{2}+1^{2}}} \\ &=\frac{13}{\sqrt{12} \times \sqrt{16}} \\ &=0.938 \end{aligned} cosθ=12+22+22+12+12+12+02 ×12+22+22+12+12+22+12 1×1+2×2+2×2+1×1+1×1+1×2+0×1=12 ×16 13=0.938

新闻分类案例

import pandas as pd
import jieba
#pip install jieba

数据源:http://www.sogou.com/labs/resource/ca.php

df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news = df_news.dropna()
df_news.head()

python文本数据分析-新闻分类任务_第5张图片

df_news.shape

(5000, 4)

分词:使用结吧分词器

content = df_news.content.values.tolist()
print (content[1000])
阿里巴巴集团昨日宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),阿里巴巴B2B公司CEO陆兆禧将会出任上述职务,向集团CEO马云直接汇报。>菹ぃ和6月初的首席风险官职务任命相同,首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判,推进“one company”目标后,在集团决策层面新增的管理岗位。0⒗锛团昨日表示,“变成一家真正意义上的数据公司”已是战略共识。记者刘夏
content_S = []
for line in content:
    current_segment = jieba.lcut(line)
    if len(current_segment) > 1 and current_segment != '\r\n': #换行符
        content_S.append(current_segment)
content_S[1000]

python文本数据分析-新闻分类任务_第6张图片

df_content=pd.DataFrame({'content_S':content_S})
df_content.head()

python文本数据分析-新闻分类任务_第7张图片

# 数据清洗,去掉停用词
stopwords=pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')
stopwords.head(20)

python文本数据分析-新闻分类任务_第8张图片

def drop_stopwords(contents,stopwords):
    contents_clean = []
    all_words = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean,all_words
    #print (contents_clean)
        

contents = df_content.content_S.values.tolist()    
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)

#df_content.content_S.isin(stopwords.stopword)
#df_content=df_content[~df_content.content_S.isin(stopwords.stopword)]
#df_content.head()
df_content=pd.DataFrame({'contents_clean':contents_clean})
df_content.head()

python文本数据分析-新闻分类任务_第9张图片

df_all_words=pd.DataFrame({'all_words':all_words})
df_all_words.head()

python文本数据分析-新闻分类任务_第10张图片

import numpy
words_count=df_all_words.groupby(by=['all_words'])['all_words'].agg({"count":numpy.size})
words_count=words_count.reset_index().sort_values(by=["count"],ascending=False)
words_count.head()

python文本数据分析-新闻分类任务_第11张图片

# 词云
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)

wordcloud=WordCloud(font_path="./data/simhei.ttf",background_color="white",max_font_size=80)
# 前100个词
word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

python文本数据分析-新闻分类任务_第12张图片

TF-IDF :提取关键词

import jieba.analyse
# 修改索引,可以查看不同的新闻
index = 2400
print (df_news['content'][index])
content_S_str = "".join(content_S[index])  
print ("  ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))
法国VS西班牙、里贝里VS哈维,北京时间6月24日凌晨一场的大战举世瞩目,而这场胜利不仅仅关乎两支顶级强队的命运,同时也是他们背后的球衣赞助商耐克和阿迪达斯之间的一次角逐。T谌胙”窘炫分薇的16支球队之中,阿迪达斯和耐克的势力范围也是几乎旗鼓相当:其中有5家球衣由耐克提供,而阿迪达斯则赞助了6家,此外茵宝有3家,而剩下的两家则由彪马赞助。而当比赛进行到现在,率先挺进四强的两支球队分别被耐克支持的葡萄牙和阿迪达斯支持的德国占据,而由于最后一场1/4决赛是茵宝(英格兰)和彪马(意大利)的对决,这也意味着明天凌晨西班牙同法国这场阿迪达斯和耐克在1/4决赛的唯一一次直接交手将直接决定两家体育巨头在此次欧洲杯上的胜负。8据评估,在2012年足球商品的销售额能总共超过40亿欧元,而单单是不足一个月的欧洲杯就有高达5亿的销售额,也就是说在欧洲杯期间将有700万件球衣被抢购一空。根据市场评估,两大巨头阿迪达斯和耐克的市场占有率也是并驾齐驱,其中前者占据38%,而后者占据36%。体育权利顾问奥利弗-米歇尔在接受《队报》采访时说:“欧洲杯是耐克通过法国翻身的一个绝佳机会!”C仔尔接着谈到两大赞助商的经营策略:“竞技体育的成功会燃起球衣购买的热情,不过即便是水平相当,不同国家之间的欧洲杯效应却存在不同。在德国就很出色,大约1/4的德国人通过电视观看了比赛,而在西班牙效果则差很多,由于民族主义高涨的加泰罗尼亚地区只关注巴萨和巴萨的球衣,他们对西班牙国家队根本没什么兴趣。”因此尽管西班牙接连拿下欧洲杯和世界杯,但是阿迪达斯只为西班牙足协支付每年2600万的赞助费#相比之下尽管最近两届大赛表现糟糕法国足协将从耐克手中每年可以得到4000万欧元。米歇尔解释道:“法国创纪录的4000万欧元赞助费得益于阿迪达斯和耐克竞逐未来15年欧洲市场的竞争。耐克需要笼络一个大国来打赢这场欧洲大陆的战争,而尽管德国拿到的赞助费并不太高,但是他们却显然牢牢掌握在民族品牌阿迪达斯手中。从长期投资来看,耐克给法国的赞助并不算过高。”
耐克  阿迪达斯  欧洲杯  球衣  西班牙

LDA :主题模型

格式要求:list of list形式,分词好的的整个语料

# LDA建模
from gensim import corpora, models, similarities
import gensim
#http://radimrehurek.com/gensim/
#做映射,相当于词袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]
#类似Kmeans自己指定K值
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) 
#一号分类结果
print (lda.print_topic(1, topn=5))

0.017*“万” + 0.014*“号” + 0.007*“转” + 0.005*“防晒” + 0.004*“矗埃埃福”

for topic in lda.print_topics(num_topics=20, num_words=5):
    print (topic[1])
0.007*"万" + 0.006*"中" + 0.004*"食物" + 0.004*"号" + 0.004*"含有"
0.017*"万" + 0.014*"号" + 0.007*"转" + 0.005*"防晒" + 0.004*"矗埃埃福"
0.006*"中" + 0.004*"工作" + 0.004*"女人" + 0.004*"考生" + 0.003*"文化"
0.005*"中" + 0.004*"岁" + 0.003*"说" + 0.003*"做" + 0.002*"郭德纲"
0.015*"肌肤" + 0.011*"男人" + 0.009*"官兵" + 0.007*"皮肤" + 0.006*"赛区"
0.014*"电影" + 0.012*"中国" + 0.009*"M" + 0.007*"i" + 0.006*"中"
0.006*"导师" + 0.004*"出版" + 0.004*"模特" + 0.004*"中" + 0.003*"恒大"
0.008*"观众" + 0.007*"说" + 0.007*"中" + 0.006*"导演" + 0.006*"男人"
0.008*"说" + 0.008*"中" + 0.005*"孩子" + 0.005*"卫视" + 0.005*"男人"
0.005*"赛季" + 0.004*"中" + 0.003*"联赛" + 0.003*"双江" + 0.003*"中国"
0.006*"中" + 0.005*"说" + 0.005*"男人" + 0.004*"L" + 0.004*"H"
0.030*"e" + 0.029*"a" + 0.021*"o" + 0.019*"i" + 0.018*"r"
0.008*"中" + 0.007*"节目" + 0.006*"S" + 0.005*"观众" + 0.005*"评委"
0.007*"中" + 0.002*"工作" + 0.002*"时间" + 0.002*"纤维" + 0.002*"孩子"
0.008*"中" + 0.005*"V" + 0.005*"S" + 0.004*"中国" + 0.004*"张绍"
0.012*"选手" + 0.008*"球队" + 0.006*"中" + 0.005*"职场" + 0.004*"现场"
0.007*"中" + 0.004*"创作" + 0.004*"说" + 0.004*"爆料" + 0.003*"D"
0.013*"中国" + 0.011*"比赛" + 0.010*"中" + 0.005*"说" + 0.004*"冠军"
0.005*"中" + 0.005*"比赛" + 0.005*"性感" + 0.005*"P" + 0.004*"L"
0.004*"e" + 0.003*"化妆水" + 0.003*"a" + 0.003*"o" + 0.003*"网站"
df_train=pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

python文本数据分析-新闻分类任务_第13张图片

# 当前一列有多少不重复的值
df_train.label.unique()

array([‘汽车’, ‘财经’, ‘科技’, ‘健康’, ‘体育’, ‘教育’, ‘文化’, ‘军事’, ‘娱乐’, ‘时尚’],
dtype=object)

# 映射
label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
# 替换
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

python文本数据分析-新闻分类任务_第14张图片

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values, random_state=1)
#x_train = x_train.flatten()
x_train[0][1]

‘上海’

words = []
for line_index in range(len(x_train)):
    try:
        #x_train[line_index][word_index] = str(x_train[line_index][word_index])
        words.append(' '.join(x_train[line_index]))
    except:
        print (line_index,word_index)
words[0]        
'中新网 上海 日电 于俊 父亲节 网络 吃 一顿 电影 快餐 微 电影 爸 对不起 我爱你 定于 本月 父亲节 当天 各大 视频 网站 首映 葜 谱 鞣 剑 保慈 障蚣 钦 呓 樯 埽 ⒌ 缬 埃 ǎ 停 椋 悖 颍 铩 妫 椋 恚 称 微型 电影 新 媒体 平台 播放 状态 短时 休闲 状态 观看 完整 策划 系统 制作 体系 支持 显示 较完整 故事情节 电影 微 超短 放映 微 周期 制作 天 数周 微 规模 投资 人民币 几千 数万元 每部 内容 融合 幽默 搞怪 时尚 潮流 人文 言情 公益 教育 商业 定制 主题 单独 成篇 系列 成剧 唇 开播 微 电影 爸 对不起 我爱你 讲述 一对 父子 观念 缺少 沟通 导致 关系 父亲 传统 固执 钟情 传统 生活 方式 儿子 新派 音乐 达 习惯 晚出 早 生活 性格 张扬 叛逆 两种 截然不同 生活 方式 理念 差异 一场 父子 间 拉开序幕 子 失手 打破 父亲 心爱 物品 父亲 赶出 家门 剧情 演绎 父亲节 妹妹 哥哥 化解 父亲 这场 矛盾 映逋坏 嚼 斫 狻 ⒍ 粤 ⒌ 桨容 争执 退让 传统 尴尬 父子 尴尬 情 男人 表达 心中 那份 感恩 一杯 滤挂 咖啡 父亲节 变得 温馨 镁 缬 缮 虾 N 逄 煳 幕 传播 迪欧 咖啡 联合 出品 出品人 希望 观摩 扪心自问 父亲节 父亲 记得 父亲 生日 哪一天 父亲 爱喝 跨出 家门 那一刻 感觉 一颗 颤动 心 操劳 天下 儿女 父亲节 大声 喊出 父亲 家人 爱 完'
print (len(words))

3750

from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
# 按照指定的标准进行转换
cv_fit=cv.fit_transform(texts)

# 不重复的单词
print(cv.get_feature_names())
print(cv_fit.toarray())


print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘dog’, ‘fish’]
[[0 1 1 1]
[0 2 1 0]
[1 0 0 1]
[1 0 0 0]]
[2 3 2 2]

from sklearn.feature_extraction.text import CountVectorizer
# 输入的形式
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer(ngram_range=(1,4))
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())


print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘cat cat’, ‘cat fish’, ‘dog’, ‘dog cat’, ‘dog cat cat’, ‘dog cat fish’, ‘fish’, ‘fish bird’]
[[0 1 0 1 1 1 0 1 1 0]
[0 2 1 0 1 1 1 0 0 0]
[1 0 0 0 0 0 0 0 1 1]
[1 0 0 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 1 1 2 1]

# 普通贝叶斯
from sklearn.feature_extraction.text import CountVectorizer

# 实例化对象
vec = CountVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vec.fit(words)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)
test_words = []
for line_index in range(len(x_test)):
    try:
        #x_train[line_index][word_index] = str(x_train[line_index][word_index])
        test_words.append(' '.join(x_test[line_index]))
    except:
         print (line_index,word_index)
test_words[0]
'国家 公务员 考试 申论 应用文 类 试题 实质 一道 集 概括 分析 提出 解决问题 一体 综合性 试题 说 一道 客观 凝练 申发 论述 文章 题目 分析 历年 国考 申论 真题 公文 类 试题 类型 多样 包括 公文 类 事务性 文书 类 题材 从题 干 作答 材料 内容 整合 分析 无需 太 创造性 发挥 纵观 历年 申论 真题 作答 应用文 类 试题 文种 格式 作出 特别 重在 内容 考查 行文 格式 考生 平常心 面对 应用文 类 试题 准确 把握 作答 领会 内在 含义 把握 题材 主旨 材料 结构 轻松 应对 应用文 类 试题 R 弧 ⒆ 钒 盐 展文 写作 原则 T 材料 中来 应用文 类 试题 材料 总体 把握 客观 考生 材料 中来 材料 中 把握 材料 准确 理解 题材 主旨 T 政府 角度 作答 应用文 类 试题 更应 注重 政府 角度 观点 政府 角度 出发 原则 表述 观点 提出 解决 之策 考生 作答 站 政府 人员 角度 看待 提出 解决问题 T 文体 结构 形式 考查 重点 文体 结构 大部分 评分 关键点 解答 方法 薄 ⒆ ス 丶 词 明 方向 作答 题目 题干 作答 作答 方向 作答 角度 关键 向导 考生 仔细阅读 题干 作答 抓住 关键词 作答 方向 相关 要点 整理 作答 思路 年国考 地市级 真 题为 例 潦惺姓 府 宣传 推进 近海 水域 污染 整治 工作 请 给定 资料 市政府 工作人员 身份 草拟 一份 宣传 纲要 R 求 保对 宣传 内容 要点 提纲挈领 陈述 玻 体现 政府 精神 全市 各界 关心 支持 污染 整治 工作 通俗易懂 超过 字 肮 丶 词 近海 水域 污染 整治 工作 市政府 工作人员 身份 宣传 纲要 提纲挈领 陈述 体现 政府 精神 全市 各界 关心 支持 污染 整治 工作 通俗易懂 提示 归结 作答 要点 包括 污染 情况 原因 解决 对策 作答 思路 情况 原因 对策 意义 逻辑 顺序 安排 文章 结构 病 ⒋ 缶殖 龇 ⅲ 明 结构 解答 应用文 类 试题 考生 材料 整体 出发 大局 出发 高屋建瓴 把握 材料 主题 思想 事件 起因 解决 对策 阅读文章 构建 文章 结构 直至 快速 解答 场 ⒗ 硭 乘悸 罚明 逻辑 应用文 类 试题 严密 逻辑思维 情况 原因 对策 意义 考生 作答 先 弄清楚 解答 思路 统筹安排 脉络 清晰 逻辑 表达 内容 表述 础 把握 明 详略 考生 仔细阅读 分析 揣摩 应用文 类 试题 内容 答题 时要 详略 得当 主次 分明 安排 内容 增加 文章 层次感 阅卷 老师 阅卷 时能 明白 清晰 一目了然 玻埃 保蹦旯 考 考试 申论 试卷 分为 省级 地市级 两套 试卷 能力 大有 省级 申论 试题 考生 宏观 角度看 注重 深度 广度 考生 深谋远虑 地市级 试题 考生 微观 视角 观察 侧重 考查 解决 能力 考生 贯彻执行 作答 区别对待'
classifier.score(vec.transform(test_words), y_test)

0.804

# Tfidf
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vectorizer.fit(words)
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words), y_train)
classifier.score(vectorizer.transform(test_words), y_test)

0.8152

问题解决

windows10下wordcloud模块成功安装 ,一定要找到对应自己Python的版本,进入到下载目录安装!

https://pypi.org/project/wordcloud/#files

ModuleNotFountError:No module named ‘gensim‘(在python代码中导入gensim模块)

https://blog.csdn.net/qq_44081582/article/details/112645029

AttributeError: module ‘numpy.random’ has no attribute 'default_rng’
https://blog.csdn.net/weixin_45195364/article/details/115386051

你可能感兴趣的:(#,机器学习,python,数据分析,分类,机器学习,tf-idf)