利用词频技术统计分析大渡河公司哪些员工新闻写作水平高(爬虫)

一、公司简介

大渡河公司于2000年11月在成都高新区注册成立,主要任务是以龚嘴、铜街子为母体电站,滚动开发大渡河流域水电站,是国家能源集团所属最大的集水电开发建设和运营管理于一体的大型流域水电开发公司。

公司目前主要负责大渡河流域开发和西藏帕隆藏布流域开发筹建,拥有大渡河干流、支流以及西藏帕隆藏布流域水电资源约3000万千瓦。大渡河流域规划28个梯级电站开发,总装机约2340万千瓦。公司负责干流17个梯级电站的开发,涉及四川省三州两市(甘孜州、阿坝州、凉山州、雅安市、乐山市)12个县,总装机约1757万千瓦,形成了投产、在建、筹建稳步推进的可持续发展格局。帕隆藏布流域已完成流域规划报告(咨询稿),初步规划了“一库九级”方案,规划装机1142万千瓦。截至目前,公司资产总额为910.68亿元,在川投运装机约占四川统调水电总装机容量的四分之一。

二、需求分析

分析统计网站新闻标题、作者、日期等信息,分析一下该网站上网新闻有上面共性,也就是哪些类型题材新闻更容易上,另外也可以分析一下该公司上稿较多的作者,上稿较多一定程度上能反应作者水平。

三、爬虫实现信息抓取

上一篇文章中《利用python爬取大渡河公司新闻信息》已经将新闻标题、作者、日期等信息,爬取并保存在本地,接下来就要分析一下该公司上稿较多的作者,上稿较多一定程度上能反应作者水平。

四、实现代码如下

from matplotlib.pylab import plt
from wordcloud import WordCloud
import jieba
from PIL import Image
import numpy as np
import csv
import re


string = []
text = 'daduhe.csv'#文件名称
fp = open(text,'r',encoding='utf-8')#打开文件
reader = csv.DictReader(fp)#以字典的形式打开csv文件
for x in reader:
    if '、' in x['author']:#一篇文章可能存在多个作者,经分析,多人合作名字是通过“、”进行区分,所以存在“、”说明是多人合作完成的
        for i in x['author'].split('、'):#用“、”进行分割作者
            string.append(i)#将单个作者名字分别存入string列表中
    else:
        string.append(x['author'])#若作者中不存在“、”,说明是单人完成的文章,那么直接存入string字符串
string_data = re.sub(r'【|】|“|”|《|》|%|\d+|—|/','', ' '.join(string))#将字符串中的特殊字符替换位空字符




# img = Image.open('timg.jpg')#打开背景图片
# img_array = np.array(img)#定义词频背景
font = 'C:\Windows\Fonts\msyh.ttc'#微软黑体字体安装路径
wc = WordCloud(font_path=font,
               background_color='white',
               # mask=img_array,#定义词频背景
               width=1000,
               height=800)


wc.generate_from_text(string_data)#生成词云
wc.to_file('daduheauthor.png')#保存图片
plt.imshow(wc)#用plt显示图片
plt.axis('off')#不显示坐标轴
plt.show()#显示图片
fp.close()#关闭文件

五、效果图如下

利用词频技术统计分析大渡河公司哪些员工新闻写作水平高(爬虫)_第1张图片

你可能感兴趣的:(利用词频技术统计分析大渡河公司哪些员工新闻写作水平高(爬虫))