前言:
最近有点时间,就写个东西玩玩,就是分析电影评论做成词云图。这次没有采用python去爬取电影评论,而是采用了java中的多线程和线程池去爬取电影评论,但是用评论做词云图使用python写的。如果不喜欢用java做爬虫的朋友,也可以换成用python语言写,过程不是很重要,看自己喜好。
环境:
windows 10
jdk 1.7
python 3.5
成果:
作品链接:
请大家随手 star 下不甚感激
java多线程爬虫的部分:https://github.com/vicoqi/java-crawl/tree/master/java_spider
python 做词云图的部分:https://github.com/vicoqi/python_crawl/tree/master/word-cloud
一、爬取电影评论
这里我抓取的电影评论是《肖申克的救赎》,当然你们也可以换电影爬取,只需要换到URL 中的 subject后面的id数就好。
由于采用的是java语言写的,所以我先说说思路。不想看思路的直接去github上看代码
1)爬取代理网站上的代理IP 和端口,可以持久化到文件中等下次用,不用每次启动都去要去重新爬取代理网站上的代理Ip 和端口。收集 各种 USER-AGENT 头,每次做请求时随机切换。以上两个步骤都是为了防止反爬虫。
2)把上一步收集到的代理信息,进行验证,验证成功的保存到set集合中,为后面定时持久化到文件。保存成功的就保存到队列中,为后面做出队列与入队列和重试。
3)对访问到的数据进行解析,这里主要是采用了 jsoup 去解析。把解析数据保存到磁盘。
详细的代码部分请移步上面的github链接关于java 部分。
二、对评论进行解析
这个部分我采用的是python 语言写的,因为这个分词解析和第三部分的做词云图很配合,所以我图方便就都用python写了。
这个部分需要安装python 的一些类库:
jieba、matplotlib、numpy、pillow 。
所以我建议大家最好安装好pip这个包管理器,需要什么只需输入 pip install 类库名称 就可以了。
但是有时候你会发现安装一些类库用 pip 会失败。所以下面我就从网上找了一些亲测的解决办法,里面包括我上面所提到所有东西的安装方法。
https://blog.csdn.net/piaomaishuangshuang/article/details/52181604
https://blog.csdn.net/heyuexianzi/article/details/76851377
https://www.jianshu.com/p/7af0f10a2374
详细的代码部分请移步上面的github链接关于python 部分。
三、做词云图
根据上一步做的分词解析结果,我们就可以做词云图了。
1)做词云图之前我们需要一个类库,那就是wordCloud库,有了它我们才能做到文章开头那样的效果图片。首先需要大家安装这个wordcloud这个类库。安装办法我也给大家如下:
https://www.jianshu.com/p/7af0f10a2374
2)下载字体,因为这个wordcloud对中文的支持不太好,所以要下载 Yahei.ttf。
字体下载链接如下:
http://vdisk.weibo.com/s/uwZsrNXe4D4SG
3)项目中有两个python文件,一个是带背景图的,一个是不带的。可以看大家的喜好选择
不带背景图的代码
#3、生成词云图,这里需要注意的是WordCloud默认不支持中文,所以这里需已下载好的中文字库
#无自定义背景图:需要指定生成词云图的像素大小,默认背景颜色为黑色,统一文字颜色:mode='RGBA'和colormap='pink'
wc = WordCloud(font_path=r"D:\Python\Python35-32\worl_cloud\Monaco Yahei.ttf",background_color='white',width=800,height=600,max_font_size=50,
max_words=1000)#,min_font_size=10)#,mode='RGBA',colormap='pink')
带背景图的代码
#3、初始化自定义背景图片
image = Image.open(r'D:\pythonworkspace\word-cloud\back.jpg')
graph = np.array(image)
#4、产生词云图
#有自定义背景图:生成词云图由自定义背景图像素大小决定
wc = WordCloud(font_path=r"D:\Python\Python35-32\worl_cloud\Monaco Yahei.ttf",background_color='white',max_font_size=50,mask=graph)
wc.generate(result)
不带背景图的效果图:
详细的代码部分请移步上面的github链接关于python 部分。
总结:
用java爬虫,让自己实践了多线程与线程池等知识,还用到了模板的设计思维。
用python 做分析做词云图,让自己体会到了用python 做科学计数分析的强大与方便。