本项目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而来,之前爬过各大高校的百度贴吧,本人也是位小jr,想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的,介于工作太忙没有写帖子,数据截止时间大致在2018年10月6日,也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。
本文作者:陈超允;转载请注明出处
项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。具体的技术栈如下:
GitHub:https://github.com/chenchaoyun0/hpspider,觉得有用给个start哈~
(1)克隆项目
git clone https://github.com/chenchaoyun0/hpspider.git
(2)修改数据库连接配置,执行DB初始化脚本,maven构建项目
mvn clean install -DskipTests
(3)启动爬虫
启动项目,访问 http://127.0.0.1:5099/swagger-ui.html ,执行 startSpider (注:若数据库中已有数据必须清空)
(4)配置
#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页,有时候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000
待程序执行一段时间后,如果你spider.post.size配的太大,则爬取的时间会很长
博主爬的时候配的是10200,放在服务器上面跑,开启爬虫500个线程,落库线程500,爬了有3天~~
帖子总数:120.7万,回复总数:1504.9万,JR(用户)总数:141.9万,下面的数据分析就是用的这些数据进行处理,帖子回复数点亮小于1就忽略掉了。
部分数据截图
访问 http://127.0.0.1:5099 即可看到一个导航页面
看看大家发帖经常使用的词汇,水平、zt(到底是主题?还是转帖?)、求助、女朋友哈哈,
广东的JR是最多的哈~~~其次是北京,再看看女JR的情况
emmm,这里比较懒,没有做排序,当然,还是广东女JR最多了
同样,性别未知的就是不填性别的,有一半多,再看一张图
实在是可怜~~~~不愧被称为直男一条街咳咳
当前,这里的2018年还没有过完,只是统计到2018年10月国庆期间
通过此图可以看出,JRS在8月份的时候,热情高涨hhh
JR在晚上10点的时候发帖最频繁
JRS在中午11点最活跃哈?
其中有百分之82的人没有填自己的归属主队,再看一张图把未知的去掉后
看图说话~
原来大部分JR都想当程序员???emmm
哈哈,2018年的热帖里,wyf 出现的也太多了吧
历史来是指,2016~2018的,2015的数据比较少,也比较久远,爬不到了
skr skr~~
张佳玮先生~~我什么时候能拥有你一半的粉丝。。。
emmm,这位大哥,竟然有快2亿的访问量。。。。可怕~~
安卓用户和苹果用户不分上下哈~~
2015年是最巅峰的时期啊~~
绿化一条街,竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有,JR们都喜欢发图吧 ~
爱字~~~~看来JRS跟我一样,为情所困,不知道到底选哪个女朋友好,愁死个人了~~~tx
over!!好累的说!欢迎步行街的猿儿JR给个start
本项目gitHub地址:https://github.com/chenchaoyun0/hpspider
博主邮箱:[email protected],欢迎JR骚扰与探讨各种奇淫技巧~~
PS:我是一只Java猿儿