史上最全虎扑爬虫,带你看网络爬虫下的步行街

 

前言

本项目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而来,之前爬过各大高校的百度贴吧,本人也是位小jr,想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的,介于工作太忙没有写帖子,数据截止时间大致在2018年10月6日,也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。

本文作者:陈超允;转载请注明出处

项目

项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。具体的技术栈如下:

  • springboot 1.5.7
  • springMVC+Rest+EChart...
  • mybatis 3.4.6
  • hikari 连接池
  • webmagic 0.7.3(修改版,修复https问题与log优化 下载地址:https://download.csdn.net/download/sinat_22767969/10703880)
  • mysql 5.7.17 (支持utf8mb4字符编码)

GitHub:https://github.com/chenchaoyun0/hpspider,觉得有用给个start哈~

快速启动

(1)克隆项目

git clone https://github.com/chenchaoyun0/hpspider.git

(2)修改数据库连接配置,执行DB初始化脚本,maven构建项目

mvn clean install -DskipTests

(3)启动爬虫

启动项目,访问 http://127.0.0.1:5099/swagger-ui.html ,执行 startSpider (注:若数据库中已有数据必须清空)

(4)配置

#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页,有时候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000

虎扑爬虫数据分析

爬取过程

待程序执行一段时间后,如果你spider.post.size配的太大,则爬取的时间会很长

博主爬的时候配的是10200,放在服务器上面跑,开启爬虫500个线程,落库线程500,爬了有3天~~

帖子总数:120.7万,回复总数:1504.9万,JR(用户)总数:141.9万,下面的数据分析就是用的这些数据进行处理,帖子回复数点亮小于1就忽略掉了。

部分数据截图

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第1张图片

 

数据分析

访问 http://127.0.0.1:5099 即可看到一个导航页面

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第2张图片

下面做下比较有趣的数据分析与图形化展示

  • 帖子标题的热点词汇

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第3张图片

看看大家发帖经常使用的词汇,水平、zt(到底是主题?还是转帖?)、求助、女朋友哈哈,

  • Jrs所在地分布柱形图

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第4张图片

广东的JR是最多的哈~~~其次是北京,再看看女JR的情况

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第5张图片

emmm,这里比较懒,没有做排序,当然,还是广东女JR最多了

  • 男女比例分布

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第6张图片

同样,性别未知的就是不填性别的,有一半多,再看一张图

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第7张图片

实在是可怜~~~~不愧被称为直男一条街咳咳

  • 年发帖量

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第8张图片

当前,这里的2018年还没有过完,只是统计到2018年10月国庆期间

  • 年里的月发帖量

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第9张图片

通过此图可以看出,JRS在8月份的时候,热情高涨hhh

  • 时发帖量

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第10张图片

JR在晚上10点的时候发帖最频繁

  • 时回复量

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第11张图片

JRS在中午11点最活跃哈?

  • NBA主队分布

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第12张图片

其中有百分之82的人没有填自己的归属主队,再看一张图把未知的去掉后

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第13张图片

看图说话~

  • JR等级分布

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第14张图片

  •  
  • 2016年度的十大热帖

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第15张图片

  • 2017年度的十大热帖

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第16张图片

原来大部分JR都想当程序员???emmm

  • 2018年度的十大热帖

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第17张图片

哈哈,2018年的热帖里,wyf 出现的也太多了吧

  • 历史来十大热帖

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第18张图片

历史来是指,2016~2018的,2015的数据比较少,也比较久远,爬不到了

  • 2018年度点亮前十的回复

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第19张图片

skr  skr~~

  • 粉丝最多的10大JR

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第20张图片

张佳玮先生~~我什么时候能拥有你一半的粉丝。。。

  • 粉丝最多的女JR

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第21张图片

 

  • 访问量前十的Jrs

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第22张图片

emmm,这位大哥,竟然有快2亿的访问量。。。。可怕~~

  • 访问量前十的女Jrs,看看哪位女jr

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第23张图片

  • 社区声望排行

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第24张图片

  • JR设备分布比例

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第25张图片

安卓用户和苹果用户不分上下哈~~

  • jrs加入时间分布曲线图

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第26张图片

2015年是最巅峰的时期啊~~

  • 十大发帖量最多的JR

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第27张图片

  • 帖子回复的词云

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第28张图片

绿化一条街,竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有,JR们都喜欢发图吧 ~

  • JR昵称词云

史上最全虎扑爬虫,带你看网络爬虫下的步行街_第29张图片

爱字~~~~看来JRS跟我一样,为情所困,不知道到底选哪个女朋友好,愁死个人了~~~tx

 

 

over!!好累的说!欢迎步行街的猿儿JR给个start

本项目gitHub地址:https://github.com/chenchaoyun0/hpspider

博主邮箱:[email protected],欢迎JR骚扰与探讨各种奇淫技巧~~

PS:我是一只Java猿儿

你可能感兴趣的:(我的JAVA学习笔记)