知乎爬虫---总结我的Java课程设计

这次课程设计的技术点

1.Java线程池、连接池

2.JDBC编程

3.HTTPClient模拟浏览器

4.jsoup与正则表达式匹配信息

5.多cookie逃避知乎反爬

6.fiddler抓包、pc端和手机端

7.BDP个人版数据可视化分析


本来想加一个ip代理池,但知乎根据cookie预判用户,我买了10个知乎账号,目前来说够用了,我还想爬拉钩网,到时候再用IP代理池


知乎爬虫---总结我的Java课程设计_第1张图片


这是我用3.6W知乎用户数据做的云图。

知乎爬虫---总结我的Java课程设计_第2张图片

互联网行业的地域分布,可以看到一线城市北上广深杭几乎占了90%,杭州的比例竟然和深圳相当,已经是名正言顺的互联网城市了。


这次知乎爬虫程序并不是一帆风顺

遇到封IP的情况

遇到各种新的词汇,比如反爬,手机抓包,模拟浏览器

收获很多,最重要的是找解决方法的那些过程。





你可能感兴趣的:(网络爬虫)