GitHub上有哪些优秀的爬虫项目?

GitHub上有哪些优秀的爬虫项目?_第1张图片

1

写在前面的话           

今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波!

2

福利开始喽!

1. Anti-Anti-Spider

地址:https://github.com/luyishisi/Anti-Anti-Spider

GitHub上有哪些优秀的爬虫项目?_第2张图片

很全面的反爬虫项目大全:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip更换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

2. awesome-spider


网址:https://github.com/facert/awesome-spider

GitHub上有哪些优秀的爬虫项目?_第3张图片

这是一个id为facert的知乎工程师开源的项目,目前见过最详细最多的爬虫案例大全了,真的值得大家去学习一波!

3. Nyspider

网址:https://github.com/Nyloner/Nyspider

GitHub上有哪些优秀的爬虫项目?_第4张图片

这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。

可以看出,都是各类网址,和本人的工作有关。

4. awesome-python-login-model

网址://github.com/CriseLYJ/awesome-python-login-model

GitHub上有哪些优秀的爬虫项目?_第5张图片

这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。


5. python-spider

网址:https://github.com/Jack-Cherish/python-spider

GitHub上有哪些优秀的爬虫项目?_第6张图片

这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。

6. Google,Baidu,Bing三大搜素引擎图片爬虫

网址:https://github.com/sczhengyabin/Image-Downloader


GitHub上有哪些优秀的爬虫项目?_第7张图片

这个爬虫足够满足小型项目初始数据集的积累,结果命名也非常整齐规范,最大的优点是稳定。

3

END        

      想要更快的提升自己的爬虫技术,单单把基本的知识学完是远远不够的,而是要多去实战,这些案例非常的优秀,大家都可以按照他们的写法去写一遍,这样更有利于大家爬虫技术的提升!

       如果你觉得这篇文章对你有所帮助,可以点击右下角的“在看”或者你也可以给JAP君加个小鸡腿!JAVAandPython君---一个坚持原创技术文章输出的公众号

GitHub上有哪些优秀的爬虫项目?_第8张图片

你可能感兴趣的:(GitHub上有哪些优秀的爬虫项目?)