推荐收藏:Github热榜的这些爬虫项目!

前言

在互联网企业做市场分析,常常需要或许大量的数据。

开发实际的项目,需要足够多的数据,需要自己去想办法获取。

想要从头开始自学爬虫技术可能吗?应该是什么样的步骤?有哪些资源现在可以用?

万事开头难,一个好的爬虫项目就是一个好的开始!

推荐收藏:Github热榜的这些爬虫项目!_第1张图片

很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学。但是却完全不知道从何开始,很迷茫,学的也很杂。

如果你对爬虫很感兴趣,想找一些项目练练手,那么这些项目再合适不过了!

awesome-spider

爬虫大合集!项目多多

开源地址:
https://github.com/facert/awesome-spider

推荐收藏:Github热榜的这些爬虫项目!_第2张图片

收集各种爬虫(ps:默认语言为python),这是一个来自知乎工程师开源的,github标星高达12.9k,收集各类爬虫从a-z。

种类齐全,唯一的缺点就是部分已经不能用了,爬虫是有时效性的,技术更新太快了。

推荐收藏:Github热榜的这些爬虫项目!_第3张图片

12306

专业的12306抢票爬虫,再也不担心回家买不到票了

开源地址:
https://github.com/testerSunshine/12306

推荐收藏:Github热榜的这些爬虫项目!_第4张图片

目前已经start接近20.4万,fork6.5k,还会继续上涨!是一位叫文贤平的程序员,项目名称很有档次,直接明了,就叫“12306”,功能一直在更新,2018年初开始提交,最近的一次提交是几天前,看得出很用心。

推荐收藏:Github热榜的这些爬虫项目!_第5张图片

很清晰明了,从查询余票开始,到付款完成,最后获取订单号。一气呵成,不怕人类手速太慢。技术原理其实是没什么说的,

懂爬虫的人都知道,实质上就是用程序模拟人的行为去查询余票、提交坐席下单就可以了。不过对比人的话,毕竟是程序,你可以设置它一直不停的在查询余票。这方面人是没法比的。当然其中的难度肯定是有的,不然阿猫阿狗都能冲榜!

这很可能是全 GitHub 最德高望重的购票小助手了,现在功能一直在更新,且已支持 Python 3.6以上版本

成功log,如果是购票失败的,请带上失败的log给我,我尽力帮你调,也可加群一起交流,程序只是加速买票的过程,并不一定能买到票


正在第355次查询  乘车日期: 2018-02-12  车次G4741,G2365,G1371,G1377,G1329 查询无票  代理设置 无  总耗时429ms
车次: G4741 始发车站: 上海 终点站: 邵阳 二等座:有
正在尝试提交订票...
尝试提交订单...
出票成功
排队成功, 当前余票还剩余: 359 张
正在使用自动识别验证码功能
验证码通过,正在提交订单
提交订单成功!
排队等待时间预计还剩 -12 ms
排队等待时间预计还剩 -6 ms
排队等待时间预计还剩 -7 ms
排队等待时间预计还剩 -4 ms
排队等待时间预计还剩 -4 ms
恭喜您订票成功,订单号为:EB52743573, 请立即打开浏览器登录12306,访问‘未完成订单’,在30分钟内完成支付!

模拟登陆合集

项目名称:awesome-python-login-model
开源地址:https://github.com/Kr1s77/awesome-python-login-model
如果你喜欢尝试一些网站的模拟登陆的,这个开源项目必须收藏一下!

目前已经实现许多大型网站的模拟登陆,比如“百度”、“淘宝”、“b站”、“163邮箱”、“拉钩”、“github”、“知乎”…

推荐收藏:Github热榜的这些爬虫项目!_第6张图片

有的是通过selenium登录,有的是通过抓包直接模拟登录,有的是利用scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。

虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。

视频网站爬虫

开源地址:
https://github.com/iawia002/annie

annie是go语言编写的,可以下载b站、youtube、youku、爱奇艺、qq等视频或图像。github标星高达10.3k。功能强大,种类齐全。

推荐收藏:Github热榜的这些爬虫项目!_第7张图片

职位工资水平

开源地址:
https://github.com/JustForFunnnn/webspider

在线网址:
http://119.23.223.90:8000

python爬取职位相关的数据统计。

本项目使用的编程语言是python3,数据库用的是MySQL, 主要用到的库是celery和requests,并实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,使用ECharts + Bootstrap 来构建前端页面。

推荐收藏:Github热榜的这些爬虫项目!_第8张图片

比如,查询c#相关的岗位相关的数据如下:

推荐收藏:Github热榜的这些爬虫项目!_第9张图片

破解滑动验证码

开源地址:
https://github.com/darbra/geetest
爬虫最大的天敌之一:验证码
Geetest作为提供验证码服务的行家,市场占有率还是蛮高的。

推荐收藏:Github热榜的这些爬虫项目!_第10张图片

你可能感兴趣的:(github学习资源)