170724 社工-领英爬虫

1625-5 王子昂 总结《2017年7月24日》 【连续第295天总结】
A. LinkedIn 爬虫
B. 领英的爬虫很找到,java的工程不会使用,只好使用Python的
https://github.com/LiuXingMing/LinkedinSpider
这个爬虫的原理是在百度以关键词+site:linkedin.com搜索,将搜索结果的id按领英的个人信息的格式组合起来,得到网页源码后进行分析得到个人信息
由于领英对一些社交圈外的用户进行了资料屏蔽,只有建立好友关系才能查看,而这对指定id的社工来说既风险大,又慢;因此通过百度的搜索引擎爬虫爬取了领英所有用户的特点来曲线救国
需要先注册账号,登录以后就可以查取所需用户的个人信息了
领英的网页源码为了反爬虫进行了一定的处理,因此爬虫中也要进行解析,没有具体了解
由于每次执行只能爬取一个关键词,对于指定多个用户时需要进行多次登录,从而触发了领英的保护机制:登录需要验证码。查看了邮件,所在地与常用所在地是相同的,但是浏览器和系统都是Unknown,估计是构造http头时没有构造,从而使得领英产生怀疑进行登录保护
看起来不是短时间登录过多的原因。由于需要该爬虫的解析,所以修改了一下,手动复制下源码后调用分析函数即可
C. 明日计划
推特爬虫的使用,linux没法,win的py2版本不够,更新后又报错,现在python官网都打不开了囧

你可能感兴趣的:(170724 社工-领英爬虫)