爬虫岗位很少,我总共也就面过五六家,其中某金融互联网公司技术最好,虽然他们的爬虫人员也是后来转的
问题一:如果连接断了怎么办?
什么连接呢,猜是tcp 连接吧,tcp连接不是时时联通的,只有http或者其他应用协议需要的时候才会有连接,当然也有隧道等特殊情况
实际工程中,连接的建立都是引用的模块,无需自己写程序控制。
问题二:服务器发现你用代理怎么办?
服务器可以发现客户端用代理吗,这要看代理的种类,如果是匿名代理则发现不来
问题三:服务器返回假数据怎么办?
这种情况或许有,但没遇到过,首先服务器可以有百分之百的确定你是爬虫程序,才会有这样的情况,这点几乎无法做到。如果我就是模拟用户行为慢慢采集呢。
问题四:分布式
很多招聘高大上,需要分布式爬虫经验,分布式也分很多种,像不带负载均衡的分布式很容易实现,加上负载均衡也不难,关键你得确定任务的粒度,一个采集任务的范围 。
很多场景只是需要好的任务管理加上分布式负载均衡便可以
问题五:爬虫做好了不是就可以了吗
不需要维护吗,双十一某电商两小时更新一次加密算法
问题六:爬虫岗位很少,做爬虫的很难找到工作
谁说我只会做爬虫, 遇到很多有经验的爬虫工程师逐渐不做爬虫了,很多吐糟企业的短视。
最后,爬虫工程师成本高,如果没有长期信息采集需求,不建议设置此岗位,一般信息采集利用开源程序即可
或者外包出去。
虽然大数据带动爬虫岗位很火,但相对于java开发,爬虫的岗位可以忽略不计。
爱好可以空余做做。