爬虫工作的小总结

前言

不得不说爬虫确实是一个有趣的“杂学”,为什么这么理解呢?我刚开始接触到爬虫,是因为自己无意间想学习python,爬虫又是一个比较快入手的学习方向,也是一个很好的就业方向,就开始学习爬虫。本就着大道至简的道理,佛系学习原则,从刚开始的python基础,数据结构,函数,类,到后面学习爬虫的基础模块,requestsurllibselenium,还要学习一些前端的知识,学习了这些以后,基本上能解决大部分的爬虫开发了。本想着到这就结束了,陆陆续续在工作中遇到了js问题,不懂咋办,去学习呀!学习了一些js逆向知识,chrome断点调试。数据量需求越来越大,学习多进程,多线程,协程,scrapy框架,后面的分布式爬虫。。。目前还没接触到app逆向,反编译等。。。爬虫确实是一个很有意思的“杂学”,感觉啥都要接触,但很多知识只需要能看得懂就好。

总结

入职以来,简单说下自己的一些感受吧。爬虫的脚本开发,一定要简单清晰明了。注释一定要写完整,结构一定要规范。网页结构随时都可能在变化,有可能一个脚本写完,下个月就用不了。一个好的爬虫脚本需要在这样的环境下,迅速重构完成。免得重复造轮子,再写一遍就会很浪费时间。另外我们还需要对每一个爬虫脚本定制不一样的采集方案,以达到最佳的效果。比如说这个网站采用多进程,这个网站使用redis去重,保存到mongodb,这个网站使用多线程或者协程,这个网站用scrapy框架,这些都需要一些经验累积来选择。项目做多了,对一些反扒也能处理的得心应手了。我们要发挥python语言的优势,可选择性太多,有很多库我们都可以结合到爬虫开发当中来,来提高我们的效率。不过我们在采集的时候,一定要铭记一个真理,不是脚本越快越好。在保证速度的前提下,一定要减少bug的出现可能性,脚本的稳定运行,也是至关重要。同时还要兼顾网站的负载,考虑别人也是在为我们自己提供便捷。

建议

爬虫工程师在如今的大数据时代确实是一个很吃香的职业,但是在工作中,老和同事调侃,“爬虫从入门到入狱”,这是要告诉我们采集数据一定要符合一些规定,不能肆意妄为。很多的同事都已经开始学习机器学习,往数据挖掘方向发展。毕竟数据只是原材料,要想产生更有价值的东西,那就要进行加工,做数据建模,分析了。这个方面也是仁者见仁,智者见智,不管怎样,每一位大牛都是从一个小白开始的,秉持初心,砥砺前行。

你可能感兴趣的:(生活笔记)