前序

我是大学一年级的时候开始接触爬虫,其实是开始接触代码,听说过这个东西,也去网上扒拉过一些这类的代码。
如今匆匆几年过去了,中间也比较懒惰,也没大看过这,当然里面也没多少值得推敲的东西。无非是抓点别人的数据,在抓的时候要克服比较多的“难关”,把搞到的数据洗涮洗涮,做点别的事。
还是本着和尚念经的理念,慢条斯理的说,先从最简单的网站说起,然后过渡到一些有反爬策略的,登录验证的,基于框架的,稍微有点尺寸的爬虫这些。
当然,还要说下环境,用啥爬,啥都行吧,我之前用OC写过爬虫,也用python写过,无非是后者省点劲,所以被大众熟知,其实呢是个语言就可以写。然后有些新人还会纠结版本问题,因为python有很多版本,其实都一样,你把2.7的程序,用3.x的跑,把里面报错的信息改掉就好了。因为我大一的时候就听人忽悠说2.7如何经典,当然这也确实,不过毕竟感觉不新鲜,所以这些爬虫是用3.6写的。
若是还有什么要说的,还有个IDE的事,在此之前我一直是用Pycharm,它确实好,实际开发中也比较省事,但是为了演示方便,快捷的原因,当然也是为了适应这么个东西,因为爬虫不是目的,目的是爬来东西的处理,用Jupyter(IPython)的时候展现这些比较好使。
再想想,就没什么好说的啦,这就算交代完“后事”了。

你可能感兴趣的:(前序)