第一步梳理_190515

初步总结

  • 虽然以后可能不一定走这个方向,不过作为搜集数据的一种方式,而且是强有力的方式,爬虫还是值得入门一下的,毕竟大数据的时代嘛,很多基础的思想也是需要了解的

主要实现方式

  • 通常来说爬虫是抓取数据的一种方式,这个思路很像卷福扮演图灵研究第一台计算机破解密码的思路,就是通过页面的表象,直接获取数据,再整理成我们想要的形式,对网站怎么表述没什么考量,也不用研究

几个主要构成

  • 获取页面信息
    将庞大的json格式数据全部抓取
  • 正则筛选
    在庞大的数据中,找出我们想要的数据
  • 定向下载/爬取
    将通过筛选出来的数据/url进行定向获取,并整理成我们需要的格式

主流工具使用

这里其实有个原则,各种花里胡哨的架构原则上是有用的,不过也要建立在合适的需求之上,如果只是想针对性的获取某些小量数据,完全没必要将很多大的架构研究清楚,作为高级语言,py很大概率能够几行代码就能实现基础功能

裸奔

最简单粗暴的方法,最基础的四个环节

urlopen()        #获取整个页面数据
read()           #将获取的数据保存起来
re.findall()     #匹配正则表达式
urlretrieve()    #将匹配到的数据进行定向爬取

scrapy

慢慢研究中。。。

你可能感兴趣的:(第一步梳理_190515)