今天没事浅谈一下爬虫,有一次项目中用到数据,就开始用python爬虫,爬到的数据直接插到数据库,项目可以直接从数据库查找数据,审核后,可以在前台展示,爬取的速度比较慢,后来又用java写了一个爬虫代码,速度也是很慢,最后决定用scrapy这个爬虫框架爬虫,不错,速度确实比之前速度快了一些。
在用scrapy爬取数据前,需要安装python下redis,mongdb相关的包,安装就绪后,window环境下进入python的安装目录下,开始建立一个爬虫项目,命令直接是
scrapy startproject crawl(爬虫的项目名字,可以随便取),可以进入到当前目录下看,系统会自动生成一些文件,下面就谈一下这些文件的具体作用。其中settings.py这个文件是定义一些和数据库相关的变量,比如爬虫用的redis的IP和端口号,mongdb的IP和端口号等。items.py这个文件是定义一些存放临时的爬取数据的数据域,用起来很方便。pipelines.py这个文件是操作数据用的,比如把爬虫爬取的数据插入到数据库的指定表中等。然后在当前目录下的spiders下新建一个爬取数据的文件,这个文件系统不会自动生成,需要自己新建。提取数据可以用正则表达式,xpath等。完成后可以在当前目录下scrapy crawl 爬虫项目名字,开始爬取。用这个框架爬取数据速度比之前快点,关键是很方便,菜鸟刚开始写博客,有什么建议,欢迎大家指正。最后如果想更快的爬取数据,可以看分布式爬虫的知识。