python第三方爬虫开源库scrapy学习笔记

官方下载地址


Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。


//安装教程很简单,我采用PIP命令安装 

pip install scrapy

或者直接下载对应系统平台和python对应版本,安装即可(不会的自行百度)

我在windows 平台运行提示缺少import win32api库。记得自己没有下载这个安装。

Python for Windows Extensions 

官方下载地址


本次测试抓取python官方第三方库插件列表,其它网站类似,关键在于自行分析匹配规则。

//代码不多就这几十行

#test ok
import scrapy
class PypiPythonSpider(scrapy.Spider):

    name = "python-demo"
    allowed_domains = ["python.org"]
    start_urls = ["https://pypi.python.org/pypi"]
  
    def parse(self, response):
        for sel in response.xpath('//tr[@class]').extract():
            #sel.xpath('//td//@href').extract()
            print'item \n'     
            yield {"info1": sel}

抓取格式如这样列表

example:
https://pypi.python.org/pypi


2016-05-25
django-rescuests\xa00.2.3
A framework sending, tracking and retrying REST requests in Django.


匹配规则,采用xpath样式选择器帅选。

python第三方爬虫开源库scrapy学习笔记_第1张图片


python第三方爬虫开源库scrapy学习笔记_第2张图片


也可以支持文件导出,参数比较多,自行学习。

python第三方爬虫开源库scrapy学习笔记_第3张图片

scrapy runspideer main.py --outfile file


python第三方爬虫开源库scrapy学习笔记_第4张图片


python第三方爬虫开源库scrapy学习笔记_第5张图片

包括详细输出日志和记录


你可能感兴趣的:(技术文章,python学习,学习笔记,资源共享,网络安全与恶意代码)