scrapy

创建一个框架
1、scrapy startproject name
2、cd name
3、scrapy genspider chouti chouti.com
最后,选择执行哪个
4、scrapy crawl 名字 --nolog(加上后不打印日志文件)

也许会没有显示,这个时候去settings
ROBOTSTXT_OBEY = False改为False就可以了。
设置爬取的深度:DEPTH_LIMIT = 2

爬取图片名称,步骤二是为了爬多页

import scrapy
from scrapy.selector import Selector
from scrapy.http import Request
class XioahuaSpider(scrapy.Spider):
    name = 'xioahua'
    allowed_domains = ['tu9.cn']
    start_urls = [
        'http://www.tu9.cn/katong/'
    ]

    def parse(self, response):
        selector=Selector(response)
        item_list=selector.xpath('//li[@class="column-li"]')
        for item in item_list:
            #//是在全局中找,.//在局部找   extract()拿到具体内容
            v=item.xpath('.//span[@class="title"]/a/text()').extract_first()
            print(v)
        # 2. 在当前页中获取 http://www.xiaohuar.com/list-1-\d+.html,
        # page_list = hxs.select('//a[@href="http://www.xiaohuar.com/list-1-1.html"]')
        # page_list = selector.xpath('//a[re:test(@href,"http://www.xiaohuar.com/list-1-\d+.html")]/@href').extract()
        # for url in page_list:
        #     if url in self.visited_set:
        #         pass
        #     else:
        #         obj = Request(url=url,method='GET',callback=self.parse)
        #         yield obj

你可能感兴趣的:(scrapy)