「 25' h 」

python爬虫之 scrapy框架

scrapy框架

- - 认识scrapy框架
  - scrapy之爬取段子
  - scrapy持续化存储（基于上一个例子）
  - - 终端持续化存储
    - 管道持续化存储
    - - 了解管道方式流程
  - 手动发送请求
  - - 为什么有手动发送请求
    - 代码举例（基于管道存储）
  - 请求传参（深度爬取）
  - - first_one.py
    - pipelines.py
    - items.py
    - settings.py
    - 结果movies.txt
  - 下载中间件（middlewares.py）
  - 图片视频数据的下载
  - - 爬虫文件
    - 管道文件pipelines.py
    - items.py
    - settings.py
    - 结果：
  - CrawlSpider
  - - 作用和创建
    - first_crawlSpider.py文件解析和使用
    - - first_crawlSpider运行顺序
      - follow参数
    - 基于该网站爬取数页图片
    - - 爬虫（first_crawlSpider.py）文件

完整版！！！！！！
完整版！！！！！！
完整版！！！！！！
完整版

认识scrapy框架

Scrapy是一个用Python实现的为了更加简洁的爬取网站数据、提取结构性数据而编写的多种方法的集合。用来抓取网页内容以及各种图片，非常之方便。
功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式。（通常不对动态加载数据进行爬取）

scrapy框架中也可以使用requests哦，不过不建议
创建工作环境

在终端依次输入：
1. mkdir scrapy_project #创建名为scrapy_project的文件夹以便创建环境

2.cd scrapy_project #进入到文件夹下

3. scrapy startproject firstscrapy #创建一个工程命名为firstscrapy

4.cd scrapy_project #进入创建好的工程文件

5.scrapy genspider first_one www.baidu.com
#在spiders子目录中创建一个python爬虫文件命名为firstscrapy,后面是一个目标网址，可以随意写，可以改

然后就可以通过编写程序运行了
运行写好的工程：
6.scrapy crawl first_one

这时我们运行就会出现大量日志，或者出错所以
在settings文件中：
将ROBOTSTXT_OBEY = True
COOKIES_ENABLED = True改为
ROBOTSTXT_OBEY = False（不遵守robots协议）（必要）
COOKIES_ENABLED = True(cookie设定)
添加
LOG_LEVEL='ERROR'（只自动输出错误信息）（必要）
保存后结合scrapy crawl first_one运行即可

创建的文件和settings文件是这样的：

first_one文件是这样的：

import scrapy

class FirstOneSpider(scrapy.Spider):
    # 文件名称：爬虫源文件唯一标识
    name = 'first_one'
    # 允许的域名，允许start_urls中那些url可以被自动发送请求
    # 若无则start_urls中所有都会自动请求，一般不用allowed_domains
    allowed_domains = ['www.baidu.com']
    # 起始url列表
    start_urls = ['http://www.baidu.com/']

    # 用于数据解析,response表示start_urls中url请求后返回的数据
    # 对每一个url都会调用一次parse函数
    def parse(self, response):
        pass

在scrapy中的框架包含的方法基本都是我们之前所讲的，有一些不同直接在实例代码中讲解

scrapy之爬取段子

import scrapy

# 关于xpath表达式这里就不在过多说明
class FirstOneSpider(scrapy.Spider):
    name = 'first_one'
    # allowed_domains = ['duanzixing.com']
    # 起始url列表
    start_urls = ['https://duanzixing.com/']

    def parse(self, response):
        # scrapy中不用response.text
        # 这里的xpath是scrapy中的，不是etree中的
        # xpath结果是一个集合对象，所要的数据在data标签后
        # 后加上 .extract() 就相当于将取出data标签后的结果，就是我们想要的结果
        # 若对于xpath结果对象的列表使用 .extract() 就是每个对象data内数据的列表
        # 当然有一个方法 .extract_first()就是对于xpath结果对象的列表取出data内容后取出第一个元素内容
        # 列表.extract_first() 相当于 列表.extract()[0]
        # 由于xpath通常返回列表，所以我们经常使用.extract_first()
        article_list=response.xpath('/html/body/section/div/div/article')
        print(len(article_list))
        for article in article_list:
            title = article.xpath('./header/h2/a/text()').extract_first()
            content=article.xpath('./p[@class="note"]/text()').extract_first()
            print(title+':')
            print(content+'\n\n')

结果：

scrapy持续化存储（基于上一个例子）

基于终端指令，通过parse方法return返回值进行数据存储
基于管道的持续化存储

终端持续化存储

直接看代码

import scrapy

class FirstOneSpider(scrapy.Spider):
    name = 'first_one'
    start_urls = ['https://duanzixing.com/']

    def parse(self, response):
        article_list=response.xpath('/html/body/section/div/div/article')
        print(len(article_list))
        all_data=[]
        for i,article in enumerate(article_list):
            title = article.xpath('./header/h2/a/text()').extract_first()
            content=article.xpath('./p[@class="note"]/text()').extract_first()
            dic={
     
                "index":i+1 # 定义字典index方便我们查看段子顺序和存储方式
                 ,"title":title
                ,"content":content
            }
            all_data.append(dic)

        # 返回值就是我们想要存储在文件中的数据内容
        # 返回值需要是字典或者由字典组成的列表，具体原因不知道但是我们可以通过存储方式进行推测
        return all_data

# 运行时比较特殊，终端输入 ：
scrapy crawl first_one -o duanzi.csv
# 就回把数据放在duanzi.csv文件中
# 并且文件只支持'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle'

将数据文件通过excell打开就是这样的，说明在存储的时候会吧相同标签的放在一起，这可能也是为什么需要是字典格式

管道持续化存储

了解管道方式流程

基本流程为：

数据解析
item.py中定义所需要的属性
在爬虫主文件中封装字Item对象中
将封装的Item对象给管道
在pipelines.py中接收数据，并提交Item对象数据，并进行持续化存储
在文件中配置管道机制
简单聊一下open文件形式

item.py中定义所需要的属性
item.py中代码

import scrapy

class FirstscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 定义属性个数就取决于数据类别，我们有index，title，content三种
    index=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()
    # 对于Field类型可以理解为万能数据类型，所有的类别都只能用Field定义
    # 由于这三者是类里面的属性，所以我们需要通过创建FirstscrapyItem类对象进行调用
    # 但是不能通过.进行调用，这个class比较特别需要通过 对象["属性名"]来调用属性

像这样

在爬虫主文件中封装字Item对象中
将封装的Item对象给管道

import scrapy
# 导入类（会报红，没关系）
from firstscrapy.items import FirstscrapyItem

class FirstOneSpider(scrapy.Spider):
    name = 'first_one'
    start_urls = ['https://duanzixing.com/']

    def parse(self, response):
        article_list=response.xpath('/html/body/section/div/div/article')
        print(len(article_list))
        for i,article in enumerate(article_list):
            title = article.xpath('./header/h2/a/text()').extract_first()
            content=article.xpath('./p[@class="note"]/text()').extract_first()
            
            # 实例化一个FirstscrapyItem类型的Item对象，用来接受存储数据
            item=FirstscrapyItem()
            item['index']=i+1
            item['title']=title
            item['content']=content
            
            # 将item对象提交给管道
			yield item

在pipelines.py中接收数据，并提交Item对象数据，并进行持续化存储
（一个管道类对应一种数据存储方式）
在文件中配置管道机制

将ITEM_PIPELINES取消注释
300表示管道优先级，越小越优先

看一下print（item类数据结果）：
表明item类就是一个字典
简单聊一下open文件形式
在pipelines.py提到，调用process_item方法会调用多次，那么我们如何在打开关闭一次文件情况下完成所有数据的存储呢？
为解决这个问题，我们需要对pipelines.py文件中FirstscrapyPipeline类中继承的object的方法进行重写

于是就成了这样

class FirstscrapyPipeline(object): #(object)可写可不写，默认有

    fp=None # 定义一个属性用于存储文件打开名称

    # 重写open_spider方法，open_spider有着爬虫开始时，执行一次的特点
    # 据此特性用来打开文件
    def open_spider(self,spider):
        print("爬虫开始时，我只执行一次")
        self.fp=open("duanzi.txt",mode="w",encoding="utf-8")

    # 重写close_spider方法，close_spider有着爬虫结束时，执行一次的特点
    # 据此特性用来关闭文件
    def close_spider(self,spider):
        print("爬虫结束时，我只执行一次")
        self.fp.close()


    # 该方法是用来接收第四步传过来的item对象的
    # item就是我们第四步传过来的Item对象值
    # 且一次只能接收一次Item对象，所以该方法会被调用多次
    def process_item(self, item, spider):
        # print(item) # 一会打印看效果，可以直观的看出item形式
        # 存储数据
        self.fp.write(str(item["index"])+'\t'+item["title"]+":\n"+item["content"]+'\n\n')
        return item

终端运行：scrapy crawl first_one

运行结果：
终端输出：

（duanzi.txt文件）

手动发送请求

为什么有手动发送请求

在我们爬取段子网中多个页面的时候，我们该怎么做呢？
看一下网址：

第一页：https://duanzixing.com/page/1/
第二页：https://duanzixing.com/page/2/
第三页：https://duanzixing.com/page/3/

现在你可能豁然开朗，但是怎么才能让start_urls中自动包含多个网址呢？
显然是不行的，我们只能手动进行复制粘贴，那你就比较烦，所以我们就有了在parse中添加语句以回调函数的形式调用parse，继续运行下一个网址对应的数据

下面我们直接在代码中进行讲解

代码举例（基于管道存储）

主文件代码（first_one.py）:

import scrapy
# 导入类
from firstscrapy.items import FirstscrapyItem
class FirstOneSpider(scrapy.Spider):
    name = 'first_one'
    start_urls = ['https://duanzixing.com/']
    
    # 这里我们需要添加属性，因为我们要想在FirstOneSpider这个类中参数一直存在，通过属性让多次运行方法之间简历联系
    duanzi_num=1 # 定义属性，记录段子总个数
    page_num=2 # 定义属性，记录段子页码，也用于合成网址
    urls="https://duanzixing.com/page/{0}/" # 合成网址的“原料”

    def parse(self, response):
        article_list=response.xpath('/html/body/section/div/div/article')
        
        # 输出每一页有多少段子
        print("第{0}页有：".format(self.page_num-1),len(article_list),"个")
        for article in article_list:
            title = article.xpath('./header/h2/a/text()').extract_first()
            content=article.xpath('./p[@class="note"]/text()').extract_first()
            # 实例化一个FirstscrapyItem类型的Item对象，用来接受存储数据
            item=FirstscrapyItem()
            item['index']=self.duanzi_num # 段子index
            self.duanzi_num+=1
            item['title']=title
            item['content']=content
            # 将item对象提交给管道
            yield item

        # 爬取前四页
        if self.page_num<5:
            # 合成网址
            new_url=self.urls.format(self.page_num)
            self.page_num+=1
            
            # 这句是最重要的，yield是关键字，scrapy.Request为scrapy中get形式的方法
            # 对应的post是：yield scrapy.FromRequest(url,callback,formdata)
            # 当传入url后就会把从url中获得的响应数据传给callback对应的回调函数中，然后运行回调函数
            yield scrapy.Request(url=new_url,callback=self.parse)

终端：

duanzi.txt文件：

请求传参（深度爬取）

对于不同界面的数据，我们需要多次请求，那么我们如何通过scrapy实现呢？
这里有两个问题：
1.不同界面数据需要不同的解析方法，parse一个方法显然不能满足我们（重建另一个和parse功能相同的方法content_parse)
2.在用管道存储时，我们在主文件中用到的Item对象在运行parse时进入我们重建的方法时，不能作用于重建的方法，那么我们如何实现对同一个Item进行整合呢？（使用scrapy.Request中meta参数）

爬取网址的电影名和电影对应的简介

first_one.py

import scrapy
from firstscrapy.items import FirstscrapyItem
class FirstOneSpider(scrapy.Spider):
    name = 'first_one'
    start_urls = ['https://www.k8jds.com/index.php/vod/show/id/5/lang/%E5%9B%BD%E8%AF%AD.html']

    movie_index=1 # 定义属性，记录段子总个数

    def parse(self, response):
        subjects=response.xpath('/html/body/div[2]/div/div[2]/div/div[2]/ul/li')
        for subject in subjects:
            title=subject.xpath('./div/a/@title').extract_first()
            content_url="https://www.k8jds.com"+subject.xpath('./div/a/@href').extract_first()

            item=FirstscrapyItem()
            item["index"]=self.movie_index
            self.movie_index+=1
            item["title"]=title

            yield scrapy.Request(url=content_url
                                 ,callback=self.content_parse# 定义回调函数（方法）
                                 ,meta={
     "item":item}# 请求传参，和回调函数参数建立联系
                                 )

    def content_parse(self,response):
        item=response.meta['item']# 取出参数
        content=response.xpath('/html/body/div[2]/div/div[1]/div[4]/div/div[2]/div/span[1]/text()').extract_first()
        # 避免有None类型数据
        if content==None:
            item['content']="None"
        else:
            item['content']=content
        yield item

pipelines.py

class FirstscrapyPipeline(object):

    fp=None

    def open_spider(self,spider):
        print("爬虫开始时，我只执行一次")
        self.fp=open("movies.txt",mode="w",encoding="utf-8")


    def close_spider(self,spider):
        print("爬虫结束时，我只执行一次")
        self.fp.close()


    def process_item(self, item, spider):
        self.fp.write(str(item["index"])+"\n"+item["title"]+":\n"+item["content"]+'\n\n')
        return item

items.py

import scrapy

class FirstscrapyItem(scrapy.Item):
    # 定义属性个数就取决于数据类别，我们有index，title，content三种
    index=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()

settings.py

BOT_NAME = 'firstscrapy'

SPIDER_MODULES = ['firstscrapy.spiders']
NEWSPIDER_MODULE = 'firstscrapy.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Mobile Safari/537.36 Edg/91.0.864.59'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# 不遵循robots协议

LOG_LEVEL='ERROR'
# 运行结果时除了代码指令外只输出出错信息

ITEM_PIPELINES = {
     
    # 300表示管道优先级
    'firstscrapy.pipelines.FirstscrapyPipeline': 300,
}

结果movies.txt

我们发现是无序的，经过分析跟我们新定义的content_parse方法有关，先把所有的parse运行完再取运行content_parse，导致无序，这时因为在scrapy框架中自动开启了多线程运行，在settings.py文件中有一项CONCURRENT_REQUESTS，就是指线程个数，默认16，改为1，就可以了

下载中间件（middlewares.py）

中间件有两种：下载中间件和爬虫中间件
下载中间件作用：批量拦截请求和响应
拦截请求：
	- 篡改请求的url（一般不用）
	- UA伪装
	- cookie破解
	- 设置代理
（scrapy中代理必须经过中间件完成， UA伪装和cookie可以在settings.py文件中设置）
拦截响应：
	- 篡改响应数据（一般不用）

中间件在使用时主要是process_exception（可不是process_request啊）方法中的代理操作

在middlewares.py文件中：

from scrapy import signals

import random

class MiddleproDownloaderMiddleware(object):
    # 提供一些UA
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6"
    ]
    
    # 提供代理地址
    PROXY_http = [
        '153.180.102.104:80',
        '195.208.131.189:56055',
    ]
    PROXY_https = [
        '120.83.49.90:9000',
        '95.189.112.214:35508',
    ]
    
    #拦截所有请求包括:正常和异常
    # 在主文件中所有请求包括start_urls，scrapy.Request都进行拦截
    # 一次请求拦截一次，运行一次process_request方法
    # 参数request是拦截的所有请求，spider是拦截的爬虫实例化对象
    def process_request(self, request, spider):
        # 对每个拦截的请求进行UA伪装(对应着settings.py中的USER_AGENT)
        request.headers['User-Agent'] = random.choice(self.user_agent_list)

		# 设置cookie(对应着settings.py中的COOKIES_ENABLED)
		request.headers['Cookie']="********"
		
        # 对每个拦截的请求进行代理操作
        request.meta['proxy'] = 'http://183.146.213.198:80'
        return None
    
    #拦截所有请求返回的响应数据，可对响应数据进行修改
    def process_response(self, request, response, spider):
        #response.text=content意味着将拦截的响应数据进行修改成了content的内容
        return response
    
    
    # 拦截发生异常的请求，拦截到异常请求就会运行一次
    # 作用是将异常的请求经过某种方式（通常是代理）的修改，使之成为正常请求，并返回该请求重新请求
    # 参数request是拦截的异常请求，spider是拦截的爬虫实例化对象
    def process_exception(self, request, exception, spider):
        # 分辨url类型,对于异常请求进行代理操作
        if request.url.split(':')[0] == 'http':
            #代理
            request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        else:
            request.meta['proxy'] = 'https://' + random.choice(self.PROXY_https)
            
		#将修正之后的请求对象进行重新的请求发送
        return request

图片视频数据的下载

我们先思考一个问题。下载图片数据时，使用scrapy.Request()请求视频或图片数据，回调函数为空，不能够读取二进制数据。那么就给我们读取二进制数据，带来了非常多的麻烦，所以我们要使用库中封装好的管道方式（即在pipelines.py中）来读取存储二进制数据

图片网址

爬虫文件

import scrapy
from firstscrapy.items import FirstscrapyItem
class FirstOneSpider(scrapy.Spider):
    name = 'first_one'
    start_urls = ['https://pic.netbian.com/4kmeinv/',]

    def parse(self, response):
        # 图片名字列表(相信大家都会了)
        picture_name_list = response.xpath("//ul[@class='clearfix']/li/a/img/@alt").extract()
        # url列表
        picture_loc = response.xpath("//ul[@class='clearfix']/li/a/img/@src").extract()

        for i in range(len(picture_loc)):
            item=FirstscrapyItem()
            item["title"]=picture_name_list[i]
            item["url"]="https://pic.netbian.com/"+picture_loc[i]
            # 将处理好的item数据传给管道
            yield item

管道文件pipelines.py

# 导入scrapy中特定的类，为我们提供了数据下载功能
from scrapy.pipelines.images import ImagesPipeline
import scrapy

# 之前默认的管道无法帮助我们请求二进制数据，因此我们要重新写一个管道，命名可以和之前的一样，也可以不一样。
# 我们通过这个管道对于ImagesPipeline的继承，对于里面的方法进行重写，来实现图片数据读取储存
# 在这里我们需要重写三个方法，并且这三个方法是连续运行的
class FirstscrapyPipeline(ImagesPipeline):
    # 根据图片地址发起请求。
    def get_media_requests(self, item, info):
        yield scrapy.Request(url=item["url"],meta={
     "item":item})# 不需要callback

    # get_media_requests结束后立即运行自动file_path
    # 通过上一部meta={"item":item}传参取出title作为数据名称
    # 该方法返回值作为图片存储名（仅仅对于我们来说只有这一个作用）
    def file_path(self, request, response=None, info=None, *, item=None):
        item=request.meta["item"]
        filePath=item["title"]+'.jpg'
        return filePath

    # 将item传递给下一个即将被执行的管道类
    def item_completed(self, results, item, info):
        return item

items.py

import scrapy

class FirstscrapyItem(scrapy.Item):
	#存储名
    title=scrapy.Field()
    # 存储url
    url=scrapy.Field()

settings.py

BOT_NAME = 'firstscrapy'

SPIDER_MODULES = ['firstscrapy.spiders']
NEWSPIDER_MODULE = 'firstscrapy.spiders'
# UA
USER_AGENT = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Mobile Safari/537.36 Edg/91.0.864.59'
# 不遵循robots协议
ROBOTSTXT_OBEY = False
# 运行结果时除了代码指令外只输出出错信息
LOG_LEVEL='ERROR'

# 创建名为Picture_home的文件夹，pipelines.py文件中FirstscrapyPipeline.file_path方法返回值会自动放在该目录下
IMAGES_STORE="./Picture_home"

# 开启32个线程
CONCURRENT_REQUESTS = 32

ITEM_PIPELINES = {
     
    # FirstscrapyPipeline需要与管道文件pipelines.py中创建的类名相同
    'firstscrapy.pipelines.FirstscrapyPipeline': 300,
}

结果：

CrawlSpider

作用和创建

CrawlSpider:类，Spider的一个子类
- 全站数据爬取的方式
  - 基于Spider：手动请求
  - 基于CrawlSpider

CrawlSpider是通过界面按钮对应的网址进行提取

如何创建一个CrawlSpider呢？

在工作空间（其他文件（settings.py......）均已配置好）下终端输入：
scrapy genspider -t crawl CrawlSpiderName www.xxxx.com
CrawlSpiderName表示自定义的名字（我这里定为first_crawlSpider）
www.xxxx.com目标网址，后续可修改

first_crawlSpider.py文件解析和使用

目标网址

先了解一下目标：就是解析出这些网址

first_crawlSpider运行顺序

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class FirstCrawlspiderSpider(CrawlSpider):
    name = 'first_crawlSpider'
    #allowed_domains = ['www.baidu.com']
    start_urls = ['https://pic.netbian.com/4kmeinv/']

    # 想要爬取页面中页码按键对应的网址，那么我们要用正则表达式取出都有网址
    # 正则表达式需要包含所有目标按键对应的网址，就是allow填的网址的正则表达式
    # 通过LinkExtractor实例化对象生成link作为Rule第一个参数
    # link叫做链接提取器
    link=LinkExtractor(allow="meinv/index_\d+.ht")
    rules = (
        # 叫做规则解析器
        Rule(link # 实例化好的解析网址的正则表达式
             , callback='parse_item' # 将响应数据通过回调函数传给指定方法
             , follow=False #回续说明含义
             ), # 这个逗号千万不能丢
    )

    """
    运行流程：
        1. 根据start_urls里面网址返回响应数据
        2. 通过link中参数allow携带的正则表达式进行响应数据的匹配
        3. 对于每一个对应的匹配结果会自动根据界面补成真正的网址
            比如：
                真正网址：https://pic.netbian.com/4kmeinv/index_3.html>
                正则匹配结果：kmeinv/index_3.ht
                那么通过第三步得到的结果依然为https://pic.netbian.com/4kmeinv/index_3.html>
            也就是说：只要匹配结果是真正网址的子集，那么就会生成返回真正网址，不需要我们手动填补，就是那么神奇
        4. 将真正的网址一次传给回调函数parse_item中response参数
    """
    def parse_item(self, response):
        print(response)

"""
结果：
<200 https://pic.netbian.com/4kmeinv/index_144.html>
<200 https://pic.netbian.com/4kmeinv/index_2.html>
<200 https://pic.netbian.com/4kmeinv/index_7.html>
<200 https://pic.netbian.com/4kmeinv/index_5.html>
<200 https://pic.netbian.com/4kmeinv/index_4.html>
<200 https://pic.netbian.com/4kmeinv/index_3.html>
<200 https://pic.netbian.com/4kmeinv/index_6.html>

如果没有步奏3自动生成真正网址，结果是：
<200 meinv/index_144.ht>
<200 meinv/index_2.ht>
<200 meinv/index_7.ht>
<200 meinv/index_5.ht>
<200 meinv/index_4.ht>
<200 meinv/index_3.ht>
<200 meinv/index_6.ht>
"""

follow参数

对于刚才网址解析之解析出来了显示在可视化界面中的七个按钮对应的网址，那么如果我们想要一次全部获取到界面中144个网址该怎么办呢？
对！就是follow设置为True，意思就是针对获取到的所有按钮对应的网址都会作为start_urls里的参数重新运行link和rules，并将重复的销毁，然后传给回调函数parse_item。
另外：follow默认True
将上述代码follow改为True结果：

取出了所有

基于该网站爬取数页图片

和除了first_crawlSpider.py文件，其他文件图片视频数据的下载完全相同，不再展示，仅仅附上first_crawlSpider.py源码和运行结果

爬虫（first_crawlSpider.py）文件

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from firstscrapy.items import FirstscrapyItem

class FirstCrawlspiderSpider(CrawlSpider):
    name = 'first_crawlSpider'
    start_urls = ['https://pic.netbian.com/4kmeinv/']

    link=LinkExtractor(allow="meinv/index_\d+.ht")
    rules = (
    	# 由于共144页，所以设置了follow=False减少实验量
    	# follow=True会爬取所有图片,若过多不要忘了在settings.py文件中多设置一些线程啊
        Rule(link, callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        # 名称列表
        title_list=response.xpath('//*[@id="main"]/div[3]/ul/li/a/img/@alt').extract()
        # url列表
        url_list=response.xpath('//*[@id="main"]/div[3]/ul/li/a/img/@src').extract()
        
        for i in range(len(title_list)):
            item=FirstscrapyItem()
            item["title"]=title_list[i]
            item["url"]="https://pic.netbian.com"+url_list[i]

            yield item

结果:

你可能感兴趣的:(爬爬爬虫,python,爬虫)

【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
electron 源码下载与编译构五一编程学习交流 electron javascript 前端 webrtc c语言 c++
electron源码下载与编译构建预先安装安装nodejs下载eletron构建工具：安装python构建Electron基本要求环境依赖交叉编译构建故障排查高级提示使用clang之外的其它编译器electron的depot_tools工具下载构建源码。这个工具是用nodejs写的，封装了chromium自身的depot_tools工具。非常方便易用。主要是electron在下载完chromium
一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？程序员yt python 华为od 考研
今天给大家分享的是一位粉丝的提问，西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：本科就读于西安交通大学建筑学，今年21岁，秋天毕业，不想在建筑行业，想转码，现在在学Python以及计算机408课程，在Boss上投了很多的岗位好像都是华为OD社招，我毕业应该去试试
python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python中 except与 except Exception as e的区别东木月 python python性能提升 python 开发语言
python中except与exceptExceptionase的区别1、捕获所有异常使用except#-*-coding:utf-8-*-"""@contact:微信1257309054@file:except与exceptExceptionase的区别.py@time:2024/4/1313:26@author:LDC"""importsysdeffun1():try:sys<
编程提示异常就不用挨个度娘了——Python初识必备爱码小士 Python 网络爬虫机器学习 web开发人工智能
相信对于很多小白，新手对一些异常提示，都不一定明白其含义，所以给大家整理了这样一份中英对照表，对大家一定有所帮助，当然最好都能熟记于心，这样就不用再去一个个度娘了，觉得这个表不错就点个赞加转发吧，文末更多福利异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)Exception常规错误的基类StopI
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
王者荣耀道具页面爬虫（json格式数据） shix . 爬虫 js逆向爬虫 json 数据库
首先这个和英雄页面是不一样的，英雄页面的图片链接是直接放在源代码里面的，直接就可以请求到，但是这个源代码里面是没有的虽然在检查页面能够搜索到，但是应该是动态加载的，源码中搜不到该链接然后就去看看是不是某个接口中返回的数据刷新了一下返回了一个json估计一些数据在这里面，我们下载下来试试没错，那接下来就是简单的拼接了下面是实现codeimportrequestsimportcsvfromurllib
《Python实战进阶》No26: CI/CD 流水线：GitHub Actions 与 Jenkins 集成带娃的IT创业者 Python实战进阶 python ci/cd github
No26:CI/CD流水线：GitHubActions与Jenkins集成摘要持续集成（CI）和持续部署（CD）是现代软件开发中不可或缺的实践，能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线，并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员，本文都将帮助你掌握CI/
python tcl,Python tcl没有正确安装邓永泉 python tcl
Ijustinstalledgraphics.pyforpython.Then,whenItriedtorunthefollowingcode:fromgraphicsimport*defmain():win=GraphWin("MyCircle",100,100)c=Circle(Point(50,50),10)c.draw(win)win.getMouse()#Pausetoviewresul
【Python】解析 XML 茉菇 Python python xml
1、Python对XML的解析1.1SAX(simpleAPIforXML)SAX解析器使用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。xml.sax模块牺牲了便捷性来换取速度和内存占用。事件驱动指一种基于回调（callback）机制的程序运行方法。利用SAX解析XML文档牵涉到两个部分:解析器：负责读取XML文档，并向事件处理器发送事件，如元素
python中使用单例模式在整个程序中只创建一个数据库连接，节省资源背太阳的牧羊人 python 数据库数据库 python 单例模式
示例代码：fromloguruimportloggerfrompymongoimportMongoClientfrompymongo.errorsimportConnectionFailurefromllm_engineering.settingsimportsettingsclassMongoDatabaseConnector:_instance:MongoClient|None=Nonedef
Python XML 解析 lsx202406 开发语言
PythonXML解析引言XML（可扩展标记语言）是一种用于存储和传输数据的标记语言。Python作为一种功能强大的编程语言，提供了多种解析XML的方法。本文将详细介绍Python中常用的XML解析方法，包括XML解析的基本概念、常用库以及解析实例。XML解析的基本概念1.XML文档结构XML文档由以下几部分组成：声明：声明XML版本和编码方式。根元素：文档中所有元素的父元素。元素：XML文档中的
Package SeqIO wangyiqi806643897
InputThemainfunctionisBio.SeqIO.parse(...)whichtakesaninputfilehandle(orinrecentversionsofBiopythonalternativelyafilenameasastring),andformatstring.ThisreturnsaniteratorgivingSeqRecordobjects:>>>fromB
蓝桥杯Python赛道备赛——Day8：动态规划（基础）案例分析 SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就上一期中讨论的蓝桥杯动态规划基础问题（包括：递推、记忆化搜索、最长公共子序列和最长上升子序列），给出了六个常见的案例问题。每一个问题都给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。如有不懂，欢迎在评论区提问。前序知识：（1）Python基础语法（2）Day1：基础算法（3）Day7：动态规划（基础）动态规划（基础）案例分析一、递推应用：爬楼梯问题二、递推应用：零钱兑换三、记忆
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
《我的Python觉醒之路》之转型Python（十五）——控制流 Python破壁人手记 python 服务器网络开发语言 java
[今天是2025年3月17日，继续复习第一章节、第二章节的内容]《我的Python觉醒之路》之转型Python（十四）——控制流
AI：188-利用Python进行自然语言生成和文本摘要一键难忘 python 开发语言人工智能自然语言处理
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.利用Python进行自然语言生成和文本摘要近年来，人工智
零基础Python快速入门：核心概念+基础语法详解中意可口可乐 python 开发语言
一、为什么选择Python？1.语言优势简洁易读：接近自然语言的语法结构#其他语言实现循环for(inti=0;i=3)#返回True#逻辑运算符print((5>3)and(2=90:grade='A'elifscore>=80:grade='B'#这里将执行该分支else:grade='C'循环结构#while循环count=0whilecount<3:print(f"第{count+1}次循
python后端常见架构_常见的后端框架 weixin_39622178 python后端常见架构
后端vs前端如果您是Web开发世界的新手，后端和前端开发之间的区别可能不那么明显，但是，了解两者之间的区别很重要。以下是前端开发人员与后端开发人员的一些区别。前端开发：前端开发人员在很大程度上负责用户所看到的内容(即网站页面)，前端开发人员主要使用HTML，CSS和JavaScript。他们的主要关注点是创建出色的用户体验，并确保网站设计和布局或Web应用程序始终具有凝聚力。后端开发：另一方面，后
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

python爬虫 之 scrapy框架

scrapy框架

认识scrapy框架

scrapy之爬取段子

scrapy持续化存储（基于上一个例子）

终端持续化存储

管道持续化存储

了解管道方式流程

手动发送请求

为什么有手动发送请求

代码举例（基于管道存储）

请求传参（深度爬取）

first_one.py

pipelines.py

items.py

settings.py

结果movies.txt

下载中间件（middlewares.py）

图片视频数据的下载

爬虫文件

管道文件pipelines.py

items.py

settings.py

结果：

CrawlSpider

作用和创建

first_crawlSpider.py文件解析和使用

first_crawlSpider运行顺序

follow参数

基于该网站爬取数页图片

爬虫（first_crawlSpider.py）文件

你可能感兴趣的:(爬爬爬虫,python,爬虫)

python爬虫之 scrapy框架