beboxmiss

scrapy详解基础，一篇到进阶门槛

前言

将学scrapy过程中一些常用到但是不需要经常更改的代码记录下来，以便后面使用，同时打卡中间一些常错点。

创建和启用

常见的创建scrapy语句:

scrapy startproject 项目名

scrapy genspider 爬虫名 域名

scrapy crawl 爬虫名

例如：

这些文件分别是:

scrapy.cfg: 项目的配置文件
picture/: 该项目的python模块。之后您将在此加入代码。
picture/items.py: 项目中的item文件.
picture/pipelines.py: 项目中的pipelines文件.
picture/settings.py: 项目的设置文件.
picture/spiders/: 放置spider代码的目录.

下一步是创建爬虫，但是在创建爬虫之前，我们查看scrapy中文文档，发现scrapy其实一共提供了五种模板spider

它们分别是

Spider

Spider是最简单的spider。每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以及您自己编写的spider)。 Spider并没有提供什么特殊的功能。其仅仅请求给定的 start_urls/start_requests ，并根据返回的结果(resulting responses)调用spider的 parse 方法。

CrawlSpider

爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。也许该spider并不是完全适合您的特定网站或项目，但其对很多情况都使用。因此您可以以其为起点，根据需求修改部分方法。当然您也可以实现自己的spider。

XMLFeedSpider

XMLFeedSpider被设计用于通过迭代各个节点来分析XML源(XML feed)。迭代器可以从 iternodes ， xml ， html 选择。鉴于 xml 以及 html 迭代器需要先读取所有DOM再分析而引起的性能问题，一般还是推荐使用 iternodes 。不过使用 html 作为迭代器能有效应对错误的XML。

CSVFeedSpider

该spider除了其按行遍历而不是节点之外其他和XMLFeedSpider十分类似。而其在每次迭代时调用的是 parse_row()

SitemapSpider

SitemapSpider使您爬取网站时可以通过 Sitemaps 来发现爬取的URL。

其支持嵌套的sitemap，并能从 robots.txt 中获取sitemap的url

在本文中我主要学习了前两种模板，后面三个，暂时没有学习，有兴趣的朋友可以前往scrapy-chs.readthedocs.io/zh_CN/0.24/topics/spiders.html自行查看。

那么怎么创建不同类型的模板呢？

首先创建最基本的spider

再创建一个crawlspider

解释一下，本次爬取网站为www.meishij.net/china-food/caixi/，一个美食网站，反爬措施比较少，方便新手学习。同时，对想学做菜的朋友们也有点用

Scrapy框架逻辑

在这里，我就不解释这个框架图的意思了，网上有很多，摆出来主要方便后续解释运行逻辑。

想一想，如果我们不用scrapy框架来实现爬虫，应该是一个什么流程

因此，我们一步步通过这个流程，来看在scrapy的哪些位置进行相应的修改，处理

XXXXSpider.py

首先访问网站，第一步和第二步都在一个文件中，就是自己创建的spider中，笔者先用最基本的spider进行试验，等整个流程结束后，再用crawlspider做进阶试验

打开之前创建的picturespider.py文件

import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    start_urls = ['http://www.meishij.net/china-food/caixi//']

    def parse(self, response):
        pass

这里有三行代码

name = 'picturespider'

name是创建的spider的名字，必须唯一，是到时候启动spider进行爬取的参数

allowed_domains = ['www.meishij.net/china-food/caixi/']

可选。包含了spider允许爬取的域名(domain)列表(list)。当 OffsiteMiddleware 启用时，域名不在列表中的URL不会被跟进。

start_urls = ['http://www.meishij.net/china-food/caixi//']

URL列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取。因此，第一个被获取到的页面的URL将是该列表之一。后续的URL将会从获取到的数据中提取。

这行非必需品，但是如果要去掉，就必须要用替代品,怎么替代以及为什么要替代，请往下看

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。

对spider来说，爬取的循环类似下文:

以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生成response，并作为参数传给该回调函数。

spider中初始的request是通过调用 start_requests() 来获取的。 start_requests() 读取 start_urls 中的URL，并以 parse 为回调函数生成 Request 。

在回调函数内分析返回的(网页)内容，返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数(函数可相同)。

在回调函数内，您可以使用选择器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 来分析网页内容，并根据分析的数据生成item。

最后，由spider返回的item将被存到数据库(由某些 Item Pipeline 处理)或使用 Feed exports 存入到文件中。

接下来，我将逐行对上述内容进行解释

start_urls

首先是第一条，这里的初始URL就是下文中的start_urls，后面的 ”spider中初始的request是通过调用 start_requests() 来获取的” 什么意思呢，这里也没有start_requests()

start_urls列表。当没有指定特定的url时，spider将从该列表中开始抓取，相当于爬虫访问的第一个网页，或者是第一批网页，因为这是一个列表，可以添加多个初始url

访问的网址有了，那么准备开始访问，而且访问的流程一般是用一个request去访问，然后返回得到一个response对象

现在的问题是谁去访问，怎么返回。这应该是个函数，是需要我们自己定义访问的函数嘛？对，但不完全对，也可以不自定义

在scrapy框架中已经给我们定义的默认的函数也就是上面的start_requests()，

构造request：

在scrapy中，如果我们使用 start_urls = ['http://www.meishij.net/china-food/caixi//']这个列表作为起始的访问网址，且没有其他要求，框架会在暗地里使用一个叫做make_requests_from_url()方法（该方法的默认实现是使用start_urls的url生成request，该方法接受一个URL并返回用于爬取的 Request 对象。该方法在初始化request时被 start_requests() 调用，也被用于转化url为request。

默认未被复写(overridden)的情况下，该方法返回的Request对象中， parse() 作为回调函数，dont_filter参数也被设置为开启）。该方法仅仅会被scrapy调用一次

request构造好了，谁用这个对象去访问呢，那就是start_requests()方法，这个方法也是框架内有的，不过在暗地里。

该方法的默认实现是使用 start_urls 的url生成Request，如果您想要修改最初爬取某个网站的Request对象，可以重写(override)该方法

我们如果不使用start_urls列表，我们可以直接越过上面两步，直接重写start_requests()方法，进行访问，并返回response对象，重写start_requests()一般也有两种写法，一种是使用上面的make_requests_from_url()方法，另一种就是不用，在此，我将不重写以及两种重写的方法都尝试一遍，

#重写start_request()方法，使用
import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    start_urls = ['http://www.meishij.net/china-food/caixi//']

    def parse(self, response):
        print(response.status)#输出访问起始网址的状态码

状态码为200，访问成功

#重写方法，并使用make_requests_from_url()
import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    #start_urls = ['http://www.meishij.net/china-food/caixi//']


    def parse(self, response):
        print(response.status)

#重写方法，并使用make_requests_from_url()
import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    #start_urls = ['http://www.meishij.net/china-food/caixi//']
    start_urls=[]

    def start_requests(self): 
    	url='http://www.meishij.net/china-food/caixi//'
    	yield self.make_requests_from_url(url)#该方法默认的回调函数即为下面的parse

    def parse(self, response):
        print(response.status)

#完全重写方法
import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    #start_urls = ['http://www.meishij.net/china-food/caixi//']
    start_urls=[]

    def start_requests(self): 
    	url='http://www.meishij.net/china-food/caixi//'
    	yield scrapy.Request(url,callback=self.parse)#与上一个方法相比，需要我们使用Request来生成request对象，并且指明回调函数的名字，因此，我们可以在这里可以不使用parse名字，而是自己定义

    def parse(self, response):
        print(response.status)

好了，三种方法，我都试过了，但是为什么我们要需要重写这个方法呢，就用默认的列表可以实现目的，另外两种（也可以说是一种方法）方法一般在什么情况下使用呢？

重写start_requests()情景：

一、伪装浏览器，防止反爬。

因为有很多网站是拒绝爬虫访问，所以要使用Request对象把爬虫伪装成浏览器访问，怎么伪装呢？比如说这样：
#设置用户代理为浏览器类型
    headers = {"User-Agent" : "Mozilla***************************************"}
 
    def start_requests(self):
        url = "http://www.meishij.net/china-food/caixi//"
        yield Request(url, headers=self.headers, callback=self.parse)
当然，还有很多其他可以加的，大家可以网上看怎么构造request对象的伪装信息，这是就不扩展了

二、urls列表内容太多，分页爬取。有时scrapy默认的start_requests无法满足我们的需求，例如分页爬取，那就要对它进行重写，添加更多操作。

比如我们想要爬取美食网中川菜的前10页就行了，毕竟，也学不完那么多菜，我们怎么实现对这10个网址的访问呢（每页一个网址），有三种方法

1、是使用start_urls列表，在列表中存在10条网址

2、重写start_requests()，在方法中构造10个网址，逐条访问，如下：
import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    #start_urls = ['http://www.meishij.net/china-food/caixi//']
    start_urls=[]

    def start_requests(self): 
    	base='https://www.meishij.net/china-food/caixi/chuancai/'
    	for i in range(10):
    		request_url=base+str(i)
    		yield scrapy.Request(request_url,callback=self.parse)

    def parse(self, response):
        print(response.url)#打印访问的网址，看是否是前10页
这里，没有按顺序显示，为什么呢，因为scrapy是基于pythonr的twist异步框架写的，可以并行爬取，提高速度

（图片中后面加的参数 --nolog 的意思就是不要输出日志信息，方便查看输出内容，但是如果程序没有按照预定的目标输出，还是打开日志显示比较好，方便进行调试）

3、第三种方法就是在parse方法解析网页的过程中，跳转到下一页，这个等进入parse学习的时候，再举例

三、改写post请求。scrapy默认发起的是get请求，如果你想发起post请求，利用start_request方法，对该方法进行改写，进行post请求。
def start_requests(self):
    return [scrapy.FormRequest("http://www.example.com/login",
                               formdata={'user': 'john', 'pass': 'secret'},
                               callback=self.logged_in)]

def logged_in(self, response):
    # here you would extract links to follow and return Requests for
    # each of them, with another callback
    pass

四、实现动态入口。通过之前的学习我们知道scrapy是将start_urls作为爬取入口，而且每次都是直接硬编码进去一个或多个固定的URL，现在假设有这么个需求：爬虫需要先从数据库里面读取目标URL再依次进行爬取，这时候固定的start_urls就显得不够灵活了，好在scrapy允许我们重写start_requests方法来满足这个需求。
from scrapy.spider import BaseSpider#这个例子来自网上，仅作举例
from scrapy.http import Request
import MySQLdb
import os


class PdfSpider(BaseSpider):
    name = "pdfspider"
    target_dir = "/home/newspace/pdfs"
    def start_requests(self):
    db = MySQLdb.connect(host="localhost", user="root", passwd="123456", db="scrapy",                                                             
    charset='utf8',
    use_unicode=False)
    cur = db.cursor()
    cur.execute("select url from tab_url")
    for url in cur.fetchall():
        yield Request(url[0], self.parse)
    cur.close()
    db.close()

当然，还有一些其他的用途，比较常见的，我就遇见这些，大家可以指点我一下，还有哪些常用的。

parse回调函数

当response没有指定回调函数时（在上面的start_request()方法中），该方法是Scrapy处理下载的response的默认方法。

parse 负责处理response并返回处理的数据以及(/或)跟进的URL。 Spider 对其他的Request的回调函数也有相同的要求。

该方法及其他的Request回调函数必须返回一个包含 Request 及(或) Item 的可迭代的对象。

现在，我们编写parse方法对网页进行解析，得到数据

首先，确定目标，看我们需要哪些信息

从图片中，我们可以看出，对于每道菜，可以简单地提取以下几个信息：

name:菜名

steps：做菜需要几步

costTIme;需要的时间

ways:烹饪的方法

tasty;口味

imgUrl：保存这道菜的图片url,方便我们后续下载

当然我们可以再加一个内容：texturl(详情页的url地址）

接下来进入网页分析，然后编写解析代码

可以看出每道菜对应一个div块，因此我们首先要做的是就是怎么从网页中提取这些div块出来，然后再在每个div块中提取每道菜的对应信息

selector选择器

当抓取网页时，你做的最常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的：

BeautifulSoup 是在程序员间非常流行的网页分析库，它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但它有一个缺点：慢。

lxml 是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库(也可以解析HTML)。

Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分。

XPath 是一门用来在XML文件中选择节点的语言，也可以用在HTML上。 CSS 是一门将HTML文档样式化的语言。选择器由它定义，并与特定的HTML元素的样式相关连。

Scrapy选择器构建于 lxml 库之上，这意味着它们在速度和解析准确性上非常相似。

在scrapy的parse中，参数response对象以 .selector 属性提供了一个selector选择器，用于提取网页数据

我将使用 Scrapy shell (提供交互测试)和位于Scrapy文档服务器的一个样例页面，来解释如何使用选择器：

http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

这里是它的HTML源码:


 
  
  Example website
 
 
  
   Name: My image 1 

   Name: My image 2 

   Name: My image 3 

   Name: My image 4 

   Name: My image 5

效果如下：

首先, 我们打开shell:

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

接着，当shell载入后，您将获得名为 response 的shell变量，其为响应的response，并且在其 response.selector 属性上绑定了一个selector。

因为我们处理的是HTML，选择器将自动使用HTML语法分析。

那么，通过查看 HTML code 该页面的源码，我们构建一个XPath来选择title标签内的文字:

>>> response.selector.xpath('//title/text()')
[]

由于在response中使用XPath、CSS查询十分普遍，因此，Scrapy提供了两个实用的快捷方式: response.xpath() 及 response.css():

>>> response.xpath('//title/text()')
[]
>>> response.css('title::text')
[]

如你所见， .xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。这个API可以用来快速的提取嵌套数据

为了提取真实的原文数据，你需要调用 .extract() 方法如下:

>>> response.xpath('//title/text()').extract()
[u'Example website']

注意CSS选择器可以使用CSS3伪元素(pseudo-elements)来选择文字或者属性节点:

>>> response.css('title::text').extract()
[u'Example website']

下面我总结一下通过XPath和css解析获取数据的常见方式

对内容的提取一般有两个方面，一是页面标签中的内容如上面的text就是标签内的内容，二是标签中的属性值，比如图片的href属性

XPath：
IN：response.xpath('//title/text()').extract()#titlte标签全网页唯一
OUT：[u'Example website']

IN： response.xpath('//title/text()')
OUT：[]

#提取标签属性值
IN：response.xpath('//base/@href').extract()
OUT：[u'http://example.com/']


IN：response.xpath('//a[contains(@href, "image")]/@href').extract()#获取href属性为image的a标签 的href属性
OUT：[u'image1.html',
      u'image2.html',
      u'image3.html',
      u'image4.html',
      u'image5.html']

IN：dlist=response.selector.xpath("//div[@class='house_left left'])#提取class属性为house_left left的所有div 块，XPath中我常用这种解析
使用相对XPaths

记住如果你使用嵌套的选择器，并使用起始为 / 的XPath，那么该XPath将对文档使用绝对路径，而且对于你调用的 Selector 不是相对路径。

比如，假设你想提取在
元素中的所有
元素。首先，你将先得到所有的
元素:
>>> divs = response.xpath('//div')
开始时，你可能会尝试使用下面的错误的方法，因为它其实是从整篇文档中，而不仅仅是从那些
元素内部提取所有的
元素:
>>> for p in divs.xpath('//p'):  # this is wrong - gets all  from the whole document
...     print p.extract()
下面是比较合适的处理方法(注意 .//p XPath的点前缀):
>>> for p in divs.xpath('.//p'):  # extracts all  inside
...     print p.extract()
另一种常见的情况将是提取所有直系
的结果:
>>> for p in divs.xpath('p'):
...     print p.extract()
CSS：
# css方法：
#  提取标签内容
IN： response.css('title::text').extract()
OUT：[u'Example website']
IN：response.css('title::text')
OUT：[]

# 提取标签属性值
IN：response.css('base::attr(href)').extract()
OUT：[u'http://example.com/']

IN：dlist=response.css('li.houst_ctn')
css提取嵌套的选择器我觉得是比XPath用得更顺手一点，比如拿我们川菜的来直接实战

CSS嵌套提取

先看网页

我们发现所有的菜都是一个class属性为listtylel的div块，那我们能直接取这种div块嘛，先试一下(先切换shell,访问该川菜页面）

可以，正好对应第一页的18道菜，但是有的时候，可能要经过一次嵌套来获取这些列表块。

现在dlists 中的每一个元素都是一个selectorc对象

什么意思呢？就是我们对里面的内容还要再进行提取，不能直接拿到我们要数据

接下来开始提取

菜名name

分析：使用extract()提取的是一个列表，我们要取里面的值，有两种方法，一种是列表取值，另一种是还有一种方法是extract_first()方法取出列表的第一个值

步骤steps

观察steps的位置，属于标签内容，但是内容中还有其他的，直接用取标签内容的方法，取出的值还有我们下一个要取的值，所以接下来的这四个值，我们可以用相同的办法获取:正则

selector对象可以使用正则进行内容匹配，函数为.re_first()提取满足的第一个

因此对于后面三个值，用同样的方法，就可以了，这里不一个一个进行，直接在下面代码里完整贴出

图片imgUrl
import scrapy


class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    #start_urls = ['http://www.meishij.net/china-food/caixi//']
    start_urls=[]

    def start_requests(self): 
    	base='https://www.meishij.net/china-food/caixi/chuancai/'
    	for i in range(1):
    		if i >0:#不能用0，否则首页不对
    			request_url=base+str(i)
    		else:
    			request_url=base
    		yield scrapy.Request(request_url,callback=self.parse)

    def parse(self, response):
        #print(response.url)#打印访问的网址，看是否是前10页
        #提取每道菜对应的div块列表
        
        dlists=response.css('div.listtyle1')
        
        for food in dlists:
        	name=food.css('a::attr(title)').extract_first()
        	steps=food.re_first('li1">([0-9]+)步')
        	costTIme=food.re_first('大概([0-9]+)分钟')
        	ways=food.re_first('li2">(.*?) /')
        	tasty=food.re_first('li2">.*?/ (.*?)
在这里需要注意一点，就是在start_request()中构造url时，首页后面是不加0，否则不是我们需要的当前页面，这一点需要大家在实践中通过对当前网址检查，没有绝对在最后我仅对name进行了输出

 
  好了，现在已经 完成 对数据的解析 
  按照流程应该做是就是定义数据格式了，这个在items.py中 
  items.py 
  # Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class PictureItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name=scrapy.Field()
    steps=scrapy.Field()
    costTime=scrapy.Field()
    ways=scrapy.Field()
    tasty=scrapy.Field()
    imgUrl==scrapy.Field()

 
  在这里，我们需要 对前面的spider文件进行一下修改，通过这个 PictureItem来存储数据，具体如下： 
  import scrapy
from picture.items import PictureItem#如果这里导入出现 找不到该模块的错了，可能 是因为使用的集成开发环境对根目录的设定的原因

class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    #start_urls = ['http://www.meishij.net/china-food/caixi//']
    start_urls=[]

    def start_requests(self): 
    	base='https://www.meishij.net/china-food/caixi/chuancai/'
    	for i in range(1):
    		if i >0:#不能用0，否则首页不对
    			request_url=base+str(i)
    		else:
    			request_url=base
    		yield scrapy.Request(request_url,callback=self.parse)

    def parse(self, response):
        #print(response.url)#打印访问的网址，看是否是前10页
        #提取每道菜对应的div块列表
        
        dlists=response.css('div.listtyle1')
        
        for food in dlists:
        	item=PictureItem()

        	item['name']=food.css('a::attr(title)').extract_first()
        	item['steps']=food.re_first('li1">([0-9]+)步')
        	item['costTime']=food.re_first('大概([0-9]+)分钟')
        	item['ways']=food.re_first('li2">(.*?) /')
        	item['tasty']=food.re_first('li2">.*?/ (.*?)
 
  如果出现 No module named item的错误，可能主要有以下几个原因： 
   
   1.爬虫名字和项目名字一样，导致导入模块时出错：改爬虫或者项目名称 
   2.模块不存在：检查你的项目中的items，看看有没有出错 
   3.模块没有保存：在编辑好items模块时，记得运行编译 
   4.模块名字和引入的不一样：自行检查 
   5.手动添加自己创建的scrapy文件夹的路径：例如 
   import sys

sys.path.append（文件路径） 
   
  现在该是数据的存储，我将其放入mysql数据据中，在pipelines.py文件中 
  Pipelines.py 
  当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。 
  每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。 
   
   以下是item pipeline的一些典型应用： 
    
    清理HTML数据 
    验证爬取的数据(检查item包含某些字段) 
    查重(并丢弃) 
    将爬取结果保存到数据库中 
    
   
  编写你自己的item pipeline很简单，每个item pipiline组件是一个独立的Python类，同时必须实现以下方法: 
  process_item(item, spider) 
  每个item pipeline组件都需要调用该方法，这个方法必须返回一个 Item (或任何继承类)对象， 或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。 
   
    
     
     参数: 
      
       
       item (Item 对象) – 被爬取的item 
       spider (Spider 对象) – 爬取该item的spider 
       
     
    
   
   
   此外,他们也可以实现以下方法: 
   open_spider(spider) 
   当spider被开启时，这个方法被调用。 
     
   close_spider(spider) 
   当spider被关闭时，这个方法被调用 
   
  在本例中，我将实现两个pipeline类，一个用于将存储到mysql数据库，另一个用于保存菜品的图片，将使用到scrapy框架自带的一个图片下载类 
  MySqlPipeline类 
   
   （现在应该已经 在mysql数据库中创建 了一个名为eat_menu的数据库，和一个库中一个名为menus的表) 
    
   
  先使用硬编码 的方式连接数据库 
  from scrapy import Request
import pymysql

class MySqlPipeline(object):
    """docstring for MySqlPipeline"""
    #mysql 连接方式
    def open_spider(self,spider):
        #连接数据库
        self.connect=pymysql.connect(
            host='127.0.0.1',
            port=3306,
            db='eat_menu',
            user='root',
            passwd='Woshi123',
            charset='utf8',
            use_unicode=True)
        self.cursor=self.connect.cursor() 
  或者通过从setting.cfg配置文件中读取信息的方式来动态连接 
  def __init__(self,host,user,password,database,port):
        self.host = host
        self.user = user
        self.password = password
        self.database = database
        self.port = port
    @classmethod
    def from_crawler(cls,crawler):
        return cls(
            host = crawler.settings.get("MYSQL_HOST"),
            user = crawler.settings.get("MYSQL_USER"),
            password = crawler.settings.get("MYSQL_PASSWD"),
            database = crawler.settings.get("MYSQL_DBNAME"),
            port = crawler.settings.get("MYSQL_PORT"),
        )

    def open_spider(self, spider):
        '''负责连接数据库'''
        self.db = pymysql.connect(host=self.host,user=self.user,passwd=self.password,db=self.database,charset="utf8",port=self.port)#这里必须要用指名的参数传入方式，否则可能会报错
        self.cursor = self.db.cursor()

    def  process_item(self,item,spider):

        self.cursor.execute(
            "insert into menus(name,steps,costTime,ways,tasty) values ('%s','%s','%s','%s','%s')"%(item['name'][0],item['steps'],item['costTime'],item['ways'],item['tasty']))
        self.db.commit()
        return item
    def close_spider(self,spider):
        self.db.close()
         
  现在到最后一步了，就是配置settings.cfg 
  settings.cfg 
  对于这个 配置文件的修改，最简单的来说，我们应该有下几个方面： 
   
   1.君子协议。原来的这个值为True，我们需要修改为False，否则很多的网站我们都无法爬取 
    
   2.重写header信息。 
    
   3.爬虫中间件和下载中间件。这两个地方可以用来开启自己写的中间件（不仅得有装备，还要给装备开关打开，才能使用） 
    
   4.开启pipeline的使用。后面的数字代表了执行的先后顺序，如果定义有不同的pipeline，用于规定先后顺序，越小越先执行，比如，我们如果再定义一个用于数据清洗的pipline，则序号就应该比它大 
    
   5.设置数据库连接的参数。IMAGES_STORE是设置菜品图片存储的位置，稍后写imagePipeline类时会用到 
   IMAGES_STORE = 'D:\\Spide\\picture'
# IMAGES_THUMBS = {
#     'small': (50, 50),
#     'big': (270, 270),
# }

MYSQKL_HOST= 'localhost' 
MYSQL_DBNAME= 'eat_menu' 
MYSQL_USER= 'root' 
MYSQL_PASSWD='Woshi123'
MYSQL_PORT = 3306 
     
   
  这样，基本上就算是大功告成，现在试运行一下 
   
  再打开数据库瞧瞧 
   
  现在我们再回过头看前面 还有哪些坑 
   
   1.在parse方法中实现翻页,构造url继续访问 
   import scrapy
from picture.items import PictureItem

class PicturespiderSpider(scrapy.Spider):
    name = 'picturespider'
    allowed_domains = ['www.meishij.net/china-food/caixi/']
    start_urls = ['http://www.meishij.net/china-food/caixi//']
    page=2
    # start_urls=[]

    # def start_requests(self): 
    # 	base='https://www.meishij.net/china-food/caixi/chuancai/'
    # 	for i in range(1):
    # 		if i >0:#不能用0，否则首页不对
    # 			request_url=base+str(i)
    # 		else:
    # 			request_url=base
    # 		yield scrapy.Request(request_url,callback=self.parse)

    def parse(self, response):
        #print(response.url)#打印访问的网址，看是否是前10页
        #提取每道菜对应的div块列表
        
        dlists=response.css('div.listtyle1')
       
        
        for food in dlists:
        	item=PictureItem()

        	item['name']=food.css('a::attr(title)').extract_first()
        	item['steps']=food.re_first('li1">([0-9]+)步')
        	item['costTime']=food.re_first('大概([0-9]+)分钟')
        	item['ways']=food.re_first('li2">(.*?) /')
        	item['tasty']=food.re_first('li2">.*?/ (.*?)
 
   输出翻页的网址，看是否正确 
    
  
 
   
   2.实现用于保存图片的imgPipeline 
   3.spider中间件和下载中间件 
   4.crawlspider类的使用 
   5.代理池的使用 
   6.分布式爬虫 
   7.selenium的使用（解决Ajex加载和登录检验） 
   
  上面的剩下6个，等知识储备够了，再来详写。

参数:	item (`Item` 对象) – 被爬取的item spider (`Spider` 对象) – 爬取该item的spider

前端怎么实现聊天输入框？怎么实现类似b站评论的输入并发送自定义表情包？输入回显、发送时表情包转义为[emoji]字符串、页面展示回显旅行中的伊蕾娜前端 javascript vue.js html5
之前做项目实现聊天功能，有几个功能点我觉得挺复杂的。今天我来说一下，我是如何实现图片小表情在输入框中显示，发送给后端时只发送一个含义字符串如：[emoji]，然后正常回显在页面上。此demo使用vue3源码已上传：源码地址实现效果图：输入自定义表情发送并回显声明：这只是个demo，不涉及与后端交互，不过会在该交互的地方标记，如需实际应用于项目，请根据实际情况进行改造完善！父组件定义及逻辑实现父组件
python小函数勉旃 Python学习
1、sum（）sum()方法对系列进行求和计算。以下是sum()方法的语法:sum(iterable[,start])(iterable[,start])iterable--可迭代对象，如列表。start--指定相加的参数，如果没有设置这个值，默认为0。返回计算结果。以下展示了使用sum函数的实例：>>>sum([0,1,2])3>>>sum((2,3,4),1)#元组计算总和后再加110>>>s
跟我一起学Python数据处理（117/127）：高级Python环境搭建指南 lilye66 python windows 开发语言
跟我一起学Python数据处理（117/127）：高级Python环境搭建指南在Python数据处理的学习和实践中，基础的Python环境可能无法满足日益复杂的项目需求。就像我们搭建房子，简单的毛坯房能满足基本居住，但想要更舒适、功能更齐全，就需要精心装修一番。今天，我就和大家分享一下高级Python环境搭建的相关知识，希望能和大家一起在技术的道路上共同进步，让我们处理数据时更加得心应手。一、为什
【2025小白版】计算复试/保研机试模板（个人总结非GPT生成）附代码数维学长986 计算机复试复试计算机计算机机试机试复试机试
一、编程语言选择很多高校在机试中对编程语言都有明确规定，像复旦大学计算机学院就说明可选择C、C++或Java语言答题，还支持C11（gcc5.4），C++14（g++5.4），Java(openjdk1.8）等编译环境。这里强烈建议大家使用C/C++，因为几乎所有高校都支持，通用性超强。二、准备好模板是至关重要的一般来说，机试都可以带书和纸质资料进入考场。所以提前把那些函数的用法和算法的模板准备好
【python】读取excel表中某列，根据此列数据来统计次数 Rocky 日积月累 Python python pandas 开发语言
这个是用来读取excel表中某列，然后根据这一列表中的数据来统计一共出现次数，将前20打印出来并保存到新表中。适合做类似统计人员迟到、事件出现次数等。注意不是求和。都是为了简化工作量，实用小小脚本。importpandasaspd#读取Excel表格文件df=pd.read_excel('001.xlsx')#统计某列内容的行数，类似算次数column_name='姓名'column_counts
用Python批处理将PDF文件转换成图片格式如PNG（工具：PyMuPDF模块）米芽在学习菜鸟啄米 python 办公软件
用Python批处理将WORD文件转换成PDF格式一、问题分析keywords：批处理、PDF转换PNG格式、办公自动化二、材料准备三、代码实现一、问题分析keywords：批处理、PDF转换PNG格式、办公自动化现在将PDF转换为图片格式的工具有很多，本文运用Python的PyMuPDF模块，将所给路径下的所有PDF文件，批量转换成PNG格式，并存储于指定路径中。二、材料准备1、PyMuPDF模
【菜鸟笔记|算法导论】十大排序算法总结与python实现武咏歌算法排序算法
算法导论中提到了七种排序算法，再加上冒泡排序、选择排序、希尔排序，构成我们常说的十大排序算法。其中冒泡、选择、插入、希尔、归并、堆、快速排序都是比较排序算法（即通过对元素进行大小比较来确定顺序）；计数、基数、桶排序都是非比较排序算法。十大排序算法的性能比较如下表：下面将简单描述十大排序算法的原理，并分别用python实现。笔记自用就不附原理图了，如果对原理有疑问请参阅算法导论那本书，里面算法运行过
Bootstrap笔记湖前一人对影成双 bootstrap 笔记前端
初识Bootstrapv4.bootcss.com图标库bootstrap与...相联系编译版Bootstrap文件结构：快速开发使用Bootstrap4.4.1编译版包中包含css和js文件夹。css和js文件夹中都提供了两种类型的文件，压缩的和未压缩的的文件。bootstrap.*是预编译的文件，bootstrap.min.*是编译且压缩后的文件。bootstrap.*.map格式的文件，是s
蓝桥杯算法基础（36）动态规划dp经典问题详解湖前一人对影成双算法蓝桥杯动态规划
动态规划-动态规划方法方法代表了这一类问题（最优子结构or子问题最优性）的有一半解法，是设计方法或者策略，不是具体算法-本质是递推，核心是找到状态转移的方式，写出dp方程-形式:记忆性递归递推01背包问题有n个重量和价值分别为wi，vi的物品，从这些物品中挑选出总重量不超过n的物品，求所有挑选方案中的值总和的最大值1=w[i]){intv1=v[i]+dfs(i+1,ww-w[i]);//选择当前
恶意文件检测指南：构建高效安全防御体系 ivwdcwso 安全安全安全分析
在当今数字化时代，恶意文件已成为网络攻击的主要载体。从勒索软件加密企业数据到APT组织投递钓鱼文档，安全工程师每天都需要在海量文件中快速识别威胁。本文将深入解析恶意文件检测的核心技术、实战工具链与高级对抗策略，助您构建多层次防御体系。©ivwdcwso(ID:u012172506)一、为什么传统杀毒软件不再够用？2023年Verizon数据泄露报告显示，32%的恶意软件成功绕过传统AV检测。新型威
研发管理之-多元文化研发团队公约 txzq IT研发管理研发管理
如果你工作在一个多元文化的团队，团队成员来自不同的地区，那么为了营造一个好的团队氛围，我们需要一个团队公约：沟通（Communication）及时性（Timeliness）：尊重不同的时区和工作时间，及时回应团队的各种消息和需求。清晰性（Clarity）：沟通时保持简明，使用合适的渠道（即时消息、电子邮件、视频会议等）进行准确的信息传达。包容性（Inclusivity）：保证在讨论、决策和会议中让
shell案例系列3-将多个文件写入到同一个文件只是甲 Linux csv导入数据库同步正则筛选 awk命令批量处理
文章目录一.需求二.解决方案一.需求今天遇到一个问题，应用程序将每天的数据都导出成一个单独的csv，现在需要将这些文件导入到数据库中。示例:callid_20210101.csvcallid_20210102.csvcallid_20210103.csv......callid_20211231.csv二.解决方案首先我们要将所有的csv的数据都汇总到一个csv文件，然后将csv文件的数据同步到数
python中函数的应用 sky__man summary 函数 def
一.函数1.定义函数def函数名称(参数):#此参数为形参，不是真实存在的函数需要执行的代码块return函数返回值1,函数返回值2#如果函数中没有return，默认返回None，多个返回值实质是一个元组2.调用函数函数名称(参数)#此参数为实参print函数名称(参数)#此参数为实参var=函数名称(参数)#此参数为实参，当函数有返回值时，可以赋值给一个变量eg：
Vistual Studio中x86和x64的区别 *Major*
VistualStudio中x86和x64的区别VistualStudio中x86和x64的区别VistualStudio中x86和x64的区别一首先声明一下“windowsx64和x86有啥区别”这个问题和“windows64和32有啥区别”是一样的，因为x64其实就是64位，x86其实就是32位，在口语中我们说32位会多于x86二区别系统x86与x64的区别：1、内存寻址能力区别32位系统寻址
python 浅谈fstring以及简单的使用。 qq_24499417 Python python fstring 3.6 格式化新特性
今天看了一下python3.6中的fstring格式化,还是蛮方便的。字符串前面需要带上f标记,变量名直接用在字符串里面，需带上{}以与普通的字符串区分：要想使{}只作为单纯的{}而没有格式化的特殊意义，可以double一次就可以只代表本身了。如下图,这样{}也出现在里面了，但是格式化也失败了。要是想要将名字显示在{}里面。我们需要先把name放在{}里面，然后外面再套上一层{},但因为外层的{}
Python中常用的100个函数，涵括小白到资深码农！马大哈（Python） python 开发语言算法
1.print():打印输出内容到控制台。2.input():接收用户输入。3.len():返回对象的长度。4.type():返回对象的类型。5.int():将字符串或其他类型转换为整数。6.float():将字符串或其他类型转换为浮点数。7.str():将对象转换为字符串。8.list():创建一个列表。9.tuple():创建一个元组。10.dict():创建一个字典。11.set():创建一
完整代码详解：Python实现基于文本内容的用户隐私泄露风险评估 mosquito_lover1 python 开发语言
主要应用场景：社交网络隐私风险评估实现一个基于文本内容的用户隐私泄露风险评估系统，涉及多个步骤和技术。以下是一个完整的Python代码示例，涵盖了基于BERT的文本表示、基于聚类的文本隐私体系构建、基于命名实体识别的隐私信息提取、以及基于信息熵的文本隐私量化。1.安装所需的库首先，确保你已经安装了以下Python库：pipinstalltransformersscikit-learnnumpypa
Android Room数据库中的主键重置 t0_54manong android 数据库个人开发
在Android开发中，尤其是使用Room数据库时，管理数据库的主键（PrimaryKey）是非常重要的一个环节。本文将详细探讨如何在重新安装应用后重置Room数据库中的主键，并结合实际操作实例来阐释整个过程。Room数据库的主键在Room中，主键通常由@PrimaryKey注解定义。如果你希望主键自动生成，可以使用autoGenerate=true属性。以下是两个简单的实体类示例：@Entity
Android Kotlin中Room数据库的参数传递 t0_54coder android 数据库 kotlin 个人开发
在Android开发中，Room数据库是一个非常强大且灵活的持久化存储解决方案。通过Room库，我们可以轻松地与SQLite数据库进行交互。然而，当我们尝试在查询中传递参数时，可能会遇到一些问题。本文将通过一个实际案例来讨论如何在Kotlin中使用Room数据库时正确传递参数。问题背景假设我们正在开发一个待办事项（To-DoList）应用，使用Kotlin编写。应用中，我们需要根据ID查找特定的待
银行家算法重岳算法 java
银行家算法（Banker'sAlgorithm）是由计算机科学家EdsgerDijkstra提出的，是一种用于处理资源分配和避免死锁的算法。它是一个安全的资源分配算法，确保在多进程共享系统资源时能够保持系统处于安全状态。银行家算法的核心目标是：在动态分配资源的过程中，判断是否存在一个安全的执行顺序，确保系统在执行过程中不会进入死锁状态。可以看作是一种预防死锁的策略。核心概念安全状态（SafeSta
计算机网络面试题合集（TCP/IP 篇） interviewpass 面试题集计算机网络 tcp/ip 网络数据库面试求职招聘
每日定期分享|面试求职经验|个人成长开篇寄语面试不必死记硬背，带着GPT去面试简直降维打击！为您推荐一款颠覆性的GPT面试助手软件：“会议面试精灵”。这款工具能够实时分析语音内容、智能识别面试问题并生成精准答案，让您轻松应对八股文题目，从容处理各类复杂面试问题。毕竟八股文在工作中很少使用，仅作为面试的筛选工具，不值得投入过多的精力。如何获取“会议面试精灵”？-直接访问下载链接：https://ww
华为OD机试 - 密码验证合格程序（Python/JS/C/C++ 牛客练习题 HJ20）哪吒搬砖工逆袭Java架构师华为od python javascript
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 勾股数元组（Python/JS/C/C++ 2024 E卷 100分）哪吒搬砖工逆袭Java架构师华为od python javascript
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 出错的或电路 - 二进制（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某生产门电路的厂商发现某一批次的或门电路不稳定，具体现象为计算两
华为OD机试 - 硬件产品销售方案 - 回溯（Python/JS/C/C++ 2023 B卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某公司目前推出了AI开发者套件、AI加速卡、AI加速模块、AI服
华为OD机试 - 按索引范围翻转文章片段 - 字符串（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述输入一个英文文章片段，翻转指定区间的单词顺序，标点符号和普通字母
华为OD机试 - 特异性双端队列 - 双端队列（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定一个队列，但是这个队列比较特殊，可以从头部添加数据，也可以从
华为OD机试 - 快递运输 - 送分题（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述运送的快递放在大小不等的长方体快递盒中，为了能够装载更多的快递同
华为OD机试 - 连续字母长度 - 字符串（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定一个字符串，只包含大写字母，求在包含同一字母的子串中，长度第
华为OD机试 - 判断字符串子序列 - 倒序遍历（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定字符串target和source，判断target是否为so
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

scrapy详解基础，一篇到进阶门槛

前言

创建和启用

Spider

CrawlSpider

XMLFeedSpider

CSVFeedSpider

SitemapSpider

Scrapy框架逻辑

XXXXSpider.py

start_urls

重写start_requests()情景：

parse回调函数

selector选择器

使用相对XPaths

items.py

Pipelines.py

MySqlPipeline类

settings.cfg

你可能感兴趣的:(实战中练爬虫,python,mysql)