dandanfengyun

Python的爬虫框架Scrapy基本使用

本博客用于个人复习使用。有不对的地方希望看到的各位请不吝指出。

一。几乎每个关于Scrapy的框架介绍都会来这么一个图我也跟个风。。。

没必要直接看这第一步。。个人也是有点蒙正在努力。。。第二步开始看就好。

英文解释的各个步骤就不贴上去了，各位想看直接搜就可以了。中文模板
https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/architecture.html
组件
Scrapy Engine
引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。

调度器(Scheduler)
调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

下载器(Downloader)
下载器负责获取页面数据并提供给引擎，而后提供给spider。

Spiders
Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。更多内容请看 Spiders 。

Item Pipeline
Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。更多内容查看 Item Pipeline 。

下载器中间件(Downloader middlewares)
下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看下载器中间件(Downloader Middleware) 。

Spider中间件(Spider middlewares)
Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看 Spider中间件(Middleware) 。

数据流(Data flow)
Scrapy中的数据流由执行引擎控制，其过程如下:

1。引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
2。引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
3。引擎向调度器请求下一个要爬取的URL。
4。调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
5。一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
6。引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
7。Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
8。引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
9。(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

二、这里正式开始。创建一个项目

我们尝试爬取豆瓣电影排行榜250

爬取内容简单一点电影名排名导演简介四个信息
https://movie.douban.com/top250

准备好开发环境后命令行执行。

scrapy startproject 项目名

比如 DouBanMovie 这个无所谓了

scrapy startproject DouBanMovie

然后进入该目录创建一个爬虫文件。

scrapy genspider 爬虫名爬取网址

cd DouBanMovie
scrapy genspider douban movie.douban.com/top250

项目已经创建完成

目录结构
.
├── DoubanMovie – 项目根目录
│ ├── init.py
│ ├── pycache --python运行临时文件 pyc
│ │ ├── init.cpython-36.pyc
│ │ └── settings.cpython-36.pyc
│ ├── items.py – 用来定义爬取哪些内容（类似Django中的models）
│ ├── middlewares.py --中间件
│ ├── pipelines.py --管道，用来处理爬取的数据
│ ├── settings.py --配置文件
│ └── spiders --自定义爬虫包
│ ├── init.py
│ ├── pycache
│ │ └── init.cpython-36.pyc
│ └── douban.py --一个爬虫文件一般来说我们在这里写的多
└── scrapy.cfg – 部署时候用的配置文件

三、完成爬虫文件。

1。修改settings.py中文件

ROBOTSTXT_OBEY = True改为
ROBOTSTXT_OBEY = False # 不遵守网站的ROBOTSTXT文件规则
将这一行注释去掉。主要是防止网页访问过快，被封。。。
DOWNLOAD_DELAY = 3

2。在douban.py 文件下修改完成初步工作。

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['http://movie.douban.com/top250']

    def start_requests(self):
        for url in self.start_urls:
            request = scrapy.Request(url)
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

    def parse(self, response):
        next_page = response.xpath("//span[@class='next']/a/@href")[0]
        print(next_page)
        if next_page:
            print(response.urljoin(next_page.get()))
            request = response.follow(next_page)
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

注：

1 start_requests
方法如果没有重写。效果与此差不多。重写该方法是为了添加Headers中的User_Agent信息。不然下载豆瓣相关网页时，会被当成爬虫程序封掉。
2 yield 如果yield的是一个网络请求，表示继续放入网络请求队列，等待获取。可以用以下两个方法获取scrapy.Request对象。

scrapy.Request(url)	# 该方法中url必须是完整的网址
response.follow(url)	# 该方法，中url不仅可以是绝对地址，还可以是相对地址甚至一个链接对象。会自动拼接出一个完成的地址

3 还有一个方法用于拼接出完成地址

response.urljoin(url)	# 会根据response响应的原地址与url进行拼接得出完整地址，比较智能

通过该方法可以获取所有页，详情信息等一下获取。

scrapy crawl douban --nolog

douban是我们的爬虫名。我们可以再spider目录下创建多个爬虫文件,每个文件类属性name 就代表了我们的爬虫名。

3。解析爬虫爬取的response文件。

2步骤也有使用通过response解析出下一页的链接。 parse 函数接受的response参数就是爬虫获取的相应结果，它进行了一定的封装。 from scrapy.http.response.html import HtmlResponse
就是该类。
当我们使用response进行解析时，一般使用xpath() 获取元素。xpath语法在这里基本适用。比如获取下一页链接它的返回值是一个SelectorList 类似于列表，里面存放的都是Selector。Selector可以看成是我们希望获取的单个元素。
from scrapy.selector import Selector
from scrapy.selector import SelectorList

 next_page = response.xpath("//span[@class='next']/a/@href")[0]

Selector的get（）方法相当于extract（）方法。用于获取Selector的data。
比如next_page.get() 返回值就是 ?start=225&filter= 是一个类似于字符串的东西。

SelectorList的get（）方法相当于extract_first()方法。用于获取列表中第一个Selector的data

所以

response.xpath("//span[@class='next']/a/@href").get() 
response.xpath("//span[@class='next']/a/@href")[0].get()

返回值一致

Selector 的getall()方法。。。这个方法比较搞笑就是返回一个列表，列表中有一个元素，就是 self.get() 的返回值。。注意是列表，不是SelectorList

def getall(self):
    """
    Serialize and return the matched node in a 1-element list of unicode strings.
    """
    return [self.get()]

SelectorList的的getall()方法相当于extract()方法。迭代其中每个元素调用get（）方法，返回一个列表，列表中是每个元素的data值。是列表

def getall(self):
    """
    Call the ``.get()`` method for each element is this list and return
    their results flattened, as a list of unicode strings.
    """
    return [x.get() for x in self]
extract = getall

response.xpath() 方法返回的是一个SelectorList，SelectorList中是一个个Selector对象。可以使用for selector in selectorList 方法取出每一个selector进行操作
大致明白了这些，可以继续完善代码。关于怎么解析网页。这个大家应该都会。

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['http://movie.douban.com/top250']

    def start_requests(self):
        for url in self.start_urls:
            request = scrapy.Request(url)
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

    def parse(self, response):

        next_page = response.xpath("//span[@class='next']/a/@href")
        print(next_page)
        if next_page:
            request = response.follow(next_page[0])
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request


		# 这里是为了简单起见， 不爬取过多网页，每页只选取第一个电影进入详情页爬取。
        detailDivSelector = response.xpath("//div[@class='item']")[0] # SelectorList
        movieRank = detailDivSelector.xpath("./div[1]/em/text()").get()
        print(movieRank)
        # 获取电影详情页链接。
        detailUrlSelector = detailDivSelector.xpath("./div[2]/div/a/@href")[0]
        request = response.follow(detailUrlSelector, callback=self.parse_detail)
        request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
        yield request

        # 提取出详情页的div标签列表
        # detailDivSelectorList = response.xpath("//div[@class='item']") # SelectorList
        # for detailDivSelector in detailDivSelectorList:
        #     # 获取电影豆瓣中排名
        #     movieRank = detailDivSelector.xpath("./div[1]/em/text()").get()
        #     print(movieRank)
        #     # 获取电影详情页链接。
        #     detailUrlSelector = detailDivSelector.xpath("./div[2]/div/a/@href")[0]
        #     request = response.follow(detailUrlSelector, callback=self.parse_detail)
        #     request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
        #     yield request

    def parse_detail(self, response):

        movieName = response.xpath("string(//h1/span[1])").get().strip()
        movieDirector = response.xpath("//div[@id='info']/span/span[2]/a/text()").get()
        movieIntroduction = response.xpath("//span[@class='short']/span/text()").get().strip()

        print(movieName)

        pass

可以注意到。parse 函数中，不仅解析出下一页的链接，还解析出了详情页的链接。然后使用yield 不断将这些请求加入到任务调度器。两者不同的是关于下一页的请求中，没有附带callback参数的值，而关于详情页的请求中，我们将callback的值等于另一个解析函数名parse_detail
callback默认值为None，当callback为None时，该请求获取到响应后会默认交由parse函数处理。而在parse中，我们正是在解析每一页，因此不用指定callback,而解析详情页则与解析主页不同，需要设计一个新的解析函数。命名为parse_detail,当希望将某一请求的响应结果交由该函数处理时，就要指定callback=parse_detail，由此详情页请求的响应结果会交由parse_detail()函数处理。

4。yield request与yield item 的不同。与不同解析函数之间参数传递。

items.py 文件中定义我们爬取需要获取的数据。比如我们需要获取电影排名，电影名称，电影导演，电影简介。在items.py 文件中需要定义。

class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    movieRank = scrapy.Field()
    movieName = scrapy.Field()
    movieDirector = scrapy.Field()
    movieIntroduction = scrapy.Field()

没有具体的类型要求。然后，可以在我们的爬虫文件douban.py中引入该类，类似于字典（也可以转换成字典类型）。修改爬虫文件。

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['http://movie.douban.com/top250']

    def start_requests(self):
        for url in self.start_urls:
            request = scrapy.Request(url)
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

    def parse(self, response):

        # 不断获取下一页 直到获取失败
        next_page = response.xpath("//span[@class='next']/a/@href")
        print(next_page)
        if next_page:
            request = response.follow(next_page[0])
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

        movieItem = DoubanmovieItem()   # 创建item对象
        detailDivSelector = response.xpath("//div[@class='item']")[0] # SelectorList
        movieRank = detailDivSelector.xpath("./div[1]/em/text()").get()
        movieItem['movieRank'] = movieRank
        # 获取电影详情页链接。
        detailUrlSelector = detailDivSelector.xpath("./div[2]/div/a/@href")[0]
        request = response.follow(detailUrlSelector, callback=self.parse_detail, meta={'item': movieItem})
        request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
        yield request

        # 提取出详情页的div标签列表
        # detailDivSelectorList = response.xpath("//div[@class='item']") # SelectorList
        # for detailDivSelector in detailDivSelectorList:
        #     # 获取电影豆瓣中排名
        #     movieRank = detailDivSelector.xpath("./div[1]/em/text()").get()
        #     print(movieRank)
        #     # 获取电影详情页链接。
        #     detailUrlSelector = detailDivSelector.xpath("./div[2]/div/a/@href")[0]
        #     request = response.follow(detailUrlSelector, callback=self.parse_detail)
        #     request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
        #     yield request

    def parse_detail(self, response):
        movieItem = response.meta["item"]
        movieName = response.xpath("string(//h1/span[1])").get().strip()
        movieDirector = response.xpath("//div[@id='info']/span/span[2]/a/text()").get()
        movieIntroduction = response.xpath("string(//div[@class='indent']/span)").get().strip()
        movieItem["movieName"] = movieName
        movieItem["movieDirector"] = movieDirector
        movieItem["movieIntroduction"] = movieIntroduction

        print(movieItem["movieName"], movieItem["movieRank"])
        yield movieItem

movieItem = DoubanmovieItem()
然后可以对定义好的属性以类似字典的形式赋值，取值。
moviItem[‘属性名’] = ‘属性值’
而如果希望传递参数，一般将要传递的对象放入一个字典，然后通过request请求中的meta参数传递，meta的值是一个字典类型对象。

movieItem['movieRank'] = movieRank
# 获取电影详情页链接。	这一句和传递参数无关。。。
detailUrlSelector = detailDivSelector.xpath("./div[2]/div/a/@href")[0]
request = response.follow(detailUrlSelector, callback=self.parse_detail, meta={'item': movieItem})

而在进行解析时，response的meta属性就是之前传递的字典类型对象。

movieItem = response.meta["item"]

如此，就完成了参数的传递，解析完成后。在parse_detail函数中yield 一个item。这个scrapy.Item类型的对象，明显是与请求不同的，它不会再加入调度队列，而是经过管道 pipelines.py 如果希望在管道中处理这些数据。。。那么在setting.py文件中将这三行代码注释去掉

#ITEM_PIPELINES = {
#    'DouBanMovie.pipelines.DoubanmoviePipeline': 300,
#}

这样每一个yield 的item都会经过pipelines.py文件中 DoubanmoviePipeline的处理。process_item 就是对item的处理，参数item就是yield的 DoubanmovieItem对象,spider就是爬虫对象

class DoubanmoviePipeline(object):
    def process_item(self, item, spider):
        return item

如果希望对数据进行清洗，或者保存到数据库。可以在这里进行。需注意的是open_spider会在爬虫开启时执行一次，而close_spider会在爬虫关闭时执行一次。而proess_item则会在每个item对象到达时触发执行。

class MoviesinfoPipeline(object):
    # 爬虫开启时执行 只会执行一次
    def open_spider(self, spider):
        print(spider, "打开爬虫, 经过管道1")
        # 开启数据库
        print("连接成功")

    def process_item(self, item, spider):
        print(item["movieName"])
    	# 数据库保存语句
        return item

    def close_spider(self, spider):
        # 爬虫关闭时执行 只会执行一次
        print("关闭爬虫，经过管道1", spider)
        # 关闭数据库连接

如果希望有多个管道控制，可以仿照该格式创建一个新的类，实现process_item方法。open_spider和close_spider并不是必须的。。。比如新建一个类 MoviesinfoPipeline2

class DoubanmoviePipeline2(object):

    def open_spider(self, spider):
        print(spider, "管道2开启")

    def process_item(self, item, spider):
        print(item['movieName'])
        return item

    def close_spider(self, spider):
        print(spider, "管道2关闭")

然后将该类也加入到setting中的管道里即可， 300， 301可以看成经过管道的顺序，也就是说item会先经过300这个管道，再经过301这一个。。。

ITEM_PIPELINES = {
   'DouBanMovie.pipelines.DoubanmoviePipeline': 300,
   'DouBanMovie.pipelines.DoubanmoviePipeline2': 301,
}

可以看到一个item的movieaName输出了三次，因为我们在yield item之前输出了一次。管道1中输出一次，管道2中输出一次。。。

5。将spider中文件修改一下，爬取每一个详情页，而不是每个页面中第一个详情页。

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['http://movie.douban.com/top250']

    def start_requests(self):
        for url in self.start_urls:
            request = scrapy.Request(url)
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

    def parse(self, response):

        # 不断获取下一页 直到获取失败
        next_page = response.xpath("//span[@class='next']/a/@href")
        print(next_page)
        if next_page:
            request = response.follow(next_page[0])
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

        # 提取出详情页的div标签列表
        detailDivSelectorList = response.xpath("//div[@class='item']") # SelectorList
        for detailDivSelector in detailDivSelectorList:
            movieItem = DoubanmovieItem()
            # 获取电影豆瓣中排名
            movieRank = detailDivSelector.xpath("./div[1]/em/text()").get()
            movieItem["movieRank"] = int(movieRank)
            # 获取电影详情页链接。
            detailUrlSelector = detailDivSelector.xpath("./div[2]/div/a/@href")[0]
            request = response.follow(detailUrlSelector, callback=self.parse_detail, meta={'item': movieItem})
            request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
            yield request

    def parse_detail(self, response):
        movieItem = response.meta["item"]
        movieName = response.xpath("string(//h1/span[1])").get().strip()
        movieDirector = response.xpath("//div[@id='info']/span/span[2]/a/text()").get()
        movieIntroduction = response.xpath("string(//div[@class='indent']/span)").get().strip()
        movieItem["movieName"] = movieName
        movieItem["movieDirector"] = movieDirector
        movieItem["movieIntroduction"] = movieIntroduction

        yield movieItem

管道中代码也改一下

class DoubanmoviePipeline(object):

    def open_spider(self, spider):
        print(spider, "管道1开启")

    def process_item(self, item, spider):
        print(item['movieRank'])
        return item

    def close_spider(self, spider):
        print(spider, "管道1关闭")


class DoubanmoviePipeline2(object):

    def open_spider(self, spider):
        print(spider, "管道2开启")

    def process_item(self, item, spider):
        print(item['movieName'])
        return item

    def close_spider(self, spider):
        print(spider, "管道2关闭")

6。中间件，下载中间件和爬虫中间件。

关于中间件，在进行相关模块之前会经过中间件。可以进行的操作有去重，取消下载，附加请求信息等。来试一一个最简单的。。。附加信息。
第1步到第5步，我们要为每一个请求加上头部信息，否则豆瓣就不会响应。而我们一共写了三次加headers的操作。就可以利用中间件，在每个请求准备下载时加上User-Agent信息。只用写一次即可。
找到 middlewares.py 中DoubanmovieDownloaderMiddleware类。修改方法

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

每个请求准备下载时都会进过这个下载中间件。直接加上一行代码。

request.headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'

然后要在setting文件中打开这个中间件，去掉注释即可

DOWNLOADER_MIDDLEWARES = {
   'DouBanMovie.middlewares.DoubanmovieDownloaderMiddleware': 543,
}

这样每一个请求在请求下载时headers都会加上User-Agent信息。这样爬虫文件中就可以省掉该步骤。。。

三。爬虫时ip访问异常，需登录才能访问之类的情况。

可能就是豆瓣检测到访问过于频繁之类。可以使用ip代理等方式解决，或者请求时附带cookie信息保持登录状态。

1，使用ip代理。scrapy中使用代理十分简单。

类似于下列代码之类。ip表示ip地址，port表示端口号。。。有些代理是https的那么http换成http即可。不管是在spider中修改还是中间件中修改，效果是一样的。

request.meta['proxy'] = 'http://ip:port'

2，附加cookie。保持登录状态，豆瓣，微博网页之类保持登录都是在客户端存放一个cookie信息，而服务器端也存放着cookie-id，以此来验证用户登录状态。因此当我们发出请求时，附带cookie信息时，是可以访问需登录才可查看的页面的。

scrapy 的cookie信息比较特殊。如果直接在请求的headers中添加似乎并不可行（这个待验证，不确定）。需要将cookies信息转成字典格式然后在构造request请求时传递给cookies参数。。比如下面这种。

cookies = 'bid=8s1s39hxPA0; __gads=ID=66eccd2e0389967d:T=1580894607:S=ALNI_MYzn11KuDYChRvoQUIerqWhHNFnYA; push_noty_num=0; push_doumail_num=0; __utmc=30149280; __utmv=30149280.21041; ap_v=0,6.0; dbcl2="210411812:ajHV7kXtARE"; ck=yDli; __utma=30149280.1291680489.1580894608.1580898784.1580902568.3; __utmz=30149280.1580902568.3.2.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/passport/login; __utmt_douban=1; douban-profile-remind=1; __utmt=1; __utmb=30149280.13.10.1580902568'
cookies = {i.split("=")[0]: i.split("=")[1] for i in cookies.split(";")}
request = scrapy.Request(url, cookies=cookies)

在下载中间件中为request.cookis赋值也是可以的。

        cookies = 'bid=8s1s39hxPA0; __gads=ID=66eccd2e0389967d:T=1580894607:S=ALNI_MYzn11KuDYChRvoQUIerqWhHNFnYA; push_noty_num=0; push_doumail_num=0; __utmc=30149280; __utmv=30149280.21041; ap_v=0,6.0; dbcl2="210411812:ajHV7kXtARE"; ck=yDli; __utma=30149280.1291680489.1580894608.1580898784.1580902568.3; __utmz=30149280.1580902568.3.2.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/passport/login; __utmt_douban=1; douban-profile-remind=1; __utmt=1; __utmb=30149280.13.10.1580902568'
        cookies = {i.split("=")[0]: i.split("=")[1] for i in cookies.split(";")}
        request.cookies = cookies

这里需注意的是setting设置。。。

# Disable cookies (enabled by default)
# COOKIES_ENABLED = False

disable 使。。。失去作用，就是使cookies失效，个人理解是如果将# COOKIES_ENABLED = False代码注释去掉，那么即使在spider或者中间件设置了cookies，这个cookies也是无效的。。。而当这句话在注释状态时，默认cookies是有效的，也就是说在spider或中间件中设置的cookies可以帮助我们通过登录状态的校验。

个人感觉下面两行代码是等价的。。。有些博客说注释状态，非注释=True,非注释=False的效果都是不同的。这个可能是我理解的不够深吧。。。

# COOKIES_ENABLED = False
COOKIES_ENABLED = True

而当该句话是以下情况的时候，如果想要以登录状态获取网页信息。

COOKIES_ENABLED = False

那就需要在setting中找到这一句

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

将cookies信息加上去，并去掉注释。
注：如果COOKIES_ENABLED = False，那么cookies的设置只能在settings中完成。

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'Cookie': 'bid=8s1s39hxPA0; __gads=ID=66eccd2e0389967d:T=1580894607:S=ALNI_MYzn11KuDYChRvoQUIerqWhHNFnYA; push_noty_num=0; push_doumail_num=0; __utmc=30149280; __utmv=30149280.21041; ap_v=0,6.0; dbcl2="210411812:ajHV7kXtARE"; ck=yDli; __utma=30149280.1291680489.1580894608.1580898784.1580902568.3; __utmz=30149280.1580902568.3.2.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/passport/login; __utmt_douban=1; douban-profile-remind=1; __utmt=1; __utmb=30149280.13.10.1580902568',
}

四。CrawlSpider其实这个我想单独写一篇博客用来巩固的。但是又觉得理解不深，篇幅太短，没必要。所以就放在这里了。

当我们准备获取的网页十分规律时，我们可以继承CrawlSpider类实现。如
https://www.dushu.com/news/
横向只需不断查询下一页，纵向就是把每一页的详情页提取出来。
如果使用Spider。

class DushunnewsSpider(scrapy.Spider):
    name = 'dushunews'
    allowed_domains = ['www.dushu.com']
    start_urls = ['http://www.dushu.com/news/']


    def parse(self, response):

        # 提取下一页链接   callback为None 继续在该parse中解析
        # 相当于CrawlSpider中的 横向解析  广度
        next_page = response.xpath("//a[contains(text(), '下一页')]/@href")
        print(next_page)
        if next_page:   # 如果存在下一页
            yield scrapy.Request(response.urljoin(next_page.get()))

        # 提取详情页 callback 指向解析详情页
        # 相当于CrawlSpider 中的纵向解析 深度
        news_detail_page_list = response.xpath("//div[contains(@class, 'news-item')]/h3/a")
        for news_detail_page in news_detail_page_list:
            yield response.follow(news_detail_page, callback=self.parse_detail)


    def parse_detail(self, response):
        title = response.xpath("//h1/text()").get()
        introduction = response.xpath("//blockquote/p/text()").get()
        print(title)

换成CrawlSpider

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


# 对于一些有规律的 网页 可以继承CrawlSpider
# 指定rules提取网页信息更加方便。
class DushuRuleSpider(CrawlSpider):
    name = 'dushu_rule'
    allowed_domains = ['www.dushu.com']
    start_urls = ['http://www.dushu.com/news/']

    # 网页提取规则
    rules = (
        # 横向爬虫规则 对每一页的 url 生成一个请求
        # 根据该url得到response， 由于follow=True， 会按照规则继续从response中解析出下一个url
        Rule(link_extractor=LinkExtractor(restrict_xpaths="//a[contains(text(), '下一页')]"), follow=True),
        # 纵向爬虫规则 对每一个items 分别生成请求
        #请求生成的Response 交由指定的callback解析， 同时 follow=False不会再使用该规则对新得到的Response进行解析
        Rule(link_extractor=LinkExtractor(restrict_xpaths="//div[contains(@class, 'news-item')]/h3/a"),
             callback='parse_detail', follow=False)
    )


    def parse_detail(self, response):
        title = response.xpath("//h1/text()").get()
        introduction = response.xpath("//blockquote/p/text()").get()
        print(title)

不能写parse函数。rules元组中，两个规则分别负责广度上爬取和深度上爬取。
明确一点。该CrawlSpider比较适合规律性网站。

你可能感兴趣的:(Python,Scrapy,python,爬虫,Scrapy)

让AI团队来分析股票！一份可以参考的简单研报——基于Python的CrewAI库 Ra1n_Su ai 人工智能 python
引言在最近，一个更新的科技概念AIAgent（人工智能助手）引起了人们更为广泛的关注。比尔盖茨称其为“一个对科技行业的冲击波”。OpenAI将AIAgent定义为“以大语言模型为大脑驱动的系统，具备自主理解、感知、规划、记忆和使用工具的能力，能够自动化执行完成复杂任务的系统。”我们可以将其通俗地理解为一个“你提要求就行，任务我来做”的强大工具人。因此，本文要搭建一个扮演分析师角色的AIAgent。
按章节拆分 PDF 文档的 Python 实现一团乱毛线� pdf python
在日常工作中，我们经常需要将一本PDF文档按章节进行拆分，比如将一本电子书拆分为单独的章节文件。本文将为大家分享一个使用Python和PyPDF2库实现按章节拆分PDF文档的完整代码。实现原理PDF文档中的章节信息通常由书签（Outline）标识。通过读取书签信息，我们可以获得每个章节的起始页码，然后根据这些页码将PDF文档拆分成多个小文件。本文使用PyPDF2库来完成以下工作：读取PDF文档中的
【python】六个常见爬虫方法介绍代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
在Python中，爬虫是获取网页数据的常用工具。以下是六种常见的爬虫方法，涵盖了从简单的静态网页抓取到动态网页处理的多种场景。1.使用requests+BeautifulSoup抓取静态网页这是最基础的爬虫方法，适用于静态网页（HTML内容直接嵌入在网页中）。示例代码：python复制importrequestsfrombs4importBeautifulSoup#发送HTTP请求url='htt
c#和python更适合爬虫_为什么python适合写爬虫？（python到底有啥好的？！） weixin_39974811 c#和python更适合爬虫
我用c#,java都写过爬虫。区别不大，原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的。因为目前对python并不熟，所以也不知道这是为什么。百度了下结果：1）抓取网页本身的接口相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问
python token 访问控制_Python接口自动化之Token详解及应用 weixin_39858132 python token 访问控制
介绍了cookie、session原理及在自动化过程中如何利用cookie、session保持会话状态。以下介绍Token原理及在自动化中的应用。一、Token基本概念及原理1、Token作用为了验证用户登录情况以及减轻服务器的压力，减少频繁的查询数据库，使服务器更加健壮。2、什么是TokenToken是服务端生成的一串字符串，以作客户端进行请求的一个令牌，当第一次登录后，服务器生成一个Token
Python中的html.parser wangyangkobe Python
classWebPageParser(html.parser.HTMLParser):def__init__(self,strict=False):super().__init__(strict)self.urls=[]self.data=[]self.is_href=False;defhandle_starttag(self,tag,attrs):iftag=='a':self.urls.ext
python 今日小知识1——parser 小杜今天学AI了吗一天一个小技能 python深度学习 python linux 数据库
argparse模块，其实质就是将相关参数进行设置。相对专业说法：argparse模块提供轻松编写用户友好的命令行接口。程序定义它需要的参数，然后argparse将弄清如何从sys.argv解析出那些参数。argparse模块会自动生成帮助和使用手册，并在用户给程序传入无效参数时报出错误信息。1.实例化parser=argparse.ArgumentParser(description='test
python parser saomanchum python学习 project
ArgumentParser.add_argument(nameorflags…[,action][,nargs][,const][,default][,type][,choices][,required][,help][,metavar][,dest])nameorflags:是必须的参数，该参数接受选项参数或者是位置参数（一串文件名）>>>parser.add_argument('-f','-
【动态规划】解决背包问题 Python Alexlllly Python实现算法 python 算法动态规划 leetcode
【动态规划】解决背包问题Python背包问题背包问题现在有3个物品篮球1kg1000元吉他3kg2000元单反4kg2500元有1个背包重4kg问怎么拿物品价值最大运用动态规划DP来解决此问题方法代码【源码】——思路来自麻省理工背包问题defbackpack(memory,item_weight,values,last_weight,index):'''memory:如果是已经计算过得分支则直接返
python API自动化(接口测试基础与原理) 秋殇大大 python 自动化 python postman jmeter
1.接口测试概念及应用什么是接口接口是前后端沟通的桥梁，是数据传输的通道，包括外部接口、内部接口,内部接口又包括：上层服务与下层服务接口，同级接口外部接口：比如你要从别的网站或服务器上获取资源或信息，别人肯定不会把数据库共享给你，他只能给你提供一个他们写好的方法来获取数据，你引用他提供的接口就能使用他写好的方法，从而达到数据共享的目的。比如说：支付接口,沙箱,Mock.....内部接口：方法与方法
013、Python+fastapi，第一个后台管理项目走向第13步：建立python+fastapi项目，创建cache模块浪淘沙jkp 学习 fastapi 学习
一、说明在今天学习RuoYi-Vue3-FastAPI的代码过程中，我遇到了几个问题，下面说说自己的感想二、自定义的log装饰器源码中是log_annotation.py，代码也没什么好说的，这个知识点到处都是文章，可以在csdn上搜索学习，python中wraps函数用法详情_python@wraps函数-CSDN博客https://blog.csdn.net/weixin_44799217/a
017、Python+fastapi，第一个Python项目走向第17步：ubuntu24.04 无界面服务器版下安装nvidia显卡驱动浪淘沙jkp 学习 python fastapi pytorch
一、说明新的ubuntu24.04正式版发布了，前段时间玩了下桌面版，感觉还行，先安装一个服务器无界面版本吧安装时有一个openssh选择安装，要不然就不能ssh远程，我就是没选，后来重新安装ssh。另外一个就是安装过程中静态ip设置下在etc/netplan文件夹下，有一个yaml文件，我的是50-cloud-init.yaml，先用ipa看看victor@victor:~$cd/etc/net
笔记本秒变AI智库：基于DeepSeek本地化部署+个人知识库实战灏瀚星空人工智能经验分享 python flask 开发语言
笔记本秒变AI智库：基于DeepSeek本地化部署+个人知识库实战一、硬件装备清单（拯救者Y9000P实测）#核心组件快速部署condacreate-ndeepseekpython=3.10gitclonehttps://github.com/deepseek-ai/DeepSeek-14Bpipinstall-rrequirements.txt二、PDF文档处理全流程2.1PDF智能拆分（自动过
Python——使用parser传入list列表参数 William.csj 编程语言 python 开发语言
main.py中：parser.add_argument('--sampler_steps',type=int,nargs='*')命令行输入：pythonmain.py--sampler_steps203040
Python测试框架Pytest的参数化天才测试猿 windows 测试工具软件测试自动化测试 python pytest 职场和发展
上篇博文介绍过，Pytest是目前比较成熟功能齐全的测试框架，使用率肯定也不断攀升。在实际工作中，许多测试用例都是类似的重复，一个个写最后代码会显得很冗余。这里，我们来了解一下@pytest.mark.parametrize装饰器，可以很好解决上述问题。源代码分析defparametrize(self,argnames,argvalues,indirect=False,ids=None,scope
【Python】parser的使用，详细解释资源存储库笔记算法 python
目录【Python】parser的使用，详细解释基本概念argparse的核心用法1.基础使用：创建ArgumentParser对象示例1：最简单的命令行参数解析运行命令输出2.添加可选参数示例2：添加可选参数运行命令3.参数类型与默认值示例3：参数类型与默认值运行命令4.帮助信息示例4：查看帮助信息5.布尔型参数示例5：布尔型参数运行命令6.参数位置与顺序示例6：参数顺序运行命令7.互斥参数组示
《Python趣味编程》专栏介绍与专栏目录 Want595 Python趣味编程 python 开发语言
专栏介绍欢迎订阅《Python趣味编程》专栏！全网最全、最新、最详细的原创趣味案例！全网阅读量1000w+，代码分享量10w+含跳动的爱心、无限弹窗、满屏飘字、流星雨、新春烟花等代码新增Python小游戏，含球球大作战、开心消消乐、愤怒的小鸟等代码所有代码在Windows、MacOS、Linux等操作系统都可以运行。本专栏目前含180+趣味案例，目前还在持续更新和涨价中……订阅后可查看专栏内的所有
初学者如何用 Python 写第一个爬虫？ ADFVBM 面试学习路线阿里巴巴 python 爬虫开发语言
??欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。??博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark
cyber-docker填坑过程 whuzhang16 Apollo linux
ros改cyber，搭环境和运行时的一些填坑记录，对公司之外的同学可能没什么用处。一、在cyber-docker中执行catkin_make时：先安装pip2，再用pip2安装catkin_pkg安装catkin，sudoapt-getinstallcatkin看下默认python是哪个，执行/usr/bin/python，如果是python3，则解链接sudounlink/usr/bin/pyt
python引入模块红色波浪线_解决Python中PyCharm导入模块时，模块名下出现红色波浪线的问题... weixin_39905725 python引入模块红色波浪线
在博主第一次在PyCharm中导入模块时，模块名下出现红色波浪线，不影响程序执行，但强迫症忍不了以下是解决办法Let'sdoit...进入设置，找到Console下的PythonConsole，勾选选项“AddsourcerootstoPYTHONPAT”然后点击OK接下来如下图，右击文件所在的目录，然后“MarkDirectoryas”为“SourcesRoot”。之后当前程序所在目录颜色会变化
关于pip install 包时出现This is an issue with the package mentioned above,not pip的问题沙度灬 pip
关于Thisisanissuewiththepackagementionedabove,notpip今天在用pip下载gensim包的时候，出现了上图中的问题，提示信息是：Thisisanissuewiththepackagementionedabove,notpip那说明是包的问题，而不是在使用pip去安装这个包或者pip本身有故障的问题。当前我的python版本是python3.13，说明ge
python获取调用函数的注释_Python18之函数定义及调用，注释超高校级维京猛男 python获取调用函数的注释
一、函数定义def函数名(形参1，形参2...)：函数体return返回值(可以返回任何东西，一个值，一个变量，或是另一个函数的返回值，如果函数没有返回值，可以省略return语句)二、函数文档概念在Python中将函数体内首行字符串作为函数文档，字符串中对函数的功能和参数的含义进行说明，可以使用函数名加成员操作符跟上__doc__的形式返回这个字符串以备使用者查看，也可以通过help(函数名)形
深度解析：Anaconda与Miniconda之间的选择九分热度一滴汗水 python
深度解析：Anaconda与Miniconda之间的选择导言Python语言因其灵活性、易用性和强大的数据处理能力在科学计算和数据分析领域受到广泛欢迎。然而，Python的一大挑战是库的管理和环境的隔离。解决这个问题的一个方案是使用分布式管理系统，如Anaconda或Miniconda。本文将深入探讨这两者的相似之处、差异和应用场景。Anaconda和Miniconda的基本概念Anaconda和
LeetCode 热题100 438. 找到字符串中所有字母异位词 _Itachi__ LeetCode leetcode linux 算法
LeetCode热题100|438.找到字符串中所有字母异位词大家好，今天我们来解决一道经典的算法题——找到字符串中所有字母异位词。这道题在LeetCode上被标记为中等难度，要求我们在字符串s中找到所有是p的异位词的子串，并返回这些子串的起始索引。下面我将详细讲解解题思路，并附上Python代码实现。题目描述给定两个字符串s和p，找到s中所有是p的异位词的子串，返回这些子串的起始索引。不考虑答案
Python中的args和kwargs详解：用法与区别 _Itachi__ python python 开发语言
Python中的*args和**kwargs详解：用法与区别大家好，今天我们来聊聊Python中的两个非常强大的特性：*args和**kwargs。这两个东西在函数定义中经常出现，但很多初学者对它们的理解还不够深入。今天我们就来彻底搞懂它们的用法和区别，让你在写代码时更加得心应手！1.什么是*args和kwargs？***args和**kwargs是Python中用于函数定义的两种特殊语法，主要用
时间复杂度简单通俗讲解 _Itachi__ python python 开发语言算法人工智能
文章目录时间复杂度一、时间复杂度的定义二、常见时间复杂度及其大小比较三、常见时间复杂度用python举例四、常用排序算法的时间复杂度时间复杂度一、时间复杂度的定义时间复杂度在算法运行时间上来衡量一个算法的好坏，时间复杂度越低代表算法的性能越好，当然算法的性能不止由时间复杂度决定，还有空间复杂度，大多时候关注时间复杂度二、常见时间复杂度及其大小比较时间复杂度分为一般情况，最好情况和最坏情况，通常用O
一文搞懂Anaconda，Miniconda，conda，pip 保持客气哈 pytorch conda pip python
引言问题：假如你手上有两个项目，分别为项目A和项目B，项目A要求使用Python2的运行环境，而项目B要求使用Python3运行环境，那我们应该怎么办呢？方法一：同时下载两个版本的Python，即分别下载Python2和Python3解释器,配置系统环境变量。方法二：使用Anaconda中的conda可以帮助我们为不同的项目建立不同的虚拟运行环境，即项目A放在环境A中，项目B放在环境B中，二者互不
【Python】OS 模块常用方法介绍（附示例解释）——文件\目录\路径\j进程\用户\权限等相关操作 echo 慧 Python学习 python os 详细介绍模块方法开发
OS模块方法1.前言2.文件和目录操作2.1获取当前工作目录2.2改变当前工作目录2.3创建目录2.4删除目录2.5列出目录内容2.6文件与目录重命名2.7删除文件3.路径操作3.1拼接路径3.2分割路径3.3获取文件或目录的基本名称3.4获取文件或目录的父目录3.5检查路径是否存在3.6检查路径是否为文件3.7检查路径是否为目录3.8检查路径是否为符号链接（软链接）3.9返回绝对路径4.进程管理
LeetCode 题目 49：字母异位词分组 5种算法实现与典型应用案例【python】数据分析螺丝钉 LeetCode刷题与模拟面试算法 leetcode python 数据结构职场和发展
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级题目描述首先，字母异位词是指由相同字母以不同顺序组成的单词
如何在Python用Plot画出一个简单的机器人模型独坐寒江边机器人轨迹规划 python 机器人开发语言
如何在Python中使用Plot画出一个简单的模型在下面的程序中，首先要知道机器人的DH参数，然后计算出每一个关节的位置，最后利用plot函数画出关节之间的连杆就可以了，最后利用animation库来实现一个动画效果。importmatplotlib.pyplotaspltimportnumpyasnpimportmatplotlib.pyplotaspltimportnumpyasnpfromI
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息