weixin_40895135

爬虫系列之scrapy框架

一 scrapy框架简介

1 介绍

(1) 什么是Scrapy？

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。

整体架构大致如下：

'''
Components：

1、引擎(EGINE)
引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。

2、调度器(SCHEDULER)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

3、下载器(DOWLOADER)
用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的

4、爬虫(SPIDERS)
SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求

5、项目管道(ITEM PIPLINES)
在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作
下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
你可用该中间件做以下几件事：
  　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
  　　(2) change received response before passing it to a spider;
  　　(3) send a new Request instead of passing received response to a spider;
  　　(4) pass response to a spider without fetching a web page;
  　　(5) silently drop some requests.

6、爬虫中间件(Spider Middlewares)
位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）
'''

官网链接

2 安装

　　#Linux：

      pip3 install scrapy

　　#Windows：

      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

      d. pip3 install pywin32

      e. pip3 install scrapy

3 命令行工具

# 1 查看帮助
    scrapy -h
    scrapy  -h

# 2 有两种命令：其中Project-only必须切到项目文件夹下才能执行，而Global的命令则不需要
    Global commands:
        startproject #创建项目
        genspider    #创建爬虫程序
        settings     #如果是在项目目录下，则得到的是该项目的配置
        runspider    #运行一个独立的python文件，不必创建项目
        shell        #scrapy shell url地址  在交互式调试，如选择器规则正确与否
        fetch        #独立于程单纯地爬取一个页面，可以拿到请求头
        view         #下载完毕后直接弹出浏览器，以此可以分辨出哪些数据是ajax请求
        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依赖库的版本
    Project-only commands:
        crawl        #运行爬虫，必须创建项目才行，确保配置文件中ROBOTSTXT_OBEY = False
        check        #检测项目中有无语法错误
        list         #列出项目中所包含的爬虫名
        edit         #编辑器，一般不用
        parse        #scrapy parse url地址 --callback 回调函数  #以此可以验证我们的回调函数是否正确
        bench        #scrapy bentch压力测试

# 3 官网链接
    https://docs.scrapy.org/en/latest/topics/commands.html

4 目录结构

'''
project_name/
   scrapy.cfg
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           爬虫1.py
           爬虫2.py
           爬虫3.py

'''

文件说明：

scrapy.cfg 项目的主配置信息，用来部署scrapy时使用，爬虫相关的配置信息在settings.py文件中。
items.py 设置数据存储模板，用于结构化数据，如：Django的Model
pipelines 数据处理行为，如：一般结构化的数据持久化
settings.py 配置文件，如：递归的层数、并发数，延迟下载等。强调:配置文件的选项必须大写否则视为无效，正确写法USER_AGENT='xxxx'
spiders 爬虫目录，如：创建文件，编写爬虫规则

注意：

1、一般创建爬虫文件时，以网站域名命名

2、默认只能在终端执行命令，为了更便捷操作：

#在项目根目录下新建：entrypoint.py

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'xiaohua'])

框架基础：spider类，选择器

5 牛刀小试

1.创建爬虫应用程序　

1 2	`cd project_name（进入项目目录）` `scrapy genspider 应用名称爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）`

2 编写爬虫文件:在步骤2执行完毕后，会在项目的spiders中生成一个应用名的py爬虫文件，文件源码如下：

# -*- coding: utf-8 -*-

import scrapy

class QiubaiSpider(scrapy.Spider):

name = 'qiubai' #应用名称

#允许爬取的域名（如果遇到非该域名的url则爬取不到数据）

allowed_domains = ['https://www.qiushibaike.com/']

#起始爬取的url

start_urls = ['https://www.qiushibaike.com/']

#访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll

def parse(self, response):

print(response.text) #获取字符串类型的响应内容

print(response.body)#获取字节类型的相应内容　

3 设置修改settings.py配置文件相关配置

修改内容及其结果如下：

19行：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #伪装请求载体身份

22行：ROBOTSTXT_OBEY = False #可以忽略或者不遵守robots协议

4 执行爬虫程序：

1	`scrapy crawl 应用名称`

5 将糗百首页中段子的内容和标题进行爬取

# -*- coding: utf-8 -*-

import scrapy

class QiubaiSpider(scrapy.Spider):

name = 'qiubai'

allowed_domains = ['https://www.qiushibaike.com/']

start_urls = ['https://www.qiushibaike.com/']

def parse(self, response):

#xpath为response中的方法，可以将xpath表达式直接作用于该函数中

odiv = response.xpath('//div[@id="content-left"]/div')

content_list = [] #用于存储解析到的数据

for div in odiv:

#xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。

author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()

content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()

#将解析到的内容封装到字典中

dic={

'作者':author,

'内容':content

}

#将数据存储到content_list这个列表中

content_list.append(dic)

return content_list

执行爬虫程序：

1 2	`scrapy crawl 爬虫名称：该种执行形式会显示执行的日志信息` `scrapy crawl 爬虫名称` `--nolog：该种执行形式不会显示执行的日志信息`

二 Spider类

Spiders是定义如何抓取某个站点（或一组站点）的类，包括如何执行爬行（即跟随链接）以及如何从其页面中提取结构化数据（即抓取项目）。换句话说，Spiders是您为特定站点（或者在某些情况下，一组站点）爬网和解析页面定义自定义行为的地方。　

'''
1、 生成初始的Requests来爬取第一个URLS，并且标识一个回调函数
     第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求，
     默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发

2、 在回调函数中，解析response并且返回值
     返回值可以4种：
          包含解析数据的字典
          Item对象
          新的Request对象（新的Requests也需要指定一个回调函数）
          或者是可迭代对象（包含Items或Request）

3、在回调函数中解析页面内容
   通常使用Scrapy自带的Selectors，但很明显你也可以使用Beutifulsoup，lxml或其他你爱用啥用啥。

4、最后，针对返回的Items对象将会被持久化到数据库
   通过Item Pipeline组件存到数据库：https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline）
   或者导出到不同的文件（通过Feed exports：https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports）

'''

三选择器

为了解释如何使用选择器，我们将使用Scrapy shell（提供交互式测试）和Scrapy文档服务器中的示例页面，

这是它的HTML代码：


 
  
  Example website
 
 
  
   Name: My image 1 

   Name: My image 2 

   Name: My image 3 

   Name: My image 4 

   Name: My image 5 

  
 


首先，让我们打开shell：

1 scrapy shell https://doc.scrapy.org/en/latest/_static/selectors-sample1.html
然后，在shell加载之后，您将获得响应作为response shell变量，并在response.selector属性中附加选择器。

让我们构建一个XPath来选择title标签内的文本：


>>> response.selector.xpath('//title/text()')
[]
使用XPath和CSS查询响应非常常见，响应包括两个便捷快捷方式：response.xpath()和response.css()：


>>> response.xpath('//title/text()')
[]
>>> response.css('title::text')
[]
正如你所看到的，.xpath()并且.css()方法返回一个 SelectorList实例，这是新的选择列表。此API可用于快速选择嵌套数据：


>>> response.css('img').xpath('@src').extract()
[u'image1_thumb.jpg',
 u'image2_thumb.jpg',
 u'image3_thumb.jpg',
 u'image4_thumb.jpg',
 u'image5_thumb.jpg']
要实际提取文本数据，必须调用selector .extract() 方法，如下所示：


>>> response.xpath('//title/text()').extract()
[u'Example website']
如果只想提取第一个匹配的元素，可以调用选择器 .extract_first()

>>> response.xpath('//div[@id="images"]/a/text()').extract_first()
u'Name: My image 1 '
现在我们将获得基本URL和一些图像链接：

>>> response.xpath('//base/@href').extract()
[u'http://example.com/']
 
>>> response.css('base::attr(href)').extract()
[u'http://example.com/']
 
>>> response.xpath('//a[contains(@href, "image")]/@href').extract()
[u'image1.html',
 u'image2.html',
 u'image3.html',
 u'image4.html',
 u'image5.html']
 
>>> response.css('a[href*=image]::attr(href)').extract()
[u'image1.html',
 u'image2.html',
 u'image3.html',
 u'image4.html',
 u'image5.html']
 
>>> response.xpath('//a[contains(@href, "image")]/img/@src').extract()
[u'image1_thumb.jpg',
 u'image2_thumb.jpg',
 u'image3_thumb.jpg',
 u'image4_thumb.jpg',
 u'image5_thumb.jpg']
 
>>> response.css('a[href*=image] img::attr(src)').extract()
[u'image1_thumb.jpg',
 u'image2_thumb.jpg',
 u'image3_thumb.jpg',
 u'image4_thumb.jpg',
 u'image5_thumb.jpg']

四 DupeFilter(去重)

默认使用方式：

1 2	`DUPEFILTER_CLASS` `=` `'scrapy.dupefilter.RFPDupeFilter'` `Request(...,dont_filter=False) ，如果dont_filter=True则告诉Scrapy这个URL不参与去重。`

源码解析：

1 2	`from` `scrapy.core.scheduler` `import` `Scheduler` `见Scheduler下的enqueue_request方法：self.df.request_seen(request)`

自定义去重规则：

from scrapy.dupefilter import RFPDupeFilter，看源码，仿照BaseDupeFilter

#步骤一：在项目目录下自定义去重文件dup.py

class UrlFilter(object):

def __init__(self):

self.visited = set() #或者放到数据库

@classmethod

def from_settings(cls, settings):

return cls()

def request_seen(self, request):

if request.url in self.visited:

return True

self.visited.add(request.url)

def open(self): # can return deferred

pass

def close(self, reason): # can return a deferred

pass

def log(self, request, spider): # log that a request has been filtered

pass

五 Item(项目)

抓取的主要目标是从非结构化源（通常是网页）中提取结构化数据。Scrapy蜘蛛可以像Python一样返回提取的数据。虽然方便和熟悉，但P很容易在字段名称中输入拼写错误或返回不一致的数据，尤其是在具有许多蜘蛛的较大项目中。

为了定义通用输出数据格式，Scrapy提供了Item类。 Item对象是用于收集抓取数据的简单容器。它们提供类似字典的 API，并具有用于声明其可用字段的方便语法。

1 声明项目

使用简单的类定义语法和Field 对象声明项。这是一个例子：

import scrapy

class Product(scrapy.Item):

name = scrapy.Field()

price = scrapy.Field()

stock = scrapy.Field()

last_updated = scrapy.Field(serializer=str)

注意那些熟悉Django的人会注意到Scrapy Items被宣告类似于Django Models，除了Scrapy Items更简单，因为没有不同字段类型的概念。

2 项目字段

Field对象用于指定每个字段的元数据。例如，last_updated上面示例中说明的字段的序列化函数。

您可以为每个字段指定任何类型的元数据。Field对象接受的值没有限制。出于同样的原因，没有所有可用元数据键的参考列表。

Field对象中定义的每个键可以由不同的组件使用，只有那些组件知道它。您也可以根据Field自己的需要定义和使用项目中的任何其他键。

Field对象的主要目标是提供一种在一个地方定义所有字段元数据的方法。通常，行为取决于每个字段的那些组件使用某些字段键来配置该行为。

3 使用项目

以下是使用上面声明的Product项目对项目执行的常见任务的一些示例。您会注意到API与dict API非常相似。

+ View Code

4 扩展项目

您可以通过声明原始Item的子类来扩展Items（以添加更多字段或更改某些字段的某些元数据）。

例如：

class DiscountedProduct(Product):

discount_percent = scrapy.Field(serializer=str)

discount_expiration_date = scrapy.Field()

六 Item PipeLine

在一个项目被蜘蛛抓取之后，它被发送到项目管道，该项目管道通过顺序执行的几个组件处理它。

每个项目管道组件（有时简称为“项目管道”）是一个实现简单方法的Python类。他们收到一个项目并对其执行操作，同时决定该项目是否应该继续通过管道或被丢弃并且不再处理。

项目管道的典型用途是：

cleansing HTML data
validating scraped data (checking that the items contain certain fields)
checking for duplicates (and dropping them)
storing the scraped item in a database

1 编写自己的项目管道

'''
每个项管道组件都是一个必须实现以下方法的Python类：

process_item（self，项目，蜘蛛）
为每个项目管道组件调用此方法。process_item() 

必须要么：返回带数据的dict，返回一个Item （或任何后代类）对象，返回Twisted Deferred或引发 DropItem异常。丢弃的项目不再由其他管道组件处理。

此外，他们还可以实现以下方法：

open_spider（self，蜘蛛）
打开蜘蛛时会调用此方法。

close_spider（self，蜘蛛）
当蜘蛛关闭时调用此方法。

from_crawler（cls，crawler ）
如果存在，则调用此类方法以从a创建管道实例Crawler。它必须返回管道的新实例。Crawler对象提供对所有Scrapy核心组件的访问，
如设置和信号; 它是管道访问它们并将其功能挂钩到Scrapy的一种方式。
'''

2 项目管道示例

(1) 价格验证和丢弃物品没有价格

让我们看看下面的假设管道，它调整 price那些不包含增值税（price_excludes_vat属性）的项目的属性，并删除那些不包含价格的项目：

+ View Code

(2) 将项目写入JSON文件

以下管道将所有已删除的项目（来自所有蜘蛛）存储到一个items.jl文件中，每行包含一个以JSON格式序列化的项目：

+ View Code

注意JsonWriterPipeline的目的只是介绍如何编写项目管道。如果您确实要将所有已删除的项目存储到JSON文件中，则应使用Feed导出。

(3) 将项目写入数据库

在这个例子中，我们将使用pymongo将项目写入MongoDB。MongoDB地址和数据库名称在Scrapy设置中指定; MongoDB集合以item类命名。

这个例子的要点是展示如何使用from_crawler() 方法以及如何正确地清理资源：

+ View Code

(4) 重复过滤

一个过滤器，用于查找重复项目，并删除已处理的项目。假设我们的项目具有唯一ID，但我们的蜘蛛会返回具有相同ID的多个项目：

+ View Code

3 激活项目管道组件

要激活Item Pipeline组件，必须将其类添加到 ITEM_PIPELINES设置中，如下例所示：

ITEM_PIPELINES = {

'myproject.pipelines.PricePipeline': 300,

'myproject.pipelines.JsonWriterPipeline': 800,

}

您在此设置中为类分配的整数值决定了它们运行的顺序：项目从较低值到较高值类进行。习惯上在0-1000范围内定义这些数字。

七下载中间件

class MyDownMiddleware(object):
    def process_request(self, request, spider):
        """
        请求需要被下载时，经过所有下载器中间件的process_request调用
        :param request: 
        :param spider: 
        :return:  
            None,继续后续中间件去下载；
            Response对象，停止process_request的执行，开始执行process_response
            Request对象，停止中间件的执行，将Request重新调度器
            raise IgnoreRequest异常，停止process_request的执行，开始执行process_exception
        """
        pass



    def process_response(self, request, response, spider):
        """
        spider处理完成，返回时调用
        :param response:
        :param result:
        :param spider:
        :return: 
            Response 对象：转交给其他中间件process_response
            Request 对象：停止中间件，request会被重新调度下载
            raise IgnoreRequest 异常：调用Request.errback
        """
        print('response1')
        return response

    def process_exception(self, request, exception, spider):
        """
        当下载处理器(download handler)或 process_request() (下载中间件)抛出异常
        :param response:
        :param exception:
        :param spider:
        :return: 
            None：继续交给后续中间件处理异常；
            Response对象：停止后续process_exception方法
            Request对象：停止中间件，request将会被重新调用下载
        """
        return None

八基于scrapy-redis实现分布式爬虫

Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。

单机玩法：

按照正常流程就是大家都会进行重复的采集;我们都知道进程之间内存中的数据不可共享的，那么你在开启多个Scrapy的时候，它们相互之间并不知道对方采集了些什么那些没有没采集。那就大家伙儿自己玩自己的了。完全没没有效率的提升啊！

怎么解决呢？

这就是我们Scrapy-Redis解决的问题了，不能协作不就是因为请求和去重这两个不能共享吗？

那我把这两个独立出来好了。

将Scrapy中的调度器组件独立放到大家都能访问的地方不就OK啦！加上scrapy，Redis的后流程图就应该变成这样了

分布式玩法：

1 redis连接

配置scrapy使用redis提供的共享去重队列

# 在settings.py中配置链接Redis
REDIS_HOST = 'localhost'                            # 主机名
REDIS_PORT = 6379                                   # 端口
REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）
REDIS_PARAMS  = {}                                  # Redis连接参数
REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块
REDIS_ENCODING = "utf-8"                            # redis编码类型  
# 默认配置：\python3.6\Lib\site-packages\scrapy_redis\defaults.py

2 dupefilter

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#使用scrapy-redis提供的去重功能，查看源码会发现是基于Redis的集合实现的


# 需要指定Redis中集合的key名，key=存放不重复Request字符串的集合
DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'
#源码：dupefilter.py内一行代码key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

3 Scheduler

#1、源码：\python3.6\Lib\site-packages\scrapy_redis\scheduler.py


#2、settings.py配置

# Enables scheduling storing requests queue in redis.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"       

# 调度器将不重复的任务用pickle序列化后放入共享任务队列，默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）               
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          

# 对保存到redis中的request对象进行序列化，默认使用pickle
SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"   

# 调度器中请求任务序列化后存放在redis中的key               
SCHEDULER_QUEUE_KEY = '%(spider)s:requests'    

# 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空                     
SCHEDULER_PERSIST = True       

# 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空                                     
SCHEDULER_FLUSH_ON_START = False    

# 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。如果没有则立刻返回会造成空循环次数过多，cpu占用率飙升                                
SCHEDULER_IDLE_BEFORE_CLOSE = 10           

# 去重规则，在redis中保存时对应的key                         
SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'      

# 去重规则对应处理的类，将任务request_fingerprint(request)得到的字符串放入去重队列            
SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

3 RedisPipeline(持久化)

 ITEM_PIPELINES = {   'scrapy_redis.pipelines.RedisPipeline': 300, }

#将item持久化到redis时，指定key和序列化函数
     
 REDIS_ITEMS_KEY = '%(spider)s:items'
 REDIS_ITEMS_SERIALIZER = 'json.dumps'

4 从Redis中获取起始URL

scrapy程序爬取目标站点，一旦爬取完毕后就结束了，如果目标站点更新内容了，我们想重新爬取，那么只能再重新启动scrapy，非常麻烦
scrapy-redis提供了一种供，让scrapy从redis中获取起始url，如果没有scrapy则过一段时间再来取而不会关闭
这样我们就只需要写一个简单的脚本程序，定期往redis队列里放入一个起始url。

#具体配置如下

#1、编写爬虫时，起始URL从redis的Key中获取
REDIS_START_URLS_KEY = '%(name)s:start_urls'
    
#2、获取起始URL时，去集合中获取还是去列表中获取？True，集合；False，列表
REDIS_START_URLS_AS_SET = False    # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop

九项目代码

下载项目代码

你可能感兴趣的:(scapy)

python之使用scapy扫描本机局域网主机，输出IP/MAC表敲键盘的Q python
安装scapy库pipinstallscapy-ihttps://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple扫描本机局域网的所有主机，输出IP/MAC对于表#-*-coding:UTF-8-*-importnetifacesfromscapy.allimportsrpfromscapy.layers.l2importARP,Etherimportipa
关于 Scapy 的详细介绍、安装指南、使用方法及配置说明程序员的世界你不懂效率工具提升百度新浪微博
一、Scapy简介Scapy是一个开源的Python库，专注于网络数据包的创建、嗅探、分析和注入。它支持几乎所有标准的网络协议（如IP、TCP、UDP、ICMP、ARP等），并提供灵活的扩展机制，可自定义协议字段或开发专用工具。核心特点：跨平台：支持Linux、Windows、macOS等操作系统。低层级操作：直接访问原始数据包的二进制格式。强大的过滤与分析：支持BPF表达式过滤数据包。脚本化：可
实现NTLM relay攻击工具的Python代码示例 go5463158465 python python 开发语言
以下是一个实现NTLMrelay攻击工具的Python代码示例，该工具可以完成自动扫描IP、配置相关协议、获取hash、自动化设置和执行攻击步骤等功能。代码思路IP扫描：使用scapy库进行IP扫描，找出活跃的IP地址。Responder配置：自动配置Responder工具，监听指定的协议。攻击执行：使用ntlmrelayx工具执行NTLMrelay攻击。日志处理：记录每个步骤的日志和错误信息，并
多线程并发模拟实现与分析：基于Scapy的TCP SYN洪水攻击实验研究键盘侠伍十七 tcp/ip 网络协议网络网络安全 python syn flood
简介实现基于Python实现的多线程TCPSYN洪水攻击。该实例利用Scapy库构造并发送TCPSYN数据包，通过多线程技术模拟并发的网络攻击行为。实现原理SYNFlood攻击是一种经典的分布式拒绝服务（DDoS）攻击方式，利用了TCP协议握手过程中的弱点。TCP三次握手过程在正常情况下，TCP建立连接需要经过以下三个步骤的交互：客户端发送SYN：客户端向服务器发送一个同步（SYN）段，其中包含客
python的scapy解读pcap包 AI拉呱 python高级编程工具封装 python 开发语言
好的，下面是一个使用Python和scapy库来解读pcap文件的示例代码。scapy是一个非常强大的网络数据包处理库，可以用来捕获、解读和生成网络数据包。首先，确保你已经安装了scapy：pipinstallscapy然后，创建一个Python文件（例如read_pcap.py），在其中编写以下代码：fromscapy.allimportrdpcapdefread_pcap(file_path)
Python：基于Scapy的深度包分析与网络攻击防御方案 Lethehong Python在手 bug溜走！码农的快乐你不懂～python scapy syn dns
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI感谢这位博主提出的问题，如果在以后的文章中，大家有其他相关的问题，也可以积极的在评论区评论出来，博主我会的，我会积极的收纳问题，并及时的做出回应！目录1.环境准备2.基础流量捕获3.深度协议解析4.异常流量检测逻辑4.1SYNFlood检测4.2DNS放大攻击检测5.高级分析技术5.
Linux上Scapy完全指南：从入门到实战攻防和舒貌 linux 信息与通信网络安全安全
Linux上Scapy完全指南：从入门到实战攻防目录Scapy简介与核心优势Linux环境安装与配置Scapy基础操作高级功能与协议分析实战案例：网络诊断与安全审计性能优化与调试技巧常见问题解答一、Scapy简介与核心优势1.1什么是Scapy？Scapy是一款基于Python的交互式数据包操作工具，能够构造、发送、捕获和分析网络协议数据包。其核心特点包括：支持超过800种协议（如TCP/IP、H
python scapy 抓包_python 抓包保存为pcap文件并解析的实例 weixin_39626369 python scapy 抓包
首先是抓包，使用scapy模块，sniff()函数在其中参数为本地文件路径时，操作为打开本地文件若参数为BPF过滤规则和回调函数，则进行Sniff，回调函数用于对Sniff到的数据包进行处理importosfromscapy.allimport*pkts=[]count=0pcapnum=0filename=''deftest_dump_file(dump_file):print"Testingt
网络包处理库Scapy: 计算checksum，csum mzhan017 网络网络 checksum scapy
文章目录总结输入输出总结这个tool，可以帮助计算checksum。因为要构造IPheader，所以如果想手动组装IP/UDP，有些费劲。不如直接使用这个工具。scapy的总结：https://mzhan017.blog.csdn.net/article/details/109647809输入fromscapy.allimportIPv6,UDPpkt=IPv6(src="2003:db8:a0b
如何用python读取流量包谛听汪网络
要用Python读取流量包，你可以使用网络编程库，例如scapy或pyshark。使用scapy，你需要安装它并导入scapy库。然后，你可以使用sniff()函数捕获流量包。例如：fromscapy.allimport*defpacket_callback(packet):print(packet.show())#使用默认的网卡捕获流量包sniff(prn=packet_callback)#使用
python scapy模块_python使用scapy模块实现ping扫描漆园吏 python scapy模块
关于scapyScapy是一个可以让用户发送、侦听和解析并伪装网络报文的Python程序。这些功能可以用于制作侦测、扫描和攻击网络的工具。换言之，Scapy是一个强大的操纵报文的交互程序。它可以伪造或者解析多种协议的报文，还具有发送、捕获、匹配请求和响应这些报文以及更多的功能。Scapy可以轻松地做到像扫描(scanning)、路由跟踪(tracerouting)、探测(probing)、单元测试
第30篇：Python开发进阶：网络安全与测试猿享天开 python从入门到精通 python web安全开发语言
第30篇：网络安全与测试目录网络安全概述什么是网络安全常见的安全威胁Python中的网络安全工具常用安全库介绍安全编码实践密码学基础加密与解密哈希函数数字签名安全认证与授权用户认证访问控制OAuth与JWTWeb应用安全常见的Web安全漏洞防护措施安全测试网络安全测试渗透测试自动化测试工具安全漏洞扫描使用Python进行安全测试使用Scapy进行网络嗅探使用Requests进行安全测试使用Beau
Python+Scapy 实现ARP扫描并获取IP+MAC root@localhost Python python 扫描测试工具
环境：Python3.x+scapydefip_mac_scanner(hosts:str,local_mac:str,detail:bool=False):"""网段IP&MacARP协议扫描器:paramhosts:网段e.g.‘*.*.*.*/*’:paramlocal_mac:本地MAC地址，e.g.‘**-**-**-**-**-**’:paramdetail:是否显示详细信息:retu
Python模拟发送SOME/IP消息（Scapy模块）李星星BruceL 车载总线及以太网 python tcp/ip 网络协议车载系统服务发现
Python模拟服务端或客户端发送SOME/IP消息1说明2依赖3服务端3.1导包3.2参数定义3.3提供服务（OfferService）3.4订阅ACK/NACK（SubscribeACK/NACK）3.5通知（Notifier）3.6请求/响应ACK（ResponseACK）1说明主要介绍如何使用Python+scapy模块进行SOME/IP以及SOME/IP-SD消息的发送和解析；关于SOM
Python基于Scapy的抓包协议分析器 dangdanding scapy python
scapy可以使用那些协议-CSDN原理：模仿wireshark，利用python的scapy模块下的sniff()函数进行数据的抓取，并进行所谓的“消费者处理”即跟据OSI网络协议模型进行协议分析。将整个程序精简的概括得到最关键的一句代码：sniff(prn=lambdapkt:packet_consumer(pkt),stop_filter=lambdapkt:stop_sniff_event
解决Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“ 打工人996 microsoft c++开发语言
安装Python后，经常在window环境下安装包如scapy等包时，提示MicrosoftVisualC++14.0orgreaterisrequired.Getitwith"MicrosoftC++BuildTools":https://visualstudio.microsoft.com/visual-cpp-build-tools/需要MicrosoftVisualC++14.0或更高版本
【使用 Python 的 Scapy 库解析网络数据包的一般步骤】 Uncle 城运维网工 python python pygame scapy 网络计算机网络网络技术运维
以下是一个使用Python的scapy库捕获网络数据包并保存到本地文件的示例代码：fromscapy.allimportsniffdefsave_packets_to_file(packets):withopen('network_packets.txt','a')asf:forpacketinpackets:f.write(str(packet)+'\n')#捕获网络数据包，这里可以设置参数来控
如何使用python抓包，附代码 Uncle 城 python 网络开发语言 AI
以下为您介绍多种使用Python进行抓包的方法及代码示例：使用Scapy库进行抓包：首先确保已经安装了Scapy库。如果没有安装，可以使用以下命令安装：pipinstallscapy。创建一个名为packet_sniffer.py的Python文件，并输入以下代码：fromscapy.allimport*defpacket_callback(packet):print(packet.summary
python的scapy库基础使用蜗牛学苑_武汉网络安全 python scapy TCP三次握手 TCP四次挥手
scapy库一.概述Scapy是一个功能强大且灵活的Python库，用于操作和探索计算机网络中的数据包。它允许用户构建各种类型的网络数据包，并支持多种网络协议，如TCP、UDP、ICMP、ARP等。Scapy不仅可以发送和接收数据包，还可以捕获、修改和解析网络流量，使用户能够深入研究网络通信并进行网络安全测试。二.scapy的基本使用依赖npcap,最好是最新版本安装:pipinstallscap
【scapy】发送原始以太网数据包小白爱吃饭 scapy 网络
组包构建二层包，以Ether开头Ether()/IP()/xx构建三层包，以IP开头IP()/xx/xxep:#三层数据包IP(dst='www.baidu.com')/ICMP()IP(src='xx.xx.xx.xx',dst='1.2.3.4')/TCP()#二层数据包Ether
Python scapy模块馋鱼夜炖桃 python python
scapy模块在python中可以通过scapy这个库轻松实现构造数据包、发送数据包、分析数据包scapy不是内置模块，需要额外安装：pipinstallscapy导入方式：fromscapy.allimport*//来自scapy.all文件，导入所有函数python交互模式中：ls(*)*=Ether、IP、ICMP、TCP、UDP、ARP等等，查看可以配置的参数1.构建包：Ether=Eth
Python-scapy库一只新蘑菇 python python 开发语言
1.pip安装scapy库2.相关函数-Ether()链路层、IP()网络层、TCP()传输层使用ls（）函数查看对应三个函数的参数代码：fromscapy.layers.inetimport*fromscapy.allimport*pkE=Ether()pkI=IP()pkT=TCP()print("----------------------")ls(pkE)print("----------
Python scapy 构建多层嵌套数据包 YH美洲大蠊 python 网络
Scapy是一个相当灵活的网络库，并没有限制数据包可以有多少层，使用时可以根据需要添加或删除层（注意遵循正确的协议栈顺序，逐层向上构建，不要打乱顺序，至少我把IP放在ICMP后面是ping不通的...不服可以亲自体会一下σ`∀´)σ），以及修改每一层的参数：fromscapy.allimport*#构建一个数据包，包含多个层次packet=(Ether(dst="ff:ff:ff:ff:ff:ff
Python Scapy库实现ARP扫描和ARP欺骗 YH美洲大蠊 python 网络
ARP扫描：检测指定IP网段中哪些主机是在线的，并获取它们的MAC地址fromscapy.allimport*importargparseimportthreadingimporttimeimportlogging#解析CIDR格式的网段，并返回IP地址列表#>接受一个CIDR格式的网段作为输入（例如192.168.1.0/24）。#>将网段解析为IP地址列表。#>通过子网掩码长度计算IP地址范围
4、安全开发-Python-蓝队项目&流量攻击分析&文件动态监控&图片隐写技术 ++⁠⁠ Python python Scapy抓包 Watchdog文件监控图片隐写技术
用途：个人学习笔记，有所借鉴，欢迎指正！总结：（1）使用python脚本Scapy库实现指定网卡的流量抓包分析（2）使用python脚本Watchdog实现指定目录文件行为监控（3）兴趣拓展python脚本实现：将文本信息隐写入图片，图片效果不变一、Python-蓝队项目-Scapy库完成网卡流量抓包分析脚本简单功能：对指定网卡(可指定端口)的流量进行抓包，可拓展上传平台分析。1、漏洞攻击-先监控
python抓包 -- 用wireshark抓包、解析星寂樱易李 telnet wireshark 网络服务器
一、安装scapy模块1、打开DOS命令行python-mpipinstallscapy2、sniff()函数功能：数据嗅探参数：iface:指定在哪个网络接口上抓包count:表示要捕获数据包的数量。默认为0(不限制数量)filter:流量的过滤规则。使用的是BPF的语法prn:定义回调函数，使用lambda表达式来写回调函数(当符合filter的流量被捕获时，就会执行回调函数)【BPF过滤语法
Python3下基于Scapy库完成网卡抓包解析 frytea
Scapy是一个可以让用户发送、侦听和解析并伪装网络报文的Python程序。这些功能可以用于制作侦测、扫描和攻击网络的工具。在Python代码中可以通过sniff函数调用抓包分析，并对抓到的包进行回调操作。Sniff方法定义：sniff(count=0,store=1,offline=None,prn=None,filter=None,L2socket=None,timeout=None,open
盘点一款 Python 发包收包利器 —— scapy VIP_CQCRE python wireshark 数据挖掘编程语言数据分析
这是「进击的Coder」的第425篇技术分享作者：黄伟来源：Python爬虫与数据挖掘“阅读本文大概需要13分钟。”今天跟大家讲的是Python用于发送接受网络数据包的模块-------scapy。前言众所周知，我们每天上网都会有很多数据包需要发送，然后处理在接受在发送，这样一个循环往复的过程。这里就显示了很多数据包的发送接收数据。那么，什么是包呢？下面一起看看。包（packet）是网络通信传输中
Scapy：Python发包收包利器傻啦嘿哟关于python那些事儿 python 开发语言
目录一、Scapy简介二、Scapy的优势三、使用Scapy进行数据包操作1、安装Scapy模块：2、导入Scapy模块：3、创建一个TCP数据包：4.发送数据包：5.捕获数据包：6.分析捕获到的数据包：7.处理和操纵数据包：四、高级功能与定制五、结论Scapy是一个强大的交互式数据包操作程序，它允许用户发送、嗅探、解码和操纵网络数据包。作为Python的一个模块，Scapy提供了丰富的功能和灵活
Scapy畸形报文攻击远行的风 Script 计算机网络 Scapy 攻击 Malformed Packet 畸形报文攻击网络
网络攻击可分为拒绝服务型攻击、畸形报文攻击和扫描窥探攻击三大类。畸形报文攻击是通过向目标系统发送有缺陷的IP报文，使得目标系统在处理这样的IP包时会出现崩溃，给目标系统带来损失。主要的畸形报文攻击有PingofDeath、Teardrop等。常见的畸形报文攻击方法：PingofDeath攻击PingofDeath俗称“死拼”，其攻击原理是攻击者A向受害者B发送一些尺寸超大的ICMP(Ping命
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

爬虫系列之scrapy框架

一 scrapy框架简介

1 介绍

(1) 什么是Scrapy？

2 安装

3 命令行工具

4 目录结构

5 牛刀小试

二 Spider类

三 选择器

四 DupeFilter(去重)

五 Item(项目)

1 声明项目

2 项目字段

3 使用项目

4 扩展项目

六 Item PipeLine

1 编写自己的项目管道

2 项目管道示例

(1) 价格验证和丢弃物品没有价格

(2) 将项目写入JSON文件

(3) 将项目写入数据库

(4) 重复过滤

3 激活项目管道组件

七 下载中间件

八 基于scrapy-redis实现分布式爬虫

1 redis连接

2 dupefilter

3 Scheduler

3 RedisPipeline(持久化)

4 从Redis中获取起始URL

九 项目代码

你可能感兴趣的:(scapy)

三选择器

七下载中间件

八基于scrapy-redis实现分布式爬虫

九项目代码