NQ31

爬虫之scrapy、scrapy-redis

一、Scrapy的简介

二、Scrapy的使用

1、安装

2、Scrapy工程的基本操作以及命令

3、项目结构

5、配置

6、scrapy持久化存储

7、scrapy中间件(下载中间件)

三、去重源码解析

四、scrapy-redis分布式爬虫

1、介绍

2、使用方法

一、Scrapy的简介

Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下

它主要由五大组件和两中间件组成：

五大组件：

1、引擎(ENGINE)：用来处理整个系统的数据流处理, 触发事务(框架核心)

2、调度器(SCHEDULER) : 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

3、下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给ENGINE，下载器是建立在twisted这个高效的异步模型上的

4、爬虫(Spiders)：爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

5、项目管道(Pipeline)：负责处理爬虫从网页中抽取的实体(item)，主要的功能是对item进行持久化、验证有效性、清理。当页面被操作。

两大中间件：

1、下载中间件：位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。比如：添加请求头，更换user-agent、代理ip等

2、爬虫中间件：介于Scrapy引擎和spiders之间的框架，主要工作是处理spider的响应输入和请求输出。

二、Scrapy的使用

1、安装

#Windows平台
    1、pip3 install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    5、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
    6、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    8、pip3 install scrapy

#Linux平台
    1、pip3 install scrapy

2、Scrapy工程的基本操作以及命令

#注意：都是在cmd下进行命令操作
# 1、创建scrapy工程
scrapy startproject 工程名字

# 2、切换到scrapy攻略目录下，创建爬虫文件
 scrapy genspider 爬虫文件名字  www.xxx.com(允许爬取的域名)

# 3、执行scrapy工程
scrapy crawl 爬虫文件名字(不用带.py)

# 也可以创建一个py文件，内容如下，每次执行该py文件就可以
from scrapy.cmdline import execute
execute(['scrapy','crawl','爬虫文件名'])

'''
用法：  scrapy <命令> [options] [args]

可用命令:
  bench         # scrapy压力测试
  check         # 检测项目有无语法错误 
  commands
  crawl          # 运行爬虫
  edit            # 编辑器，一般不用
  fetch          #独立于程单纯地爬取一个页面，可以拿到请求头
  genspider    #创建爬虫程序
  list              #列出项目中所包含的爬虫名
  parse          #scrapy parse url地址 --callback 回调函数  #以此可以验证我们的回调函数是否正确
  runspider     #运行一个独立的python文件，不必创建项目
  settings       #如果是在项目目录下，则得到的是该项目的配置
  shell            #scrapy shell url地址  在交互式调试，如选择器规则正确与否
  startproject  #创建项目
  version        #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依赖库的版本
  view           #下载完毕后直接弹出浏览器，以此可以分辨出哪些数据是ajax请求
'''
'''
例子：
注意：执行项目命令，要切到项目的目录下(check、list、parse、bench)
'''
scrapy settings --get XXX #如果切换到项目目录下，看到的则是该项目的配置

scrapy runspider baidu.py

scrapy shell https://www.baidu.com
    response
    response.status
    response.body
    view(response)
    
scrapy view https://www.taobao.com #如果页面显示内容不全，不全的内容则是ajax请求实现的，以此快速定位问题

scrapy fetch --nolog --headers https://www.taobao.com

scrapy version #scrapy的版本

scrapy version -v #依赖库的版本

3、项目结构

"""
├── project_name/
    ├── scrapy.cfg/    #项目的主配置信息，用来部署scrapy时使用，爬虫相关的配置信息在settings.py文件中
    ├── project_name/             
        ├── __init__.py/        
        ├── items.py/        # 设置数据存储模板，用于结构化数据，类似Django的Model    
        ├── settings.py      # 配置文件，如：递归的层数、并发数，延迟下载等。强调:配置文件的选项必须大写否则视为无效，正确写法USER_AGENT='xxxx'
        ├── pipelines.py/    # 数据处理行为，如：一般结构化的数据持久化
        ├── spiders/         # 爬虫目录，如：创建文件，编写爬虫规则
            ├── __init__.py/   
            ├── 爬虫文件1.py       # 项目开发时的本地配置
            ├── 爬虫文件2.py       # 项目开发时的本地配置
            ......
"""

4、数据解析

xpath解析和css解析

#1 //与/
response.xpath('//body/a/')#
response.css('div a::text')

response.xpath('//body/a') #开头的//代表从整篇文档中寻找,body之后的/代表body的儿子
>>> []
response.xpath('//body//a') #开头的//代表从整篇文档中寻找,body之后的//代表body的子子孙孙
>>> [, , , , ]

#2 text 获取文本值
response.xpath('//body//a/text()')
response.css('body a::text')
'''
3、extract与extract_first:从selector对象中解出内容
extract()取出的是一个列表
extract_first()取出的是列表第一个元素
'''
response.xpath('//div/a/text()').extract()
>>> ['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ', 'Name: My image 4 ', 'Name: My image 5 ']
response.css('div a::text').extract()
>>> ['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ', 'Name: My image 4 ', 'Name: My image 5 ']

response.xpath('//div/a/text()').extract_first()
>>> 'Name: My image 1 '
response.css('div a::text').extract_first()
>>> 'Name: My image 1 '

#4、属性：xpath的属性加前缀@
response.xpath('//div/a/@href').extract_first()
>>> 'image1.html'
response.css('div a::attr(href)').extract_first()
>>> 'image1.html'

#4、嵌套查找
response.xpath('//div').css('a').xpath('@href').extract_first()
>>> 'image1.html'

#5、设置默认值
response.xpath('//div[@id="xxx"]').extract_first(default="not found")
>>> 'not found'

#4、按照属性查找
response.xpath('//div[@id="images"]/a[@href="image3.html"]/text()').extract()
response.css('#images a[@href="image3.html"]/text()').extract()

#5、按照属性模糊查找
response.xpath('//a[contains(@href,"image")]/@href').extract()
response.css('a[href*="image"]::attr(href)').extract()

response.xpath('//a[contains(@href,"image")]/img/@src').extract()
response.css('a[href*="imag"] img::attr(src)').extract()

response.xpath('//*[@href="image1.html"]')
response.css('*[href="image1.html"]')

#6、正则表达式
response.xpath('//a/text()').re(r'Name: (.*)')
response.xpath('//a/text()').re_first(r'Name: (.*)')

#7、xpath相对路径
res=response.xpath('//a[contains(@href,"3")]')[0]
res.xpath('img')
>>> []
res.xpath('./img')
>>> []
res.xpath('.//img')
>>> []
res.xpath('//img') #这就是从头开始扫描
>>> [, , , , ]

#8、带变量的xpath
response.xpath('//div[@id=$xxx]/a/text()',xxx='images').extract_first()
>>> 'Name: My image 1 '
response.xpath('//div[count(a)=$yyy]/@id',yyy=5).extract_first() #求有5个a标签的div的id
>>> 'images'

5、配置

# robosttxt 协议设置为false
ROBOTSTXT_OBEY = False
# 日志配置成错误级别
LOG_LEVEL='ERROR'
# 请求头配置
USER_AGENT = '浏览器标识'

'''
提升scrapy爬取数据效率的配置
#1 增加并发：
默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。
#2 降低日志级别：
在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’
# 3 禁止cookie：
如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False
# 4禁止重试：
对失败的HTTP进行重新请求(重试)会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False
# 5 减少下载超时：
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s
'''

'''
其他配置可以根据需要进行相应配置，也可以参考下面的其他配置
'''

#==>第一部分：基本配置<===
#1、项目名称，默认的USER_AGENT由它来构成，也作为日志记录的日志名
BOT_NAME = 'Amazon'

#2、爬虫应用路径
SPIDER_MODULES = ['Amazon.spiders']
NEWSPIDER_MODULE = 'Amazon.spiders'

#3、客户端User-Agent请求头
#USER_AGENT = 'Amazon (+http://www.yourdomain.com)'

#4、是否遵循爬虫协议
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

#5、是否支持cookie，cookiejar进行操作cookie，默认开启
#COOKIES_ENABLED = False

#6、Telnet用于查看当前爬虫的信息，操作爬虫等...使用telnet ip port ，然后通过命令操作
#TELNETCONSOLE_ENABLED = False
#TELNETCONSOLE_HOST = '127.0.0.1'
#TELNETCONSOLE_PORT = [6023,]

#7、Scrapy发送HTTP请求默认使用的请求头
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}



#===>第二部分：并发与延迟<===
#1、下载器总共最大处理的并发请求数,默认值16
#CONCURRENT_REQUESTS = 32

#2、每个域名能够被执行的最大并发请求数目，默认值8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16

#3、能够被单个IP处理的并发请求数，默认值0，代表无限制，需要注意两点
#I、如果不为零，那CONCURRENT_REQUESTS_PER_DOMAIN将被忽略，即并发数的限制是按照每个IP来计算，而不是每个域名
#II、该设置也影响DOWNLOAD_DELAY，如果该值不为零，那么DOWNLOAD_DELAY下载延迟是限制每个IP而不是每个域
#CONCURRENT_REQUESTS_PER_IP = 16

#4、如果没有开启智能限速，这个值就代表一个规定死的值，代表对同一网址延迟请求的秒数
#DOWNLOAD_DELAY = 3

#===>第三部分：智能限速/自动节流：AutoThrottle extension<===
#一：介绍
from scrapy.contrib.throttle import AutoThrottle #http://scrapy.readthedocs.io/en/latest/topics/autothrottle.html#topics-autothrottle
设置目标：
1、比使用默认的下载延迟对站点更好
2、自动调整scrapy到最佳的爬取速度，所以用户无需自己调整下载延迟到最佳状态。用户只需要定义允许最大并发的请求，剩下的事情由该扩展组件自动完成

#二：如何实现？
在Scrapy中，下载延迟是通过计算建立TCP连接到接收到HTTP包头(header)之间的时间来测量的。
注意，由于Scrapy可能在忙着处理spider的回调函数或者无法下载，因此在合作的多任务环境下准确测量这些延迟是十分苦难的。 不过，这些延迟仍然是对Scrapy(甚至是服务器)繁忙程度的合理测量，而这扩展就是以此为前提进行编写的。

#三：限速算法
自动限速算法基于以下规则调整下载延迟
#1、spiders开始时的下载延迟是基于AUTOTHROTTLE_START_DELAY的值
#2、当收到一个response，对目标站点的下载延迟=收到响应的延迟时间/AUTOTHROTTLE_TARGET_CONCURRENCY
#3、下一次请求的下载延迟就被设置成：对目标站点下载延迟时间和过去的下载延迟时间的平均值
#4、没有达到200个response则不允许降低延迟
#5、下载延迟不能变的比DOWNLOAD_DELAY更低或者比AUTOTHROTTLE_MAX_DELAY更高

#四：配置使用
#开启True，默认False
AUTOTHROTTLE_ENABLED = True
#起始的延迟
AUTOTHROTTLE_START_DELAY = 5
#最小延迟
DOWNLOAD_DELAY = 3
#最大延迟
AUTOTHROTTLE_MAX_DELAY = 10
#每秒并发请求数的平均值，不能高于 CONCURRENT_REQUESTS_PER_DOMAIN或CONCURRENT_REQUESTS_PER_IP，调高了则吞吐量增大强奸目标站点，调低了则对目标站点更加”礼貌“
#每个特定的时间点，scrapy并发请求的数目都可能高于或低于该值，这是爬虫视图达到的建议值而不是硬限制
AUTOTHROTTLE_TARGET_CONCURRENCY = 16.0
#调试
AUTOTHROTTLE_DEBUG = True
CONCURRENT_REQUESTS_PER_DOMAIN = 16
CONCURRENT_REQUESTS_PER_IP = 16



#===>第四部分：爬取深度与爬取方式<===
#1、爬虫允许的最大深度，可以通过meta查看当前深度；0表示无深度
# DEPTH_LIMIT = 3

#2、爬取时，0表示深度优先Lifo(默认)；1表示广度优先FiFo

# 后进先出，深度优先
# DEPTH_PRIORITY = 0
# SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleLifoDiskQueue'
# SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.LifoMemoryQueue'
# 先进先出，广度优先

# DEPTH_PRIORITY = 1
# SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
# SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

#3、调度器队列
# SCHEDULER = 'scrapy.core.scheduler.Scheduler'
# from scrapy.core.scheduler import Scheduler

#4、访问URL去重
# DUPEFILTER_CLASS = 'step8_king.duplication.RepeatUrl'



#===>第五部分：中间件、Pipelines、扩展<===
#1、Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'Amazon.middlewares.AmazonSpiderMiddleware': 543,
#}

#2、Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   # 'Amazon.middlewares.DownMiddleware1': 543,
}

#3、Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

#4、Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   # 'Amazon.pipelines.CustomPipeline': 200,
}



#===>第六部分：缓存<===
"""

1. 启用缓存
   目的用于将已经发送的请求或相应缓存下来，以便以后使用

   from scrapy.downloadermiddlewares.httpcache import HttpCacheMiddleware
   from scrapy.extensions.httpcache import DummyPolicy
   from scrapy.extensions.httpcache import FilesystemCacheStorage
   """
   # 是否启用缓存策略
   # HTTPCACHE_ENABLED = True

# 缓存策略：所有请求均缓存，下次在请求直接访问原来的缓存即可
# HTTPCACHE_POLICY = "scrapy.extensions.httpcache.DummyPolicy"
# 缓存策略：根据Http响应头：Cache-Control、Last-Modified 等进行缓存的策略
# HTTPCACHE_POLICY = "scrapy.extensions.httpcache.RFC2616Policy"

# 缓存超时时间
# HTTPCACHE_EXPIRATION_SECS = 0

# 缓存保存路径
# HTTPCACHE_DIR = 'httpcache'

# 缓存忽略的Http状态码
# HTTPCACHE_IGNORE_HTTP_CODES = []

# 缓存存储的插件
# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

#===>第七部分：线程池<===
REACTOR_THREADPOOL_MAXSIZE = 10

#Default: 10
#scrapy基于twisted异步IO框架，downloader是多线程的，线程数是Twisted线程池的默认大小(The maximum limit for Twisted Reactor thread pool size.)

#关于twisted线程池：
http://twistedmatrix.com/documents/10.1.0/core/howto/threading.html

#线程池实现：twisted.python.threadpool.ThreadPool
twisted调整线程池大小：
from twisted.internet import reactor
reactor.suggestThreadPoolSize(30)

其他配置

6、scrapy持久化存储

(1)基于终端指令

'''
要求：只可以将parse方法的返回值存储到本地的文本文件中
注意：持久化存储对应的文本文件的类型只可以为：‘json'，'jsonlines'，'jl'，’csv'，‘xml'，’marshal'，'pickle‘

指令：scrapy crawl 爬虫文件名 -o filePath

优点：简介高效便捷
缺点：局限性比较强(数据只可以存储到指定后缀的文本文件中)
'''

(2)基于管道

'''
items.py: 数据结构模版文件，定义数据属性
pipelines.py：管道文件，用来接收数据(items),进行持久化操作

持久化流程：
1.爬虫文件爬取到数据后，需要将数据封装到items对象中。需要导入items.py文件里面的类
2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。
3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储
4.settings.py配置文件中开启管道
'''
# pipline.py 管道类
class BlogPostPipeline:
    # 开始
    def open_spider(self,spider):
        self.conn=pymysql.connect(host='127.0.0.1', user='root', password="root",database='pcdb', charset='utf8mb4',port=3306,)
    # 持久化过程
    def process_item(self,item,spider):
        cursor=self.conn.cursor()
        sql = 'insert into article (title,url,content,`desc`) values (%s,%s,%s,%s)'
        cursor.execute(sql, [item['title'], item['url'], item['content'], item['desc']])
        self.conn.commit()
        return item
    # 结束
    def close_spider(self,spider):
        self.conn.close()
        print('爬虫结束了')


#items文件
import scrapy
class PostItem(scrapy.Item):

    title=scrapy.Field()
    url=scrapy.Field()
    desc=scrapy.Field()
    content=scrapy.Field()

图片存储：

1、在setting文件配置：IMAGES_STORE = ‘./imgs’：表示最终图片存储的目录，并在ITEM_PIPELINES中增加管道类中新增的类

2、重写一个管道类(继承ImagesPipeline)

3、基于ImagesPipeLine类的管道类三个方法：get_media_request()、file_path()、tiem_completed()

from scrapy.pipelines.images import ImagesPipeline
# 继承ImagesPipeline
class myPipeline(ImagesPipeline):
  
    def get_media_requests(self, item, info):
        print('下载开始')
        return scrapy.Request(item['img_url'],headers={'referer':item['img_referer']},meta={'item':item})

    def file_path(self, request, response=None, info=None):
        item=request.meta['item']
        url = request.url
        file_name=url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        print('下载结束')
        return item

7、scrapy中间件(下载中间件)

(1)拦截请求：修改user-agent、请求头，加入代理ip(可以方法process_exception方法，或者process_request方法)等

(2)拦截响应：修改响应对象或者响应数据(例子：比如一些动态加载的页面)

 def process_request(self, request, spider):
       #1、更改请求头的user-agent
        from fake_useragent import UserAgent
        ua=UserAgent()
        request.headers['User-Agent']=ua.random
       # 2、设置代理ip
        import requests
        r = requests.get('http://127.0.0.1:5010/get/')
        proxy=r.json().get('proxy')
        request.meta['download_timeout'] = 5
        request.meta["proxy"] = 'http://'+proxy
        print(request)
        return None
# 在中间件使用selenium处理ajax请求问题
 def process_response(self, request, response, spider):

        from scrapy.http import HtmlResponse

        spider.bro.get('https://dig.chouti.com/')

        response = HtmlResponse(url='https://dig.chouti.com/', body=spider.bro.page_source.encode('utf-8'),
                                request=request)

        return response

三、去重源码解析

1、BaseDupeFilter源码

class BaseDupeFilter:
    @classmethod
    def from_settings(cls, settings):
        return cls()
    # 去重方法
    def request_seen(self, request):
        return False
    def open(self):  # can return deferred
        pass
    def close(self, reason):  # can return a deferred
        pass
    def log(self, request, spider):  # log that a request has been filtered
        pass

2、RFPDupeFilter源码

class RFPDupeFilter(BaseDupeFilter):
    """Request Fingerprint duplicates filter"""

    def __init__(self, path=None, debug=False):
        self.file = None
        self.fingerprints = set() #集合
        self.logdupes = True
        self.debug = debug
        self.logger = logging.getLogger(__name__)
        if path:
            self.file = open(os.path.join(path, 'requests.seen'), 'a+')
            self.file.seek(0)
            self.fingerprints.update(x.rstrip() for x in self.file)

    @classmethod
    def from_settings(cls, settings):
        debug = settings.getbool('DUPEFILTER_DEBUG')
        return cls(job_dir(settings), debug)
    # 去重的主要方法
    def request_seen(self, request):
        '''
        from scrapy.utils.request import request_fingerprint
        利用request_fingerprint对请求取指纹(md5)
        判断如果在集合中，返回True，不在则添加到集合
        '''
        fp = self.request_fingerprint(request)
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + '\n')

    def request_fingerprint(self, request):
        return request_fingerprint(request)

    def close(self, reason):
        if self.file:
            self.file.close()

    def log(self, request, spider):
        if self.debug:
            msg = "Filtered duplicate request: %(request)s (referer: %(referer)s)"
            args = {'request': request, 'referer': referer_str(request)}
            self.logger.debug(msg, args, extra={'spider': spider})
        elif self.logdupes:
            msg = ("Filtered duplicate request: %(request)s"
                   " - no more duplicates will be shown"
                   " (see DUPEFILTER_DEBUG to show all duplicates)")
            self.logger.debug(msg, {'request': request}, extra={'spider': spider})
            self.logdupes = False

        spider.crawler.stats.inc_value('dupefilter/filtered', spider=spider)

3、通过BaseDupeFilter和RFPDupeFilter对比，我们可以看出去重规则主要在request_seen()方法中，则我们可以仿照写一个自定义去重类

(1) 新建一个去重文件dupfilter.py

from scrapy.dupefilters import BaseDupeFilter
class UrlFilter(BaseDupeFilter):
    def __init__(self):
        self.visited = set() #或者放到数据库

    @classmethod
    def from_settings(cls, settings):
        return cls()

   def request_seen(self, request):
        if request.url in self.visited:
            return True
        self.visited.add(request.url)

    def open(self):  # can return deferred
         pass

    def close(self, reason):  # can return a deferred
         pass

    def log(self, request, spider):  # log that a request has been filtered
         pass

(2) 在配置文件settings中

DUPEFILTER_CLASS = '项目名.dupfilter.UrlFilter'

四、scrapy-redis分布式爬虫

1、介绍

scrapy-redis是在原来的scrapy的基础上，重写Scheduler,让调度器到共享队列中取Request(该request请求时去重的)。去重主要是利用了redis的集合类型

2、使用方法

(1)安装scrapy-redis模块，pip install scrapy-redis

(2)配置settings文件

# scheduler调度器配置，参考Scheduler源码
class Scheduler(object):
    """
    在scrapy中settings的配置信息
    --------
    SCHEDULER_PERSIST : bool (default: False)
        关闭的时候，是否保留redis队列(也就是起始地址).
    SCHEDULER_FLUSH_ON_START : bool (default: False)
        是否在启动时刷新redis队列。
    SCHEDULER_IDLE_BEFORE_CLOSE : int (default: 0)
        如果没有收到任何消息，在关闭之前要等待多少秒(超时时间)。
    SCHEDULER_QUEUE_KEY : str
        调度器中请求存放在redis中的key
    SCHEDULER_QUEUE_CLASS : str
        调度程序队列类s.
    SCHEDULER_DUPEFILTER_KEY : str
        去重规则中，在redis中保存对应的key值.
    SCHEDULER_DUPEFILTER_CLASS : str
        去重规则对应的处理类
    SCHEDULER_SERIALIZER : str
        对保存到redis中的数据进行序列化.默认使用pickle
        # SCHEDULER_SERIALIZER ="scrapy_redis.picklecompat"

    """

# Redis配置，参考connection源码
def get_redis_from_settings(settings):
   # ----------------
   # 在settings中的配置
   # ----------------
    REDIS_URL : str, optional
        # 例子：REDIS_URL='redis://:[email protected]:6379'
        #redis的连接url，优先去url配置(等同的host\post的配置)，.
        #注意：配置了url，就不用配置主机号跟端口了
    REDIS_HOST : str, optional
        #redis的主机名.
    REDIS_PORT : str, optional
        #redis的端口.
    REDIS_ENCODING : str, optional
        #redis的编码.
    REDIS_PARAMS : dict, optional
        #redis的其他参数，是字典类型.
        #如： REDIS_PARAMS = {'password':'12345'}
  
# 持久化 配置，参考pipeline源码
class RedisPipeline(object):

    Settings
    --------
    REDIS_ITEMS_KEY : str
        # redis关键字
    REDIS_ITEMS_SERIALIZER : str
        # 序列化函数


# 参考spiders源码配置
 class RedisSpider(RedisMixin, Spider):
    Settings
    --------
    REDIS_START_URLS_KEY : str (default: ":start_urls")
        # 起始rurl从对应的redis的key.
    REDIS_START_URLS_BATCH_SIZE : int (deprecated by CONCURRENT_REQUESTS)
        # 每次尝试从reids获取的url数，默认从配置中获取.
    REDIS_START_URLS_AS_SET : bool (default: False)
        # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop
    REDIS_ENCODING : str (default: "utf-8")
        #编码

(3) 参考案例(在原来的scrapy的源码上进行修改)

'''
spdies文件
继承RedisSpider
'''
from scrapy_redis.spiders import RedisSpider

class BlogSpider(RedisSpider):
    name = 'redis_blog'
    redis_key = 'myspider:start_urls'
    def parse(self, response):
        print('---redis-blog-----')
        article_list = response.xpath('//div[@id="post_list"]/article')
        ....

#settings文件配置
#redis的连接
REDIS_HOST='localhost'
REDIS_PORT=6379
# REDIS_PASSWD='12345'
REDIS_PARAMS = {'password':'12345'}
# REDIS_URL='redis://:[email protected]:6379'
# from scrapy_redis.scheduler import Scheduler
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
SCHEDULER_PERSIST = True

最后，在redis的数据库中插入一个起始地址：lpush myspider:start_urls https://www.cnblogs.com/ 就可以运行了

你可能感兴趣的:(爬虫,python,python,分布式)

Python: Python 多版本管理 mikes zhang python python 大数据 pip
PythonLauncherPythonLauncher是PythonforWindows才有的功能.(注一)PythonLauncher的出现,让我们可以不必依赖环境变数PATH的设定来简化python执行档的使用,同时也简化了多个版本的python同时存在时的管理工作.(试想如果你的系统里安装3或4个python时,你到底要如何指定使用其中一个版本?)PythonLauncherpy.exe是
【Python】类(class) shanks66 python 开发语言
@[toc]【Python】类(class)【Python】类(class)在Python中，类（Class）是面向对象编程（OOP）的核心概念。类用于创建对象，对象是类的实例。类可以包含属性（变量）和方法（函数），用于描述对象的行为和状态。Python类的基本结构和用法：1.基本语法class类名:#类属性（所有实例共享）类属性=值#构造方法（初始化对象）def__init__(self,参数1
深度解析：Python与TensorFlow在日平均气温预测中的应用——LSTM神经网络实战 AI_DL_CODE python 神经网络 tensorflow LSTM 气温预测 RNN
文章目录1.引言1.1研究背景与意义1.2研究目标与问题定义2.概念解析2.1Python语言简介2.2TensorFlow框架概述2.3LSTM神经网络原理3.原理详解3.1时间序列分析基础3.1.1时间序列的组成3.1.2时间序列分析方法3.2LSTM在时间序列分析中的应用3.2.1LSTM的优势3.2.2LSTM的结构3.3日平均气温预测的数学模型3.3.1ARIMA模型3.3.2LSTM模
python多版本管理_python 多版本管理春梅狐狸 python多版本管理
枫癫：您好！我用的是5.7版本，按照您的配置，错误如下麻烦看到了，还请回复，比较着急，谢谢您了！|@|[root@controllerwy]#snmpwalk-v1-cpublic192.168.1.100.1.3.6.1.4.1.2021.5000|@|UCD-SNMP-MIB::ucdavis.5000.1.0=INTEGER:1|@|UCD-SNMP-MIB::ucdavis.5000.2.
后端开发面试题6（附答案）来年定当除暴安良面试面试跳槽后端 golang
前言在下首语言是golang，所以会用他作为示例。原文参见@arialdomartini的:Back-EndDeveloperInterviewQuestions分布式系统相关问题1.怎么测试一个分布式系统？测试分布式系统是一项复杂且具有挑战性的任务，因为它涉及到多个组件在不同的网络环境和硬件设施上的协同工作。以下是一些测试分布式系统的关键步骤和方法：单元测试：对分布式系统中的每个独立模块进行单元
【python | pip list】pip list导入与导出苹榆枫 #深度学习框架 pip python linux
1.导出#查看当前安装的包piplist#导出当前安装的包记录pipfreeze>./requirements.txt2.导入#用anaconda创建一个虚拟环境condacreate-npy37python=3.7#激活当前py37环境MAC/Linux:sourceactivatepy37WIndows:activatepy37#导入安装之前的包列表pipinstall-r./requirem
【AI | python】functools.partial 的作用苹榆枫 #深度学习框架人工智能 python
在代码中，partial是Pythonfunctools模块中的一个方法，用于固定函数的某些参数并返回一个新的函数。这个新的函数可以像原函数一样调用，但固定的参数不需要再次提供。代码中：self.compute_cis=partial(compute_axial_cis,dim=self.internal_dim//self.num_heads,theta=rope_theta)这里partial
下完安装好python后，想查看python的安装位置的几种方法 omofun5541 python 开发语言
查看python的路径基于windows系统，按下win+r（也就是命令提示符），输入cmd，进入查看当前的python的版本的话输入python-V1，查看当前下载的python类型和路径则可以输入py-0(加*的是你使用python的默认版本)2，还可以使用命令wherepython查看路径（这样就不会显示你python默认使用的是哪个）小技巧：如果想清除命令行的话可以输入命令cls然后ent
Python3 环境搭建指南 lly202406 开发语言
Python3环境搭建指南1.引言Python是一种广泛使用的高级编程语言，以其简洁明了的语法和强大的功能而闻名。Python3是Python的最新版本，它在Python2的基础上进行了大量更新和改进。本指南将详细介绍如何在您的计算机上搭建Python3环境，以便您可以开始编写和运行Python程序。2.系统要求在开始安装Python3之前，请确保您的计算机满足以下最低系统要求：操作系统：Wind
【python自动化运维】python第三方运维模块应用 leo__programmer python自动化运维运维 python 自动化
一、pymysql模块——数据库编程1、介绍第三方模块作用:连接MySQL数据库1.1、操作流程创建数据库连接基于连接创建游标cursor数据库读写操作关闭游标关闭数据库连接2、pymysql模块的使用2.1、准备工作准备MySQL数据库安装pymysql模块pipinstallpymysql安装配置MySQL数据库[root@localhost~]#yuminstall-ymariadb-ser
一文学习python中编码和解码科雷learning python编程 python 开发语言
学习目录1什么是编码和解码2编解码基本原理3python的默认编码4什么是10进制/2进制/8进制/16进制？5python的字符串编解码5.1使用str.encode()编码，str.decode()解码5.2解码的乱码问题5.316进制字符串转为普通字符串6python字符串和unicode类型编码转换什么是编码和解码大家都知道计算机是二进制的世界，计算机系统只能识别数字0和1组成的一串串的数
区块链的数学基础：核心原理与应用解析一休哥助手区块链
引言区块链技术作为分布式账本系统，成功地解决了传统中心化系统中的信任问题。其背后隐藏着复杂而精妙的数学原理，包括密码学、哈希函数、数字签名、椭圆曲线、零知识证明等。这些数学工具不仅为区块链提供了安全保障，也为智能合约和去中心化应用（DApps）的开发奠定了基础。本文将深入剖析区块链中的核心数学基础，帮助读者理解其工作原理与实际应用。一、区块链数学基础概述区块链的数学基础可以分为以下几个核心领域：密
GaussDB数据库SQL系列-LOCK TABLE 关沵什么柿数据库 gaussdb sql
一、前言GaussDB是一款高性能、高可用的分布式数据库，广泛应用于各类行业和场景。在GaussDB中，锁是实现并发控制的关键机制之一，用于协调多个事务之间的数据访问，确保数据的一致性和完整性。本文将围绕GaussDB数据库的LOCKTABLE做一简单介绍。二、GaussDB数据库的锁GaussDB提供了多种锁模式用于控制对表中数据的并发访问。这些模式可以用在MVCC（多版本并发控制）无法给出期望
Python timedelta 时间间隔人生重启 Python python
Pythontimedelta对象用于表示时间间隔,可以通过以下方式初始化:指定天、小时、分钟、秒和毫秒:fromdatetimeimporttimedeltatimedelta(days=2,hours=6,minutes=30,seconds=15,milliseconds=500)从总秒数指定:timedelta(seconds=3600)#1hour从日期差指定:end_date=date
postgrel执行VACUUM报VACUUM cannot run inside a transaction block dianzufa9403 数据库 golang java
在python脚本里执行：1sql_gp1="VACUUMdwd_access_record_inout_temp"2sql_gp2="deletefromdwd_access_record_inout_temptwheret.indate>(selectnow()::timestamp-interval'36hour')"3conn=gputil.connect(logger,target_ho
2024年华为OD机试真题- 英文输入法-(C++/Java/python)-OD统一考试（C卷D卷） dijkstra2023 华为od c++python java
题目描述主管期望你来实现英文输入法单词联想功能，需求如下：依据用户输入的单词前缀，从已输入的英文语句中联想出用户想输入的单词。按字典序输出联想到的单词序列，如果联想不到，请输出用户输入的单词前缀。注意英文单词联想时区分大小写缩略形式如"don’t"判定为两个单词"don"和“t”输出的单词序列不能有重复单词，且只能是英文单词，不能有标点符号输入描述输入两行首行输入一段由英文单词word和标点构成的
Python datetime timedelta Claroja Python
https://docs.python.org/3/library/datetime.html#timedelta-objectsclassdatetime.timedelta(days=0,seconds=0,microseconds=0,milliseconds=0,minutes=0,hours=0,weeks=0)timedelta对象基本介绍classdatetime.timedelta
【Python】Python-JOSE：Python 中的 JSON Web Token 处理库 @Unity打怪升级 Python python json 人工智能前端开发语言开源机器学习
Python-JOSE是一个用于处理JSONWebToken(JWT)和JOSE(JSONObjectSigningandEncryption)标准的Python库。它支持对JWT进行签名、加密、解密和验证等操作，是处理基于OAuth2.0和OpenIDConnect协议的身份验证和授权任务的理想选择。Python-JOSE实现了JOSE规范中定义的JWS(JSONWebSignature)、JW
【Python】bpython：增强版 Python 交互式解释器 @Unity打怪升级 Python python 开发语言人工智能开源软件开源 ipython pip
bpython是一个增强版的Python交互式解释器，它为开发者提供了更加友好和高效的交互体验。与Python内置的REPL(Read-Eval-Print-Loop)相比，bpython提供了更多实用功能，比如自动补全、语法高亮、实时显示函数签名等，使得编写和调试Python代码变得更加轻松。bpython非常适合初学者学习Python，因为它能够帮助开发者实时了解输入的代码效果，同时对有经验的
CDN如何实现内容分发黑石云边缘计算
CDN（内容分发网络）实现内容分发主要依赖于其分布式架构和一系列关键技术。以下是CDN实现内容分发的主要步骤和机制：一、DNS解析与重定向当用户在浏览器中输入域名请求访问某个网站时，首先会向本地DNS服务器发起域名解析请求。如果本地DNS服务器没有缓存该域名的解析结果，它会递归地查询根DNS服务器和授权DNS服务器，直到获得域名对应的IP地址。如果该域名配置了CDN服务，本地DNS服务器会将域名的
python期末题库和答案,python 期末卷及答案 www55597 人工智能
大家好，给大家分享一下python期末题库和答案，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！6.foriinrange(2,n):ifn%i==0:breakifi==n-1:print('是素数')else:print('不是素数')7.'abcabcabc'.count('abc')的值为__3__。8.对于有else子句的for循环和while循环，但循环因循环条件不成立而自
【RocketMQ 消息中间件】RocketMQ篇之-消息存储为什么性能高 CommitLog 刷盘机制同步异步 java中间件消息队列
RocketMQ篇之-消息存储RocketMQ作为一款分布式消息中间件，高可靠性是其最重要的特性之一。所以需要将消息进行持久化存储，以保证消息不丢失。RocketMQ的消息存储是RocketMQ的核心组件之一，负责消息的存储和传输。RocketMQ的消息存储主要包括CommitLog、ConsumeQueue、IndexFile、Checkpoint等几个部分。（前置）消息存储交互流程生产者发送消
精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
python的schedule模块 weijiuzhu007 python
这里写自定义目录标题一，schedule模块1.什么是schedule模块2.具体应用二，详细源码一，schedule模块1.什么是schedule模块schedule模块进行job管理，具体可以执行定时任务，schedule方法是串行的，也就是说，如果各个任务之间时间不冲突，那是没问题的；如果时间有冲突的话，会串行的执行命令2.具体应用1，安装方法pipinstallschedule2，使用im
华为OD机试C卷--手机App防沉迷系统（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：1.在一天24小时内，可以注册每个App的允许使用时段2.一个时间段只能使用一
【Django DRF Apps】从零搭建一个Django SSE app应用患得患失949 Django DRF 封装功能类 django sqlite python SSE app
一、从零开始搭建DjangoSSE应用（一）创建Django项目安装Django首先确保已经安装Django。如果没有安装，可以使用以下命令进行安装：pipinstalldjango创建Django项目创建一个新的Django项目：django-adminstartprojectsse_projectcdsse_project创建Django应用创建一个新的应用来处理SSE：pythonmanag
如何理解DDoS安全防护在企业安全防护中的作用服务器安全
DDoS安全防护在安全防护中扮演着非常重要的角色。DDoS（分布式拒绝服务）攻击是一种常见的网络攻击，旨在通过向目标服务器发送大量请求，以消耗服务器资源并使其无法正常运行。理解DDoS安全防护的作用，可以从以下几个方面来说明：1.维护业务连续性：DDoS攻击可能导致目标服务器过载，甚至无法正常工作，导致业务中断。DDoS安全防护可以帮助企业保持业务连续性，通过识别和过滤恶意流量，保持服务的可用性。
华为OD机试 - 手机App防沉迷系统（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript 算法七日集训
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机Ap
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
通达信Python语言接口：如何轻松获取并高效利用？ cda2024 python 开发语言
在量化投资和股票分析领域，Python已经成为不可或缺的工具。然而，如何将Python与国内最流行的股票交易软件之一——通达信相结合，成为许多投资者和开发者关心的问题。本文将详细介绍如何获取通达信的Python语言接口，并提供一些实用的技巧和示例代码，帮助你在量化交易中更上一层楼。什么是通达信Python接口？通达信Python接口是通达信官方提供的一个API，允许用户通过Python脚本调用通达
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l