阳光总在风雨后15038799390

scrapy-redis分布式爬虫

一.知识储备

Scrapy本身是不支持分布式的，scrapy_redis是为了更方便的实现scrapy分布式爬取，而提供了一些以redis为基础的组件（仅有组件）。在 Scrapy 中最出名的分布式插件就是scrapy-redis了，scrapy-redis的作用就是让你的爬虫快、更快、超级快。

1.单机爬虫与分布式爬虫的区别

单机爬虫：一台电脑运行一个项目。去重采用了set()和queue()，但是这两个都是在内存中存在的。

1)其他电脑是无法获取另外一台电脑内存中的数据的。

2)程序终止，内存消失。

分布式爬虫：将一个项目拷贝到多台电脑上，同时爬取数据。
1) 必须保证所有电脑上的代码是相同的配置。
2) 在其中一台电脑上启动redis和mysql的数据库服务。
3) 同时将所有的爬虫项目运行起来。
4) 在启动redis和mysql数据库的电脑上，向redis中添加起始的url。

只需要在众多电脑中，选择其中一台开启redis服务，目的就是在redis中创建公用的queue和公用的set，然后剩余电脑只需要连接redis服务即可，剩余电脑不需要开启redis-server服务。多台电脑的爬虫项目连接同一个redis数据库。

2.分布式问题

1) 多台电脑如何统一的对URL进行去重？
2) 多台电脑之间如何共用相同的队列？多台电脑获取的request，如何在多台电脑之间进行同步？
3) 多台电脑运行同一个爬虫项目，如果有机器爬虫意外终止，如何保证可以继续从队列中获取新的request，而不是从头开始爬取？

前两个问题：可以基于redis实现。相当于将set()和queue()从scrapy框架中抽离出来，将其保存在一个公共的平台中(redis)。
第三个问题：scrapy_redis已经实现了，重启爬虫不会从头开始重新爬取，而是会继续从队列中获取request。不用担心爬虫意外终止。

二.scrapy_redis第三方库实现分布的部署具体步骤如下
1.在虚拟环境中安装pip install redis
2.去github上搜索scrapy_redis库，下载后解压到桌面

下载地址:https://github.com/rmax/scrapy-redis

解压后找到C:\Users\Administrator\Desktop\scrapy-redis-master\scrapy-redis-master\src下的scrapy_redis,将该文件放到项目根目录下

项目结构如下:

根据提供的用例，配置我们的项目，大致三部分：

1)settings.py文件；
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }
    # myroot: 自定义的redis链接。IP：开启redis-server服务的这台电脑的IP
    REDIS_URL = 'redis://myroot:@192.168.70.205:6379'

    2)jobbole.py文件；
    from scrapy_redis.spiders import RedisSpider
    class JobboleSpider(RedisSpider):
       name = 'bole'
       allowed_domains = ['jobbole.com']
       # start_urls = ['http://blog.jobbole.com/all-posts/']

   # 添加键
       redis_key = 'jobbole:start_urls'

    3)有关数据库部分；
    安装MySQL的时候，默认生成的用户root只有本地登录权限localhost，如果需要远程连接MySQL，需要分配一个拥有远程连接权限的新用户。
    第一步：通过mysql -uroot -p登录MySQL服务。(默认支持的端口是3306,如果你的端口是其它的则需要指定即可)

    第二步：通过grant all privileges on *.* to 'myroot'@'%' identified by '123456';(注意一定要带上分号)。
    # *.* 表示所有数据库中的所有表，都能够被远程连接
    # '%' 表示任意IP都可以进行链接
    # 'myroot' 具有远程链接权限的用户名，自定义。之后就使用这个User进行链接数据库
    mysql->grant all privileges on *.* to 'myroot'@'%' identified by '123456'; 回车即可。
    然后在MySQL数据库中新建一个连接,将"主机名或IP地址"写成你的电脑的IP,将"用户名"写成myroot
    第三步：再去修改爬虫项目中有关数据库的配置。
    MYSQL_HOST = '192.168.70.205'
    MYSQL_DBNAME = 'article_db'
    MYSQL_USER = 'myroot'
    MYSQL_PASSWORD = '123456'
    MYSQL_CHARSET = 'utf8'

3.将配置好的项目，拷贝到不同的机器中；
4.选择其中一台机器，开启redis-server服务，并修改redis.windows.conf配置文件：

# 配置远程IP地址，供其他的电脑进行连接redis
bind: (当前电脑IP) 192.168.70.205

# 关闭redis保护模式
protected-mode: no

Redis安装卸载服务：https://www.cnblogs.com/oneTOinf/p/7928033.html

5.其中一台电脑启动redis-server服务
6.让所有爬虫项目都运行起来，由于没有起始的url，所有爬虫会暂时处于停滞状态
7.所有爬虫都启动之后，部署redis-server服务的电脑，通过命令

lpush bole:start_urls http://blog.jobbole.com/all-posts/

向redis的queue中添加起始的url,输入keys *后可以发现多了个"bole:start_urls";然后启动爬虫项目,输入keys *后可以发现多了个"bole:dupefilter".

注意:

如果通过命令lpush bole:start_urls http://blog.jobbole.com/all-posts/向redis的queue中添加起始的url后,启动爬虫项目发现迟迟不往下走,只需输入命令: del bole:dupefilter 后再重新添加起始的url,再次启动爬虫项目即可

8.所有爬虫开始运行，爬取数据，同时所有的数据都会保存到该爬虫所连接的远程数据库以及远程redis中

三.具体代码如下

#bole.py


import scrapy
from ..items import JobboleItem
from urllib.parse import urljoin
from scrapy.loader import ItemLoader
from scrapy_redis.spiders import RedisSpider


class BoleSpider(RedisSpider):
    name = 'bole'
    allowed_domains = ['jobbole.com']
    # start_urls = ['http://blog.jobbole.com/all-posts/page/559/']

    # 添加键
    redis_key = 'bole:start_urls'

    def parse(self, response):
        """
        解析列表页
        :param response:
        :return:
        """

        divs = response.xpath('//div[@id="archive"]/div[@class="post floated-thumb"]')
        for article_div in divs:
            # 获取class="post-thumb"的标签，如果有，说明这个文章含有图片，反之没有图片。
            img_src = urljoin('http://blog.jobbole.com', article_div.xpath('./div[@class="post-thumb"]/a/img/@src').extract_first(''))
            if img_src == 'http://blog.jobbole.com':
                img_src = 'https://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E5%BF%83%E6%80%81%E7%82%B8%E8%A3%82%E5%9B%BE%E7%89%87&hs=2&pn=0&spn=0&di=142010103620&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&ie=utf-8&oe=utf-8&cl=2&lm=-1&cs=1400778086%2C2582284514&os=1208831830%2C738191100&simid=0%2C0&adpicid=0&lpn=0&ln=30&fr=ala&fm=&sme=&cg=&bdtype=0&oriquery=%E5%BF%83%E6%80%81%E7%82%B8%E8%A3%82%E5%9B%BE%E7%89%87&objurl=http%3A%2F%2Fwww.tshyqs.com%2Fupload%2Fimg%2F14960294.jpg&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Bpfiyqf_z%26e3Bv54AzdH3Fvi7xtg2AzdH3F0lml9_z%26e3Bip4s&gsm=0&islist=&querylist='
            # 获取class="post-meta"内部的详情页地址
            detail_url = article_div.xpath('./div[@class="post-meta"]/p/a[@class="archive-title"]/@href').extract_first('')

            yield scrapy.Request(detail_url, callback=self.parse_detail_page, meta={'img_src': img_src})

        # 获取下一页的url地址
        # try:
        #     next_url = response.xpath('//a[contains(@class, "next")]/@href').extract_first('')
        # except:
        #     pass
        # else:
        #     yield scrapy.Request(next_url, callback=self.parse)

    def parse_detail_page(self, response):
        """
        解析详情页数据
        :param response:
        :return:
        """
        # 使用Item Loaders对Item数据进行提取和解析(整理)。作用：
        # 之前的方式，是将数据的提取和解析混合在一起，但是Item Loaders是将这两个部分分开处理了；
        # 爬虫文件bole.py中只负责数据的提取；
        # Items.py文件负责数据的整理；(可以实现数据解析代码的重用。相当于将功能相同的解析函数封装成为一个公用的函数，任何爬虫需要这个函数，都可以来调用。)

        # 1. 使关于数据的提取代码更加简洁，结构更加清晰；
        # 2. 可以实现数据解析(整理)部分的代码的重用；
        # 3. 提高代码的可维护性；

        """
        1. 当创建item对象(item=JobboleItem())的时候，会去Items.py文件中初始化对应的input/output_processor处理器； 
        2. 当item中的处理器初始化完成，回到bole.py爬虫文件中，创建item_loader对象；
        3. item_loader对象创建完成，开始通过add_xpath/add_css/add_value收集数据；
        4. 每收集到一个数据，就会将该数据传递给对应字段对应的input_processor绑定的函数进行数据的处理；数据处理完成，会暂时保存在ItemLoader中；
        5. 循环第4步，将每一个字段的数据提取并交给input_processor，直到所有数据提取完毕，所有数据都会被保存在ItemLoader中；
        6. 调用load_item()函数，给item对象进行赋值；
        """
        item_loader = ItemLoader(item=JobboleItem(), response=response)
        item_loader.add_xpath('title', '//div[@class="entry-header"]/h1/text()')
        item_loader.add_xpath('date_time', '//p[@class="entry-meta-hide-on-mobile"]/text()')
        item_loader.add_xpath('tags', '//p[@class="entry-meta-hide-on-mobile"]/a/text()')
        item_loader.add_xpath('content', '//div[@class="entry"]//text()')
        item_loader.add_xpath('zan_num', '//div[@class="post-adds"]/span[contains(@class, "vote-post-up")]//text()')
        item_loader.add_xpath('keep_num', '//div[@class="post-adds"]/span[contains(@class, "bookmark-btn")]/text()')
        item_loader.add_xpath('comment_num', '//div[@class="post-adds"]/a/span/text()')
        item_loader.add_value('img_src', [response.meta['img_src']])

        item = item_loader.load_item()
        yield item

#items.py


import scrapy,re
from datetime import datetime
from scrapy.contrib.loader.processor import Join, MapCompose, TakeFirst

def convert_datetime(value):
    # 将字符串类型转化成datetime类型
    value = value.replace('·', '').strip()
    try:
        # strptime(时间字符串，转化后的格式): 函数返回值是datetime类型的对象
        date_time = datetime.strptime(value, '%Y/%m/%d')
    except:
        # 如果转化失败，将当前时间作为默认值。
        date_time = datetime.now()

    return date_time

def convert_tags(value):
    # ['自由职业', '1 评论', '职业']
    # 过滤 "评论"
    if "评论" in value:
        return ""
    return value

def zan_number(value):
    if value.strip() != "":
        pattern = re.compile(r'\d+')
        num = re.findall(pattern, value)
        if num:
            num = int(num[0])
        else:
            num = 0
        return num

def get_number(value):
    # 提取评论、点赞数
    pattern = re.compile(r'\d+')
    num = re.findall(pattern, value)
    if num:
        num = int(num[0])
    else:
        num = 0
    return num

def process_image(value):
    # 拼接图片地址
    return value


class JobboleItem(scrapy.Item):
    title = scrapy.Field(
        # MapCompose映射类，可以将ItemLoader传递过来的列表中的元素，依次作用到test_title函数上，类似于map()函数。
        # input_processor=MapCompose(input_test_title),
        # Join(): 对列表进行合并，add_xpath/add_css/add_value传过来的列表数据。
        output_processor=TakeFirst()
    )
    date_time = scrapy.Field(
        input_processor=MapCompose(convert_datetime),
        # TakeFirst(): 获取列表中的首个元素
        output_processor=TakeFirst()
    )
    tags = scrapy.Field(
        input_processor=MapCompose(convert_tags),
        # 覆盖默认的default_output_processor = TakeFirst()
        output_processor=Join()
    )
    content = scrapy.Field(
        output_processor=Join()
    )
    zan_num = scrapy.Field(
        # ['', '1', ' 赞']
        input_processor=MapCompose(zan_number),
        output_processor=TakeFirst()
    )
    keep_num = scrapy.Field(
        input_processor=MapCompose(get_number),
        output_processor=TakeFirst()
    )
    comment_num = scrapy.Field(
        input_processor=MapCompose(get_number),
        output_processor=TakeFirst()
    )
    # 图片的源地址
    img_src = scrapy.Field()
    # 图片在本地的下载路径, 该字段只有在图片下载完成以后，才能进行赋值。
    img_path = scrapy.Field()

#pipelines.py



from scrapy.pipelines.images import ImagesPipeline


class JobbolePipeline(object):
    def process_item(self, item, spider):
        return item


# 定义处理图片的Pipeline
class ImagePipeline(ImagesPipeline):
    # 图片下载完成以后的调用方法。
    def item_completed(self, results, item, info):
        print('---',results)
        # return item
        # 如果图片能够下载成功，说明这个文章是有图片的。如果results中不存在path路径，说明是没有图片的。
        # [(True, {'path': ''})]
        if results:
            try:
                img_path = results[0][1]['path']
            except Exception as e:
                print('img_path获取异常，',e)
                img_path = '没有图片'
        else:
            img_path = '没有图片'

        # 对item对象中的img_path进行赋值
        item['img_path'] = img_path

        # 判断完成，需要将变量img_path重新保存到item中。

        return item


# 数据库pymysql的commit()和execute()在提交数据时，都是同步提交至数据库，由于scrapy框架数据的解析和异步多线程的，所以scrapy的数据解析速度，要远高于数据的写入数据库的速度。如果数据写入过慢，会造成数据库写入的阻塞，影响数据库写入的效率。
# 通过多线程异步的形式对数据进行写入，可以提高数据的写入速度。
from pymysql import cursors

# 使用twsited异步IO框架，实现数据的异步写入。
from twisted.enterprise import adbapi


class MySQLTwistedPipeline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls, settings):
        params = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DB'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset=settings['MYSQL_CHARSET'],
            port=settings['MYSQL_PORT'],
            cursorclass=cursors.DictCursor,
        )
        # 初始化数据库连接池(线程池)
        # 参数一：mysql的驱动
        # 参数二：连接mysql的配置信息
        dbpool = adbapi.ConnectionPool('pymysql', **params)
        return cls(dbpool)

    def process_item(self, item, spider):
        # 在该函数内，利用连接池对象，开始操作数据，将数据写入到数据库中。
        # pool.map(self.insert_db, [1,2,3])
        # 同步阻塞的方式： cursor.execute() commit()
        # 异步非阻塞的方式
        # 参数1：在异步任务中要执行的函数insert_db；
        # 参数2：给该函数insert_db传递的参数
        query = self.dbpool.runInteraction(self.insert_db, item)

        # 如果异步任务执行失败的话，可以通过ErrBack()进行监听, 给insert_db添加一个执行失败的回调事件
        query.addErrback(self.handle_error)

        return item

    def handle_error(self, field):
        print('-----数据库写入失败：',field)

    def insert_db(self, cursor, item):
        insert_sql = "INSERT INTO bole(title, date_time, tags, content, zan_num, keep_num, comment_num, img_src, img_path) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)"
        cursor.execute(insert_sql, (item['title'], item['date_time'], item['tags'], item['content'], item['zan_num'], item['keep_num'], item['comment_num'], item['img_src'], item['img_path']))

        # 在execute()之后，不需要再进行commit()，连接池内部会进行提交的操作。

#settings.py



BOT_NAME = 'jobbole'

SPIDER_MODULES = ['jobbole.spiders']
NEWSPIDER_MODULE = 'jobbole.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'jobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'jobbole.middlewares.JobboleSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'jobbole.middlewares.JobboleDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
# ITEM_PIPELINES = {
#     'scrapy.pipelines.images.ImagesPipeline': None,
#     'jobbole.pipelines.ImagePipeline': 300,
#     'jobbole.pipelines.MySQLTwistedPipeline': 301,
# }

IMAGES_STORE = 'imgs'
IMAGES_URLS_FIELD = 'img_src'

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

# 配置HOST为局域网IP，或者公网IP。
MYSQL_HOST = '192.168.70.205'
MYSQL_DB = 'jobbole'
MYSQL_USER = 'myroot'
MYSQL_PASSWD = '123456'
MYSQL_CHARSET = 'utf8'
MYSQL_PORT = 330

# 配置scrapy_redis第三方库

# 所有电脑配置调度器，这个调度器重写了scrapy框架内置的调度器。
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 所有电脑配置去重，这个也是重写了scrapy内置的去重。
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 所有电脑配置redis的连接地址，设置局域网IP或者公网IP，保证所有电脑都能连接到同一个redis。6379是redis的默认端口号。
# redis数据库默认只允许本地连接localhost，如需配置远程连接，需要修改redis的配置文件。修改完成以后，要重启redis-server服务。

# 1. (A B C) 如果用的是局域网部署的分布式，选择其中一台电脑(A)开启redis-server服务，REDIS_URL就配置成A电脑的局域网IP地址。如果B电脑开启redis-server->REDIS_URL B电脑的IP地址。
# 2. (A B C) 如果用的是公网IP(阿里云)，那么所有电脑都不需要开启redis-server服务，只需要将REDIS_URL的主机地址配置成公网IP即可。
REDIS_URL = 'redis://myroot:@192.168.70.205:6379'




# 可以配置，也可以不用配置。如果配置的话：所有下载的item，除了会被保存在数据库MySQL中，还会被保存在Redis数据库中。没有配置：所有的item不会存储在Redis数据库中。
# ITEM_PIPELINES = {
#     'scrapy_redis.pipelines.RedisPipeline': 300
# }

Python3 爬虫 Scrapy 与 Redis 大秦重工爬虫 scrapy redis
Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来。因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。一、Scrapy_redis的安装和使用Scrapy自带的待爬队列是deque，而现在需要使用Redis来作为队列，所以就需要将原来操作deque的方法替换为操作R
爬虫必备scrapy-redis详解 ylfhpy 爬虫项目入门爬虫 scrapy redis python 数据库 ip代理池分布式
一、概述1.1定义Scrapy-Redis是基于强大的Python爬虫框架Scrapy开发的分布式爬虫组件。它巧妙地借助Redis数据库，实现了请求对象的持久化存储、请求去重的持久化管理以及分布式爬取功能。这使得原本在单节点运行的Scrapy爬虫能够在多个节点上并行工作，极大地提升了爬取效率和处理大规模数据的能力。1.2功能分布式爬取：Scrapy-Redis允许将爬取任务分配到多个爬虫节点上同时
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫（期末重点题目）一口酪 python scrapy
第一章网络爬虫又称网页蜘蛛或（网络机器人）网络爬虫能够按照一定的（规则），自动请求万维网站并提取网络数据爬虫是手动请求万维网网站且提取网页数据的程序。（×）爬虫爬取的是网站后台的数据。（×）通用爬虫用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。（√）简答题：简述通用爬虫和聚焦爬虫。1.通用爬虫又称全网爬虫，主要用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦网络爬
第三十天：Scrapy 框架-分布式穿梭的编织者 Python爬虫训练营 scrapy 分布式爬虫
文章目录一、介绍scrapy-redis框架二、分布式原理三、分布式爬虫的实现四、scrapy-redis框架的安装五、部署scrapy-redis六、给爬虫增加配置信息七、运行程序八、数据导入到mongodb中九、数据导入到MySQL中十、setting文件配置一、介绍scrapy-redis框架scrapy-redis一个三方的基于redis的分布式爬虫框架，配合scrapy使用，让爬虫具有了
解锁数据抓取新高度：Python 分布式爬虫与逆向进阶实战课七七知享 Python从入门到精通 python 分布式爬虫数据结构个人开发职场和发展学习方法
在数据为王的当下，高效获取有价值的数据是众多开发者的核心诉求。《Python分布式爬虫与逆向进阶实战》课程，堪称数据抓取领域的宝藏指南。课程专注于前沿技术，深入剖析分布式爬虫原理，教你如何巧妙构建分布式爬虫架构，突破大规模数据爬取的效率瓶颈，让数据收集如虎添翼。同时，逆向进阶部分更是一大亮点。它带领开发者深入钻研反爬虫机制，传授如何通过逆向思维与技术手段，精准破解各类复杂的反爬策略，确保爬虫稳定运
Go 语言中常用的爬虫框架和工具库 iuhart Go 笔记 golang 爬虫开发语言
以下是Go语言中常用的爬虫框架和工具库，涵盖从轻量级解析到分布式爬虫的多种场景，供参考：1.主流爬虫框架(1)CollyGitHub:https://github.com/gocolly/colly特点：轻量级、高性能，基于回调函数设计。支持分布式、速率限制、自动Cookie管理。内置HTML解析（支持CSS选择器）。适用场景：中等规模网站爬取，适合需要灵活控制的开发者。示例代码：packagem
分布式爬虫场景下代理IP负载均衡的实战优化指南 http
在数据采集项目中，分布式节点搭配代理IP的组合方案已成为行业标配。但随着业务规模扩大，许多开发者发现，单纯堆砌代理IP资源并不能有效提升爬虫效率——关键在于如何让数百个代理IP在分布式节点间实现智能调度。本文将从实际运维经验出发，分享可落地的负载均衡优化方案。一、节点健康检查机制搭建代理IP的有效性直接决定采集成功率。建议每个分布式节点配置独立检测模块，在发起请求前对代理IP进行三层验证：基础连通
【Python爬虫(37)】解锁分布式爬虫：原理与架构全解析奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、走进分布式系统1.1分布式系统的定义与特点1.2分布式系统的核
【Python爬虫(44)】分布式爬虫：筑牢安全防线，守护数据之旅奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言安全
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、防范分布式爬虫遭受DDoS攻击2.1设置防火墙2.2使
Python网络爬虫技术详解与实践懒癌弓箭手起源
本文还有配套的精品资源，点击获取简介：随着信息技术的发展，网络数据获取和处理变得至关重要。Python以其强大的库支持和简洁语法，成为开发网络爬虫（Spider）的首选工具。本文详细介绍了Python爬虫的基本原理、常用库、实战技巧，框架构建，数据存储，反爬策略，多线程/异步处理，分布式爬虫等关键技术点，并通过新闻网站、电商平台和社交媒体数据爬取的实战案例，阐述了Python爬虫在数据分析和研究中
探秘PSPider：一款强大的Python爬虫框架马冶娆
探秘PSPider：一款强大的Python爬虫框架pspider一个简单的分布式爬虫框架项目地址:https://gitcode.com/gh_mirrors/pspi/pspider项目简介是一个基于Python构建的分布式网络爬虫框架，专为数据挖掘和信息提取而设计。该项目旨在简化网络爬虫的开发过程，让开发者可以更专注于业务逻辑，而非底层的并发处理和数据存储。通过提供清晰的API接口和灵活的插件
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫（选择题、填空题、判断题）（第1、2、3、4、5、6、7、10、11章）一口酪 python 爬虫 scrapy
第一章【填空题】网络爬虫又称网页蜘蛛或（网络机器人）网络爬虫能够按照一定的（规则），自动请求万维网站并提取网络数据。根据使用场景的不同，网络爬虫可分为（通用爬虫）和（聚焦爬虫）两种。爬虫可以爬取互联网上（公开）且可以访问到的网页信息。【判断题】爬虫是手动请求万维网网站且提取网页数据的程序。×爬虫爬取的是网站后台的数据。×通用爬虫用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。√聚焦爬
Python爬虫：分布式爬虫架构与Scrapy-Redis实现挖掘机技术我最强爬虫专栏 python 爬虫分布式
摘要在面对大规模的数据爬取任务时，单台机器的爬虫往往效率低下且容易受到性能瓶颈的限制。分布式爬虫通过利用多台机器同时进行数据爬取，可以显著提高爬取效率和处理能力。本文将介绍分布式爬虫的架构原理，并详细讲解如何使用Scrapy-Redis实现分布式爬虫。一、引言随着互联网数据量的持续增长，许多爬虫任务需要处理海量的网页数据。单台机器的资源有限，在面对大规模爬取任务时，可能会出现爬取速度慢、内存不足等
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
Go分布式爬虫笔记（五）_golang分布式爬虫架构 2401_87198107 golang 分布式爬虫
系统级别优化与架构设计：如何对服务进行拆分如何将服务链接在一起服务调用的关系以及调用频率各种问题：如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到
分布式爬虫那些事儿 AI航海家(Ethan) 爬虫 python 分布式爬虫
什么是分布式爬虫？假设你有一群小伙伴，他们每个人都在帮你剥花生壳，然后把剥好的花生仁都丢到你面前的盘子里。分布式爬虫也差不多，许多台电脑一起上阵，各自负责去同一个网站获取数据，这叫建立一个分布式机群。为什么要用分布式？你一个人剥花生，速度自然慢。如果有一大堆人帮你，速度嗖嗖的上升。同理，为了提升爬取数据的效率，我们就用分布式爬虫。怎么实现分布式爬虫？我们用scrapy+redis，具体是通过scr
爬虫分布式框架PySpider 菠菜很好吃 python 爬虫分布式
介绍PySpider是一个基于Python的分布式爬虫框架，它以其强大的功能和灵活性在数据爬取领域得到广泛应用。以下是对PySpider的详细介绍：一、PySpider的特点分布式部署：PySpider支持分布式部署和任务调度，可以通过配置多个爬虫节点来实现高并发的爬取任务，提高爬取效率和可靠性。高效异步爬取：PySpider使用异步网络库（如Tornado、gevent等）来实现并发请求，能够显
Scrapy框架爬虫教程——入门篇杨胜增 scrapy 爬虫
Scrapy框架爬虫教程——入门篇目录大纲：1.什么是Scrapy框架？1.1Scrapy简介爬虫框架的定义与作用为什么选择Scrapy？与其他爬虫框架（如BeautifulSoup、Selenium等）的对比1.2Scrapy的优势高效的网络请求处理灵活的爬取策略强大的数据处理功能内置的分布式爬虫支持2.安装与环境搭建2.1安装Python及相关工具安装Python及版本要求推荐使用的开发环境（
Go分布式爬虫笔记（五）_golang分布式爬虫架构 X_Pqk golang 分布式爬虫
如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到的数据不是最新写入的数据，那么就一定能设计出比强一致性读取响应延迟更低的系统。服务治理：监控、告警
Go分布式爬虫笔记(八)_golang分布式爬虫 2401_87299701 golang 分布式爬虫
+爬虫引擎为基础的推送系统+提供-快速的热点事件-事件预警用户需求快速了解自己感兴趣的最新新闻事件预警机制帮助快速决策功能需求用户填写或选择自己感兴趣的话题、感兴趣的网站还有消息接受频率用户接收最新热点事件的推送用户通过点击获取与该事件关联的事件，并得到相关的事件预测、预警，甚至可能在网站中进行快速的交易用户可以查看历史记录，可视化呈现某一个事件的来龙去脉，并进行复盘产品需求前端页面设计用户交互设
Python 网络爬虫高级教程：分布式爬取与大规模数据处理 Milk夜雨 python python 爬虫网络
经过基础爬虫和进阶爬虫的学习，我们已经掌握了爬虫的基本原理、动态内容处理及反爬机制的应对。然而，当我们面对海量数据或需要高效爬取多个站点时，分布式爬虫和数据存储、处理能力就显得尤为重要。本篇博客将带你迈向网络爬虫的高级阶段，学习分布式爬取、大规模数据处理以及性能优化。一、分布式爬虫的概念1.什么是分布式爬虫？分布式爬虫是指通过多个节点协作完成大规模网页爬取任务的爬虫架构。它能有效解决以下问题：单台
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
2024年Python最新Python爬虫教程-新浪微博分布式爬虫分享(2) 2401_84584682 程序员 python 爬虫新浪微博
开发语言：Python2.7开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。数据库：MongoDB3.2.0、Redis3.0.501（Python编辑器：Pycharm；MongoDB管理工具：MongoBooster；Redis管理工具：RedisStudio）爬虫框架使用Scrapy，使用scrapy_redis和Redis实现分布式。分布式中有一台机充当Maste
python分布式集群ray_GitHub - Leesire-Python/jd_spider: 两只蠢萌京东的分布式爬虫. weixin_39781930 python分布式集群ray
使用scrapy,scrapy-redis,graphite实现的京东分布式爬虫，以mongodb实现底层存储。分布式实现，解决带宽和性能的瓶颈，提高爬取的效率。实现scrapy-redis对进行url的去重以及调度，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善版本支持现在支持Py2和Py3,但是需要注
Scrapy与分布式开发(1.1)：课程导学九月镇灵将打造高效爬虫系统 scrapy 分布式 python 爬虫
Scrapy与分布式开发：从入门到精通，打造高效爬虫系统课程大纲在这个专栏中，我们将一起探索Scrapy框架的魅力，以及如何通过Scrapy-Redis实现分布式爬虫的开发。在本课程导学中，我们将为您简要介绍课程的学习目标、内容安排以及学习方法，帮助您更好地了解本专栏的学习框架和重点。学习目标掌握网页抓取核心技术与知识，包括常用请求库、提取库；掌握Scrapy框架的基础知识和核心功能，包括爬虫设计
游戏行业洞察：分布式开源爬虫项目在数据采集与分析中的应用案例介绍思通数科x 游戏网络爬虫爬山算法爬虫
前言我在领导一个为游戏行业巨头提供数据采集服务的项目中，我们面临着实时数据需求和大规模数据处理的挑战。我们构建了一个基于开源分布式爬虫技术的自动化平台，实现了高效、准确的数据采集。通过自然语言处理技术，我们确保了数据的质量和一致性，并采用分布式架构大幅提升了处理速度。最终，我们的解决方案不仅满足了客户对实时市场洞察的需求，还推动了整个游戏行业的数据驱动决策能力。在我作为项目经理、客户经理和产品经理
基于python的分布式爬虫框架_基于scrapy-redis的通用分布式爬虫框架 summer_ccs
spiderman基于scrapy-redis的通用分布式爬虫框架目录demo采集效果爬虫元数据cluster模式standalone模式kafka实时采集监控功能自动建表自动生成爬虫代码，只需编写少量代码即可完成分布式爬虫自动存储元数据，分析统计和补爬都很方便适合多站点开发，每个爬虫独立定制，互不影响调用方便，可以根据传参自定义采集的页数以及启用的爬虫数量扩展简易，可以根据需要选择采集模式，单机
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

scrapy-redis分布式爬虫

你可能感兴趣的:(scrapy-redis分布式爬虫)