BRSGengetsu

Scrapy学习笔记（4）—Spider

本笔记介绍几种spider，分别是basic（默认Spider）、CrawlSpider、XMLFeedSpder、CSVFeedSpider四种，以及另外一种SitemapSpider

Spider

Spiders这个类定义如何爬取网页，包括如何执行爬虫，比如说追踪链接（follow links），和如何提取网页结构数据（比如爬取items），换句话说，Spiders就是定义爬虫行为和解析特定网页（一堆网页）的类。对于爬虫来说，爬取步骤基本如下：

从初始的网页开始，到回调（callback）解析方法（parse），然后response就从这些请求中下载。第一个请求（或第一批）传入start_requests() 方法通过特定的start_urls 属性发出请求并且利用parse() 方法回调；
在callback方法中，你需要将从网页爬下来的数据、Item对象、Request对象、或者可迭代的（interable）这些对象之中的一个或多个以dict（字典）形式返回.然后这些请求可能也会包含callback并且也会被scrapy下载接着被回调。
在回调方法中，使用Selectors解析网页的内容，CSS、XPath、BeautifulSoup、正则表达式、lxml等等都可以选择
最后，items将从spider送到database(比如item pipelines)或者使用Feed exports输出到文件中

这种过程适用于所有爬虫，之后会介绍四种默认的爬虫basic、crawl、csvfeed、xmlfeed和一种基于sitemap的爬虫。

scrapy.Spider

class scrapy.spiders.Spider

这是最简单的爬虫basic，所有的爬虫类都必须继承（inherit）这个类。它不提供任何特殊的方法，它只提供默认的start_requests()从start_urls这个属性发出请求并且调用parse方法获得响应（response）

name
定义爬虫名称的字符串。name决定爬虫如何被scrapy部署（实例化），所以它必须是独一无二的，但是没有什么可以阻止你实例化多个相同的爬虫实例。name是最重要的爬虫属性
如果一个爬虫爬取单独的domain（域名），这个爬虫的name最好和域名保持一致，比如说要爬取“baidu.com”这个域名，它的name应该被命名为baidu。
allowed_domains
一个可选的字符串列表包含一些允许爬虫爬取的域名。不属于这些域名的url链接不会被爬虫爬取，除非OffsiteMiddleware被使用。
比如说你打算爬取https://www.example.com/1.html，那么你就可以加上example.com到allowed_domain中，你的爬虫就只会爬取域名为example.com的链接。
start_urls
当没有特定的url链接被指定时，一个爬虫爬取的初始URL列表就是start_urls。随后的url陆续地从这个列表中生成。
custom_settings
自定义的设置属性，字典形式，执行该爬虫时它将会覆盖settings.py中的设置。在实例化之前它将被定义为类属性。具体定义等讲settings之后就明白了。
crawler
这个属性从实例化该类后的from_crawler()类方法中设置，这个属性将会连接到Crawler对象然后绑定这个爬虫。
Crawler在项目中封装了许多组件，用于它们的单个条目访问（例如extensions、middlewares、signals managers等等）。具体等讲到Crawler API。
settings
用于设置爬虫
logger
使用爬虫的name创建的Python日志记录器。你可以使用它来发送日志消息。
from_crawler(crawler, *args, **kwargs)
用来创建爬虫的类方法。
你可能不需要直接重写这个方法，因为默认的实现__init__()方法的代理，用给定的参数args和命名参数kwargs来调用它。尽管如此，这个方法在新实例中设置了crawler和settings属性，以便稍后在爬虫代码中访问它们。
参数：
- crawler(Crawler实例)：绑定爬虫的crawler
- args（list）：传给__init__()方法的参数
- kwargs(dict)：传给__init__()方法的关键字参数
start_requests()
这个方法必须返回一个可迭代的Requests。当爬虫执行时被Scrapy调用。Scrapy只调用一次，所以将这个方法作为生成器实现是很安全的。
默认的实现对start_urls中的每个url链接生成Request(url, dont_filter=True)
如果你想要更改用于开始抓取某个域名的请求，重写该方法即可。

例子：

import scrapy

class MaterialSpider(scrapy.Spider):
    name = 'material' # 一个项目中独一无二的爬虫名字

    def start_requests(self):
        urls = [
            'http://588ku.com/pt/chengshi.html',
            'http://588ku.com/pt/lvxing.html'
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split('/')[-1][:-5]
        filename = 'material-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

parse(response)
这是默认的回调方法，用来处理响应（response）。
parse方法用来管理处理响应并且返回爬取到的数据或者更多的URL链接来follow，其中，数据必须以字典的形式返回，或者返回Item对象，返回的Request必须是可迭代的，可以在for循环中使用yield来返回。其他的Requests回调方法有同样的要求。
参数：
- response(Response对象)：需要解析的响应
log(message[, component])
通过爬虫的logger发送日志消息的包装器（Wrapper），保持向后兼容性。
closed(reason)
当关闭爬虫时调用。这个方法提供一个捷径来作为spider_closed signal调用signals.connect()方法。
例子1：

import scrapy

class BilibiliSpider(scrapy.Spider):
    name = 'bilibili.com'
    allowed_domains = ['bilibili.com']
    start_urls = [
        'https://www.bilibili.com/video/music.html',
        'https://www.bilibili.com/video/douga.html',
        'https://www.bilibili.com/video/game.html'
    ]

    def parse(self, response):
        self.logger.info('网页 %s 的内容提取成功！', response.url)

例子2，从一个callback返回多个Request和item：

import scrapy

class BilibiliSpider(scrapy.Spider):
    name = 'bilibili.com'
    allowed_domains = ['bilibili.com']
    start_urls = [
        'https://www.bilibili.com/video/music.html',
        'https://www.bilibili.com/video/douga.html',
        'https://www.bilibili.com/video/game.html'
    ]

    def parse(self, response):
        for title in response.xpath('//p[@class="title"]/text()').extract():
            yield {
                'title': title
                }

        for url in response.xpath('//*[@id="primary_menu"]/ul/li/a/@href').extract():
            url = 'https://' + url
            yield scrapy.Request(url, callback=self.parse)

Spider arguments

爬虫可以接收参数来规范它们的行为。对于爬虫参数的一些常见用途是定义初始的url链接或将爬虫限制到站点的某些部分，但是它们可以用于配置爬虫的任何功能。
爬虫参数通过crawl -a命令来传达，用法：
scrapy crawl -a NAME=VALUE

爬虫可以在他们的__init__()中访问参数，例如：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    def __init__(self, category=None, * args, ** kwargs):
        super(MySpider, self).__init__( * args, ** kwargs)
        self.start_urls = ['http://www.example.com/categories/%s' % category]
        # ...

就可以在执行crawl命令的时候利用-a给category传参数：
scrapy crawl myspider -a category=electronics

默认的__init__()方法将获得任何的参数并且复制他们给爬虫作为参数，比如你可以这样写：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'

    def start_requests(self):
        yield scrapy.Request('http://www.example.com/categories/%s' % self.category)

不过你要记住，传给爬虫的参数都是字符串，爬虫不会给你解析参数的类型，所以如果你传给它的是start_url，你将不得不亲自解析它，把它变成列表，利用ast.literal_eval或者json.loads然后将它变成参数。否则，你将对一个字符串进行迭代导致一个字符被视为一个url链接，肯定爬不出来什么东西，所以要注意。

一个重要的情况是设置HttpAuthMiddleware使用的http身份验证凭证（http auth credentials）或 UserAgentMiddleware使用的user agent：
scrapy crawl myspider -a http_user=myuser -a http_pass=mypassword -a user_agent=mybot

爬虫参数也可以通过爬取的 schedule.json API 传递。

通用的 Spiders

Scrapy提供了一些通用的爬虫你可以通过继承他们来使用。主要目的就是为了方便，为那些常见、通用的情况提供便利的方法，比如基于一些特定的rules爬取、从Sitemaps爬取或解析XML/CSV来爬取网站的所有链接并且follow他们。

接下来的例子要先在items.py中定义如下：

import scrapy

class HelloprojectItem(scrapy.Item):
    id = scrapy.Field()
    name = scrapy.Field()
    description = scrapy.Field()

CrawlSpdiers

class scrapy.spiders.CrawlSpider

这是最常见的用来爬普通网页的爬虫，因为它通过定义一组规则为接下来的链接提供了一种方便的机制。它可能不是最适合爬取你指定网页或项目的爬虫，但在几种情况下，它是通用的，所以你可以从它开始，根据你的需要重写它的方法来更加自定义化。
除了从Spider继承的属性以外，这个类支持一个新的属性，rules：

rules
包含一个或多个Rule对象的列表。每个Rule对象定义了爬取网页的一种行为，规则对象将在下面介绍。根据它们在这个属性中定义的顺序来逐个实现，如果多个规则匹配相同的链接，那么第一个规则将被使用。

这个类有一个可以重写的方法：

parse_start_url(response)
这个方法用来调用start_urls的响应（response）。它允许解析初始的响应并且必须返回Item对象或者Request对象，或者两者中可以迭代的对象。

Crawling rules

类：class scrapy.spiders.Rule(link_extractor, callback=None, follow=None, process_link=None, process_request=None)

link_extractor
link_extractor是一个Link Extractor对象，定义了从每次爬取的页面中提取链接的行为，下面会细讲。
callback
callback后加可调用的方法的名字，用来调用每一个被指定的link_extractor提取的链接（在这种情况下，使用该名称的爬虫对象的方法将被使用，和之前用过的callback=self.parse一个道理，但是请注意！！！看下面的Warning↓）。callback接收response作为它的第一个参数，并且必须返回包含Item对象**and/or**Request对象

Warning：当你要写rules的时候，请避免使用parse作为回调函数，因为CrawlSpider用parse方法本身来实现这种逻辑。

cb_kwargs
cb_kwargs是一个字典，它包含了要传给callback函数的关键字参数（keyword arguments）
follow
follow是一个布尔型变量，指定出用此rule顺着爬出来的链接是否要继续爬下去如果callback是None，则follow默认是True，否则它默认是False
process_links
process_links是可调用的，或者是字符串(在这种情况下，使用该名称的、爬虫对象的方法将被使用)，它将使用指定的link_extractor从每个响应中提取出的每个链接列表。这主要用于过滤（filtering）目的。
process_request
process_request是一个可调用的或一个字符串(在这种情况下，使用该名称的、爬虫对象的方法将被使用)，它将调用通过rule所提取的每个请求，并且必须返回一个request或None(以过滤request)。

CrawlSpider 例子

让我们看一个有rules的CrawlSpider的例子：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class MyspiderSpider(CrawlSpider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from the, (since no callback means follow=True by default).
        Rule(LinkExtractor(allow=('category\.php', ), deny=('subsection\.php', ))),

        # Extract links matching 'item.php' and parse them with the spider's method parse_item
        Rule(LinkExtractor(allow=('item\.php', )), callback='parse_item'),
    )

    def parse_item(self, response):
        self.logger.info('Hi, this is an item page! %s', response.url)
        item = scrapy.Item()
        item['id'] = response.xpath('//td[@id="item_id"]/text()').re(r'ID: (\d+)')
        item['name'] = response.xpath('//td[@id="item_name"]/text()').extract()
        item['description'] = response.xpath('//td[@id="item_description"/text()').extract()
        return item

这个爬虫将开始爬取example.com的主页，收集category的链接和item链接，通过parse_item解析。对于每一个item response，一些数据将会从HTML中用XPath提取，并且Item将被它填充。

Link Extractors

Link extractors对象专门用来解析网页链接，用于CrawlSpider爬虫，当然你也可以单独使用在你的爬虫里。

其中的extract_links方法接收一个Response对象并且返回由scrapy.link.Link对象组成的列表。Link Extractors实例化一次要调用几次extract_links()根据不同的Response来解析不同的链接。

scrapy默认的link extractor是LinkExtractor，它和LxmlLinkextractors一样。

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(),
    restrict_xpaths=(), tags=('a', 'area'), attrs=('href',), canonicalize=False, 
    unique=True, process_value=None, deny_extensions=None, restrict_css=(), strip=True)

LxmlLinkExtractor是推荐使用的链接提取器，它是用lxml的 HTMLParser实现的。

参数

allow （单独的正则表达式或者列表的正则表达式）
它用来匹配链接，没有匹配到的链接就扔掉。如果为空，或者没有这个参数，它将匹配所有的链接
deny （一个或一列表正则表达式）
如果匹配到链接，它将排除（exclude）该链接，否则不排除，deny参数优先于allow参数。
allow_domains （字符串或列表）
包含的域名将被解析来提取链接，不包含的不会提取。
deny_domains （字符串或列表）
所包含的域名不会被解析。
deny_extensions（列表）
单个的值或者一列表的字符串，在解析链接时会把包含这些字符串的链接无视掉。
restrict_xpaths（字符串或列表）
用XPath定义的区域，链接将在这个区域被解析出来。
restrict_css（字符串或列联表）
用CSS 选择器定义的区域，链接将在这个区域被解析出来
tags（字符串或列表）
一个或一列表的标签(tag)在解析链接时需要考虑。默认的是tag=(‘a’, ‘area’)
attrs（列表）
一个或由属性组成的列表（只会作用于指定的tag中的属性）在解析链接的时候会被考虑。默认的是attrs=(‘href’,)
canonicalize（boolean变量）
使用w3lib.url.canonicalize_url来规范每个提取的链接，默认False。它是用来重复检查的，它可以更改服务器端可见的URL，因此对于具有规范化和原始URL的请求，其响应可能不同。如果你使用LinkExtractor来提取链接，那最好将它设置为默认的False。
unique（boolean变量）
是否应该对爬取的链接进行重复过滤，正如它的意思一样——独一无二！
process_value（callable可调用的函数）
接收每个从标签和属性中提取出的值并且修改这个值然后返回一个新的值，或者返回None来完全无视这个链接。如果没有设置，它默认是lambda x: x（意思就是返回本身，可以百度lambda）。举个例子：
比如这个链接：

"javascript:goToPage('../other/page.html'); return false">Link text

你可以定义如下方法：

def process_value(value):
    m = re.search("javascript:goToPage\('(.*?)'", value)
    if m:
        return m.group(1)

来匹配单引号中的网址。

strip（boolean变量，默认是True）
是否从提取的属性中删除whitespaces（比如空格、换行、空行）。根据HTML5的标准，在开头、结尾的空行必须从某些元素中去除，比如、 标签的href属性，标签的src属性，</code>元素等等。所以LinkExtractor默认是去除空行的。不过你可以将它设置为False（比如你爬取一些允许有空格的网站，这种情况可以设置为False）</li> </ul> <h1 id="xmlfeedspider">XMLFeedSpider</h1> <h3 id="介绍">介绍</h3> <p><code>class scrrapy.spiders.XMLFeedSpider</code> <br> XMLFeedSpider被设计用于通过迭代某个确定的节点来解析XML源(XML feed)。迭代器可以从<strong>iternodes</strong>、<strong>xml</strong>、<strong>html</strong> 中选择。从性能角度一般推荐<strong>iternodes</strong>。因为xml和html迭代器一次生成整个DOM（文档对象模型Document Object Model）来解析。然而，使用html作为迭代器解析XML时对付错的markup会很有用。</p> <p>为了设置迭代器和标签名，你必须定义下列类属性：</p> <ul> <li><strong>iterator</strong> 定义迭代器的字符串。它可以是下列的一种（默认iternodes）： <br> <ul> <li><em>iternodes</em> 基于正则表达式（regex）高速的迭代器</li> <li><em>html</em> 使用选择器（Selector）的迭代器。要记住：它使用DOM来解析并且必须将所有的DOM载入内存，当要解析的数据非常大时，会造成很大的麻烦。</li> <li><em>xml</em> 使用选择器（Selector）的迭代器。要记住：它使用DOM来解析并且必须将所有的DOM载入内存，当要解析的数据非常大时，会造成很大的麻烦。（你没看错，和上面的描述一样）</li> </ul></li> <li><strong>itertag</strong> 要迭代的结点（或元素）的名字（字符串）。比如：<br><code>itertag = 'product'</code></li> <li><strong>namespaces</strong> 由<code>(prefix, uri)元组</code>组成的列表，定义了在该文档（document）中将被spider处理的、可用的namespaces。<code>prefix</code>和<code>uri</code>会自动地被<code>register_namespace()</code>方法调用。（PS:可以手动百度uri与url的区别）例子：<br></li> </ul> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">YourSpider</span><span class="hljs-params">(XMLFeedSpider)</span>:</span> namespaces = [(<span class="hljs-string">'n'</span>, <span class="hljs-string">'http://www.sitemaps.org/schemas/sitemap/0.9'</span>)] itertag = <span class="hljs-string">'n:url'</span> <span class="hljs-comment"># ...</span></code></pre> <p>除了这些新的属性，这个爬虫也有下列可重写的方法：</p> <ul> <li><strong>adapt_response(response)</strong> response一到达middleware，该方法就调用它，也就是在Spider解析前，先经过该方法处理。它用来在spider解析前修改response的body。这个方法接收一个response也返回一个response（可以和之前的response一样或者有所修改）</li> <li><strong>parse_node(response, selector)</strong> 这个方法在匹配提供的标签名（itertag）时被调用。接收response和一个匹配结点的选择器（Selector）。强制（mandatory强制的）重写该方法。否则你的爬虫不会工作。这个方法必须返回一个<code>Item对象</code>、<code>Request对象</code>或者一个包含两者之一的迭代器。</li> <li><strong>process_results(response, results)</strong> 这个方法在处理spider返回的每个结果（item或者request）时被调用，并且在向框架核心（framework core）返回结果之前它将要执行最后一次的处理请求，比如设定item的ID。它接收一个结果（item或request）的列表和从这些结果产生的response。它必须返回一个结果的列表（Items或Requests）</li> </ul> <h3 id="例子">例子</h3> <p>这些爬虫很好用，让我们看一个例子：</p> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-comment"># -*- coding: utf-8 -*-</span> <span class="hljs-keyword">from</span> scrapy.spiders <span class="hljs-keyword">import</span> XMLFeedSpider <span class="hljs-keyword">from</span> HelloProject.items <span class="hljs-keyword">import</span> HelloprojectItem <span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">XmlspiderSpider</span><span class="hljs-params">(XMLFeedSpider)</span>:</span> name = <span class="hljs-string">'xmlspider'</span> allowed_domains = [<span class="hljs-string">'example.com'</span>] start_urls = [<span class="hljs-string">'http://www.example.com/feed.xml'</span>] iterator = <span class="hljs-string">'iternodes'</span> <span class="hljs-comment"># you can change this; see the docs</span> itertag = <span class="hljs-string">'item'</span> <span class="hljs-comment"># change it accordingly</span> <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_node</span><span class="hljs-params">(self, response, node)</span>:</span> self.logger.info(<span class="hljs-string">'Hi, this is a <%s> node!: %s'</span>, self.itertag, <span class="hljs-string">''</span>.join(node.extract())) item = HelloprojectItem() item[<span class="hljs-string">'id'</span>] = node.xpath(<span class="hljs-string">'@id'</span>).extract() item[<span class="hljs-string">'name'</span>] = node.xpath(<span class="hljs-string">'name'</span>).extract() item[<span class="hljs-string">'description'</span>] = node.xpath(<span class="hljs-string">'description'</span>).extract() <span class="hljs-keyword">return</span> item</code></pre> <p>基本上，我们在那里做的就是创建一个爬虫并从给定的链接下载一个源（feed），然后从每个item标签开始迭代，将他们打印，并在Item中储存一些随机的数据。</p> <h1 id="csvfeedspider">CSVFeedSpider</h1> <p>在介绍该爬虫之前，先了解一下CSV文件比较好Wiki百科-CSV（左下角中文翻译，建议看英文）</p> <h3 id="介绍-1">介绍</h3> <p><code>class scrapy.spiders.CSVFeedSpider</code> <br> 这个爬虫和XMLFeedSpider很像，但它是按行（row）遍历，而XMLFeedSpider是按结点遍历。每次遍历时调用的方法是<code>parse_row()</code>。</p> <ul> <li><strong>delimiter</strong> 在CSV文件中分开每个field的分隔符（separator character），类型为字符串，默认是<code>,</code>(逗号,comma)。（PS：delimiter的意思是定界符）</li> <li><strong>quotechar</strong> CSV文件中用于引用每个记录的字符串，默认为<code>"</code>（quotation mark，引号）（PS：quotechar的意思是引用字符;原文中<em>enclosure character</em>，不好翻译。不过了解了CSV文件之后应该好理解）</li> <li><strong>headers</strong> CSV文件中列的名字（column names）的列表。</li> <li><strong>parse_row(response, row)</strong> 接收一个response，以及一个字典，这个字典由CSV文件中提供或检测出的以headers的名字为key组成。在这个爬虫中，你可以通过重写<code>adapt_response()</code>和<code>process_results()</code>方法来预处理（pre-process）和后处理（post-processing）。</li> </ul> <h3 id="例子-1">例子</h3> <p>让我们看一个和之前很像的例子，却用的是CSVFeedSpider：</p> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-comment"># -*- coding: utf-8 -*-</span> <span class="hljs-keyword">from</span> scrapy.spiders <span class="hljs-keyword">import</span> CSVFeedSpider <span class="hljs-keyword">from</span> HelloProject.items <span class="hljs-keyword">import</span> HelloprojectItem <span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">CsvspiderSpider</span><span class="hljs-params">(CSVFeedSpider)</span>:</span> name = <span class="hljs-string">'csvspider'</span> allowed_domains = [<span class="hljs-string">'example.com'</span>] start_urls = [<span class="hljs-string">'http://www.example.com/feed.csv'</span>] headers = [<span class="hljs-string">'id'</span>, <span class="hljs-string">'name'</span>, <span class="hljs-string">'description'</span>] delimiter = <span class="hljs-string">','</span> quotechar = <span class="hljs-string">"'"</span> <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_row</span><span class="hljs-params">(self, response, row)</span>:</span> item = HelloprojectItem() item[<span class="hljs-string">'id'</span>] = row[<span class="hljs-string">'id'</span>] item[<span class="hljs-string">'name'</span>] = row[<span class="hljs-string">'name'</span>] item[<span class="hljs-string">'description'</span>] = row[<span class="hljs-string">'description'</span>] <span class="hljs-keyword">return</span> item </code></pre> <h1 id="sitemapspider">SitemapSpider</h1> <h3 id="介绍-2">介绍</h3> <p><code>class scrapy.spiders.SitemapSpider</code> <br> SitemapSpider允许你通过Sitemap发现URL链接来爬取一个网站。（解释见Wiki）它支持嵌套的（nested）sitemaps和从robots.txt发现sitemap。你可以找个网站看一看sitemap.xml究竟是什么，比如极客学院的sitemap.xml。下面介绍该爬虫：</p> <ul> <li><strong>sitemap_urls</strong> URL链接组成的列表，指向某网站的sitemap.xml，比如<code>http://www.jikexueyuan.com/sitemap.xml</code>，当然可能有其他格式比如说txt之类。你也可以指向robots.txt，然后它将从里面解析网页（很强势）。</li> <li><strong>sitemap_rules</strong> 由元组(regex, callback)组成的列表： <br> <ul> <li>regex：从sitemaps匹配链接的正则表达式。可以是字符串或者re.compile对象。</li> <li>callback：用来处理被正则表达式匹配的链接，它是爬虫中一个方法的名字,也可以是一个callable。例如：<br><code>sitemap_rules = [('/product/', 'parse_product')]</code><br>Rules 按顺序执行，并且只有第一个匹配的规则被使用<br>如果你忽略（omit）这个属性，所有在sitemap中找到的链接都会被回调函数parse()处理</li> </ul></li> <li><strong>sitemap_follow</strong> 用于匹配将要跟进（follow）的sitemap的正则表达式(regexs)组成的列表。这个属性只有在使用 Sitemap index files 来指向其他sitemap文件的站点时才会应用。默认跟进所有sitemaps</li> <li><strong>sitemap_alternate_links</strong> 指定当一个url链接可选时是否跟进。这些链接对于同一个网页提供不同的语言，例如</li> </ul> <pre class="prettyprint"><code class=" hljs xml"><span class="hljs-tag"><<span class="hljs-title">url</span>></span> <span class="hljs-tag"><<span class="hljs-title">loc</span>></span>http://example.com/<span class="hljs-tag"></<span class="hljs-title">loc</span>></span> <span class="hljs-tag"><<span class="hljs-title">xhtml:link</span> <span class="hljs-attribute">rel</span>=<span class="hljs-value">"alternate"</span> <span class="hljs-attribute">hreflang</span>=<span class="hljs-value">"de"</span> <span class="hljs-attribute">href</span>=<span class="hljs-value">"http://example.com/de/"</span>></span> <span class="hljs-tag"></<span class="hljs-title">url</span>></span></code></pre> <p> 当<code>sitemap_alternate_link</code>设置后，两个链接都会被跟进；如果没有设置，只有<code>http://example.com/</code>会跟进。默认不设置。</p> <h3 id="例子-2">例子</h3> <p>最简单的例子：使用parse处理所有通过sitemap找到的链接：</p> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-keyword">from</span> scrapy.spiders <span class="hljs-keyword">import</span> SitemapSpider <span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">MySpider</span><span class="hljs-params">(SitemapSpider)</span>:</span> sitemap_urls = [<span class="hljs-string">'http://www.example.com/sitemap.xml'</span>] <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse</span><span class="hljs-params">(self, response)</span>:</span> <span class="hljs-keyword">pass</span> <span class="hljs-comment"># 在这里定义如何解析</span></code></pre> <p>使用确定的回调函数处理一些链接，其他链接用不同的回调函数处理：</p> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-keyword">from</span> scrapy.spiders <span class="hljs-keyword">import</span> SitemapSpider <span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">MySpider</span><span class="hljs-params">(SitemapSpider)</span>:</span> sitemap_urls = [<span class="hljs-string">'http://www.example.com/sitemap.xml'</span>] sitemap_rules = [ (<span class="hljs-string">'/product/'</span>, <span class="hljs-string">'parse_product'</span>), (<span class="hljs-string">'/category/'</span>, <span class="hljs-string">'parse_category'</span>), ] <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_product</span><span class="hljs-params">(self, response)</span>:</span> <span class="hljs-keyword">pass</span> <span class="hljs-comment"># 定义如何爬取带有/product/的链接</span> <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_category</span><span class="hljs-params">(self, response)</span>:</span> <span class="hljs-keyword">pass</span> <span class="hljs-comment"># 定义如何爬取带有/category/的链接</span> </code></pre> <p>跟进在robots.txt中定义的sitemaps，并且只跟进包含<code>/sitemap_shop</code>的链接：</p> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-keyword">from</span> scrapy.spiders <span class="hljs-keyword">import</span> SitemapSpider <span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">MySpider</span><span class="hljs-params">(SitemapSpider)</span>:</span> sitemap_urls = [<span class="hljs-string">'http://www.example.com/robots.txt'</span>] sitemap_rules = [ (<span class="hljs-string">'/shop/'</span>, <span class="hljs-string">'parse_shop'</span>), ] sitemap_follow = [<span class="hljs-string">'/sitemap_shops'</span>] <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_shop</span><span class="hljs-params">(self, response)</span>:</span> <span class="hljs-keyword">pass</span> <span class="hljs-comment"># 定义如何爬取shop</span></code></pre> <p>将SitemapSpider与其他url源结合：</p> <pre class="prettyprint"><code class="language-python hljs "><span class="hljs-keyword">from</span> scrapy.spiders <span class="hljs-keyword">import</span> SitemapSpider <span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">MySpider</span><span class="hljs-params">(SitemapSpider)</span>:</span> sitemap_urls = [<span class="hljs-string">'http://www.example.com/robots.txt'</span>] sitemap_rules = [ (<span class="hljs-string">'/shop/'</span>, <span class="hljs-string">'parse_shop'</span>), ] <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">start_requests</span><span class="hljs-params">(self)</span>:</span> requests = list(super(MySpider, self).start_requests()) requests += [scrapy.Request(x, self.parse_other) <span class="hljs-keyword">for</span> x <span class="hljs-keyword">in</span> self.other_urls] <span class="hljs-keyword">return</span> requests <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_shop</span><span class="hljs-params">(self, response)</span>:</span> <span class="hljs-keyword">pass</span> <span class="hljs-comment"># 定义如何爬取shop</span> <span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">parse_other</span><span class="hljs-params">(self, response)</span>:</span> <span class="hljs-keyword">pass</span> <span class="hljs-comment"># 定义如何爬取其他网页</span></code></pre> <h1 id="end">end?</h1> <p>这里都是理论基础，例子并不是很多，也不实用，所以我打算在之后多写一些关于这些类型的爬虫的例子，否则光介绍不举例子很难让人接受，写了这么多知识点，不如举一堆例子来的容易。当然举例子靠的也就是这些基础。本笔记参考的是scrapy官方英文文档，我之后也会不断地翻这个笔记，因为这些知识点可能有错误，并且也不是很细，我会及时更改。</p> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1175105809969917952"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(Scrapy)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1947229364403892224.htm" title="Python Scrapy爬取办公用品网站数据的策略" target="_blank">Python Scrapy爬取办公用品网站数据的策略</a> <span class="text-muted">Python编程之道</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络</div> </li> <li><a href="/article/1947229237236789248.htm" title="使用Python Scrapy打造个性化爬虫" target="_blank">使用Python Scrapy打造个性化爬虫</a> <span class="text-muted"></span> <div>使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反</div> </li> <li><a href="/article/1947036708298092544.htm" title="python爬虫从入门到精通" target="_blank">python爬虫从入门到精通</a> <span class="text-muted">大模型猫叔</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a> <div>目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi</div> </li> <li><a href="/article/1946953613163163648.htm" title="Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计" target="_blank">Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a> <div>目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收</div> </li> <li><a href="/article/1946951088544477184.htm" title="分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据" target="_blank">分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84/1.htm">架构</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/redis/1.htm">redis</a><a class="tag" taget="_blank" href="/search/%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7/1.htm">测试工具</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10</div> </li> <li><a href="/article/1946951089626607616.htm" title="Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现" target="_blank">Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a> <div>摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1</div> </li> <li><a href="/article/1946950457867956224.htm" title="分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集" target="_blank">分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集</a> <span class="text-muted">傻啦嘿哟</span> <a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84/1.htm">架构</a> <div>目录当单机爬虫遇到百万数据量架构设计核心原理分布式任务调度弹性去重机制Redis集群部署实践集群规模计算高可用配置Scrapy项目改造分布式爬虫编写百万级数据优化策略流量控制机制动态IP代理数据存储优化实战案例分析监控与维护集群健康检查日志分析架构演进方向当单机爬虫遇到百万数据量想象你正在搭建一个电商价格监控系统，需要每天抓取十万条商品数据。使用传统Scrapy框架时，单台服务器每天最多只能处理3</div> </li> <li><a href="/article/1946842045721145344.htm" title="python爬虫技术——基础知识、实战" target="_blank">python爬虫技术——基础知识、实战</a> <span class="text-muted">南瓜AI</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a> <div>参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简</div> </li> <li><a href="/article/1946597816889569280.htm" title="python分布式爬虫打造搜索引擎--------scrapy实现" target="_blank">python分布式爬虫打造搜索引擎--------scrapy实现</a> <span class="text-muted">weixin_30515513</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7/1.htm">开发工具</a> <div>http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装</div> </li> <li><a href="/article/1946578902734401536.htm" title="网络爬虫-07" target="_blank">网络爬虫-07</a> <span class="text-muted">YEGE学AI算法</span> <a class="tag" taget="_blank" href="/search/Python-%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/1.htm">Python-网络爬虫</a> <div>网络爬虫-07）**Spider06回顾****scrapy框架****完成scrapy项目完整流程****我们必须记住****爬虫项目启动方式****数据持久化存储****Spider07笔记****分布式爬虫****scrapy_redis详解****腾讯招聘分布式改写****机器视觉与tesseract****补充-滑块缺口验证码案例****豆瓣网登录****Fiddler抓包工具****移</div> </li> <li><a href="/article/1946430125407006720.htm" title="scrapy 一定要自定义USER_AGENT" target="_blank">scrapy 一定要自定义USER_AGENT</a> <span class="text-muted">魔童转世</span> <div>原因是因为有的网站设置的是不允许爬虫请求，而srapy默认请求是带着一个标识告诉网站我就是爬虫，网站当然不允许爬去了偶然间在一个网站上看到的内容并且也跳过坑USER_AGENT='Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36'</div> </li> <li><a href="/article/1943334204397907968.htm" title="Scrapy分布式爬虫进阶：动态代理与并发优化实战" target="_blank">Scrapy分布式爬虫进阶：动态代理与并发优化实战</a> <span class="text-muted">Kelaru</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/project/1.htm">project</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>写在前面。。。继“动态网页”“登录网站”“经验总结”“分布式爬虫”后，本篇献上Scrapy-Redis进阶实战，基于QuotestoScrape，聚焦动态代理池和并发优化，代码简洁，经验点燃智慧，适合新手到老兵。准备工作1.环境配置Python：3.8+（推荐3.10）。依赖安装：pipinstallscrapy==2.11.2scrapy-redis==0.7.4redis==5.0.8requ</div> </li> <li><a href="/article/1943138683486007296.htm" title="Python爬虫实战：爬取ETF基金持仓变化" target="_blank">Python爬虫实战：爬取ETF基金持仓变化</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">信息可视化</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a> <div>1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be</div> </li> <li><a href="/article/1943007578975956992.htm" title="UA池和代理IP池" target="_blank">UA池和代理IP池</a> <span class="text-muted">itLaity</span> <a class="tag" taget="_blank" href="/search/Python%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86%E8%AE%B2%E8%A7%A3%E4%B8%8E%E6%80%BB%E7%BB%93/1.htm">Python基础知识讲解与总结</a><a class="tag" taget="_blank" href="/search/%E4%B8%AD%E9%97%B4%E4%BB%B6/1.htm">中间件</a><a class="tag" taget="_blank" href="/search/http/1.htm">http</a><a class="tag" taget="_blank" href="/search/py/1.htm">py</a><a class="tag" taget="_blank" href="/search/%E4%BB%A3%E7%90%86%E6%A8%A1%E5%BC%8F/1.htm">代理模式</a> <div>scrapy中中间件：位于scrapy引擎和下载器之间的一层组件作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的User-Agent，设置代理等（2）在下载器完成将Response传递给引擎中，下载中间件可以对响应进行一系列处理。比如进行gzip解压等。middlewares（中间件py文件）spider:从这里开始--->作用:产生一个或者一批url/</div> </li> <li><a href="/article/1942979853963816960.htm" title="Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解" target="_blank">Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解</a> <span class="text-muted">九月镇灵将</span> <a class="tag" taget="_blank" href="/search/%E6%89%93%E9%80%A0%E9%AB%98%E6%95%88%E7%88%AC%E8%99%AB%E7%B3%BB%E7%BB%9F/1.htm">打造高效爬虫系统</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/xpath/1.htm">xpath</a><a class="tag" taget="_blank" href="/search/lxml/1.htm">lxml</a> <div>lxml+xpath基本指令和提取方法详解一、XPath简介XPath，全称为XMLPathLanguage，是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML，还常用于处理HTML文档。二、基本指令和提取方法选择节点使用XPath，你可以轻松地选择XML文档中的节点。*选择根节点：/*选择子节点：/parent/child*选择所</div> </li> <li><a href="/article/1942800229518602240.htm" title="Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据" target="_blank">Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7/1.htm">测试工具</a> <div>引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数</div> </li> <li><a href="/article/1941879794656407552.htm" title="Python Scrapy的爬虫中间件开发" target="_blank">Python Scrapy的爬虫中间件开发</a> <span class="text-muted">AI天才研究院</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>PythonScrapy爬虫中间件开发：从原理到实战的深度解析关键词Scrapy中间件、爬虫扩展、请求响应处理、反爬绕过、中间件生命周期、钩子函数、分布式爬取摘要本文系统解析Scrapy爬虫中间件（SpiderMiddleware）的开发方法论，覆盖从基础概念到高级实践的全链路知识。通过第一性原理推导中间件的核心机制，结合层次化架构分析（理论→设计→实现→应用），提供生产级代码示例与可视化流程模型</div> </li> <li><a href="/article/1941782273586163712.htm" title="Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」" target="_blank">Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」</a> <span class="text-muted">blues_C</span> <a class="tag" taget="_blank" href="/search/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98/1.htm">Python爬虫实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a> <div>Python爬虫入门（九）：Scrapy安装及使用「详细介绍」前言1.Scrapy简介2.Scrapy的安装2.1环境准备2.2安装Scrapy3.创建Scrapy项目3.1创建项目3.2项目结构简介4.编写爬虫4.1创建爬虫4.2解析数据4.3运行爬虫5.存储数据5.1存储为JSON文件5.2存储到数据库5.2.1MongoDB6.处理请求和响应6.1请求头设置6.2处理响应7.高级功能7.1使</div> </li> <li><a href="/article/1941757184358543360.htm" title="数据分析全流程：从收集到可视化的高效实战" target="_blank">数据分析全流程：从收集到可视化的高效实战</a> <span class="text-muted">晨曦543210</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：</div> </li> <li><a href="/article/1941756554663489536.htm" title="R语言初学者爬虫简单模板" target="_blank">R语言初学者爬虫简单模板</a> <span class="text-muted">q56731523</span> <a class="tag" taget="_blank" href="/search/r%E8%AF%AD%E8%A8%80/1.htm">r语言</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/iphone/1.htm">iphone</a> <div>习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p</div> </li> <li><a href="/article/1941525949925355520.htm" title="Python爬虫：Scrapy报错：ModuleNotFoundError: No module named ‘scrapy.contrib‘" target="_blank">Python爬虫：Scrapy报错：ModuleNotFoundError: No module named ‘scrapy.contrib‘</a> <span class="text-muted">濯一一</span> <a class="tag" taget="_blank" href="/search/%23/1.htm">#</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/bug/1.htm">bug</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>项目场景：今天，又开始自学Python爬虫Scrapy框架辽，爬爬爬于是又导包报错辽，，，问题描述：提示：第一行导入scrapy.contrib时报错了。原因分析：百度：找到类似的问题和解决方式：#bug：fromscrapytest.NewsItemsimportNewsItem#改为#debug：fromscrapytest.scrapytest.itemsimportNewsItem思考：重</div> </li> <li><a href="/article/1941429755312140288.htm" title="Ubuntu 22.04 修改默认 Python 版本为 Python3 笔记" target="_blank">Ubuntu 22.04 修改默认 Python 版本为 Python3 笔记</a> <span class="text-muted">笑衬人心。</span> <a class="tag" taget="_blank" href="/search/ubuntu/1.htm">ubuntu</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%AC%94%E8%AE%B0/1.htm">笔记</a> <div>Ubuntu系统默认使用的是Python2.x作为python命令的映射，而现代开发（如pip、Django、Flask、Scrapy等）大多基于Python3。本笔记将教你如何将默认python命令指向Python3（如Python3.8、3.10）。背景说明在Ubuntu22.04中：系统默认安装了Python2和Python3；运行python命令默认启动的是Python2；运行python</div> </li> <li><a href="/article/1941106783149944832.htm" title="Web爬虫编程语言选择指南" target="_blank">Web爬虫编程语言选择指南</a> <span class="text-muted">q56731523</span> <a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>刚学爬虫的小伙伴常常为选择那种语言来写爬虫而烦恼，今天我将总结几种语言的优劣势，然后选择适合编写Web爬虫的编程语言。这就需要我们考虑开发效率、生态库支持、并发性能等因素。以下是主流选择及特点跟着一起看看吧：1.Python（推荐首选）优势：丰富库支持：Requests（HTTP请求）、BeautifulSoup/lxml（HTML解析）、Scrapy（全功能框架）、Selenium（模拟浏览器）</div> </li> <li><a href="/article/1940611946256592896.htm" title="Python 爬虫实战：知乎热榜趋势分析（话题生命周期 + 影响力评估）" target="_blank">Python 爬虫实战：知乎热榜趋势分析（话题生命周期 + 影响力评估）</a> <span class="text-muted">Python核芯</span> <a class="tag" taget="_blank" href="/search/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">Python爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一、引言知乎作为国内知名的问答社区，其热榜功能汇聚了当下最受关注的话题。这些话题的热度变化反映了公众兴趣的动态，对于内容创作者、市场营销人员和数据分析师等具有极高的参考价值。本文将详细介绍如何通过Python和Scrapy技术实现知乎热榜数据的自动化爬取，并结合数据分析手段进行话题热度分析和趋势预测。二、目标网站分析（一）知乎热榜页面结构知乎热榜页面（https://www.zhihu.com/h</div> </li> <li><a href="/article/1940263560538025984.htm" title="python爬虫爬百度云盘的资源" target="_blank">python爬虫爬百度云盘的资源</a> <span class="text-muted">oaa608868</span> <a class="tag" taget="_blank" href="/search/%E7%99%BE%E5%BA%A6%E4%BA%91/1.htm">百度云</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>最近百度云盘不知道为啥不提供资源检索，正好最近看了一下python，正好来练练手，写歌爬虫爬一下百度云盘的资源。分析了一下百度云盘的网友源码和js文件，里面有大量ajax的东西，利用json传输数据，前端显示。话说，这样数据爬去就方便多了，也不要用scrapy啥的，直接解析json数据就好。分析js文件提炼了下面三个链接：URL_SHARE='http://yun.baidu.com/pclo</div> </li> <li><a href="/article/1940253092926779392.htm" title="Python - 爬虫；Scrapy框架之插件Extensions（四）" target="_blank">Python - 爬虫；Scrapy框架之插件Extensions（四）</a> <span class="text-muted">MinggeQingchun</span> <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/Scrapy/1.htm">Scrapy</a><a class="tag" taget="_blank" href="/search/extensions/1.htm">extensions</a> <div>阅读本文前先参考https://blog.csdn.net/MinggeQingchun/article/details/145904572在Scrapy中，扩展（Extensions）是一种插件，允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行，比如启动、关闭、处理请求、处理响应等。Extensions官网文档：Extensions—Scrapy2.12.0document</div> </li> <li><a href="/article/1939489119944110080.htm" title="Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Stack Overflow问答数据" target="_blank">Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Stack Overflow问答数据</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%BE%AE%E4%BF%A1/1.htm">微信</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E7%A7%91%E6%8A%80/1.htm">科技</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a> <div>摘要本文将详细介绍如何使用Python生态中最先进的爬虫技术组合（Scrapy+Selenium+Playwright）来爬取StackOverflow的问答数据。我们将从基础爬虫原理讲起，逐步深入到分布式爬虫、反反爬策略、数据存储等高级话题，并提供完整的可运行代码示例。本文适合有一定Python基础，想要掌握专业级网络爬虫技术的开发者阅读。1.爬虫技术概述1.1为什么选择StackOverflo</div> </li> <li><a href="/article/1939488993569730560.htm" title="Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Coursera课程信息" target="_blank">Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Coursera课程信息</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%BE%AE%E4%BF%A1/1.htm">微信</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E7%A7%91%E6%8A%80/1.htm">科技</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a> <div>前言在当今信息爆炸的时代，在线教育平台如Coursera提供了海量的高质量课程资源。对于学习者、教育研究者和数据分析师来说，获取这些平台的课程信息具有重要价值。本文将详细介绍如何使用Python爬虫技术高效爬取Coursera课程信息，并分析其中的技术难点与解决方案。1.Coursera网站分析Coursera是一个典型的现代Web应用，具有以下特点：采用React/Vue等前端框架构建，大量内容</div> </li> <li><a href="/article/1939228797962350592.htm" title="Python爬虫实战：研究Bleach库相关技术" target="_blank">Python爬虫实战：研究Bleach库相关技术</a> <span class="text-muted">ylfhpy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/php/1.htm">php</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/Bleach/1.htm">Bleach</a> <div>1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详</div> </li> <li><a href="/article/1939228799031898112.htm" title="Python爬虫实战：研究untangle库相关技术" target="_blank">Python爬虫实战：研究untangle库相关技术</a> <span class="text-muted">ylfhpy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/php/1.htm">php</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/untangle/1.htm">untangle</a> <div>1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl</div> </li> <li><a href="/article/72.htm" title="Java开发中，spring mvc 的线程怎么调用？" target="_blank">Java开发中，spring mvc 的线程怎么调用？</a> <span class="text-muted">小麦麦子</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/mvc/1.htm">mvc</a> <div>今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：     在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局</div> </li> <li><a href="/article/199.htm" title="maven依赖范围" target="_blank">maven依赖范围</a> <span class="text-muted">bitcarter</span> <a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a> <div>1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用</div> </li> <li><a href="/article/326.htm" title="Jaxb org.xml.sax.saxparseexception : premature end of file" target="_blank">Jaxb org.xml.sax.saxparseexception : premature end of file</a> <span class="text-muted">darrenzhu</span> <a class="tag" taget="_blank" href="/search/xml/1.htm">xml</a><a class="tag" taget="_blank" href="/search/premature/1.htm">premature</a><a class="tag" taget="_blank" href="/search/JAXB/1.htm">JAXB</a> <div>如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In</div> </li> <li><a href="/article/453.htm" title="CSS Specificity" target="_blank">CSS Specificity</a> <span class="text-muted">周凡杨</span> <a class="tag" taget="_blank" href="/search/html/1.htm">html</a><a class="tag" taget="_blank" href="/search/%E6%9D%83%E9%87%8D/1.htm">权重</a><a class="tag" taget="_blank" href="/search/Specificity/1.htm">Specificity</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a> <div>  有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。     规则：   HTML标签的权重是1 Class 的权重是10 Id 的权重是100 </div> </li> <li><a href="/article/580.htm" title="java与servlet" target="_blank">java与servlet</a> <span class="text-muted">g21121</span> <a class="tag" taget="_blank" href="/search/servlet/1.htm">servlet</a> <div>servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha</div> </li> <li><a href="/article/707.htm" title="eclipse中安装maven插件" target="_blank">eclipse中安装maven插件</a> <span class="text-muted">510888780</span> <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a> <div>1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave</div> </li> <li><a href="/article/834.htm" title="jpa@OneToOne关联关系" target="_blank">jpa@OneToOne关联关系</a> <span class="text-muted">布衣凌宇</span> <a class="tag" taget="_blank" href="/search/jpa/1.htm">jpa</a> <div>Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam</div> </li> <li><a href="/article/961.htm" title="我的spring学习笔记11-Spring中关于声明式事务的配置" target="_blank">我的spring学习笔记11-Spring中关于声明式事务的配置</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/%E4%BA%8B%E5%8A%A1/1.htm">事务</a><a class="tag" taget="_blank" href="/search/%E9%85%8D%E7%BD%AE/1.htm">配置</a> <div>这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中</div> </li> <li><a href="/article/1088.htm" title="java 动态代理简单实现" target="_blank">java 动态代理简单实现</a> <span class="text-muted">antlove</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/handler/1.htm">handler</a><a class="tag" taget="_blank" href="/search/proxy/1.htm">proxy</a><a class="tag" taget="_blank" href="/search/dynamic/1.htm">dynamic</a><a class="tag" taget="_blank" href="/search/service/1.htm">service</a> <div>dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); }   dynamicproxy.service.impl.HelloServiceImpl package dynamicp</div> </li> <li><a href="/article/1215.htm" title="JDBC连接数据库" target="_blank">JDBC连接数据库</a> <span class="text-muted">百合不是茶</span> <a class="tag" taget="_blank" href="/search/JDBC%E7%BC%96%E7%A8%8B/1.htm">JDBC编程</a><a class="tag" taget="_blank" href="/search/JAVA%E6%93%8D%E4%BD%9Coracle%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">JAVA操作oracle数据库</a> <div>         如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中;   JDBC链接数据库的代码和固定写法;     1,加载oracle数据库的驱动;     &nb</div> </li> <li><a href="/article/1342.htm" title="单例模式中的多线程分析" target="_blank">单例模式中的多线程分析</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/thread/1.htm">thread</a><a class="tag" taget="_blank" href="/search/%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">多线程</a><a class="tag" taget="_blank" href="/search/java%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">java多线程</a> <div>谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static</div> </li> <li><a href="/article/1469.htm" title="javascript读取和修改原型特别需要注意原型的读写不具有对等性" target="_blank">javascript读取和修改原型特别需要注意原型的读写不具有对等性</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a><a class="tag" taget="_blank" href="/search/prototype/1.htm">prototype</a> <div>        对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有</div> </li> <li><a href="/article/1596.htm" title="【持久化框架MyBatis3六】MyBatis3集成第三方DataSource" target="_blank">【持久化框架MyBatis3六】MyBatis3集成第三方DataSource</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/dataSource/1.htm">dataSource</a> <div>MyBatis内置了数据源的支持，如：   <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data</div> </li> <li><a href="/article/1723.htm" title="我程序中用到的urldecode和base64decode,MD5" target="_blank">我程序中用到的urldecode和base64decode,MD5</a> <span class="text-muted">bitcarter</span> <a class="tag" taget="_blank" href="/search/c/1.htm">c</a><a class="tag" taget="_blank" href="/search/MD5/1.htm">MD5</a><a class="tag" taget="_blank" href="/search/base64decode/1.htm">base64decode</a><a class="tag" taget="_blank" href="/search/urldecode/1.htm">urldecode</a> <div>这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0</div> </li> <li><a href="/article/1850.htm" title="腾讯资深运维专家周小军：QQ与微信架构的惊天秘密" target="_blank">腾讯资深运维专家周小军：QQ与微信架构的惊天秘密</a> <span class="text-muted">ronin47</span> <div>社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心</div> </li> <li><a href="/article/1977.htm" title="java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素" target="_blank">java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div> public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ</div> </li> <li><a href="/article/2104.htm" title="看博客，应该是有方向的" target="_blank">看博客，应该是有方向的</a> <span class="text-muted">Cb123456</span> <a class="tag" taget="_blank" href="/search/%E5%8F%8D%E7%9C%81/1.htm">反省</a><a class="tag" taget="_blank" href="/search/%E7%9C%8B%E5%8D%9A%E5%AE%A2/1.htm">看博客</a> <div>看博客，应该是有方向的:  我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客.  我刚突然想到的:  1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。  2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的.    为什么要写</div> </li> <li><a href="/article/2231.htm" title="[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖" target="_blank">[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE/1.htm">开源项目</a> <div>      为什么这样说呢？  因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。       所以，为避免这种不确定性风险，我</div> </li> <li><a href="/article/2358.htm" title="一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看）" target="_blank">一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看）</a> <span class="text-muted">cwqcwqmax9</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a> <div>见   http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49      回复    发消息  环境： Linux ve</div> </li> <li><a href="/article/2485.htm" title="Hibernat and Ibatis" target="_blank">Hibernat and Ibatis</a> <span class="text-muted">dashuaifu</span> <a class="tag" taget="_blank" href="/search/Hibernate/1.htm">Hibernate</a><a class="tag" taget="_blank" href="/search/ibatis/1.htm">ibatis</a> <div>Hibernate  VS  iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi</div> </li> <li><a href="/article/2612.htm" title="备份MYSQL脚本" target="_blank">备份MYSQL脚本</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a> <div>#!/bin/sh # this shell to backup mysql #1413161683@qq.com (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p </div> </li> <li><a href="/article/2739.htm" title="iOS第三方开源库的吐槽和备忘" target="_blank">iOS第三方开源库的吐槽和备忘</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/ios/1.htm">ios</a> <div>转自 ibireme的博客   做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。   目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。   首先整理了一份 Github上排名靠</div> </li> <li><a href="/article/2866.htm" title="html wlwmanifest.xml" target="_blank">html wlwmanifest.xml</a> <span class="text-muted">eoems</span> <a class="tag" taget="_blank" href="/search/html/1.htm">html</a><a class="tag" taget="_blank" href="/search/xml/1.htm">xml</a> <div>所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov</div> </li> <li><a href="/article/2993.htm" title="浅谈Java定时器发展" target="_blank">浅谈Java定时器发展</a> <span class="text-muted">hacksin</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%B9%B6%E5%8F%91/1.htm">并发</a><a class="tag" taget="_blank" href="/search/timer/1.htm">timer</a><a class="tag" taget="_blank" href="/search/%E5%AE%9A%E6%97%B6%E5%99%A8/1.htm">定时器</a> <div>java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1.    Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列</div> </li> <li><a href="/article/3120.htm" title="移动端页面侧边导航滑入效果" target="_blank">移动端页面侧边导航滑入效果</a> <span class="text-muted">ini</span> <a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a><a class="tag" taget="_blank" href="/search/Web/1.htm">Web</a><a class="tag" taget="_blank" href="/search/html5/1.htm">html5</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a><a class="tag" taget="_blank" href="/search/javascirpt/1.htm">javascirpt</a> <div>效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h</div> </li> <li><a href="/article/3247.htm" title="AspectJ+Javasist记录日志" target="_blank">AspectJ+Javasist记录日志</a> <span class="text-muted">kane_xie</span> <a class="tag" taget="_blank" href="/search/aspectj/1.htm">aspectj</a><a class="tag" taget="_blank" href="/search/javasist/1.htm">javasist</a> <div>在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。   @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be</div> </li> <li><a href="/article/3374.htm" title="redis学习笔记" target="_blank">redis学习笔记</a> <span class="text-muted">MJC410621</span> <a class="tag" taget="_blank" href="/search/redis/1.htm">redis</a><a class="tag" taget="_blank" href="/search/NoSQL/1.htm">NoSQL</a> <div>1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na</div> </li> <li><a href="/article/3501.htm" title="使用redis实现分布式锁" target="_blank">使用redis实现分布式锁</a> <span class="text-muted">qifeifei</span> <div>在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下：   public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret</div> </li> <li><a href="/article/3628.htm" title="BI并非万能，中层业务管理报表要另辟蹊径" target="_blank">BI并非万能，中层业务管理报表要另辟蹊径</a> <span class="text-muted">张老师的菜</span> <a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/BI/1.htm">BI</a><a class="tag" taget="_blank" href="/search/%E5%95%86%E4%B8%9A%E6%99%BA%E8%83%BD/1.htm">商业智能</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8C%96/1.htm">信息化</a> <div>       BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。        BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有</div> </li> <li><a href="/article/3755.htm" title="安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题" target="_blank">安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题</a> <span class="text-muted">wudixiaotie</span> <a class="tag" taget="_blank" href="/search/function/1.htm">function</a> <div>1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm"  2.重新启动terminal输入：   rvm use ruby-2.2.1 --default  把当前安装的ruby版本设为默</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类：</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>