情难眠2

scrapy初步解析源码即深度使用

scrapy深度爬虫

——编辑：大牧莫邪

本章内容

深度爬虫概述
scrapy Spider实现的深度爬虫
scrapy CrawlSpdier实现的深度爬虫
案例操作

课程内容

1. 深度爬虫概述

　　爬虫程序，主要是用与数据采集处理的一种网络程序，在操作过程中针对指定的url地址进行数据请求并根据需要采集数据，但是在实际项目开发过程中，经常会遇到目标url地址数量不明确的情况，如之前的章节中提到的智联招聘项目，不同的岗位搜索到的岗位数量不一定一致，也就意味着每个工作搜索到的工作岗位列表页面的数量不一定一致，爬虫工程师工作可能搜索到了10页，Django工作有可能都索到了25页数据，那么针对这样的数据要全部进行爬取，应该怎么处理呢？答案就是：深度爬虫

　　深度爬虫：针对其实url地址进行数据采集，在响应数据中进行数据筛选得到需要进行数据采集的下一波url地址，并将url地址添加到数据采集队列中进行二次爬取..以此类推，一致到所有页面的数据全部采集完成即可完成深度数据采集，这里的深度指代的就是url地址的检索深度。

　　深度爬虫可以通过不同的方式实现，在urllib2和requesets模块中通过轮询数据筛选得到目标url地址，然后进行循环爬取数据即可，在scrapy中主要通过两种方式进行处理：

通过Response对象的地址序列和Request对象的请求处理完成深度采集
通过CrawlSpider类型中的请求链接提取规则自动进行深度数据采集处理

2. Spider Request和Response完成数据深度采集

　　首先完成深度爬虫之前，先了解Scrapy框架底层的一些操作模式，Scrapy框架运行爬虫项目，默认调用并执行parse()函数进行数据的解析，但是此时已经由框架完成了请求解析调度和下载的过程，那么Scrapy到底做了哪些事情呢？

　　我们首先观察一下scrapy.Spider源代码

class Spider(object_ref):
    """Base class for scrapy spiders. All spiders must inherit from this
    class.
    """

    name = None
    custom_settings = None
    
    
    # 初始化函数，主要进行程序的名称、起始地址等数据初始化工作
    def __init__(self, name=None, **kwargs):
        if name is not None:
            self.name = name
        elif not getattr(self, 'name', None):
            raise ValueError("%s must have a name" % type(self).__name__)
        self.__dict__.update(kwargs)
        if not hasattr(self, 'start_urls'):
            self.start_urls = []
    ...
    ...
    # 程序启动，发送请求的函数
    def start_requests(self):
        cls = self.__class__
        # 默认没有重写直接调用，重写的时候根据子类重写的方式重新定义发送处理方式
        # 默认情况下发送get请求获取数据，如果要发送Post请求可以重写start_reuqests函数进行请求的处理
        if method_is_overridden(cls, Spider, 'make_requests_from_url'):
            warnings.warn(
                "Spider.make_requests_from_url method is deprecated; it "
                "won't be called in future Scrapy releases. Please "
                "override Spider.start_requests method instead (see %s.%s)." % (
                    cls.__module__, cls.__name__
                ),
            )
            for url in self.start_urls:
                yield self.make_requests_from_url(url)
        else:
            # 没有重写该方法，直接根据初始地址包装请求对象发送请求
            for url in self.start_urls:
                yield Request(url, dont_filter=True)

　　我们可以从源代码中查看到，我们定义的爬虫处理类继承的scrapy.Spider类型中，对于初始化的name和start_urls初始地址进行了初始化，然后自动调用start_requests函数包装Request请求对象，然后通过协程调用的方法将请求交给调度器进行后续的处理

这里就需要了解请求对象中到底做了哪些事情？！

　　(1) Request对象 Request请求对象是scrapy框架中的核心对象，通过将字符串url地址包装成请求对象交给调度器进行调度管理，之后交给下载模块进行数据采集的操作

Request底层操作部分源码如下：

# scrapy中的Request请求对象
class Request(object_ref):

    # 默认构建时，method="GET"包装的是GET请求的采集方式
    # 参数url:请求地址字符串
    # 参数callback：请求的回调函数
    # 参数headers：默认的请求头
    # 参数body: 请求体
    # 参数cookies：请求中包含的cookie对象
    # 参数encoding：请求编码方式
    def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None):

        self._encoding = encoding  # this one has to be set first
        self.method = str(method).upper()
        self._set_url(url)
        self._set_body(body)
        assert isinstance(priority, int), "Request priority not an integer: %r" % priority
        self.priority = priority

        if callback is not None and not callable(callback):
            raise TypeError('callback must be a callable, got %s' % type(callback).__name__)
        if errback is not None and not callable(errback):
            raise TypeError('errback must be a callable, got %s' % type(errback).__name__)
        assert callback or not errback, "Cannot use errback without a callback"
        self.callback = callback
        self.errback = errback

        self.cookies = cookies or {}
        self.headers = Headers(headers or {}, encoding=encoding)
        self.dont_filter = dont_filter

        self._meta = dict(meta) if meta else None
        self.flags = [] if flags is None else list(flags)

　　那么在实际操作中，我们通过如下三点详细说明：

如何发送get请求

　　直接编写爬虫程序，定义strat_urls中的初始地址和爬虫的name名称，然后重写父类中的parse()函数即可，请求的发送默认就是get()方式进行数据采集：

import scrapy

# 定义自己的爬虫处理类
class MySpider(scrapy.Spider):
    # 定义爬虫名称
    name = 'myspider'
    # 定义初始化url地址列表
    start_urls = ("http://www.baidu.com", )
    # 定义域名限制
    allowed_domains = ["baidu.com"]
    
    # 定义数据处理方式
    def parse(self, response):
        # 数据处理部分
        pass

如何发送post请求

　　因为scarpy默认的Request是get方式发送请求，如果要通过post方式发送请求采集数据，需要重新编写start_requests()函数覆盖父类中的请求包装方式

import scrapy 

class MySpider(scrapy.Spider):
    # 定义爬虫名称
    name = 'myspider'
    # 定义初始化url地址列表
    start_urls = ("http://www.baidu.com", )
    # 定义域名限制
    allowed_domains = ["baidu.com"]
    
    # 重写父类请求初始化发送方式
    def start_requests(self, response):
        # 循环初始话地址，发送post请求
        for url in self.start_urls:
            yield scrapy.FormRequest(
                url = url,
                formdata = {post参数字典},
                callback = self.parse_response,
            )
        
    # 重新编写响应数据处理函数
    def parse_response(self, response):
        # 处理采集到的response数据
        pass

　　同时，也可以通过响应对象构建一个POST请求重新发送，如下：

import scrapy

class MySpider(scarpy.Spider):

    # 定义爬虫名称
    name = 'myspider'
    # 定义初始化url地址列表
    start_urls = ("http://www.baidu.com", )
    # 定义域名限制
    allowed_domains = ["baidu.com"]
    
    # 重写父类请求初始化发送方式
    def parse(self, response):
        # 通过响应对象重新构建一个POST请求再次发送
        return scrapy.FormRequest.from_response(
            response,
            formdata = {"post参数字典数据"},
            callback = self.parse_response
        )
        
    # 重新编写响应数据处理函数
    def parse_response(self, response):
        # 处理采集到的response数据
        pass

(2) Response对象 Response对象在项目中的直接操作并不是很多，参考源代码如下：

# 部分代码
class Response(object_ref):
    def __init__(self, url, status=200, headers=None, body='', flags=None, request=None):
        self.headers = Headers(headers or {})
        self.status = int(status)       # 响应码
        self._set_body(body)            # 响应体
        self._set_url(url)              # 响应url
        self.request = request          # 请求对象
        self.flags = [] if flags is None else list(flags)

    @property
    def meta(self):
        try:
            return self.request.meta
        except AttributeError:
            raise AttributeError("Response.meta not available, this response " \
                "is not tied to any request")

(3)案例操作：模拟CSDN登录

创建爬虫项目

scrapy startproject csdnspider

在csdnspider/csdnspider/spiders/目录中创建csdnspider.py文件，创建爬虫类如下：

# coding:utf-8

import scrapy


class CsdnSpider(scrapy.Spider):
    '''
    CSDN登录爬虫处理类
    '''
    # 爬虫名称
    name = "cs"
    # 初始登录地址
    start_urls = ["https://passport.csdn.net/account/login"]

    def parse(self, response):

        # 匹配登录流水号
        lt = response.xpath("//form[@id='fm1']/input[@type='hidden']/@value").extract()[1]

        # 发送post请求完成登录
        return scrapy.FormRequest.from_response(
            response,
            formdata = {
                "username": "15682808270",
                "password": "DAMUpython2016",
                "lt": lt,
                # "execution": "e2s1",
                # "_eventId": "submit"
            },
            callback=self.parse_response
        )

    def parse_response(self, response):
        # 得到登录后的数据，进行后续处理
        with open("csdn.html", "w") as f:
            f.write(response.body)

(4). 深度采集数据：爬取智联某工作岗位所有页面工作数据

创建爬虫程序

scrapy startproject zlspider

分析请求，定义Item对象

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ZhilianItem(scrapy.Item):
    '''
    定义采集数据的类型，该类型中，会封装采集到的数据
        继承scrapy.Item类型，scrapy框架才会调用内建函数继续自动化操作
    '''
    # 通过scrapy.Field()定义属性字段，每个字段都是采集数据的一部分
    job_name = scrapy.Field()
    company = scrapy.Field()
    salary = scrapy.Field()
创建数据库，定义数据表，用于存储数据
# 创建数据库
DROP DATABASE py1709_spider;
CREATE DATABASE py1709_spider DEFAULT CHARSET 'utf8';

USE py1709_spider;

# 创建数据表
CREATE TABLE jobs(
    id INT AUTO_INCREMENT PRIMARY KEY,
    job_name VARCHAR(200),
    company VARCHAR(200),
    salary VARCHAR(50)
);
SELECT COUNT(1) FROM jobs;
SELECT * FROM jobs;
TRUNCATE TABLE jobs;

开发爬虫程序，通过请求对象的自定义包装，完成请求链接[分页连接]跟踪爬取

在zlspider/zlspider/spider/文件夹中，创建zhilianspider.py文件，编辑爬虫程序如下：

# coding:utf-8

# 引入scrapy模块
import scrapy

from ..items import ZhilianItem


class ZhilianSpider(scrapy.Spider):
    '''
    智联招聘数据采集爬虫程序
        需要继承scrapy.Spider类型，让scrapy负责调度爬虫程序进行数据的采集
    '''
    # name属性：爬虫名称
    name = "zl"
    # allowed_domains属性：限定采集数据的域名
    allowed_domains = ["zhaopin.com"]
    # 起始url地址
    start_urls = [
        #"http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw=%E7%88%AC%E8%99%AB&sm=0&sg=cab76822e6044ff4b4b1a907661851f9&p=1",
        "http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC%2b%E4%B8%8A%E6%B5%B7%2b%E5%B9%BF%E5%B7%9E%2b%E6%B7%B1%E5%9C%B3&kw=python&isadv=0&sg=7cd76e75888443e6b906df8f5cf121c1&p=1",
    ]

    def parse(self, response):
        '''
        采集的数据解析函数（响应数据解析函数）
            主要用于进行响应数据的筛选：筛选目标数据分装成Item对象
        :param response:
        :return:
        '''


        # # 再次从响应中获取要进行下一次爬取的url地址[其他页面请求]
        # next_page = response.xpath("//div[@class='pagesDown']/ul/li/a/@href").extract()
        # # 循环处理请求
        # for page in next_page:
        #     page = response.urljoin(page)
        #     # 重新发起请求采集下一组url地址的数据[第一个参数：发起的请求地址，第二个参数：请求数据一旦被采集~交个哪个函数进行处理]
        #     yield scrapy.Request(page, callback=self.parse_response)
        url = response.urljoin(self.start_urls[0])
        yield scrapy.Request(url, callback=self.parse_response)


    def parse_response(self, response):
        # 筛选得到工作列表
        job_list = response.xpath("//div[@id='newlist_list_content_table']/table[position()>1]/tr[1]")
        # 循环获取采集的字段信息
        for job in job_list:
            # 岗位名称
            job_name = job.xpath("td[@class='zwmc']/div/a").xpath("string(.)").extract()[0]
            # 公司名称
            company = job.xpath("td[@class='gsmc']/a").xpath("string(.)").extract()[0]
            # 薪水
            salary = job.xpath("td[@class='zwyx']").xpath("string(.)").extract()[0]

            # 封装成item对象
            item = ZhilianItem()
            item['job_name'] = job_name
            item['company'] = company
            item['salary'] = salary

            # 通过协程的方式移交给pipeline进行处理
            yield item
        # 再次从响应中获取要进行下一次爬取的url地址[其他页面请求]
        next_page = response.xpath("//div[@class='pagesDown']/ul/li/a/@href").extract()
        # 循环处理请求
        for page in next_page:
            page = response.urljoin(page)
            # 重新发起请求采集下一组url地址的数据[第一个参数：发起的请求地址，第二个参数：请求数据一旦被采集~交个哪个函数进行处理]
            yield scrapy.Request(page, callback=self.parse_response)
运行测试程序 在终端命令行窗口中，运行程序
scrapy crawl zl

查看数据库中的数据记录

备注：在这样的深度采集数据时，首页数据很有可能会重复，所以，将数据解析函数分成了两个步骤执行，第一步通过parse()函数处理首页地址增加到response.urljoin()中，然后通过parse_response()函数进行实际的数据采集工作，达到首页数据去重的目的！

3. Spider CrawlSpider完成数据深度采集

　　Scrapy框架针对深度爬虫，提供了一种深度爬虫的封装类型scrapy.CrawlSpider，我们自己定义开发的爬虫处理类需要继承该类型，才能使用scrapy提供封装的各项深度爬虫的功能

　　scrapy.CrawlSpider是从scrapy.Spider继承并进行功能扩展的类型，在该类中，通过定义Url地址的提取规则，跟踪连接地址，从已经采集得到的响应数据中继续提取符合规则的地址进行跟踪爬取数据

部分源代码如下：

class CrawlSpider(Spider):
    rules = ()
    def __init__(self, *a, **kw):
        super(CrawlSpider, self).__init__(*a, **kw)
        self._compile_rules()

    # 1. 调用重写父类的parse()函数来处理start_urls中返回的response对象
    # 2. parse()则将这些response对象再次传递给了_parse_response()函数处理
    # 2.1. _parse_response()函数中设置follow为True，该参数用于打开是否跟进链接提取
    # 3. parse将返回item和跟进了的Request对象    
    def parse(self, response):
        return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)

    # 定义处理start_url中返回的response的函数，需要重写
    def parse_start_url(self, response):
        return []

    # 结果过滤函数
    def process_results(self, response, results):
        return results

    # 从response中抽取符合任一用户定义'规则'的链接，并构造成Resquest对象返回
    def _requests_to_follow(self, response):
        if not isinstance(response, HtmlResponse):
            return
        seen = set()
        
        # 循环获取定义的url地址提取规则
        for n, rule in enumerate(self._rules):
            # 得到所有的提取规则列表
            links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
            # 使用用户指定的process_links处理每个连接
            if links and rule.process_links:
                links = rule.process_links(links)
            #将链接加入seen集合，为每个链接生成Request对象，并设置回调函数为_repsonse_downloaded()
            for link in links:
                seen.add(link)
                # 构造Request对象，并将Rule规则中定义的回调函数作为这个Request对象的回调函数
                r = Request(url=link.url, callback=self._response_downloaded)
                r.meta.update(rule=n, link_text=link.text)
                # 对每个Request调用process_request()函数。该函数默认为indentify，即不做任何处理，直接返回该Request.
                yield rule.process_request(r)

    # 采集数据链接处理，从符合规则的rule中提取链接并返回item和request
    def _response_downloaded(self, response):
        rule = self._rules[response.meta['rule']]
        return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)

    # 解析response对象，通过callback回调函数解析处理，并返回request或Item对象
    def _parse_response(self, response, callback, cb_kwargs, follow=True):
        # 首先判断是否设置了回调函数。（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数）
        #如果设置了回调函数（parse_start_url()），那么首先用parse_start_url()处理response对象，
        # 然后再交给process_results处理。返回cb_res的一个列表
        if callback:
            #如果是parse调用的，则会解析成Request对象
            #如果是rule callback，则会解析成Item
            cb_res = callback(response, **cb_kwargs) or ()
            cb_res = self.process_results(response, cb_res)
            for requests_or_item in iterate_spider_output(cb_res):
                yield requests_or_item

        # 如果需要跟进，那么使用定义的Rule规则提取并返回这些Request对象
        if follow and self._follow_links:
            #返回每个Request对象
            for request_or_item in self._requests_to_follow(response):
                yield request_or_item

    # 规则过滤
    def _compile_rules(self):
        def get_method(method):
            if callable(method):
                return method
            elif isinstance(method, basestring):
                return getattr(self, method, None)

        self._rules = [copy.copy(r) for r in self.rules]
        for rule in self._rules:
            rule.callback = get_method(rule.callback)
            rule.process_links = get_method(rule.process_links)
            rule.process_request = get_method(rule.process_request)

    # 链接跟踪全局配置设置
    def set_crawler(self, crawler):
        super(CrawlSpider, self).set_crawler(crawler)
        self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

(1) LinkExtractor链接提取对象

　　LinkExtract类型，主要目的是用于定义链接的提取匹配方式

　　该类中的方法extract_link()用于从响应对象response中提取符合定义规则的链接

　　该类型只会被实例化一次，但是在每次采集得到数据时重复调用

class scrapy.linkextractors.LinkExtractor(
    allow = (),         # 正则表达式，符合规则的链接会提取
    deny = (),          # 正则表达式，负责规则的链接会排除
    allow_domains = (), # 允许的域名
    deny_domains = (),  # 禁止的域名
    deny_extensions = None, # 是否允许扩展
    restrict_xpaths = (),   # xpath表达式，和allow配合使用精确提取数据
    tags = ('a','area'),    # 标签~
    attrs = ('href'),       # 指定提取的属性
    canonicalize = True,    
    unique = True,          # 唯一约束，是否去重
    process_value = None
)

　　上述的参数中，我们可以看到通过一个linkextractors.LinkExtractor对象，可以定义各种提取规则，并且不需要考虑是否会将重复的链接添加到地址列表中

　　通过srapy shell做一个简单的测试，首先打开智联工作列表页面，终端命令行执行如下命令：

scrapy shell "http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC%2b%E4%B8%8A%E6%B5%B7%2b%E5%B9%BF%E5%B7%9E%2b%E6%B7%B1%E5%9C%B3&kw=python&isadv=0&sg=5b827b7808f548ad8261595837624f24&p=4"

　　此时scrapy就会自动从指定的地址中采集数据，并包含在response变量中，打开了python命令行，导入LinkExtractor类型并定义提取规则：

# 导入LinkExtractor类型
>>> from linkextractors import LinkExtractor
# 定义提取规则，包含指定字符的链接被提取
>>> links = LinkExtractor(allow=('7624f24&p=\d+'))

　　接下来，从响应数据中提取符合规则的超链接，执行extract_links()函数如下：

next_urls = links.extract_links(response)

　　打印next_urls，得到如下结果：

[Link(url='http://sou.zhaopin.com/jobs/searchresult.ashx
?jl=%E5%8C%97%E4%BA%AC%2b%E4%B8%8A%E6%B5%B7%2b%E5%B9%BF%E
5%B7%9E%2b%E6%B7%B1%E5%9C%B3&kw=python&isadv=0&sg=5b827b7
808f548ad8261595837624f24&p=4',text=u'\u767b\u5f55', frag
ment='', nofollow=True), Link(url='http://sou.zhaopin.com
/jobs/searchresult.ashx?j
l=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%
b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&sg=5b827b780
8f548ad8261595837624f24&p=3', text=u'\u4e0a\u4e00\u9875',
fragment='', nofollow=False), Link(url='http://sou.zhaopi
n.com/jobs/searchresult.ashx?j
l=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%b
7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&sg=5b827b7808
f548ad8261595837624f24&p=1', text='1', fragment='', nofoll
ow=False), Link(url='http://sou.zhaopin.com/jobs/searchre
sult.ashx?jl=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e
5%b9%bf%e5%b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&s
g=5b827b7808f548ad8261595837624f24&p=2', text='2', fragme
nt='', nofollow=False), Link(url='http://sou.zhaopin.com/
jobs/searchresult.ashx?j
l=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%
b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&sg=5b827b780
8f548ad8261595837624f24&p=5', text='5', fragment='', nofo
llow=False), Link(url='http://sou.zhaopin.com/jobs/search
result.ashx?jl=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b
%e5%b9%bf%e5%b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0
&sg=5b827b7808f548ad8261595837624f24&p=6', text='6', frag
ment='', nofollow=False), Link(url='http://sou.zhaopin.co
m/jobs/searchresult.ashx?j
l=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%
b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&sg=5b827b780
8f548ad8261595837624f24&p=7', text='7', fragment='', nofo
llow=False), Link(url='http://sou.zhaopin.com/jobs/search
result.ashx?jl=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b
%e5%b9%bf%e5%b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0
&sg=5b827b7808f548ad8261595837624f24&p=8', text='8', frag
ment='', nofollow=False), Link(url='http://sou.zhaopin.co
m/jobs/searchresult.ashx?j
l=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%
b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&sg=5b827b780
8f548ad8261595837624f24&p=9', text='...', fragment='', no
follow=False)]

　　我们可以很直观的看到，所有符合规则的连接全部被提取了出来

(2) Rule规则对象

　　Rule对象是链接操作规则对象，主要定义了对于LinkExtractor类型提取的超链接url地址的操作行为，可以在一个爬虫程序中定义多个Rule对象，包含在一个rules列表中即可

class scrapy.spiders.Rule(
        # LinkExtractor对象
        link_extractor,         
        # 回调函数，得到数据库之后调用的函数
        callback = None,        
        # 回调函数调用时传递的参数列表
        cb_kwargs = None,       
        # 是否从返回的响应数据中根据LinkExtractor继续提取，一般选择True
        follow = None,          
        # 从LinkExtractor中提取的连接，会自动调用该选项指定的函数，用来进行超链接的筛选
        process_links = None,   
        # 指定每个请求封装处理时要调用的函数
        process_request = None  
)

(3) 案例操作

　　智联招聘深度爬虫操作案例：

创建爬虫项目
```
scrapy startproject zhilianspider2
```

创建爬虫程序在zhilianspider2/zhilianspider2/spiders/目录中创建zhilianspider.py文件，编辑如下：

# coding:utf-8

# 引入CrawlSpider, Rule, LinkExtractor模块
from scrapy.linkextractors import LinkExtractor
from scrapy.spider import CrawlSpider, Rule


class ZhilianSpider(CrawlSpider):
    """
    智联招聘深度爬虫处理类
    继承scrapy.spiders.CrawlSpider类型
    """
    # 定义爬虫名称
    name = "cs2"
    # 定义域名限制
    allowed_domains = ["zhaopin.com"]
    # 定义起始地址
    start_urls = ("http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC%2b%E4%B8%8A%E6%B5%B7%2b%E5%B9%BF%E5%B7%9E%2b%E6%B7%B1%E5%9C%B3&kw=python&isadv=0&sg=5b827b7808f548ad8261595837624f24&p=1",)

    # 定义提取规则
    links = LinkExtractor(
        allow=("5837624f24&p=\d+")
    )

    # 定义操作规则
    rules = [
        # 定义一个操作规则
        Rule(links, follow=True, callback='parse_response'),
    ]

    # 定义数据处理函数
    def parse_response(self, response):
        # 提取数据
        job_list = response.xpath("//div[@id='newlist_list_content_table']/table[@class='newlist'][position()>1]")
        # 循环筛选数据
        for job in job_list:
            job_name = job.xpath("tr[1]/td[@class='zwmc']/div/a").xpath("string(.)").extract()[0]

            print job_name

        print("*************************************************")

　　在终端命令行中执行如下命令运行爬虫程序

scrapy crawl cs2

　　可以在控制台看到具体的爬取信息，对于提取的数据全部进行了跟踪处理

..
[scrapy.core.engine] DEBUG: Crawled (200) //sou.zhaopin.com/jobs/searchresult.ashx?jl=%e5%8c%97%e4%ba%ac%2
b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python&isadv=0&sg=5b827b7808f548ad8261595837624f24&p=13> (referer: http
://sou.zhaopin.com/jobs/searchresult.ashx?jl=%e5%8c%97%e4%ba%ac%2b%e4%b8%8a%e6%b5%b7%2b%e5%b9%bf%e5%b7%9e%2b%e6%b7%b1%e5%9c%b3&kw=python
&isadv=0&sg=5b827b7808f548ad8261595837624f24&p=9)

....
图像算法工程师
软件测试工程师
********************************************************************
软件测试经理
高级软件测试工程师

......
 'scheduler/enqueued/memory': 17,
 'spider_exceptions/IOError': 3,
 'spider_exceptions/UnicodeEncodeError': 1,
 'start_time': datetime.datetime(2018, 1, 17, 4, 33, 38, 441000)}
2018-01-17 12:35:56 [scrapy.core.engine] INFO: Spider closed (shutdown)

你可能感兴趣的:(scrapy初步解析源码即深度使用)

php glob 排序,php 使用 Glob() 查找文件技巧 weixin_39770311 php glob 排序
php使用Glob()查找文件技巧定义和用法glob()函数返回匹配指定模式的文件名或目录该函数返回一个包含有匹配文件/目录的数组如果出错返回false参数描述file必需。规定检索模式。size可选。规定特殊的设定。GLOB_MARK-在每个返回的项目中加一个斜线GLOB_NOSORT-按照文件在目录中出现的原始顺序返回(不排序)GLOB_NOCHECK-如果没有文件匹配则返回用于搜索的模式GL
php glob 指定目录,php使用glob函数快速查询指定目录文件的方法_php技巧程序员小智和大鹏 php glob 指定目录
本文实例讲述了php使用glob函数快速查询指定目录文件的方法。分享给大家供大家参考。具体如下：php搜索当前目录所有文件,代码如下:$array=glob('*.*');print_r($array);/*Array([0]=>1.php[1]=>10.php[2]=>11.php[3]=>2.asp[4]=>3.asp[5]=>4.aspx[6]=>5.html[7]=>6.php[8]=>7
c语言日志模块,一个简单又高效的日志系统 jy ch c语言日志模块
下载源代码摘要：本文给出一个性能高，使用简单的日志解决方案。本模块实现日志信息的批量写入文件，定时自动flush到文件中，写入文件的日志级别可动态调整，单个日志文件大小可配置，循环对日志文件写入，这样不会造成机器空间被日志文件耗尽。关键字：日志性能日志级别一、程序日志是商品程序中必不可少的部分。在正式商用的程序中一般对于日志都会有一些类似的要求：性能要求运行时日志级别可调整日志文件空间使用安全性问
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
使用分布式锁解决淘客返利系统中的并发问题微赚淘客系统开发者@聚娃科技分布式
使用分布式锁解决淘客返利系统中的并发问题大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！1.引言在淘客返利系统中，常常需要处理高并发的订单和返利计算。由于并发请求可能会导致数据不一致的问题，因此需要一种有效的解决方案来管理并发访问。分布式锁是一种常见的并发控制机制，可以确保在同一时刻只有一个请求对共享资源进行修改。本文将详细介绍如何在Java中使用分布式锁解决淘客返利
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
简识MQ之Kafka、ActiveMQ、RabbitMQ、RocketMQ传递机制天天向上杰 MQ kafka activemq rabbitmq rocketmq
四种主流消息队列（Kafka、ActiveMQ、RabbitMQ、RocketMQ）的生产者与消费者传递信息的机制说明，以及实际使用中的注意事项和示例：1.ApacheKafka传递机制模型：基于发布-订阅模型，生产者向主题（Topic）发送消息，消费者订阅主题并消费消息。核心流程：生产者将消息发送到Kafka集群的Broker，根据分区策略（如轮询、哈希）将消息写入对应的分区（Partition
JavaEE进阶知识学习-----定时任务调度Quartz-4 四川码匠 Quartz JAVA进阶学习 Quartz 任务调度
Quartz和SpringMVC，Spring整合1.Quartz依赖的包如下：org.springframeworkspring-context-support${spring.version}org.springframeworkspring-tx${spring.version}org.quartz-schedulerquartz2.2.3使用Quartz配置作业的方式第一种：MethodI
python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
6月5日世界环境日：Agoda发布可持续旅游趋势调查报告美通社微软分布式存储 vm 办公软件 datagridview
Agoda近日发布“可持续旅游趋势调查”报告，揭示轻松识别可持续的环保旅行选择、限制使用一次性塑料制品以及为最大限度提高能源效率的住宿供应商提供经济激励是让旅行更具可持续性所需的前三大额外措施。建立更多保护区，限制游客人数并取消一次性卫浴用品排在全球前五大措施之列。为纪念2021年6月5日世界环境日，Agoda公布这项调查结果。从调查中我们还发现，过度旅游、海滩和水道污染是人们最担心的旅游会带来的
ASUS/华硕无畏Pro15 M6500Q 原厂Win11 21H2 家庭版系统工厂文件带ASUS Recovery恢复无限的奇迹电脑
华硕工厂文件恢复系统，安装结束后带隐藏分区，带一键恢复，以及机器所有的驱动和软件。支持型号：M6500QB,M6500QH系统版本：Windows1121H2文件下载：点击下载文件格式：工厂文件安装教程：点击查看需准备一个20G以上u盘进行恢复请注意：仅支持以上型号专用，其他华硕机器切勿使用
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
Go Web 开发基础：从入门到实战一小路一掌握 Go 语言：编程世界的进阶钥匙 golang 前端面试后端服务器
GoWeb开发基础：从入门到实战Go语言因其高效性和简洁性，成为了后端开发的热门选择之一。Go的net/http包提供了强大的Web服务功能，可以帮助我们快速搭建Web应用。本文将带领你从基础开始，逐步了解如何使用Go创建Web服务、处理路由、使用模板引擎、提供静态文件服务，并与数据库进行交互。文章内容包含常见的错误示例和面试题，帮助你更好地理解GoWeb开发。1.使用net/http创建一个简单
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
141，【1】buuctf web [SUCTF 2019]EasyWeb rzydal web 安全
进入靶场代码审计18){die('Oneinchlong,oneinchstrong!');}//使用正则表达式检查$hhh是否包含特定字符集（包括一些常见字符和控制字符等），如果包含则终止脚本执行if(preg_match('/[\x00-0-9A-Za-z\'"\`~_&.,|=[\x7F]+/i',$hhh))die('Trysomethingelse!');//获取$hhh中使用到的字符，
c语言迷宫小游戏350行（源码）迷茫&&前行 c语言 c语言游戏
这是一款基于控制台的双模式迷宫冒险游戏。在极限逃脱模式中，玩家需操控角色"A"在三个精心设计的关卡中躲避追踪者"B"，通过WASD键在100步限制内抵达终点"@"，关卡包含特殊地形和动态敌人机制。无尽挑战模式则采用随机生成的渐进式迷宫，每关迷宫尺寸随等级扩大，玩家需在无限扩展的迷宫中不断挑战。游戏提供可视化操作界面，通过方向键控制移动，支持中途退出功能（o)。两种模式分别提供3个固定关卡和无限递增
【Docker】百度网盘：基于VNC的Web访问及后台下载 T0uken docker 前端 dubbo
本教程通过DockerCompose部署百度网盘的VNC版本，实现24小时不间断下载、双模式访问、数据持久化、自动重启和安全加密控制等核心功能。目录结构规划建议使用以下目录结构（可根据实际情况调整）：~/baidunetdisk/├──docker-compose.yml├──config/└──downloads/创建docker-compose.ymlservices:baidunetdisk
代理IP服务如何优化AI大模型训练的分布式计算效率 http
AI大模型训练就像一场接力赛，每个计算节点都是接力选手，而代理IP则是保证选手们“跑得更稳、交接更顺”的隐形教练。在分布式计算中，效率瓶颈往往不是算力本身，而是数据调度与通信协作的隐性损耗。接下来，我们从三个实操场景拆解代理IP的增效逻辑。场景一：数据采集与分发的“高速公路”分布式训练的第一步是将海量数据切分到不同计算节点。假设某团队要训练法律文书解析模型，需从20个省级法院网站抓取判例。如果所有
postgresql实时同步到mysql 数据库
应客户要求，需要同步数据到他们自己的数据库用于简单的数据分析，但这部分数据在postgresql，客户又不想再建pg，想直接同步到他们现有的mysql库，实时性倒是不要求。考虑到1、异构数据库同步2、只同步指定客户的行数据有之前同步到es的经验，同样使用了腾讯oceanus，其它工具没搞定客户库中创建表CREATETABLEtb_1(idbigintprimarykey,didbigint,gid
HarmonyOS Next AI开发环境搭建与工具使用 harmonyos
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中AI开发环境搭建与工具使用相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、HarmonyOSNextAI开发环境概述（一）硬件与软件环境需求介绍硬件环境处理器：对于HarmonyOSNext
【大语言模型_3】ollama本地加载deepseek模型后回答混乱问题解决没枕头我咋睡觉大语言模型语言模型人工智能自然语言处理
背景：本地下载了DeepSeek-R1-Distill-Qwen-7B模型后，通过ollamacreateDeepSeek-R1-Distill-Qwen-7B-fds7b.mf加载模型启动后回答混乱，无法使用。解决方法重新下载模型，选择了DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf重新编写ds7b.mf文件，文件内容如下：FROM/root/zml/DeepSe
Linux系统替换字符串常用命令
在Linux系统中，替换字符串的操作是一项非常常见且实用的任务，尤其在处理大量文本文件时。sed和grep是两个非常强大的工具，广泛用于这种类型的文本处理操作。接下来我们将深入探讨如何使用这两个工具来实现字符串的替换操作，并详细分析每个步骤。1.使用sed替换字符串sed（StreamEditor）是一个流编辑器，广泛应用于文本处理。它可以进行查找、替换、删除和插入操作。sed的基本语法用于字符串
提升体育用品采购效率的最佳方法：看板管理系统的深度解析看板任务管理工具
引言体育用品采购管理是体育产业链中至关重要的环节，无论是专业的运动队、体育俱乐部，还是体育用品零售商或电商平台，如何高效地管理采购流程，确保供应链的稳定和及时配送，都是直接影响业务运作和客户满意度的关键因素。在现代化的采购管理中，信息化工具和看板管理逐渐成为提高效率和透明度的重要手段。本文将深入探讨体育用品采购管理的各个环节，分析常见的采购流程、面临的挑战，并重点介绍如何运用看板管理工具，提升采购
Linux操作系统：个人云存储服务搭建开发暮雨哀尘 Linux的那点事 linux 运维服务器大数据集群技术 nginx mysql
个人云存储服务搭建开发文档一、项目目标搭建一个类似Dropbox的个人云存储服务，实现文件的同步和备份功能，确保数据的安全性和便捷性。二、技术栈操作系统：Linux（推荐使用UbuntuServer或CentOS）云存储软件：Nextcloud或SeafileWeb服务器：Apache或Nginx数据库：MySQL或MariaDBSSL证书：自签名证书或Let'sEncrypt免费证书三、搭建步骤
深入解析 TensorFlow 1.15 “Cannot convert a symbolic Tensor to a numpy array” 错误 Crazy learner C++与python编程 tensorflow numpy 人工智能
目录1.错误来源分析2.可能的原因**原因1：初始状态或输入数据的形状不匹配****原因2：TensorFlow和NumPy的版本兼容性问题****原因3：EagerExecution的影响**3.解决方法**方法1：检查输入形状和初始状态****方法2：降级NumPy版本****方法3：禁用EagerExecution****方法4：升级到TensorFlow2.x****方法5：调整代码生成初
Linux 系统中的 .7z 压缩与解压详解 Crazy learner Linux基本命令 C++与python编程 linux 7z
目录一、安装p7zip工具二、压缩文件到.7z格式三、解压.7z文件五、常见操作实例六、总结在Linux系统中，.7z是一种高效的压缩文件格式，通常使用p7zip工具来进行操作。7z格式以其高压缩率和支持多种压缩算法（如LZMA、LZMA2等）而闻名。本文将深入讲解如何在Linux环境下使用.7z文件格式进行压缩和解压操作，并通过多个实例帮助你掌握这些技能。一、安装p7zip工具在大多数Linux
如何在Pycharm等Terminal中获取当前的环境变量信息潇囧囧 pycharm python
目标：查看当前编程环境变量信息。方法：直接使用os库即可查看当前虚拟环境对应的全局变量。importos#打印所有环境变量forkey,valueinos.environ.items():print(f"{key}:{value}")#获取特定环境变量的值path=os.environ.get("PATH")print(f"PATH:{path}")需求：有时会遇到虚拟环境的某些配置和我们系统的配
Sentinel实战：构建可靠的微服务防护系统 ivwdcwso 安全 sentinel 微服务架构防护安全 java 开发
1.引言在微服务架构中，保障系统的可用性和稳定性至关重要。Sentinel作为一个强大的流量控制组件，为我们提供了实现熔断、限流、系统保护等功能的有力工具。本文将通过实际案例，详细介绍Sentinel的使用方法和最佳实践，并探讨如何在容器环境中部署Sentinel。2.Sentinel简介Sentinel是阿里巴巴开源的面向分布式服务架构的流量控制组件，主要以流量为切入点，从流量控制、熔断降级、系
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户