weixin_30709809

Scrapy框架基于CrawlSpider爬数据，基于scrapy-redis的分布式爬虫，增量式爬虫

一.scrapy框架基于CrawlSpider的全站数据爬取

1.使用

　　1.创建scrapy工程：scrapy startproject projectName

　　2.创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com

生成的爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class ChoutiSpider(CrawlSpider):
    # name = 'chouti'
    # # allowed_domains = ['www.xxx.com']
    # start_urls = ['https://dig.chouti.com/r/scoff/hot/1']
    #
    # #连接提取器:
    # #allow:表示的就是链接提取器提取连接的规则(正则)
    # link = LinkExtractor(allow=r'/r/scoff/hot/\d+')
    #
    # rules = (
    #     #规则解析器:将链接提取器提取到的连接所对应的页面数据进行指定形式的解析
    #     Rule(link, callback='parse_item', follow=True),
    #     # 让连接提取器继续作用到链接提取器提取到的连接所对应的页面中
    # )
    #
    # def parse_item(self, response):
    #     print(response)

    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/pic/']

    # 连接提取器:
    # allow:表示的就是链接提取器提取连接的规则(正则)/pic/page/3?s=5172496
    link = LinkExtractor(allow=r'/pic/page/\d+\?s=\d+')
    link1 = LinkExtractor(allow=r'/pic/$')
    # link1 = LinkExtractor(allow=r'')
    rules = (
        # 规则解析器:将链接提取器提取到的连接所对应的页面数据进行指定形式的解析
        Rule(link, callback='parse_item', follow=True),
        # 让连接提取器继续作用到链接提取器提取到的连接所对应的页面中

        Rule(link1, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response)

LinkExtractor：顾名思义，链接提取器。

LinkExtractor(

　　allow=r'Items/'，# 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。

　　deny=xxx, # 满足正则表达式的则不会被提取。

　　restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

　　restrict_css=xxx, # 满足css表达式的值会被提取

　　deny_domains=xxx, # 不会被提取的链接的domains。　

作用：提取response中符合规则的链接。

Rule : 规则解析器。根据链接提取器中提取到的链接，根据指定规则提取解析器链接网页中的内容。

　　Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True)

　　　　参数介绍：

　　　　　　参数1：指定链接提取器

　　　　　　参数2：指定规则解析器解析数据的规则（回调函数）

　　　　　　参数3：是否将链接提取器继续作用到链接提取器提取出的链接网页中。当callback为None,参数3的默认值为true。

rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则。

CrawlSpider整体爬取流程：

　　　a)爬虫文件首先根据起始url，获取该url的网页内容

　　　b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

　　　c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

　　　d)将解析数据封装到item中，然后提交给管道进行持久化存储

示例：

　　爬取糗事百科糗图板块的所有页码数据

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class CrawldemoSpider(CrawlSpider):
    name = 'qiubai'
    #allowed_domains = ['www.qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/pic/']

    #连接提取器：会去起始url响应回来的页面中提取指定的url
    link = LinkExtractor(allow=r'/pic/page/\d+\?') #s=为随机数
    link1 = LinkExtractor(allow=r'/pic/$')#爬取第一页
    #rules元组中存放的是不同的规则解析器（封装好了某种解析规则)
    rules = (
        #规则解析器：可以将连接提取器提取到的所有连接表示的页面进行指定规则（回调函数）的解析
        Rule(link, callback='parse_item', follow=True),
        Rule(link1, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response)

　　爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from qiubaiBycrawl.items import QiubaibycrawlItem
import re
class QiubaitestSpider(CrawlSpider):
    name = 'qiubaiTest'
    #起始url
    start_urls = ['http://www.qiushibaike.com/']

    #定义链接提取器，且指定其提取规则
    page_link = LinkExtractor(allow=r'/8hr/page/\d+/')
    
    rules = (
        #定义规则解析器，且指定解析规则通过callback回调函数
        Rule(page_link, callback='parse_item', follow=True),
    )

    #自定义规则解析器的解析规则函数
    def parse_item(self, response):
        div_list = response.xpath('//div[@id="content-left"]/div')
        
        for div in div_list:
            #定义item
            item = QiubaibycrawlItem()
            #根据xpath表达式提取糗百中段子的作者
            item['author'] = div.xpath('./div/a[2]/h2/text()').extract_first().strip('\n')
            #根据xpath表达式提取糗百中段子的内容
            item['content'] = div.xpath('.//div[@class="content"]/span/text()').extract_first().strip('\n')

            yield item #将item提交至管道

　　item.py

import scrapy


class QiubaibycrawlItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    author = scrapy.Field() #作者
    content = scrapy.Field() #内容

　　管道文件

class QiubaibycrawlPipeline(object):
    
    def __init__(self):
        self.fp = None
        
    def open_spider(self,spider):
        print('开始爬虫')
        self.fp = open('./data.txt','w')
        
    def process_item(self, item, spider):
        #将爬虫文件提交的item写入文件进行持久化存储
        self.fp.write(item['author']+':'+item['content']+'\n')
        return item
    
    def close_spider(self,spider):
        print('结束爬虫')
        self.fp.close()

二.基于scrapy-redis的分布式爬虫

　　scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

实现方法：

　　基于该组件的RedisSpider类

　　基于该组件的RedisCrawlSpider类

分布式实现流程

　　下载scrapy-redis组件：pip install scrapy-redis

　　redis配置文件的配置：

注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

将yes该为no：protected-mode no，表示可以让其他ip操作redis

　　在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

　　在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

# 使用scrapy-redis组件的去重队列
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否允许暂停
SCHEDULER_PERSIST = True

　　在配置文件中进行爬虫程序链接redis的配置：

REDIS_HOST = 'redis服务的ip地址'
REDIS_PORT = 6379
REDIS_ENCODING = ‘utf-8’
REDIS_PARAMS = {‘password’:’123456’}

　　启动

 开启redis服务器：redis-server 配置文件

 开启redis客户端：redis-cli

运行爬虫文件：scrapy runspider SpiderFile

向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值 起始url

- 为什么原生的scrapy不能实现分布式?
    - 调度器不能被共享
    - 管道无法被共享

- scrapy-redis组件的作用是什么?
    - 提供了可以被共享的调度器和管道

- 分布式爬虫实现流程
1.环境安装:pip install scrapy-redis
2.创建工程
3.创建爬虫文件:RedisCrawlSpider  RedisSpider
    - scrapy genspider -t crawl xxx www.xxx.com
4.对爬虫文件中的相关属性进行修改:
    - 导报:from scrapy_redis.spiders import RedisCrawlSpider
    - 将当前爬虫文件的父类设置成RedisCrawlSpider
    - 将起始url列表替换成redis_key = 'xxx'(调度器队列的名称)
5.在配置文件中进行配置:
    - 使用组件中封装好的可以被共享的管道类:
        ITEM_PIPELINES = {
            'scrapy_redis.pipelines.RedisPipeline': 400
            }
    - 配置调度器(使用组件中封装好的可以被共享的调度器)
        # 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
        DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
        # 使用scrapy-redis组件自己的调度器
        SCHEDULER = "scrapy_redis.scheduler.Scheduler"
        # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
        SCHEDULER_PERSIST = True

     - 指定存储数据的redis:
        REDIS_HOST = 'redis服务的ip地址'
        REDIS_PORT = 6379

     - 配置redis数据库的配置文件
        - 取消保护模式:protected-mode no
        - bind绑定: #bind 127.0.0.1

     - 启动redis

6.执行分布式程序
    scrapy runspider xxx.py

7.向调度器队列中仍入一个起始url:
    在redis-cli中执行:

三.增量式爬虫

1.定义

　　通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新出的新数据。

2.如何进行增量式的爬取工作

　　在发送请求之前判断这个URL是不是之前爬取过

　　在解析内容后判断这部分内容是不是之前爬取过

　　写入存储介质时判断内容是不是已经在介质中存在

示例：

　　爬取糗事百科中的段子和作者数据。

爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from incrementByDataPro.items import IncrementbydataproItem
from redis import Redis
import hashlib
class QiubaiSpider(CrawlSpider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    rules = (
        Rule(LinkExtractor(allow=r'/text/page/\d+/'), callback='parse_item', follow=True),
        Rule(LinkExtractor(allow=r'/text/$'), callback='parse_item', follow=True),
    )
    #创建redis链接对象
    conn = Redis(host='127.0.0.1',port=6379)
    def parse_item(self, response):
        div_list = response.xpath('//div[@id="content-left"]/div')

        for div in div_list:
            item = IncrementbydataproItem()
            item['author'] = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
            item['content'] = div.xpath('.//div[@class="content"]/span/text()').extract_first()

            #将解析到的数据值生成一个唯一的标识进行redis存储
            source = item['author']+item['content']
            source_id = hashlib.sha256(source.encode()).hexdigest()
            #将解析内容的唯一表示存储到redis的data_id中
            ex = self.conn.sadd('data_id',source_id)

            if ex == 1:
                print('该条数据没有爬取过，可以爬取......')
                yield item
            else:
                print('该条数据已经爬取过了，不需要再次爬取了!!!')

管道文件

from redis import Redis
class IncrementbydataproPipeline(object):
    conn = None

    def open_spider(self, spider):
        self.conn = Redis(host='127.0.0.1', port=6379)

    def process_item(self, item, spider):
        dic = {
            'author': item['author'],
            'content': item['content']
        }
        # print(dic)
        self.conn.lpush('qiubaiData', dic)
        return item

　　爬取4567tv网站中所有的电影详情数据。

爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from redis import Redis
from incrementPro.items import IncrementproItem
class MovieSpider(CrawlSpider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.4567tv.tv/frim/index7-11.html']

    rules = (
        Rule(LinkExtractor(allow=r'/frim/index7-\d+\.html'), callback='parse_item', follow=True),
    )
    #创建redis链接对象
    conn = Redis(host='127.0.0.1',port=6379)
    def parse_item(self, response):
        li_list = response.xpath('//li[@class="p1 m1"]')
        for li in li_list:
            #获取详情页的url
            detail_url = 'http://www.4567tv.tv'+li.xpath('./a/@href').extract_first()
            #将详情页的url存入redis的set中
            ex = self.conn.sadd('urls',detail_url)
            if ex == 1:
                print('该url没有被爬取过，可以进行数据的爬取')
                yield scrapy.Request(url=detail_url,callback=self.parst_detail)
            else:
                print('数据还没有更新，暂无新数据可爬取！')

    #解析详情页中的电影名称和类型，进行持久化存储
    def parst_detail(self,response):
        item = IncrementproItem()
        item['name'] = response.xpath('//dt[@class="name"]/text()').extract_first()
        item['kind'] = response.xpath('//div[@class="ct-c"]/dl/dt[4]//text()').extract()
        item['kind'] = ''.join(item['kind'])
        yield item

管道文件

from redis import Redis
class IncrementproPipeline(object):
    conn = None
    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)
    def process_item(self, item, spider):
        dic = {
            'name':item['name'],
            'kind':item['kind']
        }
        print(dic)
        self.conn.lpush('movieData',dic)
        return item

参考：https://www.cnblogs.com/bobo-zhang/p/10373942.html

转载于:https://www.cnblogs.com/chenxi67/p/10479237.html

ios 集成H5+SDK 梦迪达达
突然接受一个H5+很茫然，打开官方文档更是无法言语，技术人员已经明确提出开发文档停止更新，那么我们只能综合文档以及前辈们的实战来解决了HTML5+SDK一共三种集成方式，“独立应用”、“Widget”和“WebView”1、独立应用集成方式:使用独立应用方式，开发者需要将HTML5+SDK生成的首页面设置为当前View的subView。HTML5+SDK将对应用进行管理。2、Widget集成方式:
写作是一种兴趣 Rose_袁
今天是写作训练营打卡第2天。要求是：朗读完《写出我心》第8章烦人的编辑到第14章迷恋中的所有内容，并且听完音频分享部分写出读后感和自己今年的写作目标。在成年人的世界里，做一件事情之前总是要在脑海里预演千百遍。似乎这样的深思熟虑，才能确保最后的万无一失。比如说：要装修一套房子，会咨询身边很多已经装修过房子的朋友。怎么选装修公司？什么装修风格？甚至电器品牌以及家具陈列等等？担心自己没有经验做不好，不擅
非神勿扰怎么当托非神勿扰内部福利号如何才能申请？会飞滴鱼儿
现在的手游不管是刚公测，或是已经上线很久，官方都会公布一些实用的礼包兑换码来给玩家使用，玩家可以在游戏内获得一些道具，或是一些各种游戏内的金币钻石等福利，现在很多手游平台不仅有礼包码提供给玩家，还有很多游戏都有大幅度的充值折扣等，最低可以1-5折等优惠，不过这些礼包兑换码和折扣福利虽然不错，不过和内部号相比，还是相差甚远，下面小编就来总体的和大家聊聊什么是内部号！说起内部号可能很多朋友都是见过的，
7、开启C与Unity 3D的编程之旅珊珊333333 Unity C#Unity 3D 编程基础
开启C#与Unity3D的编程之旅1.前期准备在进行每一个教程之前，都有一个名为Scene的场景文件。在整个学习过程中，教程通常从下载项目中的Scene文件开始。打开场景的方法有两种：-直接在项目面板的Assets目录下双击场景图标。-选择File→OpenScene来打开项目中的任何场景。2.学习回顾与要点创建并将新的C#文件分配给对象并不复杂，在Unity3D编辑器中有多种方法可以实现。添加代
贪心算法（基础算法） breeze_phantom 算法 c++贪心算法
1.引言ok啊，拖更这么长时间也是没有压力（doge）不说啥，直接进入正题。2.概念这个贪心算法呢，看名字就知道，不就是每个步骤都挑最好的嘛，有啥难的。这么说的话......其实确实，你如果真的能很快找出贪心策略那就可以这么说，但还是那句话，策略怎么找是个问题。讲这么多，还没讲一下定义（虽然不讲感觉也能猜出来）：贪心算法就是在特定问题中每一次计算都做出最好的选择，举个例子：本蒟蒻去商店买东西，这商
成功日记（Day1115）狮子座的兔子姑娘
1、学习中药一课程。~1.5h。2、跟g夙微信闲唠嗑。~0.5h。3、给自己剪头发。~0.5h。4、和包、李微信闲唠嗑。~0.5h。5、和z鹤微信闲聊几句。~0.25h。6、在赫男那做了个生命密码的测试，说我今年会有工作上的大转折，然后又聊了会天。~1h。心情：尚可。还算开心。
Life Chapter 1 罗慕清
从悲伤到幸福，或许只是一瞬间的事呢。最近忙忙碌碌的，身不由己，莫名总是觉得压抑委屈，看起来过得十分充实，自己心里却没有底，仿佛一直被什么东西追赶着，我必须跑，必须跑，必须跑，身后是恐惧，身前是黑暗。做出的事情也不尽如人意，自己一度成为了自己最讨厌的那种人，说真的，如果不是朋友的信任与陪伴，如果不是觉得不应该让世界上那么多和我息息相关的人为我感到些许难过，如果不是觉得我还有很多事情没有经历过，很多地
快手极速版能赚钱吗？解析快手极速版赚钱的3个方法！ U客直谈APP
快手极速版相信大家都有一定的了解吧，它作为快手打造的轻量化app，在应用市场上占据着一席之位。而对于其能赚钱的说法，更是引得大家的热烈追捧。那么快手极速版能赚钱吧？其赚钱是真的吗？快手极速版怎么赚钱？快手极速版一天赚50元的技巧有哪些呢？本篇文章就将解大家所疑，解析快手极速版赚钱的3个方法，帮助大家成功在该平台赚取收入，达到快手极速版一天赚50元的目标。一、快手极速版能赚钱吗答案显然是肯定的！快手
我发现，孤独真的很可怕薄茶写写
过年期间，我父母回老家过年了，我又是一个比较宅的人，不想去应对七大姑八大姨。我就一个人在家过的年，准确的说是我大部分一个人在家，大年三十初一是在表哥家过的。在家的一个多月我发现我从享受孤独到害怕孤独。刚开始，我觉得终于可以清静了，一个真的享受，没有约束，想干什么干什么，没有父母的唠叨。半个月后，每次起床家里没有一个人的声音，我会下意识恐慌，有种世界就剩我一个人的感觉，我就用劳动打破这种安静，做饭洗
Day1学习心得||Leetcode704,27,977
Part1数组的一些注意点第一天学习的内容是数组，基础的内容就按下不表，浅记一下补上的漏洞1.数组的元素不能删除，只能覆盖乍一看可能比较奇怪，但是仔细思考一下很简单。关注一下数组的本质其实是内存上开辟的一串连续的内存空间。在程序中，只能将内存空间中存储的内容改写，而不能完全去除（即使动态数组也只是释放）。2.二维数组的空间地址依然是连续的（顺序比较像阅读的顺序）tip:虽然还没学过Java，但是先
数据结构与算法----贪心王嘉俊925 算法算法数据结构 C++贪心算法
##贪心算法1.核心思想贪心算法通过每一步的局部最优选择，逐步推导出全局最优解。它的特点是不回溯，即一旦做出选择，就不再修改。2.适用条件贪心算法适用于满足以下两个条件的问题：贪心选择性质：每一步的局部最优选择能够导致全局最优解。最优子结构：问题的最优解包含子问题的最优解。3.贪心算法的证明方法贪心算法的正确性通常需要通过以下方法证明：归纳法：证明每一步的贪心选择都能导致全局最优。交换论证：假设存
Jenkins 不同节点间文件传递：跨 Job 与同 Job 的实现方法
在日常的DevOps运维实践中，Jenkins通常被用于串联多个自动化流程，而这些流程往往需要在不同的构建节点（agent）上执行。例如，在以下场景中：场景需求描述（实际问题）最近在一次部署任务中，我遇到这样一个需求：Jenkins的a节点执行某些命令或脚本，生成一个临时文件或构建产物；然后需要b节点获取这个文件，并继续执行后续处理（如压缩、上传、部署等）；a节点与b节点不直接通信，它们都只能与J
一边带孩子一边挣钱的工作，宝妈副业在家就能做的兼职，适合宝妈做的小生意日常购物小技巧
一边带孩子一边挣钱的工作，宝妈副业在家就能做的兼职，适合宝妈做的小生意宝妈们常常面临着如何平衡照顾孩子和自己经济收入的难题。许多宝妈希望能够找到一份能够在家里做的副业，既能够赚钱养家，又不影响对孩子的照顾。幸运的是，现在有很多适合宝妈做的小生意，让她们可以一边带孩子一边挣钱。1.导购电商赚钱全网佣金最高的「氧券」APP，氧券邀请码：999999。至于我为何用这款氧券app，当然是氧券APP佣金更高
零基础数据结构与算法——第五章：高级算法-贪心算法-基础&示例
5.2贪心算法（GreedyAlgorithm）5.2.1贪心算法的基本概念什么是贪心算法？贪心算法是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。生活例子：想象你在超市购物，手里有100元钱，想买尽可能多的零食。如果你采用贪心策略，你会怎么做？你可能会先选择最便宜的零食，然后是第二便宜的，以此类推，直到钱用完。这就是一种贪心策略——每次都选择当前看起来最
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
2018-12-22 迎风展翅
打麻将精神江荣芳谁叫随到从不拖拖拉拉不在乎工作环境专心致志不抱怨经常反省自己唉又错了永不言败推倒再来牌好牌坏一样努力往更好的方向整不管跟谁搭档照样努力对于工作中使用的工具从不挑剔一样顺手最主要是从不嫌弃工作时间长爽快输赢账目清楚不像生意场上拖拖欠欠用这样的精神去工作做事情这世上就没有什么工作干不好
Jenkins流水线中的核心概念 William一直在路上职业重启计划工作心得 jenkins 运维
Jenkins流水线（Pipeline）是Jenkins提供的一套插件，用于实现持续集成和持续交付（CI/CD）工作流的自动化。其核心是通过代码定义整个构建、测试和部署流程，使CI/CD流程更加透明、可维护和可重复。Jenkins流水线主要包含以下核心概念：1.Pipeline（流水线）定义：Pipeline是Jenkins流水线的核心概念，代表整个CI/CD流程，通常通过Jenkinsfile定
今晚线上会议与美好同行
今晚是我们阳明心学诚意班第二次线上会议，说是7:00——7:45，却开到了八点半多。不喜欢开会的我没有一点厌烦，主持人吴老师也是这样说，估计参加会议的我们都一样的感受。这样的会议，不是谁在讲话，而是大家分享学习感受。或者有所得，或者仍迷惑，大家有什么说什么，无拘无束。主持人吴老师是一个曾学过阳明心学两年，然后离开又回到这上面来的人。她说了她的学习感受。她的离开又回来，是给我们的最好的现身说法。她学
夜夜施肥盼果来，颗颗甜香不负君「芭芭农场喜提鲜果」小石头JS
前几日见友友Athena的《我有一个“种菜梦”，如今它终于成真了》文章，刚好也是我家芭芭农场收获之时，一直想写篇文章记录一下，但因忙碌一直推到现在，实在不该。与A君合种芭芭农场已有半年有余，如今收获12枚黄心猕猴桃，真是不负众望啊。收获当天过于忙碌，黄心猕猴桃带回家就摞在一堆快递上了，今日忽然想起，立马拆开查看，并试吃一颗。摸起来不太软的黄心猕猴桃，削了皮是金灿灿的黄心，细小的黑色籽粒均匀分布在两
官途之红颜多娇(陈阳丁若烟)免费小说全集_阅读免费小说官途之红颜多娇陈阳丁若烟六小升
《官途之红颜多娇》主角：陈阳丁若烟，简介：领导葬礼上，美艳的夫人遭受欺凌，小车司机陈阳挺身而出，俘获夫人芳心，从此平步青云，潇洒花丛。陈阳走进卧室，把丁若烟丢在床上。“呆子，过来！”丁若烟羞涩地靠在床头，对他勾了勾手指。陈阳喉咙动了，目光落在床上那件性感的蚕丝吊带睡裙上。“怎么，想看我穿上呀？”丁若烟似笑非笑。“想！”陈阳用力点头。“这可是我新买的，他都还没体验过呢，让你尝个鲜。”丁若烟红着俏脸。
思伊星光关键词写作+心心相印的爱情思伊星光爱情小屋
图片发自App文/指尖上的旋律1涵涵和亮亮从小在南方的一个小山村长大，他们是同岁，一起度过了美好的纯真年代，一起上小学，初中，高中，可以称得上青梅竹马。他们之间还发生了一段美好的爱情，并且还开花结果，受到当地百姓的称赞和深深祝福。南方的小山村依山傍水，山青水秀，在这里生活的人们祖祖辈辈是农民，没有考出去过一个大学生。这里的人们似乎也习惯了这种生活方式，过着日出而耕日落而息的田园生活，自给自足，这样
天天玩游戏却能赚钱？说的就是这五种职业，一个比一个轻松！氧惠好物
一、游戏陪玩赚钱游戏陪玩是现下玩游戏比较热门的赚钱方式。指的是陪客户玩指定的网络游戏，在玩游戏的全程需要提供语音、文字等聊天服务，结束后收取对应的陪玩费用。做陪玩赚钱对游戏等级有一定的要求，通常在入驻平台时会被要求上传游戏账号截图(包含游戏ID、段位、积分等信息)，在审核通过后才能开始接单，一般接单分为两种模式，即抢单和派单。在陪玩的过程中，不仅仅是需要有一定的游戏技术，还需要会聊天，声音好听会说
2019-03-31 frank_you
1.付出不亚于任何人的努力2.要谦虚，不要骄傲3.要每天反省4.活着，就要感谢5.积善行，思利他6.不要有感性的烦恼今日分享：活着，就要感谢！周六，销售小梁电话询问客户急用钱是否能做押车，与财务沟通后得知小额可以放款，于是回复小梁可以马上操作，当小梁发来行驶证后，发现就是周五抵押还没撤销的那个客户，将情况与小梁沟通后，小梁回复客户表示周一来支行办理业务，感谢她在休息天还在努力询单，感谢财务ZL、Z
明天股市大盘走势预测 05ccd5c4766a
今天上证低开高走，收出缩量小阳线在五天线上方，成指也收复五天线，创业板收长阳线，大涨3.9%。从盘面看，早盘宽幅震荡，先上攻3590点附近受阻回落，午后再向上拉高，收复五天线。二市成交量9100亿，缩量严重，二市红盘家数1817家，一改前几天多数股上涨的格局。从早盘银行券商冲高回落，到稀土、钢铁、有色、汽车概念后接力上涨，权重交替拉抬下，让大盘收在3580点上方。但由于量能不续，明仍需提防冲击36
中医强化训练打卡第三十四天 5d8242021a46
桂枝加附子汤：太阳病，发汗，遂漏不止，其人恶风，小便难，四肢微急，难以屈伸者，桂枝加附子汤主之。桂枝汤很温和，所以不称为发汗，那用了麻黄，让人的汗孔被撑开，汗水流出来，我们才称为发汗。但是我们这个地方其实也不用那么严格的限制是桂枝汤还是麻黄汤，因为这跟人的体质也有关系。就是啊，有的时候用桂枝汤或者麻黄汤让这个人出汗，然后这个人如果本来就是一个阳气虚的人，这个汗一出，他的人就会产生一种脱阳的状态。桂
我的青春，不留遗憾沉辰雨
我现在已经大一，面对着我18年的生涯，我不知道要说什么，但我也不知道我为什么一直又想说些什么。或许是说给自己，或许是你们，那些不会看我文章的人。我从小生长在不太富裕的家庭，甚至有点贫穷，或许是这才造就了现在的我，与众不同。从小生长在外婆家，现在仍把她看成我最亲近的人，因为她在我需要爱的时候给了我。看，就是这么简单，不像现在的社会，爱成了稀缺。小学是在家附近上的，说实话，教学质量不怎么样，学校靠着那
杨素芳九期洛阳坚持分享432天 20190503 成长自已
热闹。今天和女儿带着外孙女外孙回老家看望婆婆。小外孙咿呀咿呀在大人的怀抱里跳着笑着，小外孙女满院的跑着，叫着，手里拿着棍棒挥舞着，满院的欢声笑语，刹时，静静的老宅热闹了起来。我去院里除草，小孙女跟在身后，趁我不注意，把小辣椒苗拔了一把，还把即将成熟的葱籽采了一把插在小树丫上。小小的她勤快极了，越是不让她动的东西，她越去动，那就改变说法吧，说让她干什么!“小柚子，把这树枝捡起来"，她用力地捡起树枝递
黄河，我的母亲——教读《黄河颂》有感山城居士
黄河，你是巍巍昆仑孕育的女儿是生我，养我的母亲你如同黄沙般普通又朴实每天重复着同样的事——哺育我成长你伸出千万条柔弱的手臂，揽着我给我温暖与安全你是摇篮，我就是你摇篮里的婴孩你经历无数的狂风暴雨始终不变奔向黄海的志向把坚强融进了血脉这是你赋予我的期盼——博大胸怀这是你教会我的人生——坚强勇敢
苹果手机赚钱app推荐，ios赚钱app软件高省张导师
对于苹果手机（iOS）赚钱app的推荐，以下是一些在市场上较为受欢迎且评价较高的应用：1、社交导购电商社交导购电商是当下最值得年轻人去尝试创业的一种零成本创业模式，也是最早淘宝客的优化版，无货源无售后操作模式，很多小伙伴不知道怎么做，这里我给大家介绍一个靠谱的淘宝导购电商赚钱渠道，可以用来抖音快速短视频直播带货选品，可以地摊进货赚佣金，也可以做微信羊毛群，捡漏群，社群团购等多种赚钱方法就算你不用这
Java内存模型深度解析：栈、堆、方法区详解 wsj__WSJ java java
本文通过生动比喻和实战案例，帮你彻底掌握Java内存结构中栈内存、堆内存和方法区的核心原理与协作方式。一、为什么要区分三种内存？Java划分栈、堆、方法区是为了提高内存使用效率，不同数据有不同的生命周期和访问频率：数据类型类比场景存储位置生命周期临时数据（方法参数）便签纸栈内存方法执行期间对象实例常用文件夹堆内存对象存在期间类定义信息公司制度手册方法区程序运行期间就像高效的办公桌管理：栈内存：临时
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

Scrapy框架基于CrawlSpider爬数据，基于scrapy-redis的分布式爬虫，增量式爬虫

你可能感兴趣的:(Scrapy框架基于CrawlSpider爬数据，基于scrapy-redis的分布式爬虫，增量式爬虫)