Yolanda Yan 9

爬虫入门_8：scrapy框架

scrapy简介

框架：是一个集成了很多功能并且具有很强通用性的一个项目模板
如何学习框架？
- 专门学习框架封装的各种功能的详细用法
scrapy：爬虫中封装好的一个明星框架。功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式

scrapy框架的基本使用

环境的安装：
- mac or linux : pip install scrapy
- windows:
  - 安装wheel：pip install wheel
  - 下载twisted
  下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  - 安装twisted： pip install Twisted-20.3.0-cp37-cp37m-win_amd64.whl
  - 安装pywin32：pip install pywin32
  - 安装scrapy：pip install scrapy
    测试：在终端里输入import scrapy，没有报错即表示安装成功！
scrapy使用流程
- 创建一个工程：在终端中定位到指定文件夹里，然后输入 scrapy startproject xxxPro，即可创建一个工程
- 进入到工程目录中：cd xxxPro
- 在spiders子目录中创建一个爬虫文件
  - scrapy genspider spiderName www.xxx.com
- 执行工程：
  - scrapy crawl spiderName
    –nolog：只打印需要打印的信息，不打印日志；缺点是如果报错，不能显示错误信息

scrapy数据解析

需求：爬取6jianshi中作者的名称和段子内容

创建工程：scrapy startproject sixjianshiPro
进入到工程目录中：cd sixjianshiPro

在spiders子目录中创建一个爬虫文件：scrapy genspider sixjianshi www.xxx.com

在sixjianshi.py中编写代码

import scrapy

class SixjianshiSpider(scrapy.Spider):
    name = 'sixjianshi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.6jianshi.com/']

    def parse(self, response):
        # 解析：作者的名称+段子内容
        # 注意：xpath中不能出现body
        div_list = response.xpath('/html//div[3]/div/div/div[1]/div[2]/div[2]/div[@class="art-list"]')
        for div in div_list:
            # xpath返回的是列表，但是列表元素一定是Selector类型的对象
            # extract():可以将Selector对象中的data参数存储的字符串提取出来
            author = div.xpath('./div[@class="art-list-user"]/div[2]/a[1]/text()').extract_first()
            if author == None:
                continue
            # 列表调用了extract(),则表示将列表中每一个Selector对象中data对应的字符串提取了出来
            content = div.xpath('./div[@class="art-list-content"]/a//text()').extract()
            content = ''.join(content)
            print(author,":", content)

在settings.py中修改以下内容：

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

# Obey robots.txt rules
# True:遵从robots协议
ROBOTSTXT_OBEY = False

# 显示指定的类型的日志信息
LOG_LEVEL = 'ERROR'

# 设置编码格式
FEED_EXPORT_ENCODING = 'utf-8-sig'

输入：scrapy crawl sixjianshi，即可

运行结果如下：

scrapy的数据持久化存储

基于终端指令：

指令：scrapy crawl xxx -o filePath
要求：只可以将parse方法的返回值存储到本地的文本文件中
注意：持久化存储对应的文本文件类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle'
好处：简洁高效便捷
缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

案例：

修改sixjianshi.py中的parse()方法，将解析数据存储并返回

def parse(self, response):
  # 解析：作者的名称+段子内容
  div_list = response.xpath('/html//div[3]/div/div/div[1]/div[2]/div[2]/div[@class="art-list"]')
  all_data = []  # 存储所有解析到的数据
  for div in div_list:
      # xpath返回的是列表，但是列表元素一定是Selector类型的对象
      # extract():可以将Selector对象中的data参数存储的字符串提取出来
      author = div.xpath('./div[@class="art-list-user"]/div[2]/a[1]/text()').extract_first()
      if author == None:
          continue
      # 列表调用了extract(),则表示将列表中每一个Selector对象中data对应的字符串提取了出来
      content = div.xpath('./div[@class="art-list-content"]/a//text()').extract()
      content = ''.join(content)
      # print(author,":", content)
      dic = {
          'author': author,
          'content': content
      }
      all_data.append(dic)

  return all_data

然后在终端进入到工程目录中：cd sixjianshiPro
- 输入：scrapy crawl sixjianshi -o ./sixjianshi.csv，即可对数据进行持久化存储，存储为csv，也可以存储为其他类型文件
  
  运行结果：

基于管道：

编码流程：
- 数据解析
- 在item类中定义相关的属性
- 将解析的数据封装存储到item类型的对象
- 将item类型的对象提交给管道进行持久化存储的操作
- 在管道类的process_item中要将其接收的item对象中存储的数据进行持久化存储操作
- 在配置文件中开启管道
好处：通用性强

案例

在items.py中创建两个属性

import scrapy


class SixjianshiproItem(scrapy.Item):
    # define the fields for your item here like:
    author = scrapy.Field()
    content = scrapy.Field()

修改sixjianshi.py中的parse()方法，将解析数据存储并返回

import scrapy
from sixjianshiPro.items import SixjianshiproItem

def parse(self, response):
	# 解析：作者的名称+段子内容
	div_list = response.xpath('/html//div[3]/div/div/div[1]/div[2]/div[2]/div[@class="art-list"]')

	for div in div_list:
		# xpath返回的是列表，但是列表元素一定是Selector类型的对象
		# extract():可以将Selector对象中的data参数存储的字符串提取出来
		author = div.xpath('./div[@class="art-list-user"]/div[2]/a[1]/text()').extract_first()
		if author == None:
			continue
		# 列表调用了extract(),则表示将列表中每一个Selector对象中data对应的字符串提取了出来
		content = div.xpath('./div[@class="art-list-content"]/a//text()').extract()
		content = ''.join(content)
		# print(author,":", content)

		# 实例化item类型的对象，并将解析的数据封装到了item中
		item = SixjianshiproItem()
	item['author'] = author
		item['content'] = content

		# 将item提交给了管道
		yield item

在pipelines.py中修改SixjianshiproPipeline类

class SixjianshiproPipeline:
    fp = None

    def open_spider(self, spider):
        """重写父类方法：该方法旨在开始爬虫的时候被调用一次"""
        print("开始爬虫......")
        self.fp = open('./sixjianshi.txt', 'w', encoding='utf-8')

    # 专门用来处理item类型对象
    # 该方法可以接收爬虫文件提交过来的item对象
    # 该方法每接收一个item就会被调用一次
    def process_item(self, item, spider):
        author = item['author']
        content = item['content']

        # 持久化存储
        self.fp.write(author + ':' + content + '\n')
        return item  # 就会传递给下一个即将被执行的管道类

  def close_spider(self, spider):
        """重写父类方法：该方法旨在结束爬虫的时候被调用一次"""
      print("结束爬虫!!!")
        self.fp.close()

在settings.py中开启管道

# 开启管道
ITEM_PIPELINES = {
    # 300表示的是优先级，数据越小，优先级越高
   'sixjianshiPro.pipelines.SixjianshiproPipeline': 300,
}

在终端中输入：scrapy crawl sixjianshi，即可

运行结果：

面试题：将爬取到的数据一份存储到本地一份存储到数据库，如何实现？

管道文件中的一个管道类对应的是将数据存储到一种平台
爬虫文件的item只会给管道文件中第一个被执行的管道类接收
process_item 中的return item 表示将item传递给下一个即将被执行的管道类

代码实现

在win10 中开启mysql，我的用户名是root，没有设置密码
- 打开cmd命令行进入数据库的bin文件夹下
- 输入mysql -hlocalhost -uroot -p，出现输入密码直接按回车即可
在mysql中创建sixjianshi数据库和sixjianshi表

-- 新建数据库语句
CREATE DATABASE sixjianshi;

-- 使用数据库
use sixjianshi;

-- 创建数据表
CREATE TABLE `sixjianshi` (
  `author` varchar(20) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT ''  COMMENT '作者',
  `content` varchar(1000) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT '' COMMENT '内容'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='sixjianshi';c

-- 查看表数据
select * from sixjianshi;

在pipelines.py中增加mysqlPipeline类

import pymysql
# 管道文件中一个管道类对应将一组数据存储到一个平台或者载体中
class mysqlPipeline:
  conn = None
    cursor = None

    def open_spider(self, spider):
        self.conn = pymysql.Connect(host='127.0.0.1',
                                    port=3306,
                                    user='root',
                                    password='123456',
                                    dt='sixjianshi',
                                    charset='utf8')

  def process_item(self, item, spider):
        # 持久化存储到数据库
        self.cursor = self.conn.cursor()
        try:
            self.cursor.execute('insert into sixjianshi values("%s","%s")' % (item['author'], item['content']))
            self.conn.commit()  # 数据提交
        except Exception as e:
            print(e)
            self.conn.rollback()  # 数据回滚

        return item

    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

在settings.py中开启管道

# 开启管道
ITEM_PIPELINES = {
    # 300表示的是优先级，数据越小，优先级越高
   'sixjianshiPro.pipelines.SixjianshiproPipeline': 300,
   'sixjianshiPro.pipelines.mysqlPipeline': 301
}

在终端中输入：scrapy crawl sixjianshi，即可
在mysql中查看结果，发现表中已经有数据了

实战：基于spider类的全站数据爬取

大部分的网站展示的数据都进行了分页操作，那么将所有页码对应的页面数据进行爬取就是爬虫中的全站数据爬取。
基于scrapy进行全站数据爬取的实现方式：
- 将所有页面的url添加到start_urls列表(不推荐）
- 使用Request方法手动发起请求（推荐）
  - yield scrapy.Request(url,callback)：callback专门用作于数据解析
需求：爬取站长素材网中的风景板块中的照片名称

代码实现

创建工程：scrapy startproject sc_chinazPro
进入到工程目录中：cd sc_chinazPro
在spiders子目录中创建一个爬虫文件：scrapy genspider sc_chinaz www.xxx.com

在sc_chinaz.py中编写代码

import scrapy

class ScChinazSpider(scrapy.Spider):
    name = 'sc_chinaz'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://sc.chinaz.com/tupian/fengjing.html']

    # 生成一个通用的url模板(不可变）
    url = 'https://sc.chinaz.com/tupian/fengjing_%d.html'
    page_num = 2

    def parse(self, response):
        div_list = response.xpath('//*[@id="container"]/div')
        for div in div_list:
            img_name = div.xpath('./p/a[1]/text()').extract_first()
            print(img_name)

      if self.page_num <= 4:  # 爬取前4页数据
            new_url = format(self.url%self.page_num)
            print(new_url)
            self.page_num += 1
            # 手动请求发送：callback回调函数是专门用作于数据解析
            yield scrapy.Request(url=new_url,callback=self.parse)

在终端中输入：scrapy crawl sc_chinaz，即可

运行结果如下：

五大核心组件

scrapy的五大核心组件的工作流程如下：

引擎(scrapy)
- 用来处理整个系统的数据流处理，触发事务(框架核心)
调度器(Scheduler)
- 用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。可以想象成一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复网址
下载器(Downloader)
- 用于下载网页内容，并将网页内容返回给spiders(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)
- 爬虫是主要干活的，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接，让Scrapy继续抓取下一个页面
项目管道(Pipeline)
- 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据

请求传参

使用场景：如果爬取解析的数据不在同一张页面中。（深度爬取）
需求：爬取好猎头网站的岗位名称，岗位描述

代码实现

创建工程：scrapy startproject haolietouPro
进入到工程目录中：cd haolietouPro
在spiders子目录中创建一个爬虫文件：scrapy genspider haolietou www.xxx.com

在items.py中创建两个属性

import scrapy


class HaolietouproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    job_name = scrapy.Field()
    job_desc = scrapy.Field()

在settings.py中修改以下内容：

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

# Obey robots.txt rules
# True:遵从robots协议
ROBOTSTXT_OBEY = False

# 显示指定的类型的日志信息
LOG_LEVEL = 'ERROR'

# 开启管道
ITEM_PIPELINES = {
   'haolietouPro.pipelines.HaolietouproPipeline': 300,
}

在haolietou.py中编写代码

import scrapy
from haolietouPro.items import HaolietouproItem


class HaolietouSpider(scrapy.Spider):
    name = 'haolietou'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.haolietou.com/jobslist?key=建筑师']

    # 通用的url
    url = 'http://www.haolietou.com/jobs/jobs-list.php?key=建筑师&page=%d'
    page_num = 2

    # 回调函数接收items
    def parse_detail(self, response):
        item = response.meta['item']
        job_desc = response.xpath('/html/body/div[2]/div[2]/div[1]/div/div[3]/div[2]/p//text()').extract()
        job_desc = ''.join(job_desc)
        item['job_desc'] = job_desc
        # print(job_desc)

        yield item

    def parse(self, response):
        li_list = response.xpath('//*[@id="form1"]/div/div[3]/div[2]/ul/li')
        print("li_list length is : ", len(li_list))

        for li in li_list:
            item = HaolietouproItem()
            job_name = li.xpath('./div[1]/p[1]/a/text()').extract_first()
            item['job_name'] = job_name
            # print(job_name)
            detail_url = li.xpath('./div[1]/p[1]/a/@href').extract_first()
            # print(detail_url)
            # 对详情页发请求获取详情页的页面源码数据
            # 手动请求的发送
            # 请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
            yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

        # 分页操作
        if self.page_num <= 2:
            print("****************{}************".format(self.page_num))
            new_url = format(self.url%self.page_num)
            print(new_url)
            self.page_num += 1
            yield scrapy.Request(url=new_url, callback=self.parse)

在pipelines.py中编写代码

class HaolietouproPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

在终端中输入：scrapy crawl haolietou，即可

图片数据爬取之ImagesPipeline

基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？
- 字符串：只需要基于xpath进行解析且提交管道进行持久化存储
- 图片：xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据
ImagesPipeline:
- 只需要将img的src的属性值进行解析，提交到管道，管道就会对图片的src进行请求发送获取图片的二进制的数据，且还会帮我们进行持久化存储

案例

需求：爬取站长素材中的高清图片

使用流程：
- 数据解析（图片地址）
- 将存储图片地址的item提交到指定的管道类
- 在管道文件中自定义一个基于ImagesPipeLine的一个管道类
  - get_media_requests():请求发送
  - file_path():指定图片名称
  - item_completed():将item传递给下一个即将执行的管道类
- 在配置文件中：
  - 指定图片存储的目录：IMAGES_STORE = ‘./imgs’
  - 指定开启的管道：自定义的管道类

代码实现

创建工程：scrapy startproject imgsPro
进入到工程目录中：cd imgsPro
在spiders子目录中创建一个爬虫文件：scrapy genspider img www.xxx.com

在img.py中编写代码

import scrapy
from imgsPro.items import ImgsproItem

class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.xxx.vom']
    start_urls = ['https://sc.chinaz.com/tupian/']

    def parse(self, response):
        div_list = response.xpath('//*[@id="container"]/div')
        for div in div_list:
            # 注意：使用伪属性
            src = 'https:'+div.xpath('./div/a/img/@src2').extract_first()
            # print(src)

            item = ImgsproItem()
            item['src'] = src

            yield item

在items.py中创建两个属性

import scrapy


class ImgsproItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()

在pipelines.py中编写代码

# ImagesPipeline专门用于文件下载的管道类，下载过程支持异步和多线程
from scrapy.pipelines.images import ImagesPipeline
import scrapy


# 新建类
class imgsPipeline(ImagesPipeline):
    # 重新父类的三个方法

    # 可以根据图片地址，进行图片数据的请求
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['src'])

    # 指定图片存储的路径
    def file_path(self, request, response=None, info=None, *, item=None):
        imgName = request.url.split('/')[-1]  # 获取图片名称
        return imgName

    def item_completed(self, results, item, info):
        return item   # 返回给下一个即将执行的管道类

在settings.py中修改以下内容：

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

# Obey robots.txt rules
# True:遵从robots协议
ROBOTSTXT_OBEY = False

# 显示指定的类型的日志信息
LOG_LEVEL = 'ERROR'

# 开启管道
ITEM_PIPELINES = {
   'imgsPro.pipelines.imgsPipeline': 300,
}

# 指定图片存储的目录，如果文件不存在，会自动创建
IMAGES_STORE = './imgs__scChinaz'

在终端中输入：scrapy crawl img，即可

scrapy中间件

下载中间件：

位置：引擎和下载器之间
作用：批量拦截到整个工程中所有的请求和响应
拦截请求：
- UA伪装：process_request
- 代理IP: process_exception:return request

拦截响应：

篡改响应数据，响应对象
需求：爬取网易新闻中的新闻数据（标题和内容）
1. 通过网易新闻的首页解析出五大板块对应的详情页的url(没有动态加载)
2. 每一个板块对应的新闻标题都是动态加载出来的（没有动态加载）
3. 通过解析出每一条新闻详情页的url获取详情页的页面源码，解析出新闻内容

代码实现

创建工程：scrapy startproject wangyiPro
进入到工程目录中：cd wangyiPro
在spiders子目录中创建一个爬虫文件：scrapy genspider wangyi www.xxx.com

在items.py中创建两个属性

import scrapy


class WangyiproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    content = scrapy.Field()

在pipelines.py中编写代码

class WangyiproPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

在middlewares.py中编写代码

from scrapy.http import HtmlResponse
from time import sleep

class WangyiproDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.


    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

    # 该方法拦截四大板块对应的响应对象，进行篡改
    def process_response(self, request, response, spider):  # spider:爬虫对象
        bro = spider.bro  # 获取了在爬虫类中定义的浏览器对象

        # 挑选出指定的响应对象进行篡改
        # 通过url指定request
        # 通过request指定response
        if request.url in spider.models_urls:
            bro.get(request.url)  # 获取四大板块对应的url进行请求
            sleep(3)
            page_text = bro.page_source   # 包含了动态加载的新闻数据

            # response  # 四大板块对应的响应对象
            # 针对定位的这些response进行篡改
            # 实例化一个新的响应对象（符合需求：包含动态加载出的新闻数据），替代原来旧的响应对象
            # 如何获取动态加载出的新闻数据
                  #  基于selenium便捷的获取动态加载数据
            new_response = HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)

            return new_response
        else:
            # response ：其他请求对应的响应对象
            return response


    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

在settings.py中修改以下内容：

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

# Obey robots.txt rules
# True:遵从robots协议
ROBOTSTXT_OBEY = False

# 显示指定的类型的日志信息
LOG_LEVEL = 'ERROR'

# 开启下载中间件
DOWNLOADER_MIDDLEWARES = {
   'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
}

# 开启管道
ITEM_PIPELINES = {
   'wangyiPro.pipelines.WangyiproPipeline': 300,
}

在wangyi.py中编写代码

import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com/']
    models_urls = []  # 存储四个板块对应的详情页的url

    def __init__(self):
        self.bro = webdriver.Chrome('D:\PythonCode\待整理\爬虫相关\第8章：scrapy框架\chromedriver.exe')

    # 解析四大板块对应详情页的url
    def parse(self, response):
        li_list = response.xpath('//*[@id="index2016_wrap"]/div[3]/div[2]/div[2]/div[2]/div/ul/li')
        print("li list length is ",len(li_list))
        alist = [2,3,5,6]
        for index in alist:
            model_url = li_list[index].xpath('./a/@href').extract_first()
            self.models_urls.append(model_url)

        # 依次对每一个板块对应的页面进行请求
        for url in self.models_urls:  # 对每一个板块的url进行请求发送
            yield scrapy.Request(url, callback=self.parse_model)

    # 每个板块对应的新闻标题相关的内容都是动态加载
    def parse_model(self, response):
        """解析每一个板块中对应新闻的标题和新闻详情页的url"""
        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div[1]/div/ul/li/div/div')
        for div in div_list:
            title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
            new_detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()

            item = WangyiproItem()
            item['title'] = title
            # 对新闻详情页的url发起请求
            yield scrapy.Request(url=new_detail_url,callback=self.parse_detail,meta={'item':item})

    def parse_detail(self,response):  # 解析新闻内容
        content = response.xpath('//*[@id="content"]//text()').extract()
        content = ''.join(content)
        item = response.meta['item']
        item['content'] = content

        yield item

    def closed(self,spider):
        self.bro.quit()

在终端中输入：scrapy crawl wangyi，即可

CrawlSpider：类，Spider的一个子类

全站数据爬取的方式
- 基于Spider：手动请求
- 基于CrawlSpider
CrawlSpider的使用：
- 创建一个工程
- cd xxx
- 创建爬虫文件(CrawlSpider):
  - scrapy genspider -t crawl xxx www.xxx.com
  - 链接提取器：
    - 作用：根据指定的规则(allow)进行指定链接的提取
  - 规则解析器：
    - 作用：将链接提取器提取到的链接进行指定规则（callback）的解析

案例

需求：爬取福州便民热线网站中的编号，新闻标题，及详情页的新闻内容和编号

分析：爬取的数据没有在同一张页面中
- 可以使用链接提取器提取所有页码链接
让链接提取器提取所有的新闻详情页的链接

代码实现

创建工程：scrapy startproject fuzhouPro
进入到工程目录中：cd fuzhouPro
创建一个爬虫文件：scrapy genspider -t crawl fuzhou www.xxx.com

在fuzhou.py中编写代码

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from fuzhouPro.items import FuzhouproItem, DetailItem


class FuzhouSpider(CrawlSpider):
    name = 'fuzhou'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://fz12345.fuzhou.gov.cn/webEntAppealList.jsp?listType=1&pageSize=10&cp=1']

    # 链接提取器：根据指定规则（allow='正则'）进行指定链接的提取
    link = LinkExtractor(allow=r'pageSize=10&cp=\d+')
    link_detail = LinkExtractor(allow=r'callId=\S\S\d+&from=webIndex')
    rules = (
        # 规则提取器:将链接提取器提取到链接进行指定规则（callback）的解析操作
        Rule(link, callback='parse_item', follow=True),
        # follow=True:可以将链接提取器 继续作用到 链接提取器提取到的链接 所对应的页面中
        Rule(link_detail, callback='parse_detail')
    )

    # 解析新闻编号和新闻的标题
    # 如下两个解析方法中是不可以实现请求传参！！！
    # 无法将两个解析方法解析的数据存储到同一个item中，可以依次存储到两个item
    def parse_item(self, response):
        li_list = response.xpath('//*[@id="frame_container"]/div/div[2]/div/div[2]/div[1]/ul/li')
        for li in li_list:
            new_num = li.xpath('./div/span[1]//text()').extract()
            new_num = ''.join(new_num)
            new_num = new_num.split('：')[-1].strip()  
            new_title = li.xpath('./a/b/text()').extract_first()
            # print(new_num, new_title)
            item = FuzhouproItem()
            item['title'] = new_title
            item['new_num'] = new_num

            yield item

    # 解析新闻内容和新闻编号
    def parse_detail(self, response):
        # 注意：xpath表达式中不可以出现tbody标签,直接删除‘tbody’即可
        new_id = response.xpath('//*[@id="appeal-nature-0"]//tr[1]/td[2]/p/text()').extract_first()
        new_content = response.xpath('//*[@id="appeal-nature-0"]//tr[3]/td[2]/p//text()').extract()
        new_content = ''.join(new_content)
        # print(new_id, new_content)
        item = DetailItem()
        item['new_id'] = new_id
        item['content'] = new_content

        yield item

在items.py中创建属性

import scrapy


class FuzhouproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    new_num = scrapy.Field()

class DetailItem(scrapy.Item):
    new_id = scrapy.Field()
    content = scrapy.Field()

在pipelines.py中编写代码

class FuzhouproPipeline:
    def process_item(self, item, spider):
        # 如何判断item的类型
        # 将数据写入数据库时，如何保证数据的一致性：通过new_id和new_num进行关联
        if item.__class__.__name__ == 'DetailItem':
            print(item['new_id'], item['content'])
        else:
            print(item['new_num'], item['title'])
        return item

在settings.py中修改以下内容：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

# Obey robots.txt rules
# True:遵从robots协议
ROBOTSTXT_OBEY = False

# 显示指定的类型的日志信息
LOG_LEVEL = 'ERROR'

# 开启管道
ITEM_PIPELINES = {
   'fuzhouPro.pipelines.FuzhouproPipeline': 300,
}

在终端中输入：scrapy crawl fuzhou，即可

分布式爬虫

概念：需要搭建一个分布式的集群，让其对一组资源进行分布联合爬取
作用：提升爬取数据的效率
如何实现分布式？
- 安装一个scrapy-Redis的组件：pip install scrapy-redis
- 原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫
  - 为什么原生的scrapy不可以实现分布式爬虫？
    - 调度器不可以被分布式集群共享
    - 管道不可以被分布式集群共享
  - scrapy-redis组件作用
    - 可以给原生的scrapy框架提供可以被共享的管道和调度器
- 实现流程
  - 创建一个工程
  - 创建一个基于CrawlSpider的爬虫文件
  - 修改当前的爬虫文件
    - 导包：from scrapy_redis.spiders import RedisCrawlSpider
    - 将start_urls和allowed_domains进行注释
    - 添加一个新属性：redis_key=‘xxx’ 可以被共享的调度器队列的名称
    - 编写数据解析相关的操作
    - 将当前爬虫类的父类修改成RedisCrawlSpider
  - 修改配置文件settings
    - 指定使用可以被共享的管道：
```
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 400,
}
```
    - 指定调度器：
```
# 增加一个去重容器类的配置，作用使用Redis的set集合来存储请求的指纹数据，从而实现请求去重的持久化
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

# 使用scrapy-redis组件自己的调度器
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

# 配置调度器是否要持久化，也就是当爬虫结束了，要不要清空Redis中请求队列和去重指纹的set。如果是True
SCHEDULER_PERSIST = True
```
    - 指定redis服务器：
```
REDIS_HOST = 'redis远程服务器的ip地址'  
REDIS_PORT = 6379
```
  - redis相关操作配置：
    - 配置redis的配置文件：
      - linux或者mac：redis.conf
      - windows:redis.windows.conf
      - 打开配置文件修改：
        
        将bind 127.0.0.1进行删除
        
        关闭保护模式：protected-mode yes改为no
    - 结合着配置文件开启redis服务
      - 打开redis-server 配置文件
    - 启动客户端
      - redis-cli
  - 执行工程：
    - 进入spider文件目录下，输入scrapy runspider xxx.py
  - 向调度器的队列中放入一个起始的url:
    - 调度器的队列在redis的客户端中
      - 在redis客户端中输入lpush xxx www.xxx.com
  - 爬取到的数据存在了redis的proName:items这个数据结构中

案例

需求：爬取福州便民热线网站中的编号，新闻标题

代码实现

创建一个工程：scrapy startproject fbsPro
创建一个基于CrawlSpider的爬虫文件：

scrapy genspider -t crawl fbs www.xxx.com

编写爬虫文件fbs.py

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider
from fbsPro.items import FbsproItem

class FbsSpider(RedisCrawlSpider):
    name = 'fbs'
    # allowed_domains = ['www.xxx.com']
    # start_urls = ['http://www.xxx.com/']

    redis_key = 'fuzhou'
    rules = (
        Rule(LinkExtractor(allow=r'pageSize=10&cp=\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        li_list = response.xpath('//*[@id="frame_container"]/div/div[2]/div/div[2]/div[1]/ul/li')
        for li in li_list:
            new_num = li.xpath('./div/span[1]//text()').extract()
            new_num = ''.join(new_num)
            new_num = new_num.split('：')[-1].strip()
            new_title = li.xpath('./a/b/text()').extract_first()
            
            item = FbsproItem()
            item['title'] = new_title
            item['new_num'] = new_num

            yield item

在items.py中创建两个属性

import scrapy

class FbsproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    new_num = scrapy.Field()

修改配置文件settings

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'

# Obey robots.txt rules
# True:遵从robots协议
ROBOTSTXT_OBEY = False

# 显示指定的类型的日志信息
LOG_LEVEL = 'ERROR'

# 指定管道
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 400,
}
# 指定调度器
# 增加一个去重容器类的配置，作用使用Redis的set集合来存储请求的指纹数据，从而实现请求去重的持久化
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
# 使用scrapy-redis组件自己的调度器
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
# 配置调度器是否要持久化，也就是当爬虫结束了，要不要清空Redis中请求队列和去重指纹的set。如果是True,则只爬没有爬取的数据，实现增量式爬取
SCHEDULER_PERSIST = True

# 指定redis服务器
REDIS_HOST = '127.0.0.1'  # 最好写成redis远程服务器的ip地址
REDIS_PORT = 6379

执行工程：

进入spider文件目录下，输入scrapy runspider fbs.py
向调度器的队列中放入一个起始的url:

在redis客户端中输入lpush fuzhou http://fz12345.fuzhou.gov.cn/webEntAppealList.jsp?listType=1&pageSize=10&cp=1
在redis客户端中查看爬取到的数据情况

爬取的存在了redis的fbs:items这个数据结构中

redis中相关命令如下：
- key * : 查看数据存储结果列表
- lrange fbs:items 0 -1 ：查看存储数据
- llen fbs:items：查看数据大小
如果本文对你有帮助，记得“点赞、收藏”哦~

你可能感兴趣的:(python,爬虫相关,爬虫,python,scapy)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR