凌逆战

scrapy爬虫框架

scrapy框架是异步处理框架，可配置和可扩展程度非常高，Python中使用最广泛的爬虫框架。

安装

Ubuntu安装

1、安装依赖包

sudo apt-get install libffi-dev
sudo apt-get install libssl-dev
sudo apt-get install libxml2-dev
sudo apt-get install python3-dev
sudo apt-get install libxslt1-dev
sudo apt-get install zlib1g-dev
sudo pip3 install -I -U service_identity

2、安装scrapy框架

sudo pip3 install Scrapy

Windows安装

　　cmd命令行(管理员): python -m pip install Scrapy

Scrapy框架五大组件

引擎(Engine) ：整个框架核心
调度器(Scheduler) ：维护请求队列
下载器(Downloader) ：获取响应对象，下载器是基于多线程的
爬虫文件(Spider) ：数据解析提取
项目管道(Pipeline) ：数据入库处理

下载器中间件(Downloader Middlewares) : 引擎->下载器,包装请求(随机代理等)

蜘蛛中间件(Spider Middlewares) : 引擎->爬虫文件,可修改响应对象属性

scrapy爬虫工作流程

爬虫项目启动

1、由引擎向爬虫程序索要第一个要爬取的URL，交给调度器去入队列

2、调度器处理请求后出队列，通过下载器中间件交给下载器去下载

3、下载器得到响应对象后，通过蜘蛛中间件交给爬虫程序

4、爬虫程序进行数据提取：

1、数据交给管道文件去入库处理

2、对于需要继续跟进的URL，再次交给调度器入队列，依次循环

scrapy常用命令

1、创建爬虫项目　　scrapy startproject 项目名

2、创建爬虫文件　　scrapy genspider 爬虫名域名

　　　　　　　　　　域名为协议后面的名字

3、运行爬虫　　　　scrapy crawl 爬虫名

在cmd窗口运行上面指令后，会在当前文件夹自动创建如下目录结构。

scrapy项目目录结构

Baidu # 项目文件夹
├── Baidu # 项目目录
│   ├── items.py # 定义数据结构
│   ├── middlewares.py # 中间件
│   ├── pipelines.py # 数据处理
│   ├── settings.py # 全局配置
│   └── spiders
│   ├── baidu.py # 爬虫文件
└── scrapy.cfg # 项目基本配置文件

全局配置文件settings.py详解

1、定义User-Agent

　　USER_AGENT = 'Mozilla/5.0'

2、是否遵循robots协议，一定要设置为False

　　ROBOTSTXT_OBEY = False

3、最大并发量，默认为16

　　CONCURRENT_REQUESTS = 32

4、下载延迟时间

　　DOWNLOAD_DELAY = 1

5、请求头，此处也可以添加User-Agent

　　DEFAULT_REQUEST_HEADERS={}

6、项目管道，运行管道函数

　　ITEM_PIPELINES={

　　'项目目录名.pipelines.类名':300

　　}

创建爬虫项目步骤

新建项目：scrapy startproject 项目名
cd 项目文件夹
新建爬虫文件：scrapy genspider 文件名域名
明确目标(items.py)
写爬虫程序(文件名.py)
管道文件(pipelines.py)
全局配置(settings.py)
运行爬虫：scrapy crawl 爬虫名

pycharm运行爬虫项目

1、创建一个脚本文件，比如：begin.py(和scrapy.cfg文件同目录)

2、begin.py中内容：

from scrapy import cmdline
cmdline.execute('scrapy crawl maoyan'.split())

导入cmd命令行模块，在python中写cmd命令，之所以用split()是因为把字符串按空格切割，这样cmd才能识别是3个参数。

百度

目标：打开百度首页，把 '百度一下，你就知道' 抓取下来，从终端输出

实现步骤

1、创建项目Baidu 和爬虫文件baidu

1、scrapy startproject Baidu
2、cd Baidu
3、scrapy genspider baidu www.baidu.com

2、编写爬虫文件baidu.py，xpath提取数据

# -*- coding: utf-8 -*-
import scrapy


class BaiduSpider(scrapy.Spider):
    name = 'baidu'      # 爬虫名 : scrapy crawl 爬虫名
    allowed_domains = ['www.baidu.com']     # 允许爬取的域名
    start_urls = ['http://www.baidu.com/']      # 起始URL地址

    def parse(self, response):
        # response为百度的响应对象,提取"百度一下,你就知道"
        # r_list: []
        # extract(): ["百度一下,你就知道"]
        # extract_first(): "百度一下,你就知道"
        # 1.6版本后可使用get(): "百度一下,你就知道"
        r_list = response.xpath('/html/head/title/text()').get()

        print('*'*50)
        print(r_list)
        print('*'*50)

3、全局配置settings.py

USER_AGENT = 'Mozilla/5.0'
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}

或者把USER_AGENT文件写道头文件里面

DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'USER_AGENT':'Mozilla/5.0',
}

4、创建begin.py（和scrapy.cfg同目录）

from scrapy import cmdline

cmdline.execute('scrapy crawl baidu'.split())

5、启动爬虫

直接运行 begin.py 文件即可

猫眼电影案例

目的

URL: 百度搜索 -> 猫眼电影 -> 榜单 -> top100榜
爬取内容：电影名称、电影主演、上映时间

实现步骤

1、创建项目和爬虫文件

创建爬虫项目　　scrapy startproject Maoyan
　　　　　　　　cd Maoyan
创建爬虫文件　　scrapy genspider maoyan maoyan.com

2、定义要爬取的数据结构（items.py）

name = scrapy.Field()
star = scrapy.Field()
time = scrapy.Field()

3、编写爬虫文件（maoyan.py）

1、基准xpath，匹配每个电影信息节点对象列表
　　dd_list = response.xpath('//dl[@class="board-wrapper"]/dd')
2、for dd in dd_list:
　　电影名称 = dd.xpath('./a/@title')
　　电影主演 = dd.xpath('.//p[@class="star"]/text()')
　　上映时间 = dd.xpath('.//p[@class="releasetime"]/text()')

代码实现一

下载速度慢，爬了一页再爬第二页，调度器里面只有一个地址。

# -*- coding: utf-8 -*-
import scrapy
from ..items import MaoyanItem


class MaoyanSpider(scrapy.Spider):
    name = 'maoyan'  # 爬虫名
    allowed_domains = ['maoyan.com']  # 允许爬虫的域名
    start_urls = ['https://maoyan.com/board/4?offset=0']  # 起始的URL地址
    offset = 0

    def parse(self, response):
        # 给items.py中的类:MaoyanItem(scrapy.Item)实例化
        item = MaoyanItem()

        # 基准xpath，匹配每个电影信息节点对象列表
        dd_list = response.xpath('//dl[@class="board-wrapper"]/dd')
        # 依次遍历
        for dd in dd_list:
            # []
            # dd.xpath('')结果为[选择器1,选择器2]
            # .extract() 把[选择器1,选择器2]所有选择器序列化为unicode字符串
            # .extract_first() : 取第一个字符串
            # 是在给items.py中那些类变量赋值
            item['name'] = dd.xpath('./a/@title').get().strip()
            item['star'] = dd.xpath('.//p[@class="star"]/text()').get().strip()
            item['time'] = dd.xpath('.//p[@class="releasetime"]/text()').get().strip()

            # 把item对象交给管道文件处理
            yield item

        # 此方法不推荐,效率低
        self.offset += 10
        if self.offset <= 91:
            url = 'https://maoyan.com/board/4?offset={}'.format(self.offset)
            # 交给调度器入队列
            yield scrapy.Request(
                url=url,
                callback=self.parse)

代码实现二，基于下载器是多线程的，把多个地址，一次性的都给调度器，请求指纹，第一个地址爬了两次

# -*- coding: utf-8 -*-
import scrapy
from ..items import MaoyanItem


class MaoyanSpider(scrapy.Spider):
    name = 'maoyan2'  # 爬虫名
    allowed_domains = ['maoyan.com']  # 允许爬取的域名
    start_urls = ['https://maoyan.com/board/4?offset=0']  # 起始的URL地址

    def parse(self, response):
        for offset in range(0, 91, 10):
            url = 'https://maoyan.com/board/4?offset={}'.format(offset)
            # 把地址交给调度器入队列
            yield scrapy.Request(url=url,
                                 callback=self.parse_page)

    def parse_page(self, response):
        # 给items.py中的类:MaoyanItem(scrapy.Item)实例化
        item = MaoyanItem()

        # 基准xpath,匹配每个电影信息节点对象列表
        dd_list = response.xpath('//dl[@class="board-wrapper"]/dd')
        # dd_list : [,<...>]

        for dd in dd_list:
            # []
            # dd.xpath('')结果为[选择器1,选择器2]
            # .extract() 把[选择器1,选择器2]所有选择器序列化为
            # unicode字符串
            # .extract_first() : 取第一个字符串
            # 是在给items.py中那些类变量赋值
            item['name'] = dd.xpath('./a/@title').get().strip()
            item['star'] = dd.xpath('.//p[@class="star"]/text()').get().strip()
            item['time'] = dd.xpath('.//p[@class="releasetime"]/text()').get().strip()

            # 把item对象交给管道文件处理
            yield item

代码实现三

# 重写start_requests()方法，直接把多个地址都交给调度器去处理
import scrapy
from ..items import MaoyanItem


class MaoyanSpider(scrapy.Spider):
    name = 'maoyan3'  # 爬虫名
    allowed_domains = ['maoyan.com']  # 允许爬取的域名

    # 去掉start_urls变量

    # 重写start_requests()方法，把所有URL地址都交给调度器
    # 去掉start_urls

    def start_requests(self):
        for offset in range(0, 91, 10):
            url = 'https://maoyan.com/board/4?offset={}'.format(offset)
            yield scrapy.Request(url=url, callback=self.parse)  # 把地址交给调度器入队列

    def parse(self, response):
        item = MaoyanItem()  # 给items.py中的类:MaoyanItem(scrapy.Item)实例化

        # 基准xpath
        dd_list = response.xpath('//dl[@class="board-wrapper"]/dd')
        # 依次遍历
        for dd in dd_list:
            # []
            # dd.xpath('')结果为[选择器1,选择器2]
            # .extract() 把[选择器1,选择器2]所有选择器序列化为
            # unicode字符串
            # .extract_first() : 取第一个字符串
            # 是在给items.py中那些类变量赋值
            item['name'] = dd.xpath('./a/@title').get().strip()
            item['star'] = dd.xpath('.//p[@class="star"]/text()').get().strip()
            item['time'] = dd.xpath('.//p[@class="releasetime"]/text()').get().strip()

            yield item  # 把item对象交给pipline管道文件处理

3、定义管道文件（pipelines.py）

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql
from .settings import *


class MaoyanPipeline(object):
    # item: 从爬虫文件maoyan.py中yield的item数据
    def process_item(self, item, spider):
        print(item['name'], item['time'], item['star'])

        return item


# 新建自定义管道 - 存入MySQL数据库
class MaoyanMysqlPipeline(object):
    # 爬虫项目开始运行时执行此函数
    def open_spider(self, spider):
        print('我是open_spider函数输出')
        # 一般用于建立数据库连接
        self.db = pymysql.connect(
            host=MYSQL_HOST,
            user=MYSQL_USER,
            password=MYSQL_PWD,
            database=MYSQL_DB,
            charset=MYSQL_CHAR)
        self.cursor = self.db.cursor()

    def process_item(self, item, spider):
        # 因为execute()的第二个参数为列表
        L = [item['name'].strip(),
             item['star'].strip(),
             item['time'].strip()]
        self.cursor.execute('insert into filmtab values(%s,%s,%s)', L)
        self.db.commit()  # 提交到数据库

        return item

    # 爬虫项目结束时执行此函数，只执行一次
    def close_spider(self, spider):
        print('我是close_spider函数输出')
        # 一般用于断开数据库连接
        self.cursor.close()
        self.db.close()

5、全局配置文件（settings.py）

ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    '’USER_AGENT' = 'Mozilla/5.0'
}
ITEM_PIPELINES = {
    # 300表示优先级(1-1000)，数字越小，优先级越高 'Maoyan.pipelines.MaoyanPipeline': 300,
    'Maoyan.pipelines.MaoyanMysqlPipeline': 200}

6、创建并运行文件（begin.py）

from scrapy import cmdline
cmdline.execute('scrapy crawl maoyan'.split())

爬虫项目启动方式

方式一

从爬虫文件(spider)的start_urls变量中遍历URL地址，把下载器返回的响应对象（response）交给爬虫文件的parse()函数处理

# start_urls = ['http://www.baidu.com/']

方式二

重写start_requests()方法，从此方法中获取URL，交给指定的callback解析函数处理

1、去掉start_urls变量

2、def start_requests(self):

# 生成要爬取的URL地址，利用scrapy.Request()方法交给调度器 **

知识点汇总

response.xpath('')调用方法

结果：列表,元素为选择器 [']

.extract() ：提取文本内容，序列化列表中所有选择器为Unicode字符串 ['A','B','C']

.extract_first() 或者 get() :获取列表中第1个序列化的元素(字符串)

.get()：提取列表中第1个文本内容

response.text：获取响应内容

response.body：获取bytes数据类型

response.xpath('')

pipelines.py中必须由1个函数叫process_item

def process_item(self,item,spider):
    return item ( * 此处必须返回 item )

日志变量及日志级别(settings.py)

# 日志相关变量

LOG_LEVEL = ''

LOG_LEVEL = 'INFO'　　# 表示终端只显示INFO和INF日志级别以上的信息，DEBUG就不会显示了

LOG_FILE ：　　　　　　本来应该输出在终端的信息，写入到了log日志文件中

LOG_FILE = '文件名.log'

# 日志级别

5 CRITICAL ：严重错误

4 ERROR ：普通错误

3 WARNING ：警告

2 INFO ：一般信息

1 DEBUG ：调试信息

settings.py常用变量

LOG_LEVEL = ''              # 1、设置日志级别
LOG_FILE = ''               # 2、保存到日志文件(不在终端输出)
FEED_EXPORT_ENCODING = ''   # 3、设置数据导出编码(主要针对于json文件)
IMAGES_STORE = '路径'        # 4、非结构化数据存储路径
USER_AGENT = ''             # 5、设置User-Agent
CONCURRENT_REQUESTS = 32    # 6、设置最大并发数(默认为16)

# 7、下载延迟时间(每隔多长时间请求一个网页)
# DOWNLOAD_DELAY 会影响 CONCURRENT_REQUESTS，不能使并发显现
# 有CONCURRENT_REQUESTS，没有DOWNLOAD_DELAY： 服务器会在同一时间收到大量的请求
# 有CONCURRENT_REQUESTS，有DOWNLOAD_DELAY 时，服务器不会在同一时间收到大量的请求
DOWNLOAD_DELAY = 3

DEFAULT_REQUEST_HEADERS = {}    # 8、请求头
ITEM_PIPELINES = {}             # 9、添加项目管道
DOWNLOADER_MIDDLEWARES = {}     # 10、添加下载器中间件

管道处理数据流程

1、在爬虫文件中为items.py中类做实例化，用爬下来的数据给对象赋值

from ..items import MaoyanItem

item = MaoyanItem()

item['name'] = xxx

2、管道文件（pipelines.py）
3、开启管道（settings.py）
ITEM_PIPELINES = { '项目目录名.pipelines.类名':优先级 }

优先级1-1000，数字越小优先级越高

scrapy.Request()参数

1、url

2、callback

3、meta：传递数据，定义代理

数据持久化存储(MySQL)

实现步骤

1、在setting.py中定义MYSQL相关变量

# 定义MySQL相关变量
MYSQL_HOST = '127.0.0.1'
MYSQL_USER = 'root'
MYSQL_PWD = '123456'
MYSQL_DB = 'maoyandb'
MYSQL_CHAR = 'utf8'

2、pipelines.py中新建管道类，并导入settings模块from .settings import *

# 新建自定义管道 - 存入MySQL数据库
class MaoyanMysqlPipeline(object):
    # 爬虫程序启动时，只执行1次,一般用于数据库连接
    def open_spider(self, spider):
        print('我是open_spider函数输出')
        # 一般用于建立数据库连接
        self.db = pymysql.connect(
            host=MYSQL_HOST,
            user=MYSQL_USER,
            password=MYSQL_PWD,
            database=MYSQL_DB,
            charset=MYSQL_CHAR)
        self.cursor = self.db.cursor()

    def process_item(self, item, spider):
        # 用于处理爬取的item数据，这个函数一定要有
        # 因为execute()的第二个参数为列表
        L = [item['name'].strip(),
             item['star'].strip(),
             item['time'].strip()]
        self.cursor.execute('insert into filmtab values(%s,%s,%s)', L)
        self.db.commit()    # 提交到数据库

        return item

    # 爬虫项目结束时执行此函数，只执行一次，一般用于断开数据库连接
    def close_spider(self, spider):
        print('我是close_spider函数输出')
        # 一般用于断开数据库连接
        self.cursor.close()
        self.db.close()

注意：process_item() 函数中一定要 return item

3、settings.py中添加此管道

ITEM_PIPELINES = {
    'Maoyan.pipelines.MaoyanPipeline': 300,
    'Maoyan.pipelines.MaoyanMysqlPipeline': 200　　# 数据库的管道
 }

注意：process_item() 函数中一定要 return item，因为第一个管道返回的item会继续交由下一个管道处理，否则返回并传入下一个管道的值为None

保存为csv、json文件

scrapy crawl maoyan -o maoyan.csv
scrapy crawl maoyan -o maoyan.json

# 在存json文件的时候，要在setting.py设置到处编码 FEED_EXPORT_ENCODING = 'utf-8'

盗墓笔记小说抓取案例（三级页面）

目标

# 抓取目标网站中盗墓笔记1-8中所有章节的所有小说的具体内容，保存到本地文件
1、网址：http://www.daomubiji.com/

准备工作xpath

1、一级页面xpath（此处响应做了处理）：

　　盗墓笔记1-8的链接：//ul[@class="sub-menu"]/li/a/@href

2、二级页面xpath：/html/body/section/div[2]/div/article

　　基准xpath ：//article

　　链接：./a/@href

　　标题：./a/text()　　# 七星鲁王第一章血尸

3、三级页面xpath：

　　response.xpath('//article[@class="article-content"]//p/text()').extract()

项目实现

1、创建项目及爬虫文件

创建项目：scrapy startproject Daomu
创建爬虫：scrapy genspider daomu www.daomubiji.com

2、定义要爬取的数据结构（把数据交给管道）items.py

import scrapy

class DaomuItem(scrapy.Item):
    juan_name = scrapy.Field()    # 卷名
    zh_num = scrapy.Field()       # 章节数
    zh_name = scrapy.Field()      # 章节名
    zh_link = scrapy.Field()      # 章节链接
    zh_content = scrapy.Field()   # 小说内容

3、爬虫文件实现数据抓取 daomu.py

# -*- coding: utf-8 -*-
import scrapy
from ..items import DaomuItem

class DaomuSpider(scrapy.Spider):
    name = 'daomu'
    allowed_domains = ['www.daomubiji.com']
    start_urls = ['http://www.daomubiji.com/']

    # 解析一级页面,提取 盗墓笔记1 2 3 ... 链接
    def parse(self, response):
        one_link_list = response.xpath('//ul[@class="sub-menu"]/li/a/@href').extract()
        print(one_link_list)
        # 把链接交给调度器入队列
        for one_link in one_link_list:
            yield scrapy.Request(url=one_link, callback=self.parse_two_link, dont_filter=True)

    # 解析二级页面
    def parse_two_link(self,response):
        # 基准xpath,匹配所有章节对象列表
        article_list = response.xpath('/html/body/section/div[2]/div/article')
        # 依次获取每个章节信息
        for article in article_list:
            # 创建item对象
            item = DaomuItem()
            info = article.xpath('./a/text()').extract_first().split()
            # info : ['七星鲁王','第一章','血尸']
            item['juan_name'] = info[0]
            item['zh_num'] = info[1]
            item['zh_name'] = info[2]
            item['zh_link'] = article.xpath('./a/@href').extract_first()
            # 把章节链接交给调度器
            yield scrapy.Request(
                url=item['zh_link'],
                # 把item传递到下一个解析函数
                meta={'item':item},
                callback=self.parse_three_link,
                dont_filter=True
            )

    # 解析三级页面
    def parse_three_link(self,response):
        # 获取上一个函数传递过来的item对象
        item = response.meta['item']
        # 获取小说内容
        # ['段落1','段落2','段落3',....]
        item['zh_content'] = '\n'.join(response.xpath(
          '//article[@class="article-content"]//p/text()'
        ).extract())

        # 所有的数据都爬完了，再yield
        yield item

        # '\n'.join(['第一段','第二段','第三段'])

4、管道文件实现数据处理pipline.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class DaomuPipeline(object):
    def process_item(self, item, spider):
        filename = '/home/tarena/aid1902/{}-{}-{}.txt'.format(
            item['juan_name'],
            item['zh_num'],
            item['zh_name']
        )

        f = open(filename,'w')
        f.write(item['zh_content'])
        f.close()
        return item

5、setting

　　打开通道

腾讯招聘

MySQL数据库--建库建表

create database tencentdb charset utf8;
use tencentdb;
create table tencenttab(
        name varchar(100),
        type varchar(100),
        duty varchar(5000),
        requirement varchar(5000)
        )charset=utf8;

1、创建项目+爬虫文件

scrapy startproject Tencent
cd Tencent
scrapy genspider tencent hr.tencent.com

2、定义爬取的数据结构 items.py

job_name = scrapy.Field()
job_type = scrapy.Field()    # 类别
job_duty = scrapy.Field()    # 职责
job_require = scrapy.Field()    # 要求
job_address = scrapy.Field()    # 地址

3、爬虫文件

class TencentSpider(scrapy.Spider):
    name = 'tencent'
    allowed_domains = ['careers.tencent.com']
    one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563912271089&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
    two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1563912374645&postId={}&language=zh-cn'
    # 1. 去掉start_urls
    # 2. 重新start_requests()方法
    def start_requests(self):
        total_page = self.get_total_page()
        for page_index in range(1,total_page):
            url = self.one_url.format(page_index)
            yield scrapy.Request(
                url = url,
                callback = self.parse_one
            )

    # 获取总页数
    def get_total_page(self):
        url = self.one_url.format(1)
        html = requests.get(url=url).json()
        total_page = int(html['Data']['Count']) // 10 + 1

        return total_page

    # 解析一级页面函数
    def parse_one(self,response):
        html = json.loads(response.text)
        for job in html['Data']['Posts']:
            item = TencentItem()
            # postId: 拼接二级页面的地址
            post_id = job['PostId']
            two_url = self.two_url.format(post_id)
            # 交给调度器
            yield scrapy.Request(
                url = two_url,
                meta = {'item':item},
                callback = self.parse_two_page
            )

    def parse_two_page(self,response):
        item = response.meta['item']
        html = json.loads(response.text)
        item['job_name'] = html['Data']['RecruitPostName']
        item['job_type'] = html['Data']['CategoryName']
        item['job_duty'] = html['Data']['Responsibility']
        item['job_require'] = html['Data']['Responsibility']
        item['job_address'] = html['Data']['LocationName']


        yield item

4、管道文件

create database tencentdb charset utf8;
use tencentdb;
create table tencenttab(
        job_name varchar(500),
        job_type varchar(100),
        job_duty varchar(1000),
        job_require varchar(1000),
        job_address varchar(100)
        )charset=utf8;

管道文件pipelines实现

import pymysql
class TencentMysqlPipeline(object):
    def open_spider(self,spider):
        self.db = pymysql.connect(
            '127.0.0.1','root','123456','tencentdb',
            charset='utf8'
        )
        self.cursor = self.db.cursor()

    def process_item(self,item,spider):
        ins = 'insert into tencenttab values(%s,%s,%s,%s,%s)'
        job_list = [
            item['job_name'],item['job_type'],item['job_duty'],
            item['job_require'],item['job_address']
        ]
        self.cursor.execute(ins,job_list)
        self.db.commit()
        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.db.close()

5、settings.py

定义常用变量，添加管道即可

图片管道(360图片抓取案例)

目标：www.so.com -> 图片 -> 美女

抓取网络数据包

2、F12抓包,抓取到json地址和查询参数(QueryString)
url = 'http://image.so.com/zj?ch=beauty&sn={}&listtype=new&temp=1'.format(str(sn))
ch: beauty
sn: 90
listtype: new
temp: 1

项目实现

1、创建爬虫项目和爬虫文件

scrapy startproject So
cd So
scrapy genspider so image.so.com

2、定义要爬取的数据结构(items.py)

img_link = scrapy.Field()

3、爬虫文件实现图片链接抓取

# -*- coding: utf-8 -*-
import scrapy
import json
from ..items import SoItem

class SoSpider(scrapy.Spider):
    name = 'so'
    allowed_domains = ['image.so.com']

    # 重写Spider类中的start_requests方法
    # 爬虫程序启动时执行此方法,不去找start_urls
    def start_requests(self):
        for page in range(5):
            url = 'http://image.so.com/zj?ch=beauty&sn={}&listtype=new&temp=1'.format(str(page*30))
            # 把url地址入队列
            yield scrapy.Request(
                url = url,
                callback = self.parse_img
            )

    def parse_img(self, response):
        html = json.loads(response.text)

        for img in html['list']:
            item = SoItem()
            # 图片链接
            item['img_link'] = img['qhimg_url']

            yield item

4、管道文件（pipelines.py）

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class SoPipeline(ImagesPipeline):
    # 重写get_media_requests方法
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['img_link'])

5、设置settings.py

IMAGES_STORE = '/home/tarena/images/'

6、创建run.py运行爬虫

scrapy shell的使用

基本使用

scrapy shell URL地址
request.headers ：请求头(字典)
reqeust.meta ：item数据传递，定义代理(字典)
response.text ：字符串
response.body ：bytes
response.xpath('')

scrapy.Request()

url
callback
headers
meta ：传递数据,定义代理
dont_filter ：是否忽略域组限制，默认False检查域组限制allowed_domains['']

设置中间件(随机User-Agent)

少量User-Agent切换

方法一

# settings.py
USER_AGENT = ''
DEFAULT_REQUEST_HEADERS = {}

方法二

# spider
yield scrapy.Request(url,callback=函数名,headers={})

大量User-Agent切换（中间件）

middlewares.py设置中间件

1、获取User-Agent

# 方法1 ：新建useragents.py,存放大量User-Agent，random模块随机切换

# 方法2 ：安装fake_useragent模块(sudo pip3 install fack_useragent)

from fake_useragent import UserAgent

ua_obj = UserAgent()
ua = ua_obj.random

2、middlewares.py新建中间件类，拦截传给下载器的请求内容

class RandomUseragentMiddleware(object):
    def process_request(self,reuqest,spider):
        ua = UserAgent()
        request.headers['User-Agent'] = ua.random

3、settings.py添加此下载器中间件

DOWNLOADER_MIDDLEWARES = {
    'Baidu.middlewares.TestDownloaderMiddleware': 543,
    'Baidu.middlewares.RandomUaDownloaderMiddleware': 300,
    'Baidu.middlewares.TestRandomProxyMiddleware': 400,
}

设置中间件(随机代理)

import random
from fake_useragent import UserAgent


# 随机User-Agent下载器中间件
class RandomUaDownloaderMiddleware(object):
    def process_request(self, request, spider):
        # 给每一个拦截下来的请求包装随机User-Agent
        ua = UserAgent()
        useragent = ua.random
        # request.headers: 字典
        request.headers['User-Agent'] = useragent

        print('我是中间件:', useragent)  # 测试

proxy_list = ['http://1.1.1.1:1111', 'http://2.2.2.2:2222']

# 随机代理IP下载器中间件
class TestRandomProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy = random.choice(proxy_list)  # 1. 随机选择并定义好代理
        request.meta['proxy'] = proxy  # 2. 如何包装
        print('我是中间件2:', proxy)  # 测试

    # 处理异常,一旦代理不能用,则返回请求再次执行下载器中间件，把请求扔回调度器
    def process_exception(self, request, exception, spider):
        return request

你可能感兴趣的:(scrapy爬虫框架)

Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
如何在电商平台上使用API接口数据优化商品价格 weixin_43841111 api 数据挖掘人工智能 python java 大数据前端爬虫
利用API接口数据来优化电商商品价格是一个涉及数据收集、分析、策略制定以及实时调整价格的过程。这不仅能提高市场竞争力，还能通过精准定价最大化利润。以下是一些关键步骤和策略，用于通过API接口数据优化电商商品价格：1.数据收集竞争对手价格监控：使用API接口（如Scrapy、BeautifulSoup等工具结合Python进行网页数据抓取，或使用专门的API服务如PriceIntelligence、
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
Windows下安装Scrapy出现的问题及其解决方法咸甜怪
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。在安装Scrapy模块时，pipinstallScrapy出现了以下报错：error:MicrosoftVisualC++14.0isrequired.Getitwith"MicrosoftVisualC++BuildTools":http://landinghub.visua
基础爬虫 requests selenium aiohttp BeautifulSoup pyQuery Xpath&CssSelector 肯定是疯了
http://47.101.52.166/blog/back/python/%E7%88%AC%E8%99%AB.html请求requestsseleniumaiohttp*处理BeautifulSouppyQueryXpath&CssSelector*存储pymysqlPyMongoredisaiomysql*Scrapy
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
python爬亚马逊数据_python爬虫----（6. scrapy框架，抓取亚马逊数据） weixin_39628342 python爬亚马逊数据
利用xpath()分析抓取数据还是比较简单的，只是网址的跳转和递归等比较麻烦。耽误了好久，还是豆瓣好呀，URL那么的规范。唉，亚马逊URL乱七八糟的....可能对url理解还不够.amazon├──amazon│├──__init__.py│├──__init__.pyc│├──items.py│├──items.pyc│├──msic││├──__init__.py││└──pad_urls.p
2024年Python最新Python爬虫教程-新浪微博分布式爬虫分享(2) 2401_84584682 程序员 python 爬虫新浪微博
开发语言：Python2.7开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。数据库：MongoDB3.2.0、Redis3.0.501（Python编辑器：Pycharm；MongoDB管理工具：MongoBooster；Redis管理工具：RedisStudio）爬虫框架使用Scrapy，使用scrapy_redis和Redis实现分布式。分布式中有一台机充当Maste
python分布式集群ray_GitHub - Leesire-Python/jd_spider: 两只蠢萌京东的分布式爬虫. weixin_39781930 python分布式集群ray
使用scrapy,scrapy-redis,graphite实现的京东分布式爬虫，以mongodb实现底层存储。分布式实现，解决带宽和性能的瓶颈，提高爬取的效率。实现scrapy-redis对进行url的去重以及调度，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善版本支持现在支持Py2和Py3,但是需要注
spiderkeeper 部署&操作 VictorChi
前言最近发现了一个spdierkeeper的库,这个库的主要用途是在于.配合这scrpyd管理你的爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作.简单来说将scrapyd的api进行封装,最大限度减少你跟命令行交互次数.不得说这个是很棒的事情.https://github.com/DormyMo/SpiderKeeperSpiderKeeper的github连接环境配置由于scrap
爬虫进阶之人见人爱的Scrapy框架--Scrapy入门我真的超级好
不要重复造轮子，这是学习Python以来听得最多的一句话，无非就是叫我们要灵活运用现有的库，毕竟Python的一大特点就是拥有功能强大强大而种类丰富的库。那么在爬虫领域要灵活使用哪个轮子呢？--当然是目前最火的爬虫框架Scrapy。笔者通过慕课网免费课程《Python最火爬虫框架Scrapy入门与实践》+书籍《精通Scrapy网络爬虫》+度娘+CSDN完成自学，其中遇到诸多困难（要么太深入没看懂，
苹果笔记本macbook pro如何安装python_Mac OS系统下的安装 weixin_39884074 苹果笔记本macbook pro如何安装python
如果你使用的是苹果电脑，可能希望在MacOS系统下使用Scrapy，那么如何在MacOS下安装Scrapy呢？由于Python3已经是发展趋势，所以我们使用的Python版本是Python3。MacOS自带2.X版本的Python，我们可以打开终端，输入python–V命令进行查看，如下所示。itcastdeMacBook-Pro:~itcast$python-VPython2.7.10可以看到，
Scrapy框架架构---学习笔记怪猫訷 python
Scrapy框架架构Scrapy框架介绍：写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。Scrapy
Scrapy ---心得 auo8191 爬虫 python 数据库
scrapy框架基础-框架:具有很多功能,且具有很强通用性的项目模板-环境安装:#环境准备linux系统pip3installscrapywindows系统1pip3installwheel2下载Twisted-19.2.0-cp36-cp36m-win-amd64.whl3进入下载目录，执行pip3installTwisted‑19.2.0‑cp36‑cp36m‑win_amd64.whl4pi
Scrapy添加代理IP池：自动化爬虫的秘密武器天启代理ip scrapy tcp/ip 自动化
在网络爬虫的世界里，IP地址的频繁更换是防止被目标网站封禁的有效手段。通过在Scrapy中添加代理IP池，你可以轻松实现自动化的IP切换，提高数据抓取的效率和稳定性。今天，我们就来详细讲解一下如何在Scrapy中添加代理IP池，让你的爬虫更加智能和高效。什么是代理IP池？代理IP池是指一组可以轮换使用的代理IP地址集合。通过在爬虫中使用代理IP池，你可以在每次请求时随机选择一个代理IP，从而避免因
ADB投屏_最强开源投屏神器，跨平台电脑控制+文件传输——scrcpy weixin_39777637 ADB投屏
介绍scrcpy是一个开源的跨平台投屏神器，支持Linux、Windows以及MacOS(本文介绍的scrapy不是Python下的那个爬虫框架)，scrcpy在Github上非常的受欢迎，Stars数高达34k+，能达到这个量级的都是非常受欢迎的项目。scrcpy可通过数据线(或通过TCP/IP——wifi)显示和控制连接的Android设备,它不需要任何root访问权限!Github开源地址h
Python爬虫系列总结 qformat python 爬虫开发语言
Python爬虫系列总结包含（Scrapy框架介绍）文章目录Python爬虫系列总结包含（Scrapy框架介绍）一、前言二、Python爬虫的基础三、Python爬虫进阶四、简易爬虫总结五、Python爬虫框架六、爬虫部署一、前言随着WEB2.0时代的到来，网络已经成为了人们获取信息的重要途径，而爬虫技术可以让我们从海量的网络数据中快速地获取我们想要的信息。Python是一种简单易学、功能强大的编
scrapy学习笔记0827 github_czy scrapy 学习笔记
1.总之先启动先安装scrapy，pipinstallscrapy创建scrapy项目，生成的项目结构应该如图所示，scrapystartprojectexample选择需要爬取的页面并分析，这里选定的页面是Allproducts|BookstoScrape-Sandbox一个供给爬虫学者练手的网站，我们需要爬取上面的书籍信息，解析我们需要的内容在那一段html标签里可以使用浏览器自带的开发者工具
scrapy中pipeline获取settings参数的方法极客探索者 Python python 爬虫网络爬虫
1、在scrapy的pipeline中，获取settings参数，可使用如下方式：defopen_spider(self,spider):settings=spider.settingsweb_dir_dict=settings.get('WEB_DIR_DICT',{})也可以采用如下方式：fromscrapy.utils.projectimportget_project_settings###
scrapy学习笔记0828-下 github_czy scrapy 学习笔记
1.爬取动态页面我们遇见的大多数网站不大可能会是单纯的静态网站，实际中更常见的是JavaScript通过HTTP请求跟网站动态交互获取数据（AJAX），然后使用数据更新HTML页面。爬取此类动态网页需要先执行页面中的JavaScript代码渲染页面，再进行爬取。在这里我们采用scrapy官方推荐的Splash渲染引擎，我们需要通过docker来安装splash并使其运行起来，这里就暂时不展开，安装
探索TV-Crawler：一款强大的电视节目爬虫框架孔旭澜Renata
探索TV-Crawler：一款强大的电视节目爬虫框架项目简介是一个由Python编写的开源项目，其目标是抓取各大电视台的节目信息并进行整理。对于那些热衷于规划观影时间或想要了解最新电视节目内容的人来说，这是一个非常实用的工具。开发者可以通过此项目轻松获取电视节目的播出时间、频道和标题等数据。技术分析1.Python与ScrapyTV-Crawler基于Python的强大网络爬虫框架Scrapy构建
Scrapy入门学习晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ Python scrapy 学习 python 开发语言笔记
文章目录Scrapy一.Scrapy简介二.Scrapy的安装1.进入项目所在目录2.安装软件包Scrapy3.验证是否安装成功三.Scrapy的基础使用1.创建项目2.在tutorial/spiders目录下创建保存爬虫代码的项目文件3.运行爬虫4.利用css选择器+ScrapyShell提取数据例如:Scrapy一.Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，
scrapy爬取知乎的中添加代理ip 虔诚XY 爬虫
都是伪代码，不要直接复制，进攻参考ip都不可以使用，只是我自己写的格式。zhihu.pyproxy_pool=[{'HTTP':'182.253.112.43:8080'}]defstart_requests(self):proxy_addr=random.choice(proxy_pool)yieldRequest('.........,meta={'proxy':proxy_addr})set
python用scrapy爬虫豆瓣_python爬虫框架scrapy 豆瓣实战 weixin_39745724
Scrapy官方介绍是Anopensourceandcollaborativeframeworkforextractingthedatayouneedfromwebsites.Inafast,simple,yetextensibleway.意思就是一个开源和协作框架，用于以快速，简单，可扩展的方式从网站中提取所需的数据。环境准备本文项目使用环境及工具如下python3scrapymongodbpy
3个最流行的开源大模型网络爬虫框架 liugddx AI GPT 大模型人工智能 AIAGENT
在传统网络爬虫中，主要的挑战一直是手动操作的工作量。使用像BeautifulSoup（BS4）和Selenium这样的工具时，我们需要为每个新网站编写解析代码，需要适配和适应不同的HTML结构。这种不断的修改既耗时又容易出错。然而，当出现了大模型之后就没那么复杂了。随着具备视觉功能的大型语言模型（LLM）的出现，我们现在可以创建几乎通用的网络爬虫代理，大大简化和自动化了这一过程。在这篇博客中，我们
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟