weixin_30456039

python爬虫入门之移动端数据的爬取

第七章移动端数据的爬取

基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy

7.1 fiddler 基本配置

7.1.1fiddler简介和安装

什么是Fiddler?
- Fiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的http抓包工具之一。它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功能非常强大，是web调试的利器。
Fiddler安装
- Fiddler下载地址：https://www.telerik.com/fiddler
- 傻瓜式安装，一键到底。Fiddler软件界面如图所示：

7.1.2手机APP抓包设置

Fiddler设置打开Fiddler软件，打开工具的设置。(Fiddler软件菜单栏：Tools->Options)在HTTPS中设置如下：
在Connections中设置如下
- 这里使用默认8888端口，当然也可以自己更改，但是注意不要与已经使用的端口冲突：Allow remote computers to connect:允许别的机器把请求发送到fiddler上来
安全证书下载
- 在电脑浏览器中输入地址：http://localhost:8888/，点击FiddlerRoot certificate，下载安全证书：
安全证书安装
- 证书是需要在手机上进行安装的，这样在电脑Fiddler软件抓包的时候，手机使用电脑的网卡上网才不会报错。
Android手机安装：
- 把证书放入手机的内置或外置存储卡上，然后通过手机的"系统安全-》从存储设备安装"菜单安装证书。然后找到拷贝的FiddlerRoot.cer进行安装即可。安装好之后，可以在信任的凭证中找到我们已经安装好的安全证书。
苹果手机安装：
- 保证手机网络和fiddler所在机器网络是同一个网段下的在safari中访问http://fiddle机器ip：fiddler端口，进行证书下载。然后进行安装证书操作。在手机中的设置-》通用-》关于本机-》证书信任设置-》开启fiddler证书信任
局域网设置想要使用Fiddler进行手机抓包，首先要确保手机和电脑的网络在一个内网中，可以使用让电脑和手机都连接同一个路由器。当然，也可以让电脑开放WIFI热点，手机连入。这里，我使用的方法是，让手机和电脑同时连入一个路由器中。最后，让手机使用电脑的代理IP进行上网。在手机上，点击连接的WIFI进行网络修改，添加代理。进行手动设置，ip和端口号都是fiddler机器的ip和fiddler上设置的端口号。
Fiddler手机抓包测试
- 上述步骤都设置完成之后，用手机浏览器打开百度首页，我们就可以顺利抓包了

7.1.3移动端数据的捕获流程

tools --> options --> connection -->allow remote
http: fiddler所在pc机的ip :8888/ 访问到一张提供了证书下载功能的界面
fiddler所在机器和手机在同一网段下 :在手机上浏览器中访问 http: fiddler所在pc机的ip :8888 获取子页面进行证书的下载和安装(证书信任的操作)
配置你手机的代理 :将手机的代理配置成 fiddler所对应的pc机的ip和手机自己的端口
就可以让fiddler捕获手机发起的http和https的请求

7.2 scrapy ,pyspider

#总结:

#爬虫文件中的属性和方法
 name :爬虫文件唯一标识
 start_url:该列表中的url会被自动的进行请求发送
#自动请求发送的过程:
 def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url,callback=self.parse)

#数据解析:
 scrapy中封装的xpath进行数据解析 
    
#scrapy中的xpath 和 etree中的xpath的区别
 scrapy的xpath进行数据解析后返回的列表元素为Selector对象,extract或extract_first这两个方法将Selector对象中对应的数据取出

7.2.1Scrapy简介

什么是框架?如何学习
- 框架就是一个集成各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板
- 我们只需要学习框架中封装好的相关功能即可
scrapy 集成的功能
- 高性能的数据解析操作 ,持久化存储,高性能的数据下载操作......
环境的安装(windows)
- pip install wheel
- 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
- 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
- pip3 install pywin32
- pip3 install scrapy

7.2.2 scrapy的基本使用

创建一个工程 :scrapy startproject firstBlood

项目结构：

project_name/
   scrapy.cfg：            #项目的主配置信息。（真正爬虫相关的配置信息在settings.py文件中）
   project_name/
       __init__.py  
       items.py            #设置数据存储模板，用于结构化数据，如：Django的Model
       pipelines.py        #数据持久化处理
       settings.py         #配置文件，如：递归的层数、并发数，延迟下载等
       spiders/            #爬虫目录，如：创建文件，编写爬虫解析规则
           __init__.py

创建爬虫应用程序：(必须在spider这个目录下创建一个爬虫文件)
- cd proName
- scrapy genspider spiderName www.xx.com

编写爬虫文件:在步骤2执行完毕后，会在项目的spiders中生成一个应用名的py爬虫文件

import scrapy

class FirstSpider(scrapy.Spider):
    #爬虫文件的名称:爬虫文件的唯一标识(在spiders子目录下是可以创建多个爬虫文件)
    name = 'first'
    #允许的域名
    # allowed_domains = ['www.baidu.com']
    #起始的url列表:列表中存放的url会被scrapy自动的进行请求发送
    start_urls = ['https://www.baidu.com/','https://www.sogou.com/']
    #用作于数据解析:将start_urls列表中对应的url请求成功后的响应数据进行解析
    def parse(self, response):
        print(response.text) #获取字符串类型的响应内容
        print(response.body)#获取字节类型的相应内容

设置修改settings.py配置文件相关配置

# settings.py 文件中
	#不遵从robots协议
    #进行UA伪装
    #进行日志等级设定: LOG_LEVEL = False

setting.py中 ----- 基于终端指令的持久化存储操作

BOT_NAME = 'firstBlood'

SPIDER_MODULES = ['firstBlood.spiders']
NEWSPIDER_MODULE = 'firstBlood.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'       #进行ua伪装
# Obey robots.txt rules
ROBOTSTXT_OBEY = False    #不遵从robotstx协议
LOG_LEVEL = 'ERROR'       #输出错误类型的日志

setting.py ------------- 基于管道的持久化存储

BOT_NAME = 'qiubaiPro'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

SPIDER_MODULES = ['qiubaiPro.spiders']
NEWSPIDER_MODULE = 'qiubaiPro.spiders'


ITEM_PIPELINES = {
   'qiubaiPro.pipelines.QiubaiproPipeline': 300, #300表示的是优先级(数值越小优先级越大)
}

执行爬虫程序：scripy crawl spiderName
- 不输出日志(错误信息会在日志中输出,不要使用) scripy crawl spiderName --nolog

7.2.3scrapy框架持久化存储

#持久化存储
	#基于终端指令
    	特性 : 只能将 parse 方法的返回值存储到本地的磁盘文件中
        指令 : scripy crawl spiderName -o filepath
    #基于管道
    	#实现流程
        1.数据解析
        2.在item类中定义相关属性
        3.将解析的数据封装到一个 item 对象中(item文件中对应类的对象)
        4.向管道提交item
        5.在管道文件中的 process_item 方法中接收 item 进行持久化存储
        6.在配置文件中开启管道
    
    #管道中需注意细节:
		1.配置文件中开启的管道是一个字典,字典中的键值表示的就是某一个管道
		2.在管道对应的源文件中其实可以定义多个管道类,一种形式的持久化存储
		3.在process_item方法中的 return item 表示的是提交给下一个即将被执行的管道类
		4.爬虫文件中yield item 只可以将item传递给第一个被执行的(优先级最高的)管道
	
    #将同一份数据持久化存储到不同平台中:
    	#分析
        1.管道文件中的一个管道内负责数据的一种形式的持久化存储

setting.py中 ----- 基于终端指令的持久化存储操作

BOT_NAME = 'firstBlood'

SPIDER_MODULES = ['firstBlood.spiders']
NEWSPIDER_MODULE = 'firstBlood.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'       #进行ua伪装
# Obey robots.txt rules
ROBOTSTXT_OBEY = False    #不遵从robotstx协议
LOG_LEVEL = 'ERROR'       #输出错误类型的日志

setting.py ------------- 基于管道的持久化存储

BOT_NAME = 'qiubaiPro'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

SPIDER_MODULES = ['qiubaiPro.spiders']
NEWSPIDER_MODULE = 'qiubaiPro.spiders'


ITEM_PIPELINES = {
   'qiubaiPro.pipelines.QiubaiproPipeline': 300, #300表示的是优先级(数值越小优先级越大)
}

糗事百科

qiubai.py

import scrapy
from qiubaiPro.items import QiubaiproItem

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']
    
    #基于终端指令的持久化存储操作
    # def parse(self, response):
    #     div_list = response.xpath('//*[@id="content-left"]/div')
    #     all_data = []
    #     for div in div_list:
    #         #scrapy中的xpath返回的列表的列表元素一定是Selector对象,我们最终想要的解析的
    #         #数据一定是存储在该对象中
    #         #extract()将Selector对象中data参数的值取出
    #         # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
    #         author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()
    #         #列表直接调用extract表示的是将extract作用到每一个列表元素中
    #         content = div.xpath('./a[1]/div/span//text()').extract()
    #         content = ''.join(content)
    #         dic = {
    #             'author':author,
    #             'content':content
    #         }
    #         all_data.append(dic)
    #     return all_data
    
   
    #基于管道的持久化存储
    def parse(self, response):
        div_list = response.xpath('//*[@id="content-left"]/div')
        all_data = []
        for div in div_list:
            #scrapy中的xpath返回的列表的列表元素一定是Selector对象,我们最终想要的解析的
            #数据一定是存储在该对象中
            #extract()将Selector对象中data参数的值取出
            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()
            #列表直接调用extract表示的是将extract作用到每一个列表元素中
            content = div.xpath('./a[1]/div/span//text()').extract()
            content = ''.join(content)

            #将解析的数据存储到item对象
            item = QiubaiproItem()
            item['author'] = author
            item['content'] = content

            #将item提交给管道
            yield item #item一定是提交给了优先级最高的管道类

itims.py

import scrapy

class QiubaiproItem(scrapy.Item):
    # define the fields for your item here like:
    author = scrapy.Field() #Field可以将其理解成是一个万能的数据类型
    content = scrapy.Field()

pipelines.py 管道文件

import pymysql
from redis import Redis
class QiubaiproPipeline(object):
    fp = None
    def open_spider(self,spider):
        print('开始爬虫......')
        self.fp = open('qiushibaike.txt','w',encoding='utf-8')

    #使用来接收爬虫文件提交过来的item,然后将其进行任意形式的持久化存储
    #参数item:就是接收到的item对象
    #该方法每接收一个item就会调用一次
    def process_item(self, item, spider):
        author = item['author']
        content= item['content']

        self.fp.write(author+':'+content+'\n')
        return item #item是返回给了下一个即将被执行的管道类

    def close_spider(self,spider):
        print('结束爬虫!')
        self.fp.close()

        
#负责将数据存储到mysql
class MysqlPL(object):
    conn = None
    cursor = None
    def open_spider(self,spider):
        self.conn = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='123',db='spider',charset='utf8')
        print(self.conn)
    def process_item(self,item,spider):
        author = item['author']
        content = item['content']

        sql = 'insert into qiubai values ("%s","%s")'%(author,content)
        self.cursor = self.conn.cursor()
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print(e)
            self.conn.rollback()
        return item
    
    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

#基于redis的管道存储
class RedisPL(object):
    conn = None
    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)
        print(self.conn)
        
    def process_item(self,item,spider):
        self.conn.lpush('all_data',item)     # name  value
        #注意:如果将字典写入redis报错:pip install -U redis==2.10.6

7.2.4scrapy框架之递归解析和post请求

递归解析(手动请求发送)

使用场景 :爬取多个页码对应的页面源码数据
yield scrapy.Request(url,callback)

import scrapy
from qiubaiPro.items import QiubaiproItem

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    #将多个页码对应的页面数据进行爬取和解析的操作
    url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
    pageNum = 1
    #parse第一次调用表示的是用来解析第一页对应页面中的段子内容和作者
    def parse(self, response):
        div_list = response.xpath('//*[@id="content-left"]/div')
        all_data = []
        for div in div_list:
            # scrapy中的xpath返回的列表的列表元素一定是Selector对象,我们最终想要的解析的
            # 数据一定是存储在该对象中
            # extract()将Selector对象中data参数的值取出
            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()
            # 列表直接调用extract表示的是将extract作用到每一个列表元素中
            content = div.xpath('./a[1]/div/span//text()').extract()
            content = ''.join(content)

            # 将解析的数据存储到item对象
            item = QiubaiproItem()
            item['author'] = author
            item['content'] = content

            # 将item提交给管道
            yield item  # item一定是提交给了优先级最高的管道类

        if self.pageNum <= 5:
            self.pageNum += 1
            new_url = format(self.url%self.pageNum)
            #手动请求(get)的发送
            yield scrapy.Request(new_url,callback=self.parse)

post请求发送

问题：在之前代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？
- 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个方法，该方法就可以对start_urls列表中的url发起请求：
```
  def start_requests(self):
        for u in self.start_urls:
           yield scrapy.Request(url=u,callback=self.parse)
```

【注意】该方法默认的实现，是对起始的url发起get请求，如果想发起post请求，则需要子类重写该方法。

方法：重写start_requests方法，让其发起post请求：

def start_requests(self):
        #请求的url
        post_url = 'http://fanyi.baidu.com/sug'
        # post请求参数
        formdata = {
            'kw': 'wolf',
        }
        # 发送post请求
        yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)

scrapy五大核心组件

#引擎(Scrapy)
  用来处理整个系统的数据流处理, 触发事务(框架核心)
#调度器(Scheduler)
  用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
#下载器(Downloader)
  用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
#爬虫(Spiders)
  爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
#项目管道(Pipeline)
  负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

工作流程

#步骤
1.spider中的url被封装成请求对象交给引擎(每一个url对应一个请求对象);
2.引擎拿到请求对象之后, 将其全部交给调度器;
3.调度器拿到所有请求对象后, 通过内部的过滤器过滤掉重复的url, 最后将去重后的所有url对应的请求对象压入到队列中, 随后调度器调度出其中一个请求对象, 并将其交给引擎;
4.引擎将调度器调度出的请求对象交给下载器;
5.下载器拿到该请求对象去互联网中下载数据;
6.数据下载成功后会被封装到response中, 随后response会被交给下载器;
7.下载器将response交给引擎;
8.引擎将response交给spiders;
9.spiders拿到response后调用回调方法进行数据解析, 解析成功后产生item, 随后spiders将item交给引擎;
10.引擎将item交给管道, 管道拿到item后进行数据的持久化存储.

7.3基于scrapy进行图片数据的爬取

示例 :校花网图片的爬取

链接地址 :http://www.521609.com/daxuemeinv/list81.html
项目的创建
- scrapy startproject imgPro
- cd imgPro
- scrapy genspider img www.xxx.com

如何基于scrapy进行图片的爬取

1.在爬虫文件中只需要解析出图片地址,然后将图片地址提交给管道
2.配置文件中添加  IMAGES_STORE = './imasLib'
1.在管道文件中进行管道类的制定:
    from scrapy.pipelines.images import ImagesPipeline
    将管道的父类修改成 ImagesPipeline
    重写父类的三个方法

代码:

img.py

import scrapy
from imgPro.items import ImgproItem

class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.x.com']
    start_urls = ['http://www.521609.com/daxuemeinv/']
    url = 'http://www.521609.com/daxuemeinv/list8%d.html'
    pageNum = 1
    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
        for li in li_list:
            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()
            item = ImgproItem()
            item['src'] = img_src

            yield item

        if self.pageNum < 4:
            self.pageNum += 1
            new_url = format(self.url%self.pageNum)
            yield scrapy.Request(new_url,callback=self.parse)

setting.py

##不遵从robotstx协议
ROBOTSTXT_OBEY = False

#输出错误类型的日志
LOG_LEVEL = 'ERROR'
# LOG_FILE = './log.txt'

#图片存储地址
IMAGES_STORE = './imasLib'

ITEM_PIPELINES = {
   'imgPro.pipelines.ImgproPipeline': 300,
}

pipelines.py

import scrapy
from scrapy.pipelines.images import ImagesPipeline

class ImgproPipeline(ImagesPipeline):

    #对某一个媒体资源进行请求发送
    # item 就是接收到的spider提交的数据
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['src'])

    #指定媒体数据存储的名称
    def file_path(self, request, response=None, info=None):
        #返回原始图片名称
        name = request.url.split('/')[-1]
        print("正在下载:",name)
        return name

    #将 item 传递给下一个即将被执行的管道类
    def item_completed(self, results, item, info):
        return item

items.py

import scrapy

class ImgproItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()

如何提升scrapy爬取数据的效率

只需要将如下五个步骤配置在配置文件中即可:

#增加并发
	默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。
    
#降低日志级别：
	在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’

#禁止cookie：
    如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False

#禁止重试：
    对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False

#减少下载超时：
    如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

7.4请求传参

实现深度爬取：爬取多个层级对应的页面数据
使用场景：爬取的数据没有在同一张页面中
在手动请求的时候传递item：yield scrapy.Request(url,callback,meta={'item':item})
- 将meta这个字典传递给callback
- 在callback中接收meta：item = response.meta['item']

代码:

movie.py

import scrapy
from moviePro.items import MovieproItem

class MovieSpider(scrapy.Spider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.4567tv.tv/index.php/vod/show/class/动作/id/5.html']

    url = 'https://www.4567tv.tv/index.php/vod/show/class/动作/id/5/page/%d.html'
    pageNum = 1
    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            title = li.xpath('./div[1]/a/@title').extract_first()
            detail_url = "https://www.4567tv.tv" + li.xpath('./div[1]/a/@href').extract_first()

            item = MovieproItem()
            item['title'] = title
            # meta参数是一个字典,该参数可以传递给callback指定的回调函数,
            yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})

        if self.pageNum < 5:
            self.pageNum += 1
            new_url = format(self.url%self.pageNum)
            yield scrapy.Request(new_url,callback=self.parse)


    def parse_detail(self,response):
        #接收参数 response.meta
        item = response.meta['item']
        #简介
        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first()
        item['desc'] = desc
        yield item

setting.py

BOT_NAME = 'moviePro'

SPIDER_MODULES = ['moviePro.spiders']
NEWSPIDER_MODULE = 'moviePro.spiders'

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
#输出错误类型的日志
LOG_LEVEL = 'ERROR'


ITEM_PIPELINES = {
   'moviePro.pipelines.MovieproPipeline': 300,
}

items.py

import scrapy

class MovieproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    desc = scrapy.Field()

pipelines.py

class MovieproPipeline(object):
    def process_item(self, item, spider):
        print(item)
        return item

7.5scrapy中的中间件的应用

1.请求载体身份标识(可用)

user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

3.代理池(不可用)

PROXY_http = [
    '153.180.102.104:80',
    '195.208.131.189:56055',
]
PROXY_https = [
    '120.83.49.90:9000',
    '95.189.112.214:35508',
]

3.爬虫中间件

4.下载中间件

作用 :批量拦截请求和响应

拦截请求

UA伪装 :将所有的请求尽可能多的设定成不同的请求载体身份标识
代理操作

from scrapy import signals
import random
user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

PROXY_http = [
    '153.180.102.104:80',
    '195.208.131.189:56055',
]
PROXY_https = [
    '120.83.49.90:9000',
    '95.189.112.214:35508',
]

# 下载中间件
class MovieproDownloaderMiddleware(object):

    # 拦截正常的请求,参数 request 就是拦截到请求对象
    def process_request(self, request, spider):
        print("i am process_request")
        #实现:将拦截到的请求尽可能多的设定成不同的请求载体身份标识
        request.headers['USER_AGENT'] = random.choice(user_agent_list)

        if request.url.split(":")[0] == "http":
            request.meta['proxy'] = 'http://' + random.choice(PROXY_http)
        else:
            request.meta['proxy'] = 'https://' + random.choice(PROXY_https)
        return None


    # 拦截响应,参数 request 就是拦截到响应
    def process_response(self, request, response, spider):
        print("i am process_response")
        return response

    # 拦截发生异常的请求
    def process_exception(self, request, exception, spider):
        print("i am process_exception")
        #拦截到异常的请求,然后对其进行修正,然后重新进行请求发送
        #代理操作
        if request.url.split(":")[0] == "http":
            request.meta['proxy'] = 'http://' + random.choice(PROXY_http)
        else:
            request.meta['proxy'] = 'https://' + random.choice(PROXY_https)
        #将修正后的请求进行重新发送
        return request

拦截响应

篡改响应数据或直接替换响应对象

需求 : 爬取网易新闻国内,国际,军事,航空,无人机这五个板块下对应的新闻标题和内容

#分析:
1.每一个板块对应的新闻数据是动态加载出来的

# selenium在scrapy中的应用:
	实例化浏览器对象:卸载爬虫类的构造方法中

wangyi.py

import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com']

    five_model_urls = []
    #实例化一个浏览器对象
    bro = webdriver.Chrome(executable_path=r'E:\飞秋\爬虫+数据\tools\chromedriver.exe')
    #用来解析五个板块对应的url,然后对齐进行手动请求发送
    def parse(self, response):
        model_index = [3,4,6,7,8]
        li_list = response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')

        for index in model_index:
            li = li_list[index]
            #获取五个板块对应的url
            model_url = li.xpath('./a/@href').extract_first()
            self.five_model_urls.append(model_url)
            #对每个板块的url进行手动请求发送
            yield scrapy.Request(model_url,callback=self.parse_model)

    #用作与解析每个板块中的新闻标题和新闻详情页的url
    #问题:response(不满足需求的response)没有包含每一个板块中动态加载的新闻数据
    def parse_model(self,response):
        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div/div/ul/li/div/div')
        for div in div_list:
            title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
            detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()
            item = WangyiproItem()
            item['title'] = title
            #对详情页发起请求解析出新闻内容
            yield scrapy.Request(detail_url,callback=self.prase_new_detail,meta={'item':item})

    def prase_new_detail(self,response):
        item = response.meta['item']
        content = response.xpath('//*[@id="endText"]//text()').extract()
        content = ''.join(content)
        item['content'] = content
        yield  item

    #最后执行
    def closed(self,spider):
        self.bro.quit()

items.py

import scrapy

class WangyiproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    content = scrapy.Field()

middlewares.py

from scrapy import signals
from scrapy.http import HtmlResponse
from time import sleep

class WangyiproDownloaderMiddleware(object):

    def process_request(self, request, spider):

        return None

    # spider 就是爬虫文件中爬虫类实例化的对象
    def process_response(self, request, response, spider):
        #进行所有响应对象的拦截
        # 1.将所有响应对象中那五个不满足需求的响应对象找出
            #每个响应对象对应唯一一个请求对象
            #如果我们定位到五个响应对象的请求对象后,就可以通过该请求对象定位到指定的响应对象
            #可以通过五个板块的 url 定位请求对象
                #总结: url ==> request ==> response
        # 2.将找出的五个不满足需求的响应对象进行修正(替换)

        #  spider.five_model_urls :五个板块对应的url
        bro = spider.bro
        if request.url in spider.five_model_urls:
            bro.get(request.url)
            sleep(1)
            #包含了动态加载的新闻数据
            page_text = bro.page_source
            #如果if条件成立,则该response就是五个板块对应的响应对象
            new_response = HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)
            return new_response
        return response

    def process_exception(self, request, exception, spider):
        pass

pipelines.py

class WangyiproPipeline(object):
    def process_item(self, item, spider):
        print(item)
        return item

setting.py

BOT_NAME = 'wangyiPro'

SPIDER_MODULES = ['wangyiPro.spiders']
NEWSPIDER_MODULE = 'wangyiPro.spiders'

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

ROBOTSTXT_OBEY = False
LOG_LEVEL = 'ERROR'

DOWNLOADER_MIDDLEWARES = {
   'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
   'wangyiPro.pipelines.WangyiproPpeline': 300,
}

7.6.基于CrawSpider的全站数据爬取

CrawSpider简介
- CrawSpider就是爬虫类中 Spider的一个子类
- 除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

使用流程

1.创建一个基于CrawSpider的爬虫文件 : 
    scrapy startproject sunPro
    cd sunPro
    scrapy genspider -t crawl spiderName www.xxx.com
2.构造链接提取器和规则解析器
	链接提取器
		作用:可根据指定的规则进行指定链接的提取
         提取规则:allow = '正则表达式'
	规则解析器
		作用:获取链接提取器提取到的链接,然后进行请求发送,根据指定规则对请求到的页面源码数据进行数据解析
		follow = 'True' :将链接提取器 继续作用到 链接提取器所提取到的页码链接所对应的页面中

7.6.1 基于CrawSpider的基本使用

数据链接地址 :http://wz.sun0769.com/index.php/question/questionType?type=4&page=

sun.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

#未实现深度爬取:爬取的只是每个页面对应的数据
class SunSpider(CrawlSpider):
    name = 'sun'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=']
    #链接提取器  type=4&page=\d+
    link = LinkExtractor(allow=r'type=4&page=\d+')

    rules = (
        #实例化一个Rule(规则解析器)的对象
        Rule(link, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
        for tr in tr_list:
            title = tr.xpath('./td[2]/a[2]/@title').extract_first()
            status = tr.xpath('./td[3]/span/text()').extract_first()
            print(title,status)

setting.py

BOT_NAME = 'sunPro'

SPIDER_MODULES = ['sunPro.spiders']
NEWSPIDER_MODULE = 'sunPro.spiders'

# UA伪装
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

ROBOTSTXT_OBEY = False
LOG_LEVEL = 'ERROR'

7.6.2 基于CrawSpider的深度爬取

sun.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import SunproItem,SunproItem_detail

class SunSpider(CrawlSpider):
    name = 'sun'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=']
    #链接提取器
    link = LinkExtractor(allow=r'type=4&page=\d+')

    #详情页url  question/201909/426989.shtml
    link_detail = LinkExtractor(allow=r'question/\d+/\d+\.shtml')

    rules = (
        #实例化一个Rule(规则解析器)的对象
        Rule(link, callback='parse_item', follow=True),
        Rule(link_detail, callback='parse_datail'),
    )

    def parse_item(self, response):
        tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
        for tr in tr_list:
            title = tr.xpath('./td[2]/a[2]/@title').extract_first()
            status = tr.xpath('./td[3]/span/text()').extract_first()
            num = tr.xpath('./td[1]/text()').extract_first()
            item = SunproItem()
            item['title'] = title
            item['status'] = status
            item['num'] = num
            if num:
                yield item

    def parse_datail(self,response):
        content = response.xpath('/html/body/div[9]/table[2]/tbody/tr[1]//text()').extract()
        content = ''.join(content)
        num = response.xpath('/html/body/div[9]/table[1]/tbody/tr/td[2]/span[2]/text()').extract_first()
        if num:
            num = num.split(':')[-1]
            item = SunproItem_detail()
            item['content'] = content
            item['num'] = num
            yield item

pipelines.py

class SunproPipeline(object):
    def process_item(self, item, spider):

        if item.__class__.__name__ == "SunproItem_detail":
            content = item['content']
            num = item['num']
            print(content,num)
        else:
            title = item['title']
            status = item['status']
            num = item['num']
            print(title,status,num)

items.py

class SunproItem(scrapy.Item):
    title = scrapy.Field()
    status = scrapy.Field()
    num = scrapy.Field()

class SunproItem_detail(scrapy.Item):
    content = scrapy.Field()
    num = scrapy.Field()

7.7.分布式

7.7.1基本概念

什么是分布式爬虫?
- 基于多台电脑组建一个分布式机群,然后让机群中的每一台电脑执行同一组程序,然后让它们对同一个网站的数据进行分布爬取
为什么要用分布式爬虫?
- 提升爬取数据的效率
如何实现分布式爬虫?
- 基于scrapy + redis 的形式实现分布式
  - scrapy 结合着 scrapy-redis组件实现分布式
原生的scrapy无法实现分布式原因?
- 调度器无法被分布式群共享
- 管道无法被共享
scrapy-redis组件的作用
- 提供可以被共享的调度器和管道
环境安装:
- pip insatll redis
- pip install scrapy-redis

7.7.2分布式流程

#1.创建一个基于CrawSpider的爬虫文件 : 
    scrapy startproject sunPro
    cd sunPro
    scrapy genspider -t crawl spiderName www.xxx.com
#2.修改当前的爬虫文件
	1.导包 : from scrapy_redis.spiders import RedisCrawlSpider
   	2.将当前爬虫类的父类修改成RedisCrawlSpider
    3.将start_urls替换成redis_key = 'xxx'  #表示的是可被共享调度器中队列的名称
	4.编写爬虫类爬取数据的操作
#3.对setting进行操作 
	#指定管道
		开启可被共享的管道 :
			ITEM_PIPELINES = {
                'scrapy_redis.pipelines.RedisPipeline': 400
				}
	#指定可被共享的调度器
    
# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
SCHEDULER_PERSIST = True  

    #指定redis服务
    	REDIS_HOST = 'redis服务的ip地址'
		REDIS_PORT = 6379
        
#4.对redis配置文件进行配置 (redis.windows.conf)
	56行 :  #bind 127.0.0.1
    75行 :  protected-mode yes  --> protected-mode no
#5.携带配置文件启动redis服务   redis-server .\redis.windows.conf
	地址: E:\飞秋\爬虫+数据\tools\redis\Redis-x64-3.2.100
#6.启动redis客户端 :  redis-cli
#7.执行当前的工程
	进入到爬虫文件对应的目录中：scrapy runspider xxx.py
#8.向调度器队列中仍入一个起始的url：
	队列在哪里呢？
    答：队列在redis中		lpush fbsQueue www.xxx.com

代码

fbs.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider
from fbsPro.items import FbsproItem

class FbsSpider(RedisCrawlSpider):
    name = 'fbs'
    # allowed_domains = ['www.xxx.com']
    # start_urls = ['http://www.xxx.com/']

    # redis_key表示的是可被共享调度器中队列的名称
    redis_key = 'fbsQueue'

    rules = (
        Rule(LinkExtractor(allow=r'type=4&page=\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
        for tr in tr_list:
            title = tr.xpath('./td[2]/a[2]/@title').extract_first()
            status = tr.xpath('./td[3]/span/text()').extract_first()

            item = FbsproItem()
            item['title'] = title
            item['status'] = status
            yield item

items.py

import scrapy


class FbsproItem(scrapy.Item):
    title = scrapy.Field()
    status = scrapy.Field()

settings.py

BOT_NAME = 'fbsPro'

SPIDER_MODULES = ['fbsPro.spiders']
NEWSPIDER_MODULE = 'fbsPro.spiders'

ROBOTSTXT_OBEY = True

#开启可被共享的管道
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

#指定可被共享的调度器
# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
SCHEDULER_PERSIST = True

#指定redis服务
REDIS_HOST = '192.168.11.50'
REDIS_PORT = 6379

7.8 增量式爬虫

转载于:https://www.cnblogs.com/lilinyuan5474/p/11498017.html

你可能感兴趣的:(python爬虫入门之移动端数据的爬取)

2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
每日OJ_牛客_MT1最大差值_模拟+贪心_C++_Java GR鲸鱼 c++java 数据结构算法 leetcode
目录牛客_MT1最大差值_模拟+贪心题目解析C++代码Java代码牛客_MT1最大差值_模拟+贪心最大差值_牛客题霸_牛客网描述：有一个长为n的数组A，求满足0≤a≤b&A,intn){//vectorarr(n,0x3f3f3f3f);//维护一个0到i的最小值//arr[0]=A[0];//intres=0;//for(inti=1;i
Java课程设计“单项选择题标准化考试系统设计” GG爆不会写代码 java sql mysql intellij-idea
大二时做的java课设，代码能力不是很行，给需要做课设的同学一个参考题目如下“单项选择题标准化考试系统设计”1、问题描述设计一个单项选择题标准化考试系统，该系统要求能自动组卷和评分。2、功能要求（1）用数据库保存试题。（每个试题包括题干、4个备选答案、标准答案）。（2）试题录入：可随时增加试题到试题库中。（3）试题抽取：每次从试题库中可以随机抽出N道题（N由键盘输入）。（4）答题：用户可实现输入自
渗透工具分享 Werqy3 网络安全
通过网盘分享的文件：exp链接:https://pan.baidu.com/s/1LenqUt7N3FYjeDLyrSAyeQ?pwd=6666提取码:6666--来自百度网盘超级会员v1的分享通过网盘分享的文件：shell链接:https://pan.baidu.com/s/1OOt6osSpOzADW-0ZRpBFZA?pwd=6666提取码:6666--来自百度网盘超级会员v1的分享通过网盘
opencv + opengl显示摄像头视频流 jbjhzstsl opencv 计算机视觉
完整代码github建议学习LearnOpenGL教程，学到入门的纹理一节1.OpenGL依赖安装1.1.安装GLFWsudoaptinstalllibglfw3libglfw3-devlibglfw3：GLFW运行时库libglfw3-dev：GLFW开发库（用于编译）1.2.安装OpenGL相关依赖sudoaptinstalllibgl1-mesa-devxorg-devlibgl1-mesa
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
mysql5.6主从_MySQL5.6主从复制最佳实践来B mysql5.6主从
MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档MySQL主从复制(也称A/B复制)的原理Master将数据改变记录到二进制日志(binarylog)
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
在WINDOWS中如何运行VBS脚本，多种运行方式涛涛讲AI AI编程开发语言 ecmascript VBA
今天有个哥们问我如何运行VBS脚本，我整理了如下内容。欢迎来到涛涛聊AI，要运行VBS（VisualBasicScript）脚本，你可以按照以下步骤操作：编写VBS脚本：打开一个文本编辑器（如记事本）。输入VBScript代码。例如，以下代码会弹出一个消息框：MsgBox"Hello,World!"将文件保存为以.vbs为扩展名的文件，例如hello.vbs。运行VBS脚本：双击运行：找到你保存的
使用LangSmith Chat Datasets微调模型 scaFHIO python 人工智能机器学习
在这篇文章中，我们将探讨如何通过LangSmithChatDatasets轻松微调模型。这一过程分为三个简单的步骤：创建聊天数据集。使用LangSmithDatasetChatLoader加载示例。微调你的模型。微调后，您可以在LangChain应用中使用微调过的模型。在深入探讨之前，我们需要安装一些前置条件。前置条件确保您已经安装了langchain>=0.0.311并准备好LangSmithA
【后端】【django】Django 自带的用户系统与 RBAC 机制患得患失949 django知识数据库 sqlite django
Django自带的用户系统与RBAC机制Django自带的用户系统（django.contrib.auth）提供了身份验证（Authentication）和权限管理（Authorization），能够快速实现用户管理、权限控制、管理员后台等功能，同时具备RBAC（基于角色的访问控制，Role-BasedAccessControl）的基本实现。本文将详细介绍Django用户系统的功能、管理员账号创建
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
从0到1，带你快速上手Scala语言 qq_23519469 scala 开发语言后端
什么是ScalaScala，读作“skah-lah”，是“ScalableLanguage”的缩写，是一门多范式编程语言。它就像是编程世界里的“变形金刚”，融合了面向对象编程（OOP）和函数式编程（FP）的特性，这意味着开发者能在同一语言中，把面向对象的设计和函数式编程的抽象结合起来使用，超级灵活！它运行在Java虚拟机（JVM）上，能与现有的Java代码无缝集成。这就好比Scala是Java的“
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Angular Material 17版本升级指南 t0_54manong 编程问题解决手册 angular.js 前端 javascript 个人开发
最近，我在将项目从AngularMaterial的15.0.3版本升级到17.0.4版本时，遇到了一个有趣的错误。错误发生在主题设置过程中，尤其是在尝试使用background值时。在旧版本中，主题设置一切正常，但升级后出现了如下错误信息：(status-bar:#e0e0e0,app-bar:#f5f5f5,background:#fafafa,hover:rgba
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Java数组（基础） NaclarbCSDN 算法排序算法 java
数组声明和创建 packagecom.arbedu.array; publicclassArrayDemo01{ //变量类型变量名字=变量的值 //数组类型数组是相同数据类型的有序集合 publicstaticvoidmain(String[]args){ int[]arr; //1.声明一个数组 arr=newint[10]; //2.创建一个数组这里面可以存放
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
深入理解 Java 反射与 PropertyDescriptor 的应用 HoroMin web基础 easybbs项目疑难记录 java 开发语言反射
在Java编程中，反射是一项强大的功能，它允许我们在运行时动态地访问和操作类的信息，包括字段、方法和构造函数等。在处理JavaBean时，反射的灵活性尤为重要。而PropertyDescriptor类正是用于简化JavaBean属性的动态访问和操作。本文将探讨反射的基本概念，并通过具体示例展现如何使用PropertyDescriptor。什么是反射？反射是Java的一个特性，允许程序在运行时检查类
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
MySQL 8主从复制配置最佳实践随风九天匠心数据库部署运维 mysql 主从复制
1.引言1.1主从复制的意义与应用场景主从复制是MySQL中用于提高数据冗余性和可用性的技术。通过将主库的数据复制到一个或多个从库，可以在主库故障时快速切换到从库，保证服务的连续性。此外，主从复制还可以用于负载均衡，将读操作分发到从库，减轻主库的压力。1.2MySQL8主从复制的新特性概述MySQL8引入了多项改进，包括：GTID（全局事务标识符）：简化复制配置和管理。半同步复制：提高数据一致性。
Redis客户端jedis与lettuce的区别风雨无阻1203 Redis Java 研发文档 redis 缓存 Lettuce Jedis
什么是Lettuce与JedisLettuce是一个高级Redis客户端，用于线程安全的同步、异步和反应式访问。它支持高级的Redis特性，如Sentinel、集群、流水线、自动重新连接和redis数据模型等。Lettuce是完全非阻塞的，基于Netty事件驱动的通信层，其方法将返回具有可观察的类型，可在流或异步编程环境中使用。Jedis是基于Java语言的Redis的客户端，Jedis=Java
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
Redis两种客户端：lettuce和Jedis的区别 Darren i redis spring
springboot2的spring-boot-starter-data-redis中，默认使用的是lettuce作为redis客户端，它与jedis的主要区别如下：Jedis是同步的，不支持异步，Jedis客户端实例不是线程安全的，需要每个线程一个Jedis实例，所以一般通过连接池来使用JedisJedis常用APILettuce是基于Netty框架的事件驱动的Redis客户端，其方法调用是异步
Docker入门篇:安装与加速 slamml Docker docker 容器运维
今天接着上一篇文章来写，本来计划以paopaorobot/dvo为例带入docker的基本操作，然后中间插播一下docker的安装和加速，但是发现写的有点罗嗦，刚写完安装与加速就挺大篇幅了，所以决定将docker基本操作放到下一篇介绍，对不住～对不住～。docker安装在这里，针对Windows、Ubuntu平台介绍docker的安装。Windows平台（本机win7）前提要求机器是64bit的，
自定义Retriever的实现方法 vaidfl windows linux microsoft python
技术背景介绍在许多大语言模型（LLM）应用中，检索器（Retriever）用于从外部数据源获取信息。检索器的任务是根据用户查询检索相关的文档，这些文档通常被格式化为提示，供LLM使用，从而生成适当的响应，例如，根据知识库回答用户问题。核心原理解析要实现自定义的检索器，需要继承BaseRetriever类，并实现以下方法：_get_relevant_documents：获取与查询相关的文档，必需实现
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
如何缓存聊天模型响应以提高效率 scaFHIO 缓存 java oracle python
技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。为了应对这一挑战，LangChain提供了一种可选的缓存机制，可以有效地减少API调用次数，从而节省费用并加速应用程序响应。核心原理解析缓存机制的基本原理是在第一次请求时，将响应存储在缓存中。如果以后再次请求相同的输入，
Mybatis 使用＜update＞中＜set＞标签的简明例子成功人chen某 mybatis java 前端
注：xxx为某某某的意思updatexxxSQL1,SQL2,whereSQL3如果成立，不成立则最终SQL语句为updatexxxsetSQL1whereSQL3;会自动去掉SQL1，尾部的逗号，并加上set如果均成立则最终SQL语句为updatexxxsetSQL1,SQL2whereSQL3;实际例子UPDATEtable_nameSETcolumn1=value1,column2=valu
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

python爬虫入门 之 移动端数据的爬取

第七章 移动端数据的爬取

7.1 fiddler 基本配置

7.1.1fiddler简介和安装

7.1.2手机APP抓包设置

7.1.3移动端数据的捕获流程

7.2 scrapy ,pyspider

7.2.1Scrapy简介

7.2.2 scrapy的基本使用

7.2.3scrapy框架持久化存储

7.2.4scrapy框架之递归解析和post请求

递归解析(手动请求发送)

post请求发送

scrapy五大核心组件

7.3基于scrapy进行图片数据的爬取

如何提升scrapy爬取数据的效率

7.4请求传参

7.5scrapy中的中间件的应用

1.请求载体身份标识(可用)

3.代理池(不可用)

3.爬虫中间件

4.下载中间件

拦截请求

拦截响应

7.6.基于CrawSpider的全站数据爬取

7.6.1 基于CrawSpider的基本使用

7.6.2 基于CrawSpider的深度爬取

7.7.分布式

7.7.1基本概念

7.7.2分布式流程

7.8 增量式爬虫

你可能感兴趣的:(python爬虫入门 之 移动端数据的爬取)

python爬虫入门之移动端数据的爬取

第七章移动端数据的爬取

你可能感兴趣的:(python爬虫入门之移动端数据的爬取)