xbhog

scrapy框架使用：分布式、增量式

scrapy框架的使用

前记：爬虫框架部分整理完成，后续慢慢完善，

声明：

　　　1）仅作为个人学习，如有冒犯，告知速删！

　　　2）不想误导，如有错误，不吝指教！

创建工程：

scrapy startproject name
- cd proName
  - scrapy genspider spiderName urlName(限制爬虫的爬取范围)
  - 执行：scrapy crawl spiderName

start_urls = []=====>列表中的元素会被scrapy自动进行发送--几个url,请求

setting必备设置：

robotstxt_obey = False
USER_AGENT = ' '
LOG_LEVEL = 'ERROR'
LOG_FILE = 'log.txt'----一般不用

scrapy框架中：

xpath返回的列表中的列表元素是selector对象，我们需要解析获取的字符串的数据
必须经过一个extract() 操作才可以将该对象汇总存储的字符串的数据获取

.extract()----列表

.extract_first()-----字符串

---问题：xpath返回的列表中的列表元素有多个（selector对象），想要将每个列表元素对应的selector中的字符串取出--------使用 extract()

scrapy数据解析

xpath语法
- 通过返回的response数据可以直接直接进行Xpath解析。

scrapy持久化存储

基于终端指令:
- 只可以将parse方法的返回值存储到电脑磁盘中
  - scrapy crwal first -o file.csv-------->将当前返回值存储到file文件中csv\json
基于管道:>pipelines.py
- 编码流程
  - 1. 数据解析（在爬虫类中）
    2. 在item的类中定义相关的属性（爬虫类）
    3. 将解析的数据存储封装到item类型的对象中；
    4. 将item对象提交给管道 yield
    5. 在管道类中process_item方法负责接收item对象，然后对item进行任意形式的格式持久化存储
    6. 在settings中设置MySQL的配置信息
```
 # 如下所示
 # mysql 配置  
 MYSQL_DB_NAME = 'scrapy_db'
 MYSQL_HOST = '127.0.0.1'
 MYSQL_USER = 'root'
 MYSQL_PASSWORD = '123456'
```

细节补充：
- 管道文件中的一个管道类表示将数据存储到某一个形式的平台中。
- 如果管道文件中定义多个管道类，爬虫类提交的item的操作会给到优先级最高的管道类，只有优先级最高的管道类才可以接受到item,剩下的管道类是需要从优先级最高的管道中接受item;
- process_item 方法的实现中的return item的操作表示item传递给下一个即将被执行的管道类

手动请求发送：

yield scrapy.Request(url,callback)-----发送的get请求

对yield总结：

　　1). 向管道提交item的时候：yield item

　　2). 手动请求发送：yeld scrapy.Request(url,callback)

手动发送post请求：

　　yield scrapy.FormRequest(url,formdata,callback)：formdata是一个字典表示请求参数

scrapy五大核心组件：

　　- 略（网上都有）

scrapy的请求传参：

     -  作用：实现深度爬取
     -  使用场景：使用scrapy爬取的数据没有存在同一张页面的数据
  - 传递item：使用meta的技巧----yield scrapy.Request(url,callback,meta)
  - 接受item：response.meta

提升scrapy爬取数据的效率(配置文件中)：

- 增加并发：

　　CONCURRENT_REQUESTS = 100

- 降低日志级别：

　　LOG_LEVEL='ERROR'

- 禁止cookies:

　　COOKIES_ENABLE = True

-禁止重试：

　　retry_ebable = False

- 减少下载超时：

　　DOWNLOAD_TIMEOUT = 3----请求超过3，丢弃,

scrapy的中间件(middlewares)：

--概念：下载中间件

　　--->处于引擎和下载器

--封装了两个类：

　　NameDownloaderMiddleware；NameSpiderMiddleware

--一次请求经过两次中间件：

　　---必须经过引擎：

首先由调度器（scheduler）到下载器（downloader）之间可以进行request的修改与设置；
再由下载器（downloader）到主爬虫（spider）之间可以进行response的修改与设置；

-- 批量拦截所有的请求响应

-- 拦截请求

　　-- 篡改请求的头信息(UA伪装)

　　-- 篡改请求对应的ip(代理)

-- 拦截响应：

　　-- 篡改响应数据，篡改响应对象

下载器中间件中的核心方法（NameDownloaderMiddleware）：

位置：处于scrapy的Request和Response之间的处理模块；

process_request---拦截正常请求,并修改与设置

进行ua伪装：resquest.headers["User-Agent"] = "xxx "

随机更换UA

 1  #middlewares中间件重写，记得开启该中间件
 2  from scrapy import signals
 3  import random
 4  from xbhog.settings import USER_AGENTS_LIST
 5  
 6  class UserAgentMiddleware(object):
 7  
 8      def process_request(self,request,spider):
 9          #设置随机请求头
10          ua = random.choice(USER_AGENTS_LIST)
11          #设置初始URL中的UA
12          request.headers['User-Agent'] = ua

 1 #settings设置
 2  USER_AGENTS_LIST = [
 3      "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
 4      "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
 5      "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
 6      "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
 7      "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
 8      "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
 9      "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
10      "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"
11  ]

有一个fake-useragent,自行百度下用法；
- 见仁见智

进行代理设置：resquest.meta["proxy"] = proxy

代理池中随机选择代理ip
代理ip的webapi发送请求获取一个代理ip
添加代理：基本认证与摘要认证
source:一文读懂HTTP Basic身份认证https://juejin.im/entry/5ac175baf265da239e4e3999

1 #settings设置 PROXY_LIST = {"ip_port":"ip:port","user_pass":"user:pass"}

 1 #付费代理
 2 import base64
 3 
 4 # 代理隧道验证信息  这个是在那个网站上申请的
 5 proxyServer = 'http://proxy.abuyun.com:9010' # 收费的代理ip服务器地址，这里是abuyun
 6 proxyUser = 用户名
 7 proxyPass = 密码
 8 #Basic后面有一个空格
 9 proxyAuth = "Basic " + base64.b64encode(proxyUser + ":" + proxyPass)
10 
11 class ProxyMiddleware(object):
12     def process_request(self, request, spider): 13 # 设置代理 14 request.meta["proxy"] = proxyServer 15 # 设置认证 16 request.headers["Proxy-Authorization"] = proxyAuth

返回三种方式：

返回None值：没有return也是返回None，该request对象传递给下载器，或通过引擎传递给其他权重低的process_request方法
返回Response对象：不再请求，把response返回给引擎j交给spider解析
返回Request对象：把request对象通过引擎交给调度器，此时将不通过其他权重低的process_request方法。

scrapy与selenium中间件的使用：

可以选择性的使用selenium,因为selenium比较慢，我们尽可能的避免使用它，在下载器中间件里面的process_request函数，可以理解所有的请求都要经过该函数，所以我们在修改请求时，可以判断所过的url里面有没有我们需要用selenium的url，一般可以使用url里面的关键字进行判断；

 1 #判断关键字是否在url中
 2 if "xxxxx" in resquest.url:
 3     driver = webdriver.Chorme()
 4     driver.get(url)
 5     time.sleep(3)
 6     
 7     data = driver.page_source
 8     
 9     driver.close()
10     #创建相应对象
11     res = HtmlResponse(url=url,body=data,encoding='utf-8',request=request)

 1 from scrapy.http import HtmlResponse
 2 import time
 3 
 4 
 5 #设置selenium的中间件
 6 class SelemiumSpiderMiddleware(object):
 7 
 8     def process_request(self, request, spider):
 9         spider.driver.get(request.url)
10         time.sleep(1)
11         #获得渲染后的网页源代码
12         page_text = spider.driver.page_source
13         spider.driver.close()
14         #创建响应对象
15         return HtmlResponse(url=request.url, body=page_text, request=request, encoding='utf-8')

process_response--拦截所有的响应
- 在downloader执行Request下载后，会得到对应的response，在发送到spider之前，可以使用process_response来对数据进行处理。

process_exception--拦截发生异常的请求对象
- 当downloader或者process_request（）方法抛出异常是，该方法会被调用；

spider中间件：（NameSpiderMiddleware）：

spider Middleware是接入到scrapy的Spider处理机制的钩子框架；
在Downloader生成Response之后，Response会被发送到Spider之前，首先经过SpiderMiddleware处理，当spider处理生成item和Request之后,还会经过SpiderMiddleware处理。
暂时没有用到，只大体学习记录；

--四大核心方法（百度自行了解）：

　　-process_spider_input

　　-process_spider_output

　　-process_spider_exception

　　-process_start_requests

CrawlSpider：

 - 基于scrapy进行全站数据爬取的一种新的手段

CrawlSpider就是spider的一个子类
- 链接提取器（LinkExtractor）：
  - 规则解析器（Rule）:
使用流程
- 新建一个工程
- cd 工程中
- 新建一个爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com

样例：

 1  #demo
 2  # -*- coding: utf-8 -*-
 3  import scrapy
 4  from scrapy.linkextractors import LinkExtractor
 5  from scrapy.spiders import CrawlSpider, Rule
 6  
 7  
 8  class CrawlproSpider(CrawlSpider):
 9      name = 'Crawlpro'
10      allowed_domains = ['www.xxx.com']
11      start_urls = ['http://www.xxx.com/']
12  
13      rules = (
14          Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
15      )
16  
17      def parse_item(self, response):
18          item = {}
19          #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
20          #item['name'] = response.xpath('//div[@id="name"]').get()
21          #item['description'] = response.xpath('//div[@id="description"]').get()
22          return item
23

分布式：

-- 目的：

　　- 让多台爬虫机器同时运行爬虫任务并协同爬取，协同爬取的前提是共享爬取队列；

　　- 统一爬取队列，多个调度器、多个下载器----结果是爬取效率翻倍。

-- 维护爬虫队列：

- 性能考虑：基于内存存储的redis

列表有lpush、lpop、rpush、rpop方法，实现先进先出爬取队列，也可以实现先进后出栈式爬取队列
集合元素无需并且不重复
可实现带优先级的调度队列

-- URL地址去重：

使用md5生成的数据指纹来筛选数据，将转换的md5值与之前的传入redis中的数据进行比对；
使用哈希算法生成数据指纹筛选数据，将转换的md5值与之前的传入redis中的数据进行比对；
布隆过滤器

-- 文本内容去重：

编辑距离算法
simhash算法

-- 防止中断：

为什么要防止中断：
1. 在scrapy中，爬虫运行时的Request队列放在内存中，在爬虫运行中中断后，这个空间就被释放，此队列就被销毁，所以一旦爬虫被中断，爬虫再次运行就相当于全新的爬取过程。
解决方法：
1. 将队列中的Request保存起来，再次爬取直接读取保存的数据即可
2. 实现命令：
```
 scrapy crawl spider -s JOB_DIP=crawls/spider(路径使用JOB_DIP标识)
```

增量式：

概念：用于检测网站数据更新的情况。
应用的网站类型：
- 增量式深度爬取
- 增量式非深度爬取
核心机制：去重；redis-set去重方式（可做持久化存储），python中的set是基于缓存中的
增量式流程：
- ```
 与基本的爬虫Scrapy流程相似，只是再spider中加了数据指纹的认证
 再pipelines中增加了redis的存储过程
```
- rules配置规则
  - 数据库的连接
  1. item数据类型创建完成
  2. pipelines
    - 数据库的调用：spider.方法
    - redis的存储

框架中的item传输问题（parse传到其他函数中）：

传输：

1 yield scrapy.Resquest(url,callback=self.parse_detail,meta={'item':item})

下个函数接收：

1  item = response.meta['item']    
2  item[""] = ...
3  yield item

scrapy中的post请求：

首先创建好scrapy文件，注释掉allowed_domains以及start_urls；重写初始化请求（start_requests）,最后yield返回给解析函数。

 1  class xxx(scrapy.Spider):
 2      name = 'xxxx'
 3      #allowed_domains = ['']
 4      #start_url = ['']
 5      
 6      def start_requests(self):
 7          headers = {}
 8          base_url = ''
 9          formdata = {}
10          yield scrapy.FormRequest(url=base_url,headers=headers,formdata=formdata,callback=self.parse)
11          #如果使用FormRequest报错，备选方案
12  scrapy.Request(url=base_url,headers=headers,body=json.dumps(formdata）,method= 'POST',callback=self.parse)
13                 
14                 
15       def parse(self,response):
16                 pass

扩展：

反爬机制整理：

robots
UA伪装
验证码
代理
cookie
动态变化的请求参数
JS加密
JS混淆
图片懒加载
动态数据的获取
selenium:规避检测

图片懒加载：

网站优化手段
应用到标签的伪属性，数据捕获的时候一定基于伪属性进行

    是一种反爬机制,图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。
    在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original…）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

imagePileline:专门用于二进制数据下载和持久化存储的管道类（图片下载）

scrapy中技巧：

当调用item中的类时，没有显示且标红
解决方法：找到项目根文件--右击--找到Mark Directory as----Source-root后点击，生成源文件

 1 #翻页设置   
 2 url = response.xpath('//span[@class="next"]/a/@href').extract_first()
 3     if url !=None:
 4             ''''
 5             在提取数据后，parse()方法查找到下一页的链接，使用urljoin()方法构建完整的绝对URL（因为链接可以是相对的），
 6             并产生一个新的请求到下一个页面，将自己作为回调函数来处理下一页的数据提取，并保持遍历所有页面的抓取。
 7             '''
 8             url = response.urljoin(url)
 9             yield scrapy.Request(
10                 url=url,callback=self.parse
11             )

selenium-绕过网站监测：

source：https://www.cnblogs.com/presleyren/p/12936553.html

使用 Google 的Chrome Devtools-Protocol（Chrome 开发工具协议）简称CDP。

通过这个命令，我们可以给定一段 JavaScript 代码，让 Chrome 刚刚打开每一个页面，还没有运行网站自带的 JavaScript代码时，就先执行我们给定的这段代码。

那么如何在 Selenium中调用 CDP的命令呢？实际上非常简单，我们使用driver.execute_cdp_cmd。根据 Selenium 的官方文档[2]，传入需要调用的 CDP 命令和参数即可;

只需要执行一次，之后只要你不关闭这个driver开启的窗口，无论你打开多少个网址，他都会自动提前在网站自带的所有 js 之前执行这个语句，隐藏window.navigator.webdriver。

完美隐藏window.navigator.webdriver。并且，关键语句：

1  driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
2    "source": """
3      Object.defineProperty(navigator, 'webdriver', {
4        get: () => undefined
5      })
6    """
7  })

虽然使用以上代码就可以达到目的了，不过为了实现更好的隐藏效果，大家也可以继续加入两个实验选项：

 1  from selenium import webdriver
 2  options = webdriver.ChromeOptions()
 3  options.add_experimental_option("excludeSwitches", ["enable-automation"])
 4  options.add_experimental_option('useAutomationExtension', False)
 5  driver = webdriver.Chrome(options=options, executable_path='./chromedriver')
 6  driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
 7    "source": """
 8      Object.defineProperty(navigator, 'webdriver', {
 9        get: () => undefined
10      })
11    """
12  })
13  driver.get('http://exercise.kingname.info')

这是close()的说明：

Closes the current window. 关闭当前窗口。

这是quit()的说明：

Quits the driver and closes every associated window. 退出驱动并关闭所有关联的窗口。

gb2312与gb2312 urlencode区别

1  import urllib
2  country = u'中国'
3  country.encode('gb2312')
4  #-------'\xd6\xd0\xb9\xfa'
5  urllib.quote(country.encode('gb2312'))
6  #--------'%D6%D0%B9%FA'

Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
【347】脊梁式普通教师——《教育的100种可能（上）》（5）向日葵_1f86
用心是一节课，敷衍也是一节课，但是我们的尽心与否，很可能会改变一个孩子的人生轨迹。——李镇西学生张春银李镇西老师说：张春银不是“全国劳模”“特级教师”，但他真正代表了绝大多数的平凡教师、普通劳动者，这就是我要写张春银的原因。张春银老师是乡村教育的默默守望者，用他的爱守护着每一个孩子，上好每一堂课，用自己的青春去呵护孩子们的快乐成长。因为教育行走，我们也听到了更多乡村教师的故事，他们也都是用自己的爱
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
2021-01-09 哥伦比亚《梦中的欢快葬礼和十二个异乡故事》加西亚·马尔克斯著罗秀译 juneyale
《梦中的欢快葬礼和十二个异乡故事》哥伦比亚加西亚·马尔克斯著罗秀译序《总统先生，一路走好！》“再给我一杯咖啡。”他用纯正的法语说。随即补充道：“要意式咖啡，能让人起死回生的那种。”并没有意识到话里的双关含义。当火车开始加速，荷马突然发现总统的手杖还在自己手中，于是跑到站台尽头，把手杖用力扔过去，希望总统能在半空中接住。但是手杖掉在了铁轨上，随即被碾得粉碎。那真是恐怖的一瞬。拉萨拉看到的最后一幕是那
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
微信小程序开发注意事项 jun778895 微信小程序小程序
微信小程序开发是一个融合了前端开发、用户体验设计、后端服务（可选）以及微信小程序平台特性的综合性项目。这里，我将详细介绍一个典型的小程序开发项目的全过程，包括项目规划、设计、开发、测试及部署上线等各个环节，并尽量使内容达到或超过2000字的要求。一、项目规划1.1项目背景与目标假设我们要开发一个名为“智慧校园助手”的微信小程序，旨在为学生提供一站式校园生活服务，包括课程表查询、图书馆座位预约、食堂
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
应酬的不容易曾珊_1aa2
春节期间，有人逼婚，有人劝酒，不管是逼婚还是劝酒，都有点把自己得意志强加在别人头上的意思。请客送礼也藏着这种感觉。过节时送礼和收礼，都是类似的礼物，收下，太多，转送，不礼貌，拒绝，就会有一个又一个小战争。这些事情都有点强买强卖的意思，对方的好意你必须接受，即便带着点恶意，如劝酒你也得接受，否则就是不给对方面子。中国式的请客、吃饭、送礼的一些特征：1送大家都送的礼。因为没有用心，所以不知道对方要什么
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
学着不在做孤独的小孩苯妥英钠
梦境中，经常，绝非偶然的，多次，隔着半个月，或者半年的时光，也许更短，总会梦见自己在里面孤独的面对着自己深深觉得恐怖的事情。在梦里我们没有主导权，没有享受一切的权利，只有被迫式的逃离，却发现自己的内心已经强烈的渴望奔向远方，却无可奈何的发现自己的脚步还在原地，此时身后的黑暗越来越接近自己。等我们长大的时候，我们依然在梦中会被迫的控制住，即使我们可能知道，也多么希望我们自己能有很多的方案去摆脱，或者
Python 推导式(Comprehensions) 戒灵
1,列表推导式num=[1,2,-5,10,-7,5,7,-1]filtered_and_squared=[x**2forxinnumifx>0]print(filtered_and_squared)迭代器(iterator)遍历输入序列num的每个成员x断言式判断每个成员是否大于零如果成员大于零，则被交给输出表达式，平方之后成为输出列表的成员。列表推导式被封装在一个列表中，所以很明显它能够立即生
底层逻辑之复利音匀的生活札记
本金↑（1+收益率）时间-欲望=财富自由理解了真正的“复利公式”，以及获得财富自由的三种方法——“无欲无求式财富自由”“三生三世式财富自由”和“第一桶金式财富自由”后，得出结论：早期靠本金，后期靠复利。最后，给大家几点建议：一是尽早存到足够的本金。获得财富自由的第一重要的事，是培养赚钱的能力。赚钱要靠本金，而不是靠复利。你都没有本金，哪来的钱生钱呢？二是努力做到稳健高收益。找到高收益的投资不难，识
正常化的同理迷你旅客
郑璐宜昌焦点网络中级七期原创持续分享第214天SBFT的同理方式除了反应来访者的感受之外，更会暗示事情有其他可能性的存在，以试图动摇来访者的负面感受，改变她的自我觉知。其原则包括：1、将来访者所说的内容以“过去式”的动词（如：加上“曾经”）进行回应，暗示现在的负向可以成为过去。2、把来访者所用的含绝对性、强烈性的字眼，换为严重程度较低或发生比例较少的用字。例如，来访者说：“每天总是觉得快要发疯了。
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
《HTML 与 CSS—— 响应式设计》陈在天box html css 前端
一、引言在当今数字化时代，人们使用各种不同的设备访问互联网，包括智能手机、平板电脑、笔记本电脑和台式机等。为了确保网站在不同设备上都能提供良好的用户体验，响应式设计成为了网页开发的关键。HTML和CSS作为网页开发的基础技术，在实现响应式设计方面发挥着重要作用。本文将深入探讨HTML与CSS中的响应式设计原理、方法和最佳实践。二、响应式设计的概念与重要性（一）概念响应式设计是一种网页设计方法，旨在
【高中数学/三角函数/判别式法求极值】已知：实数a,b满足a^2/4-b^2=1 求：3a^2+2ab的最小值普兰店拉马努金高中数学之三角函数高中数学三角函数判别式
【问题】已知：实数a,b满足a^2/4-b^2=1求：3a^2+2ab的最小值【来源】App"网易新闻"中up主“我服子佩”的数学视频专辑，据其称是北京市某年的竞赛题。【解答】由a^2/4-b^2=1，联想到secθ^2-tanθ^2=1故设a/2=1/cosθ,b=sinθ/cosθ将a=2/cosθ,b=sinθ/cosθ代入3a^2+2ab得f(θ)=(12+4sinθ)/(1-sinθ^2
‌汽车一键式启动系统‌包含哪些功能 zsmydz888 汽车一键式启动系统‌汽车无钥匙启动系统汽车
‌汽车一键式启动系统‌是一种智能化的汽车启动系统，它通过一个按钮来启动和熄灭发动机，取代了传统的钥匙启动方式。这个系统不仅简化了启动和熄火的步骤，还提供了多种智能化的功能，如自动开锁、自动关锁、自动关窗、自动防盗等。此外，汽车一键式启动系统还支持远程启动和紧急熄火功能，以及个性化设置记忆功能，大大提升了驾驶的便利性和安全性。‌移动管家汽车无钥匙进入一键启动基本功能‌：‌一键启动与熄火‌：通过轻按按
AUTO TECH 2025 广州国际汽车软件与安全技术展览会 ws201907 汽车安全
AUTOTECH2025广州国际汽车软件与安全技术展览会ChinaGuangzhouSoftware-DefinedVehicleExpo2025亚洲领先的汽车软件与安全技术专业展会——是与来自世界各地的汽车工程师们交流的最佳平台！广州国际汽车软件与安全技术展览会是AUTOTECH2025华南展专题展之一，汇集了各种汽车嵌入式软件开发与应用、车载操作系统、智驾功能安全与SOTIF、基础软件平台、车
如何在电商平台上使用API接口数据优化商品价格 weixin_43841111 api 数据挖掘人工智能 python java 大数据前端爬虫
利用API接口数据来优化电商商品价格是一个涉及数据收集、分析、策略制定以及实时调整价格的过程。这不仅能提高市场竞争力，还能通过精准定价最大化利润。以下是一些关键步骤和策略，用于通过API接口数据优化电商商品价格：1.数据收集竞争对手价格监控：使用API接口（如Scrapy、BeautifulSoup等工具结合Python进行网页数据抓取，或使用专门的API服务如PriceIntelligence、
嵌入式单片机中数码管基本实现方法嵌入式开发星球单片机项目实战操作之优秀单片机
1.点亮数码管本节课利用已经学习的LED知识去控制一个8位数码管。本节的原理比较简单。不需要多少时间讲。更多时间是跟大家一起编码调试，从中学习一些编码思路和学习方法。1.1.什么是数码管数码管是什么？下图就是一个数码管从硬件上个看，其实就是8个LED组合在一起。8个LED应该有16个引脚，但是数码管上只有10个引脚。为什么呢？请看下图：1个LED有两个引脚，要控制LED，1个引脚接控制信号，另外一
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
【道德经】第二十四章企者不立稀土永磁Amy
企者不立，跨者不行。自见者不明，自是者不彰，自伐者无功，自矜者不长。其于道也，曰余食赘行，物或恶之，故有道者不处也。踮起脚跟，想要站得高的人反而站不稳；跳跃式地前行的人反而走不远。自我显摆的人，反而难以显明；自以为是的人，其优点反而得不到彰显；自吹自擂的人，有功劳也没人承认；自高自大的人，难以成为领袖人物。
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

scrapy框架使用：分布式、增量式

scrapy框架的使用

创建工程：

setting必备设置：

scrapy框架中：

scrapy数据解析

scrapy持久化存储

手动请求发送：

对yield总结：

手动发送post请求：

scrapy五大核心组件：

scrapy的请求传参：

提升scrapy爬取数据的效率(配置文件中)：

- 增加并发：

- 降低日志级别：

- 禁止cookies:

-禁止重试：

- 减少下载超时：

scrapy的中间件(middlewares)：

--概念：下载中间件

--封装了两个类：

--一次请求经过两次中间件：

下载器中间件中的核心方法（NameDownloaderMiddleware）：

spider中间件：（NameSpiderMiddleware）：

--四大核心方法（百度自行了解）：

-process_spider_input

-process_spider_output

-process_spider_exception

-process_start_requests

CrawlSpider：

分布式：

-- 目的：

- 让多台爬虫机器同时运行爬虫任务并协同爬取，协同爬取的前提是共享爬取队列；

- 统一爬取队列，多个调度器、多个下载器----结果是爬取效率翻倍。

-- 维护爬虫队列：

- 性能考虑：基于内存存储的redis

-- URL地址去重：

-- 文本内容去重：

-- 防止中断：

增量式：

scrapy中的post请求：

扩展：

反爬机制整理：

图片懒加载：

scrapy中技巧：

selenium-绕过网站监测：

你可能感兴趣的:(scrapy框架使用：分布式、增量式)

　　-process_spider_input

　　-process_spider_output

　　-process_spider_exception

　　-process_start_requests

　　- 让多台爬虫机器同时运行爬虫任务并协同爬取，协同爬取的前提是共享爬取队列；

　　- 统一爬取队列，多个调度器、多个下载器----结果是爬取效率翻倍。