the丶only

python爬虫之Scrapy框架，基本介绍使用以及用框架下载图片案例

一、Scrapy框架简介

Scrapy是:由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据，只需要实现少量的代码，就能够快速的抓取。

Scrapy使用了Twisted异步网络框架来处理网络通信，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活地实现各种需求。

Scrapy可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中，其最初是为页面抓取(更确切地说是网络抓取)而设计的，也可以应用于获取API所返回的数据(例如Amazon Associates Web Services)或者通用的网络爬虫。

二、Scrapy架构

1、架构图

官方架构图

翻译架构图

2、组件

Scrapy主要包括了以下组件：

爬虫中间件(Spider Middleware)：位于Scrapy引擎和爬虫之间的框架，主要用于处理爬虫的响应输入和请求输出。
调度器中间件(Scheduler Middleware)：位于Scrapy引擎和调度器之间的框架，主要用于处理从Scrapy引擎发送到调度器的请求和响应。
调度器（Scheduler）：用来接收引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。它就像是一个URL的优先队列，由它来决定下一个要抓取的网址是什么，同时在这里会去除重复的网址。
下载器中间件(Downloader Middleware)：位于Scrapy引擎和下载器之间的框架，主要用于处理Scrapy引擎与下载器之间的请求及响应。代理IP和用户代理可以在这里设置。
下载器（Downloader）：用于下载网页内容，并将网页内容返回给爬虫。
Scrapy引擎(ScrapyEngine)：用来控制整个系统的数据处理流程，并进行事务处理的触发。
爬虫（Spiders）：爬虫主要是干活的，用于从特定网页中提取自己需要的信息，即所谓的项目(又称实体)。也可以从中提取URL，让Scrapy继续爬取下一个页面。
项目管道（Pipeline）：负责处理爬虫从网页中爬取的项目，主要的功能就是持久化项目、验证项目的有效性、清除不需要的信息。当页面被爬虫解析后，将被送到项目管道，并经过几个特定的次序来处理其数据。

3、运行流程

数据流(Data flow)，Scrapy中的数据流由执行引擎（ScrapyEngine）控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站

三、Scrapy安装以及生成项目

1、下载安装

Linux下载方式，直接安装

pip install scrapy
或者
pip3  install scrapy）

windows 如果用Pycharm的话，在Pycharm底部打开命令终端

输入命令

pip install scrapy

2、创建Scrapy项目

#创建一个叫ScrapyDemmo
scrapy startproject ScrapyDemmo
#进入项目文件夹
cd ScrapyDemmo
#创建一个名为baidu的爬虫，爬虫目标www.baidu.com
scrapy genspider baidu www.baidu.com

创建完成后，目录结构如下：

scrapy.cfg: 项目的配置文件。
scrapyspider/: 该项目的python模块。之后您将在此加入代码。
scrapyspider/items.py: 项目中的item文件。
scrapyspider/pipelines.py: 项目中的pipelines文件。
scrapyspider/settings.py: 项目的设置文件。
scrapyspider/spiders/: 放置spider代码的目录。

spiders下的baidu.py是scrapy用命令（scrapy genspider baidu www.baidu.com）自动为我们生成的。
内容如下：

import scrapy

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        title = response.xpath('//html/dead/title/text()')
        print(title)

当然，可以不用命令生成，可以自己在spiders下创建爬虫，您必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

3、运行爬虫

运行方法：
在项目目录底下用命令运行，如下，我项目目录 D:\Python\ScrapyDemmo，运行name为baidu的爬虫

 D:\Python\ScrapyDemmo> scrapy crawl baidu

在scrapy中，为了避免每一次运行或调试都输入一串命令，可以在项目文件下新建一个run.py文件，每次运行爬虫只需要运行此脚本即可。且运行调试模式也需要设置此启动脚本。

from scrapy import cmdline

cmdline.execute("scrapy crawl baidu".split())

最后运行这个run.py即可，执行结果：

D:\Python\venv\Scripts\python.exe D:\Python\ScrapyDemmo\ScrapyDemmo\run.py 
2022-10-28 10:12:55 [scrapy.utils.log] INFO: Scrapy 2.7.0 started (bot: ScrapyDemmo)
2022-10-28 10:12:55 [scrapy.utils.log] INFO: Versions: lxml 4.9.1.0, libxml2 2.9.12, cssselect 1.1.0, parsel 1.6.0, w3lib 2.0.1, Twisted 22.8.0, Python 3.9.13 (tags/v3.9.13:6de2ca5, May 17 2022, 16:36:42) [MSC v.1929 64 bit (AMD64)], pyOpenSSL 22.1.0 (OpenSSL 3.0.5 5 Jul 2022), cryptography 38.0.1, Platform Windows-10-10.0.22000-SP0
2022-10-28 10:12:55 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'ScrapyDemmo',
 'NEWSPIDER_MODULE': 'ScrapyDemmo.spiders',
 'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['ScrapyDemmo.spiders'],
 'TWISTED_REACTOR': 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'}
2022-10-28 10:12:55 [asyncio] DEBUG: Using selector: SelectSelector
2022-10-28 10:12:55 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.asyncioreactor.AsyncioSelectorReactor
2022-10-28 10:12:55 [scrapy.utils.log] DEBUG: Using asyncio event loop: asyncio.windows_events._WindowsSelectorEventLoop
2022-10-28 10:12:55 [scrapy.extensions.telnet] INFO: Telnet Password: 8f7196797757e0f5
2022-10-28 10:12:55 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2022-10-28 10:12:55 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2022-10-28 10:12:55 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2022-10-28 10:12:55 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2022-10-28 10:12:55 [scrapy.core.engine] INFO: Spider opened
2022-10-28 10:12:55 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2022-10-28 10:12:55 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2022-10-28 10:12:55 [filelock] DEBUG: Attempting to acquire lock 2507249710320 on D:\Python\venv\lib\site-packages\tldextract\.suffix_cache/publicsuffix.org-tlds\de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-10-28 10:12:55 [filelock] DEBUG: Lock 2507249710320 acquired on D:\Python\venv\lib\site-packages\tldextract\.suffix_cache/publicsuffix.org-tlds\de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-10-28 10:12:55 [filelock] DEBUG: Attempting to release lock 2507249710320 on D:\Python\venv\lib\site-packages\tldextract\.suffix_cache/publicsuffix.org-tlds\de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-10-28 10:12:55 [filelock] DEBUG: Lock 2507249710320 released on D:\Python\venv\lib\site-packages\tldextract\.suffix_cache/publicsuffix.org-tlds\de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-10-28 10:12:55 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.baidu.com/robots.txt> (referer: None)
2022-10-28 10:12:55 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com/>
2022-10-28 10:12:55 [scrapy.core.engine] INFO: Closing spider (finished)
2022-10-28 10:12:55 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

若嫌弃scrapy日志文件太杂乱,想无日志输出,只需在后面增加–nolog即可:

from scrapy import cmdline

cmdline.execute('scrapy crawl baidu --nolog'.split())

执行导出为json或scv格式，执行爬虫文件时添加-o选项即可

scrapy crawl 项目名 -o *.csv
scrapy crawl 项目名 -o *.json

对于json文件，在setting.js文件里添加，设置编码格式，否则会乱码：

from scrapy import cmdline
 
cmdline.execute('scrapy crawl baidu -o baidu.csv'.split())

四、Scrapy配置文件settings.py

默认配置文件，主要设置参数：

BOT_NAME = 'ScrapyDemmo' #Scrapy项目的名字,这将用来构造默认 User-Agent,同时也用来log,当您使用 startproject 命令创建项目时其也被自动赋值。

SPIDER_MODULES = ['ScrapyDemmo.spiders'] #Scrapy搜索spider的模块列表 默认: [xxx.spiders]
NEWSPIDER_MODULE = 'ScrapyDemmo.spiders' #使用 genspider 命令创建新spider的模块。默认: 'xxx.spiders'  


#爬取的默认User-Agent，除非被覆盖 
#USER_AGENT = 'ScrapyDemmo (+http://www.yourdomain.com)'

#如果启用,Scrapy将会采用 robots.txt策略 
ROBOTSTXT_OBEY = True

#Scrapy downloader 并发请求(concurrent requests)的最大值,默认: 16 
#CONCURRENT_REQUESTS = 32

#为同一网站的请求配置延迟（默认值：0） 
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3 #下载器在下载同一个网站下一个页面前需要等待的时间,该选项可以用来限制爬取速度,减轻服务器压力。同时也支持小数:0.25 以秒为单位  

#下载延迟设置只有一个有效 
#CONCURRENT_REQUESTS_PER_DOMAIN = 16  #对单个网站进行并发请求的最大值。
#CONCURRENT_REQUESTS_PER_IP = 16	#对单个IP进行并发请求的最大值。如果非0,则忽略

#禁用Cookie（默认情况下启用） 
#COOKIES_ENABLED = False

#禁用Telnet控制台（默认启用） 
#TELNETCONSOLE_ENABLED = False

#覆盖默认请求标头：  
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

#项目管道，300为优先级，越低越爬取的优先度越高
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    'ScrapyDemmo.pipelines.ScrapydemmoPipeline': 300,
#}

还可以设置日志的等级与日志存放的路径：
相关变量

LOG_LEVEL= ""
LOG_FILE="日志名.log"

日志等级分为，默认等级是1
1.DEBUG 调试信息
2.INFO 一般信息
3.WARNING 警告
4.ERROR 普通错误
5.CRITICAL 严重错误

如果设置
LOG_LEVEL=“WARNING”，就只会WARNING等级之下的ERROR和CRITICAL

一般主要需要配置的几个参数，其他按需配置即可。
USER_AGENT：默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑爬虫。
ROBOTSTXT_OBEY：是否遵循机器人协议，默认是true，需要改为false，否则很多东西爬不了
DEFAULT_REQUEST_HEADERS：和USER_AGENT类似，只是参数更完整。

五、完整案例（下载图片）

用scrapy框架下载以前的示例：python爬虫之批量下载图片

以前

1、修改settings.py 主要参数

#关闭robot.txt协议
ROBOTSTXT_OBEY = False

#页面延迟下载，我这里测试，可以先不设置
DOWNLOAD_DELAY = 1

# 是否启用Cookie
COOKIES_ENABLED = True

#请求头 
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
#打开下载器
DOWNLOADER_MIDDLEWARES = {
    'ScrapyDemmo.middlewares.ScrapydemmoDownloaderMiddleware': 543,
}
#打开优先级，并添加自己编写的图片下载管道
ITEM_PIPELINES = {
   'ScrapyDemmo.pipelines.ScrapydemmoPipeline': 300,
   'ScrapyDemmo.pipelines.ImageDownloadPipeline': 300,
}
#添加下载储存目录
IMAGES_STORE = 'D:\Python\pic'

# 文件保存时间
#IMAGES_EXPIRES = 90

2、定义Item字段（Items.py）

本项目用于下载图片，因此可以仅构建图片名和图片地址字段。

import scrapy


class ScrapydemmoItem(scrapy.Item):
	#图片下载链接
    image_url = scrapy.Field()
    #图片名称
    image_name = scrapy.Field()

3、编写爬虫文件（spiders目录下）

这里文件名为：image_download.py

以前用requests库和BeautifulSoup库下载图片，这里就不需要了，scrapy自带相关函数和方法。

scrapy元素定位，提供三种方式，正则、Xpath表达式、css。
我这里有xpath定位方式。

import scrapy
import re
from ..items import ScrapydemmoItem

class ImageSpider(scrapy.Spider):
    name = 'image_download'
    allowed_domains = ['desk.3gbizhi.com']
    start_urls = ['https://desk.3gbizhi.com/deskMV/index.html']

    def parse(self, response):
    	#导入Items.py字段
        items = ScrapydemmoItem()
        #获取所有链接列表
        lists = response.xpath('//div[5]/ul/li')
        #点位元素循环获取图片链接和图片名称
        for i in lists:
        	#图片名称
            image_name = i.xpath('./a/img/@alt').get()
            #图片链接
            items['image_url'] = i.xpath('./a/img/@*[1]').get().replace('.278.154.jpg', '')
            #图片格式类型
            image_type = re.sub(r'h.*\d+.', '', items['image_url'])
            #拼接文件名，图片名称+图片格式
            items['image_name'] = '{}.{}'.format(image_name, image_type)
            yield  items
		#循环跳转下一页，并重复返回数据，这里测试先下载1页的图片，总共23页。
        for i in range(2,3):
            next_url = 'https://desk.3gbizhi.com/deskMV/index_{}.html'.format(i)
            yield scrapy.Request(next_url,callback=self.parse)

关于 yield 的理解，⾸先，如果你还没有对yield有个初步分认识，那么你先把yield看做“return”，这个是直观的，它⾸先是个return。

最主要的不同在于yield在返回值后还可以继续运行接下来的代码，使用的函数会返回一个生成器，而return在返回后就不在执行代码。

以上两个yield：

yield items：这里我们通过 yield 返回的不是 Request 对象，而是一个 ScrapydemmoItem 对象。
scrap有框架获得这个对象之后，会将这个对象传递给 pipelines.py来做进一步处理。
我们将在 pipelines.py里将传递过来的 scrapy.Item 对象保存到数据库里去。
yield scrapy.Request：这里是在爬取完一页的信息后，我们在当前页面获取到了下一页的链接，然后通过 yield 发起请求，并且将 parse 自己作为回调函数来处理下一页的响应。

4、修改管道文件pipelines.py用于下载图片

除了爬取文本，我们可能还需要下载文件、视频、图片、压缩包等，这也是一些常见的需求。scrapy提供了FilesPipeline和ImagesPipeline，专门用于下载普通文件及图片。

继承 Scrapy 内置的 ImagesPipeline，只需要重写get_media_requests 和item_completed函数即可。

from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
from scrapy import Request

class ScrapydemmoPipeline:
    def process_item(self, item, spider):
        return item

class ImageDownloadPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
    	# 下载图片，如果传过来的是集合需要循环下载
    	# meta里面的数据是从spider获取，然后通过meta传递给下面方法：file_path
        yield Request(url = item['image_url'],meta = {'filename':item['image_name']})

    def item_completed(self, results, item, info):
     	# 分析下载结果并剔除下载失败的图片
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item

    def file_path(self, request, response=None, info=None):
    	# 接收上面meta传递过来的图片名称
        file_name = request.meta['filename']
        return file_name

get_media_requests()。它的第一个参数 item 是爬取生成的 Item 对象。我们将它的 url 字段取出来，然后直接生成 Request 对象。此 Request 加入调度队列，等待被调度，执行下载。
item_completed()，它是当单个 Item 完成下载时的处理方法。因为可能有个别图片未成功下载，所以需要分析下载结果并剔除下载失败的图片。该方法的第一个参数 results 就是该 Item 对应的下载结果，它是一个列表形式，列表每一个元素是一个元组，其中包含了下载成功或失败的信息。这里我们遍历下载结果找出所有成功的下载列表。如果列表为空，那么说明该 Item 对应的图片下载失败了，随即抛出异常DropItem，该 Item 忽略。否则返回该 Item，说明此 Item 有效。

以上两个函数即可下载图片了，图片名称为自动已哈希值命名，如：0db6e07054d966513f0a6f315b687f205c7ced90.jpg 这种命名方式不友好，所以我们需要重写 file_path函数，自定义图片名称。

file_path()：它的第一个参数 request 就是当前下载对应的 Request 对象。这个方法用来返回保存的文件名，接收上面meta传递过来的图片名称，将图片以原来的名称和定义格式进行保存。

5、编写执行文件run.py运行

在项目下新建run.py作为执行文件

from scrapy import cmdline

#cmdline.execute('scrapy crawl image_download --nolog'.split())
cmdline.execute('scrapy crawl image_download'.split())

运行此文件，执行结果，在目录下载第一页壁纸完成。

六、小结

除了 ImagesPipeline 处理图片外，还有 FilesPipeline 可以处理文件，使用方法与图片类似，事实上 ImagesPipeline 是 FilesPipeline 的子类，因为图片也是文件的一种。

Scrapy很强大，对于大型网站非常实用，还可以同时运行多个爬虫程序，提升效率。Scrapy还有很多功能，可以自己研究。

你可能感兴趣的:(python,python,爬虫,开发语言,运维,服务器)

笔记-python之celery使用详解大白砌墙笔记 python 开发语言
Celery是一个用于处理异步任务的Python库，它允许你将任务分发到多个worker进行处理。以下是Celery的使用详解：安装Celery使用pip安装Celery：pipinstallcelery创建Celery实例首先，需要创建一个Celery实例，指定broker（消息中间件）和backend（结果存储）。fromceleryimportCeleryapp=Celery('tasks'
【python】虚拟环境工具pyenv 南隅。 python python 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录0x0安装配置pyenv和virturalenv插件0x00pyenv0x01pyenv-virtualenv插件0x02pyenv下载安装包速度0x1使用pyenv0x2卸载pyenv0x3pyenv配置问题0x30问题描述0x31debug0x32problem0x33复现0x4补充0x40windows的python虚拟
计算机毕业设计Java河南省农村多元化养老服务管理系统设计与实现(源码+系统+mysql数据库+lw文档) 山逸网络数据库 java mysql
计算机毕业设计Java河南省农村多元化养老服务管理系统设计与实现(源码+系统+mysql数据库+lw文档)计算机毕业设计Java河南省农村多元化养老服务管理系统设计与实现(源码+系统+mysql数据库+lw文档)本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win1
怎么使用jwt，token以及redis进行续期？曦月不可及? java
怎么使用jwt，token以及redis进行续期？什么是jwt?什么是token?结合JWT、Token和Redis进行续期的一般步骤：生成JWT：用户登录成功后，服务器生成一个JWT，并返回给客户端。importio.jsonwebtoken.Jwts;importio.jsonwebtoken.SignatureAlgorithm;publicclassJwtUtil{privatestati
使用Python编写Web应用程序的框架 - Celery YOUFDJ python 前端开发语言 Python
使用Python编写Web应用程序的框架-CeleryCelery是一个功能强大的Python库，用于编写具有异步任务处理和分布式消息传递功能的Web应用程序。它是一个开源项目，广泛应用于许多大型的网络应用和分布式系统中。本文将介绍Celery框架的基本概念和使用方法，并提供相应的源代码示例来帮助您更好地理解和使用Celery。Celery的安装要开始使用Celery，您需要首先安装它。您可以使用
编程助手学Python--Deepseek对提示词自定义模板StringPromptTemplate的理解 sunyaox 编程助手学Python python 开发语言
编程助手学Python--Deepseek对提示词自定义模板StringPromptTemplate的理解主要功能核心属性和方法使用场景示例代码1.基本用法2.使用f-string格式3.结合其他模板类高级用法1.自定义模板格式2.动态生成模板总结StringPromptTemplate是一种用于生成字符串提示的模板类，通常用于构建基于语言模型的应用程序。它允许你定义一个包含占位符的字符串模板，并
Python-Celery-基础用法总结-安装-配置-启动插件开发 Python python web
文章目录1.安装Celery2.配置Celery3.启动Worker4.调用任务5.任务装饰器选项6.任务状态7.定期任务8.高级特性9.监控和管理Celery是一个基于分布式消息传递的异步任务队列。它专注于实时操作，但也支持调度。Celery可以与Django,Flask,Pyramid等Web框架集成，但也可以独立使用。1.安装Celery首先需要安装Celery和一个消息代理（如Rabbit
Ubuntu上搭建虚拟环境字节熊猫 ubuntu linux 运维 python
环境搭建1.安装pipaptinstallpython3-pip2.安装虚拟环境命令pip安装可能超时，可以使用一下国内镜像阿里云http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban)http://pypi.douban.com/simple/清华大学https:/
MySQL慢SQL优化方案详解：从诊断到根治的完整指南 jiajia651304 mysql sql ffmpeg
MySQL慢SQL优化方案详解：从诊断到根治的完整指南一、慢SQL的致命影响当数据库响应时间超过500ms时，系统将面临三大灾难链式反应：用户体验崩塌页面加载超时率上升37%用户跳出率增加52%核心业务转化率下降29%系统稳定性危机连接池耗尽风险提升4.8倍主从同步延迟突破10秒阈值磁盘IO利用率长期超90%运维成本飙升DBA故障处理时间增加65%硬件扩容频率提高3倍夜间告警量激增80%通过监控系
安装cpu版本的paddleocr NO1212 python
1.CPU版的PaddlePaddlepython-mpipinstallpaddlepaddle==2.6.1-ihttps://mirror.baidu.com/pypi/simple2、验证安装安装完成后您可以使用python进入python解释器，输入importpaddle，再输入paddle.utils.run_check()如果出现PaddlePaddleisinstalledsuc
如何修复 VirtualBox 中缺少的依赖项 Python Core / win32api mister-big 开发语言
本文将帮助您修复“缺少依赖项PythonCore/win32api”错误。最近，用户在安装OracleVMVirtualBox7.0以在Windows11或10上创建虚拟机时经常遇到问题。一、为什么VirtualBox需要PythonCore/win32api？简而言之，PythonCore/win32api专为Python程序而设计。它就像一组工具，让Python与Windows系统通信。您还可
无网络entos7报错ImportError: /lib64/libm.so.6: version `GLIBC_2.27‘ not found更新glibc 夏离网络
最近在尝试使用sklearn的升级版cuml，因为是一台没有连接互联网的gpu机器，所以构建cuml环境过程很坎坷，需要各种将各种whl包在线下载后上传到服务器中。当我终于解决完包的互相依赖问题后，在importcuml时候遇到一个错误：ImportError:/lib64/libm.so.6:version`GLIBC_2.27’notfound(requiredby/anaconda3/env
输入URL到页面展示的核心逻辑链賢843 软件测试理论基础 python
浏览器输入url到页面展示过程（https请求过程）DNS解析域名得到服务器ip地址TCP三次握手TCP三次握手-CSDN博客客户端发送http请求服务器响应请求客户端渲染页面TCP四次挥手两个核心概念FIN包：FIN=1，表示请求终止连接（相当于说“我要挂电话了！”）。ACK包：ACK=1，表示确认收到数据（相当于说“我收到了！”）。四次挥手流程第一次挥手：客户端发送FIN=1的包给
Python之项目课稍微认真一点 python 数据库开发语言
1.项目准备1.1.项目创建此处省略一万字...1.2.项目目标创建数据库movie并设置编码格式，并完成t_user（用户信息表）、t_movie（电影信息表）的创建任务；完成用户登录功能，登录成功之后跳转到电影主界面；完成电影排行榜和关键字电影查询功能；完成电影信息图表统计（选作）1.3.项目结构dao |--__init__.py |--movie_dao.py #电影dao层接口类 |
Python的模块使用稍微认真一点 python 经验分享笔记
1.模块和包1.1.模块简而言之，在python中，一个文件（以“.py”为后缀名的文件）就叫做一个模块，每一个模块在python里都被看做是一个独立的文件。模块可以被项目中的其他模块、一些脚本甚至是交互式的解析器所使用，它可以被其他程序引用，从而使用该模块里的函数等功能，使用Python中的标准库也是采用这种方法。导入模块的三种方式：方式一：import模块名#导入整个demo模块importd
Python的界面案例稍微认真一点 python 开发语言笔记经验分享
1.Tk图形用户界面(GUI)Tkinter是使用python进行窗口视窗设计的模块。Tkinter模块(“Tk接口”)是Python的标准TkGUI工具包的接口。作为python特定的GUI界面，是一个图像的窗口，tkinter是python自带的，可以编辑的GUI界面，用来入门，熟悉窗口视窗的使用，非常有必要。提供tk支持的模块包括：模块说明tkinterTK主模块tkinter.colorc
【python】网络编程socket TCP UDP 草莓泰面包 python 网络 python tcp/ip
文章目录socket常用方法TCP客户端服务器UDP客户端服务器网络编程就是实现两台计算机的通信互联网协议族即通用标准协议，任何私有网络只要支持这个协议，就可以接入互联网。socketsocke模块的socket()函数importsocketsock=socket.socket(AddressFamily,type)参数说明：AddressFamily：指定套接字家族（AddressFamily
python中打开麦克风 ai python 开发语言
在Python中打开麦克风，可以使用PyAudio库。首入PyAudio库。pipinstallPyAudio然后，使用以下代码打开麦克风：importpyaudiop=pyaudio.PyAudio()stream=p.open(format=pyaudio.paInt16,channels=1,rate=16000,input=True,frames_per_buffer=1024)其中，fo
Python中用SpeechRecognition库和 vosk模型来识别语音老菜鸟YDZ 菜鸟学python python 开发语言语音识别人工智能 xcode
Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。一、SpeechRecognition库的安装使用pip命令安装即可：pipinstallSpeechRecognition当安装不成功时，可以强制：pipinstall--force-SpeechRecognition二、SpeechRecognition库的导入：i
C#实现动态验证码生成器：安全防护与实际应用场景 WangMing_X C#实现各种功能工具集 c#安全开发语言验证码图片
一、核心应用场景用户登录/注册验证：防止恶意程序批量注册表单提交防护：确保关键操作由真人执行API接口限流：抵御自动化脚本攻击敏感操作验证：如支付、信息修改等关键步骤数据防爬机制：保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------
python+wave+pyaudio：调用电脑麦克风进行声音录制觅远 python 音视频 python 开发语言 ffmpeg
pyaudio：用于音频输入。wave：用于音频文件的读写。importwave,pyaudiop=pyaudio.PyAudio()#获取设备上的所有麦克风设备info=p.get_host_api_info_by_index(0)num_devices=info.get('deviceCount')foriinrange(0,num_devices):ifp.get_device_info_b
C语言Socket编程：实现TCP通信 ArqLoop tcp/ip c语言网络信息与通信
Socket编程是一种在计算机网络中实现通信的常用方法。它提供了一种可靠的、面向连接的通信方式，可以用于在不同的计算机之间进行数据传输。本文将介绍如何使用C语言编写Socket程序，实现TCP通信。在开始编写Socket程序之前，我们需要了解一些基本的概念和术语。TCP（传输控制协议）是一种可靠的、面向连接的协议，它提供了端到端的数据传输。服务器和客户端通过建立连接来进行通信。服务器监听特定的端口
C#实现AES-CBC加密工具类（含完整源码及使用教程） WangMing_X C#实现各种功能工具集 c#AES-CBC加密
一、AES-CBC加密应用场景AES（AdvancedEncryptionStandard）作为全球公认的安全加密标准，广泛使用在以下场景：API通信加密：保护HTTP接口传输的敏感数据（如身份令牌、支付信息）文件安全存储：加密本地配置文件、数据库连接字符串等用户隐私保护：加密存储密码、身份证号等PII（个人身份信息）跨平台数据交换：与Java/Python等其他语言实现的加密系统互通物联网设备通
Python真经：筑基开光篇 zzzzjflzdvkk python 开发语言
第一章：灵脉筑基Python真经乃跨三界之法，无论Windows、Linux、MacOSX，抑或云端秘境、移动外域，皆可开辟灵脉，筑基修炼。修士欲入此道，须先探查本命灵台是否已结Python丹种。可于终端秘境中掐诀念咒，输入「python」真言，若有金光浮现，则显其丹种品阶；若无回应，便是灵脉未开，需行筑基之法。第二章：天机阁取经灵脉之源修士当登临「天机阁」此乃Python真经本源之地。阁中藏有最
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
[Java实战]性能优化qps从1万到3万曼岛_ 国密实战 java 性能优化开发语言
一、问题背景事情起因是项目上springboot项目提供的tps达不到客户要求，除了增加服务器提高tps之外，作为团队的技术总监，架构师，技术扛把子，本着我不入地狱谁入地狱的原则，决心从代码上优化，让客户享受到飞一般的感觉。虽然大多数编程工作在写下第一行代码时已经完成，但本着谦虚使人进步，骄傲使人落后的原则还是一步一个脚印的把问题慢慢展开，慢慢分析。以下内容是抽丝剥茧的心路历程，请君欣赏。二、TP
【经验分享】SpringBoot集成Websocket开发之使用由 Jakarta EE 规范提供的 API开发 Xcong_Zhu 学习笔记经验分享 spring boot websocket
在SpringBoot中整合、使用WebSocketWebSocket是一种基于TCP协议的全双工通信协议，它允许客户端和服务器之间建立持久的、双向的通信连接。相比传统的HTTP请求-响应模式，WebSocket提供了实时、低延迟的数据传输能力。通过WebSocket，客户端和服务器可以在任意时间点互相发送消息，实现实时更新和即时通信的功能。WebSocket协议经过了多个浏览器和服务器的支持，成
【Devops】DevOps and CI/CD Pipelines 一袋米扛几楼98 Devops devops ci/cd 运维
1.什么是DevOps？DevOps是开发（Development）和运维（Operations）的结合，旨在缩短软件开发生命周期，同时交付高质量的软件。翻译：DevOps是一种结合开发和运维实践的方法，目标是缩短软件开发生命周期，同时确保软件的高质量交付。2.DevOps的关键原则协作：开发和运维团队之间的紧密合作。持续集成与持续交付（CI/CD）：自动化代码集成和交付流程。自动化：自动化构建、
java语言开源协议_Language Server Protocol weixin_39709674 java语言开源协议
软件简介LSP(LanguageServerProtocol)开源的语言服务器协定。由红帽、微软和Codenvy联合推出，可以让不同的程序编辑器与集成开发环境(IDE)方便嵌入各种程序语言，允许开发人员在最喜爱的工具中使用各种语言来撰写程序。唯一基于JSON的语言服务器数据交换协定，目前由GitHub代管，并采用CC及MIT授权。该协定主要用来促进编辑器及语言服务器之间的互动，允许开发人员在各种编
Python使用pycryptodome库来进行AES加密解密飞起来fly呀 Python python
在现代通信和数据存储中，加密技术是保障数据安全的核心手段。AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于各种信息安全领域。Python提供了丰富的加密库，其中PyCryptodome是一个功能强大且常用的库，它支持多种加密算法和模式。以下指南将详细介绍如何在Python中使用PyCryptodome库进行AES加密和解密。一、安装PyCryptodom
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D