Python爬虫之教你利用Scrapy爬取图片

Scrapy下载图片项目介绍

Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以通过定制化的修改来满足不同的爬虫需求。

使用Scrapy下载图片

项目创建

首先在终端创建项目

# win4000为项目名
$ scrapy startproject  win4000

该命令将创建下述项目目录。

项目预览

查看项目目录

win4000
win4000
spiders
__init__.py
__init__.py
items.py
middlewares.py
pipelines.py
settings.py
scrapy.cfg

创建爬虫文件

进入spiders文件夹，根据模板文件创建爬虫文件

$ cd win4000/win4000/spiders
# pictures 为 爬虫名
$ scrapy genspider pictures "win4000.com"

项目组件介绍

1.引擎(Scrapy)：核心组件，处理系统的数据流处理，触发事务。

2.调度器(Scheduler)：用来接受引擎发出的请求, 压入队列中, 并在引擎再次请求的时候返回。由URL组成的优先队列, 由它来决定下一个要抓取的网址是什么，同时去除重复的网址。

3.下载器(Downloader)：用于下载网页内容, 并将网页内容返回给Spiders。

4.爬虫(Spiders)：用于从特定的网页中提取自己需要的信息, 并用于构建实体(Item)，也可以从中提取出链接,让Scrapy继续抓取下一个页面

5.管道(Pipeline)：负责处理Spiders从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被Spiders解析后，将被发送到项目管道。

6.下载器中间件(Downloader Middlewares)：位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

7.爬虫中间件(Spider Middlewares)：介于Scrapy引擎和爬虫之间的框架，主要工作是处理Spiders的响应输入和请求输出。

8.调度中间件(Scheduler Middewares)：介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy爬虫流程介绍

Scrapy基本爬取流程可以描述为UR2IM(URL-Request-Response-Item-More URL)：

1.引擎从调度器中取出一个链接(URL)用于接下来的抓取；

2.引擎把URL封装成一个请求(Request)传给下载器；

3.下载器把资源下载下来，并封装成应答包(Response)；

4.爬虫解析Response；

5.解析出实体（Item）,则交给实体管道进行进一步的处理；

6.解析出的是链接（URL）,则把URL交给调度器等待抓取。

页面结构分析

首先查看目标页面，可以看到包含多个主题，选取感兴趣主题，本项目以“风景”为例(作为练习，也可以通过简单修改，来爬取所有模块内图片)。

在“风景”分类页面，可以看到每页包含多个专题，利用开发者工具，可以查看每个专题的URL，拷贝相应XPath，利用Xpath的规律性，构建循环，用于爬取每个专题内容。

# 查看不同专题的XPath
# /html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li[1]/a
# /html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li[2]/a

利用上述结果，可以看到li[index]中index为专题序列。因此可以构建Xpath列表如下：

item_selector = response.xpath('/html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li/a/@href')

利用开发者工具，可以查看下一页的URL，拷贝相应XPath用于爬取下一页内容。

# 查看“下一页”的XPath
# /html/body/div[3]/div/div[3]/div[1]/div[2]/div/a[5]

因此可以构建如下XPath：

next_selector = response.xpath('//a[@class="next"]')

点击进入专题，可以看到具体图片，通过查看图片XPath，用于获取图片地址。

# 构建图片XPath
response.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div[1]/div/a/img/@src').extract_first()

可以通过标题和图片序列构建图片名。

# 利用序号XPath构建图片在列表中的序号
index = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/span/text()').extract_first()
# 利用标题XPath构建图片标题
title = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/h1/text()').extract_first()
# 利用图片标题title和序号index构建图片名
name = title + '_' + index + '.jpg'

同时可以看到，在专题页面下，包含了多张图片，可以通过点击“下一张”按钮来获取下一页面URL，此处为了简化爬取过程，可以通过观察URL规律来构建每一图片详情页的URL，来下载图片。

# 第一张图片详情页地址
# http://www.win4000.com/wallpaper_detail_45401.html
# 第二张图片详情页地址
# http://www.win4000.com/wallpaper_detail_45401_2.html

因此可以通过首页地址和图片序号来构建每一张图片详情页地址。

# 第一张图片详情页地址
first_url = response.url
# 图片总数
num = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/em/text()').extract_first()
num = int(num)
for i in range(2,num+1):
    next_url = '.'.join(first_url.split('.')[:-1]) + '_' + str(i) + '.html'

定义Item字段（Items.py）

本项目用于下载图片，因此可以仅构建图片名和图片地址字段。

# win4000/win4000/items.py
import scrapy

class Win4000Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url = scrapy.Field()
    name = scrapy.Field()

编写爬虫文件(pictures.py)

代码详解见代码注释。

# win4000/win4000/spiders/pictures.py
import scrapy
from win4000.items import Win4000Item
from urllib import parse
import time

class PicturesSpider(scrapy.Spider):
    name = 'pictures'
    allowed_domains = ['win4000.com']
    start_urls = ['http://www.win4000.com/zt/fengjing.html']
    
    start_urls = ['http://www.win4000.com/zt/fengjing.html']
    # cookie用于模仿浏览器行为
    cookie={
                "t":"29b7c2a8d2bbf060dc7b9ec00e75a0c5",
                "r":"7957",
                "UM_distinctid":"178c933b40e9-08430036bca215-7e22675c-1fa400-178c933b40fa00",
                "CNZZDATA1279564249":"1468742421-1618282415-%7C1618282415",
                "XSRF-TOKEN":"eyJpdiI6Ik8rbStsK1Fwem5zR2YzS29ESlI2dmc9PSIsInZhbHVlIjoiaDl5bXp5b1VvWmdSYklWWkEwMWJBK0FaZG9OaDA1VGQ2akZ0RDNISWNDM0hnOW11Q0JTVDZFNlY4cVwvSTBjQlltUG9tMnFUcWd5MzluUVZ0NDBLZlJuRWFuaVF0U3k0XC9CU1dIUzJybkorUEJ3Y2hRZTNcL0JqdjZnWjE5SXFiNm8iLCJtYWMiOiI2OTBjOTkzMTczYWQwNzRiZWY5MWMyY2JkNTQxYjlmZDE2OWUyYmNjNDNhNGYwNDAyYzRmYTk5M2JhNjg5ZmMwIn0%3D",
                "win4000_session":"eyJpdiI6Inc2dFprdkdMTHZMSldlMXZ2a1cwWGc9PSIsInZhbHVlIjoiQkZHVlNYWWlET0NyWWlEb2tNS0hDSXAwZGVZV05vTmY0N0ZiaFdTa1VRZUVqWkRmNWJuNGJjNkFNa3pwMWtBcFRleCt4SUFhdDdoYnlPMGRTS0dOR0tkdmVtVDhzUWdTTTc3YXpDb0ZPMjVBVGJzM2NoZzlGa045Qnl0MzRTVUciLCJtYWMiOiI2M2VmMTEyMDkxNTIwNmJjZjViYTg4MjIwZGIxNTlmZWUyMTJlYWZhNjk5ZmM0NzgyMTA3MWE4MjljOWY3NTBiIn0%3D"
            }
    
    def start_requests(self):
        """
        重构start_requests函数，用于发送带有cookie的请求，模仿浏览器行为
        """
        yield scrapy.Request('http://www.win4000.com/zt/fengjing.html', callback=self.parse, cookies=self.cookie)

    def parse(self,response):
    	# 获取下一页的选择器
        next_selector = response.xpath('//a[@class="next"]')
        for url in next_selector.xpath('@href').extract():
            url = parse.urljoin(response.url,url)
            # 暂停执行，防止网页的反爬虫程序
            time.sleep(3)
            # 用于爬取下一页
            yield scrapy.Request(url, cookies=self.cookie)
        # 用于获取每一专题的选择器
        item_selector = response.xpath('/html/body/div[3]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul/li/a/@href')
        for item_url in item_selector.extract():
            item_url = parse.urljoin(response.url,item_url)
            #print(item_url)
            time.sleep(3)
            # 请求专题页面，并利用回调函数callback解析专题页面
            yield scrapy.Request(item_url,callback=self.parse_item, cookies=self.cookie)
            
    def parse_item(self,response):
        """
        用于解析专题页面
        """
        # 由于Scrapy默认并不会爬取重复页面，
        # 因此需要首先构建首张图片实体，然后爬取剩余图片，
        # 也可以通过使用参数来取消过滤重复页面的请求
        # 首张图片实体
        item = Win4000Item()
        item['url'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div[1]/div/a/img/@src').extract_first()
        index = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/span/text()').extract_first()
        item['name'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/h1/text()').extract_first() + '_' + index + '.jpg'
        yield item
        first_url = response.url
        num = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/em/text()').extract_first()
        num = int(num)
        for i in range(2,num+1):
            next_url = '.'.join(first_url.split('.')[:-1]) + '_' + str(i) + '.html'
            # 请求其余图片，并用回调函数self.parse_detail解析页面
            yield scrapy.Request(next_url,callback=self.parse_detail,cookies=self.cookie)

    def parse_detail(self,response):
        """
        解析图片详情页面，构建实体
        """
        item = Win4000Item()
        item['url'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div[1]/div/a/img/@src').extract_first()
        index = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/span/text()').extract_first()
        item['name'] = response.xpath('/html/body/div[3]/div/div[2]/div/div[1]/div[1]/h1/text()').extract_first() + '_' + index + '.jpg'
        yield item

修改配置文件settings.py

修改win4000/win4000/settings.py中的以下项。

BOT_NAME = 'win4000'

SPIDER_MODULES = ['win4000.spiders']
NEWSPIDER_MODULE = 'win4000.spiders'
# 图片保存文件夹
IMAGES_STORE = './result'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 用于模仿浏览器行为
USER_AGENT = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:87.0) Gecko/20100101 Firefox/87.0'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
# 下载时延
DOWNLOAD_DELAY = 3

# Disable cookies (enabled by default)
# 是否启用Cookie
COOKIES_ENABLED = True

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'win4000.pipelines.Win4000Pipeline': 300,
}

修改管道文件pipelines.py用于下载图片

修改win4000/win4000/pipelines.py文件。

from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import scrapy
import os
from scrapy.exceptions import DropItem

class Win4000Pipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        # 下载图片，如果传过来的是集合需要循环下载
        # meta里面的数据是从spider获取，然后通过meta传递给下面方法：file_path
        yield scrapy.Request(url=item['url'],meta={'name':item['name']})

    def item_completed(self, results, item, info):
        # 是一个元组，第一个元素是布尔值表示是否成功
        if not results[0][0]:
            with open('img_error_name.txt','a') as f_name:
                error_name = str(item['name'])
                f_name.write(error_name)
                f_name.write('\n')

            with open('img_error_url.txt','a') as f_url:
                error_url = str(item['url'])
                f_url.write(error_url)
                f_url.write('\n')
                raise DropItem('下载失败')
        return item

     # 重命名，若不重写这函数，图片名为哈希，就是一串乱七八糟的名字
    def file_path(self, request, response=None, info=None):
        # 接收上面meta传递过来的图片名称
        filename = request.meta['name']
        return filename

编写爬虫启动文件begin.py

在win4000目录下创建begin.py

# win4000/begin.py
from scrapy import cmdline

cmdline.execute('scrapy crawl pictures'.split())

最终目录树

win4000
begin.py
win4000
spiders
__init__.py
pictures.py
__init__.py
items.py
middlewares.py
pipelines.py
settings.py
scrapy.cfg

项目运行

进入begin.py所在目录，运行程序，启动scrapy进行爬虫。

$ python3 begin.py

爬取结果

后记

本项目仅用于测试用途。
Enjoy coding.

到此这篇关于Python爬虫之教你利用Scrapy爬取图片的文章就介绍到这了,更多相关python中用Scrapy爬取图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

利用Shell脚本监控SSL域名证书有效期正义的卓别林 ssl elasticsearch 网络协议网络
一、我的需求1、自定义端口监控：由于业务需求的多样性，并非所有业务域名都使用标准的443端口。因此，我需要的监控脚本必须支持自定义端口的设置，以便能够灵活适应各种业务场景。2、证书部署位置追踪：由于证书部署位置分散，当证书即将过期时，我需要能够迅速定位到该证书的具体部署位置。这有助于我及时采取措施，避免证书过期导致的业务中断。3、定时运行：脚本需要能够定时运行，以便定期检查证书的有效期，并在必要时
基恩士上位机链路通讯_库卡机器人之通讯总结筱顽咚基恩士上位机链路通讯
时常有人问我库卡机器人支持哪些通讯、需要什么组件等等，基于个人多年积累并借助公众号的平台来分享下个人的总结(以下内容仅针对KRC4及以上，KRC2在此不作说明)：基于以上图片内容，将库卡通讯分成四类：1.基于以太网的现场总线：ProfiNet从站不需要KUKAProfiNetxxxProfiNet主站不需要KUKAProfiNetxxxEthernet/IP主站不需要KUKAEthernet/IP
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
Android存储（读取）之SD卡 2501_90225911 android
packagecom.github.c.ceshi;importandroid.content.Context;importandroid.os.Environment;importandroid.widget.Toast;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileInputStream;importjava
跟我一起学Python数据处理（一百零三）之命令行参数解析与云服务应用 lilye66 python linux 开发语言
跟我一起学Python数据处理（一百零三）之命令行参数解析与云服务应用大家好！我写这系列博客的初衷是想和大家一起学习进步。在学习Python数据处理的过程中，我发现其中有很多有趣又实用的知识，所以迫不及待地想和大家分享。接下来，咱们就一起深入学习相关的知识点。一、Python命令行参数解析在Python编程里，有时候我们希望通过命令行给脚本传递额外信息，让脚本根据这些信息执行不同任务。比如有个数据
前沿计组知识入门（二） tianyunlinger 计组人工智能笔记
第2页：并行计算与编程硬件：多处理器多内存互连网络系统软件：并行操作系统用于表达和协调并发的编程构造应用软件：并行算法目标：利用硬件、系统和应用软件实现加速（速度提升）：Tp=TspT_p=\frac{T_s}{p}Tp=pTs解决需要大量内存的问题第3页：并行算法/公式化并行公式化：并行化串行算法。并行算法：可能与串行算法完全不同。重点：主要讨论如何开发并行公式化。也会涉及一些非串行算法的并行例
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1LiteLLM1.1生成对话补全1.2响应格式(OpenAIFormat)1.3异步调用1.4流式生成对话补全1.5支持的ollama模型2langchain2.1LangChain简介2.2LangChain架构2.3构建简单LLM应用程序(OllamaLLM)2.3.1生成对话补全2.3.2流式生成对话补全2.4聊天模型(ChatOllama)2.4.1Invoke调用2.4.2st
SHELL32!ILCombine函数分析之连接两个idl sitelist nt4源代码分析 ILCombine
SHELL32!ILCombine函数分析之连接两个idl第一部分：STDAPI_(LPITEMIDLIST)ILCombine(LPCITEMIDLISTpidl1,LPCITEMIDLISTpidl2){//LetmepassinNULLpointersif(!pidl1){if(!pidl2){returnNULL;}returnILClone(pidl2);}elseif(!pidl2){
Vivado 约束文件XDC使用经验总结宁静致远dream FPGA不积跬步
1.1Vivado约束文件XDC使用经验总结1.1.1本节目录1）本节目录；2）本节引言；3）FPGA简介；4）Vivado约束文件XDC使用经验总结；5）结束语。1.1.2本节引言“不积跬步，无以至千里；不积小流，无以成江海。就是说：不积累一步半步的行程，就没有办法达到千里之远；不积累细小的流水，就没有办法汇成江河大海。1.1.3FPGA简介FPGA（FieldProgrammableGateA
利用go-migrate实现MySQL和ClickHouse的数据库迁移楚钧艾克 #Go:永远的神后端数据库数据库 mysql clickhouse redis 后端 migrate
1.背景在使用gorm时,尽管已经有了自动建表和钩子函数.但是在面临希望了解到数据库的变更,和插入一些系统字段时,以及最关键的数据库迁移的工作.gorm显得稍微有点不便.在了解到migrate这项技术后,就使用go-migrate开发了一个可以迁移MySQL和ClickHouse数据库的工具.2.实现2.1简单介绍go-migrate在启动后,会在数据库中自动生成一张"schema_migrati
这是我的第一篇博客流川飞 c++
结束摆烂，看看自己的极限在哪里，两年后回来看自己个人介绍：我是一个大一下学期的男生，就读人工智能专业，性格活泼爱笑[face]emoji:008.png[/face]编程目标：能拿到一份满意的offer，能成为很厉害的程序员如何学习：利用晚上的水课和没课的时间学习编程，到一定水平后参加蓝桥杯类的比赛!我打算每周在编程上花费的时间：35h+我最想进入的一家IT公司：马斯克的公司!
计算机基础之操作系统——进程与线程管理（三）查理养殖场计算机八股服务器 linux
1、多进程与多线程怎么选择？多进程资源隔离性好、安全性高、支持并行，然而资源需求高、进程间通信复杂、上下文切换开销大；多线程轻量级、高度共享资源和数据、线程间通信简单、资源占用低、上下文切换开销小，然而隔离性差，容错性差。应用场景多进程：如果应用需要独立的地址空间和资源，或者需要在不同的安全上下文中运行，那么多进程可能是更好的选择。多线程：如果应用需要高度共享数据和资源，或者需要轻量级的任务并发，
使用PySpider爬取新闻数据：从入门到精通 Python爬虫项目 2025年爬虫实战项目 tcp/ip python 爬虫开发语言音视频
1.引言在当今信息爆炸的时代，新闻数据成为了我们获取信息的重要来源。无论是进行市场分析、舆情监控，还是进行学术研究，新闻数据都扮演着至关重要的角色。然而，手动从各个新闻网站收集数据不仅耗时耗力，而且容易出错。因此，自动化爬虫技术成为了解决这一问题的关键。本文将详细介绍如何使用PySpider这一强大的爬虫框架来爬取新闻数据。我们将从环境搭建开始，逐步深入到爬虫的实现、数据处理与存储，最后探讨一些高
每日十个计算机专有名词 (7) 太炀每日十个计算机专有名词杂项
Metasploit词源：Meta（超越，超出）+exploit（漏洞利用）Metasploit是一个安全测试框架，用来帮助安全专家（也叫渗透测试人员）发现和利用计算机系统中的漏洞。你可以把它想象成一个工具箱，里面装满了各种可以测试网络和应用程序安全的工具。它有很多预设的“攻击模块”，这些模块可以模拟黑客的攻击方式，帮助你检查自己的系统是否容易受到攻击。通过这些攻击模拟，你可以发现安全漏洞，并及时
前端面试100问！！一只松 javascript es6
面试造火箭，工作拧螺丝！在技术圈毕竟只有百分之一的人能进入BAT，百分之九九的小伙伴只能在普通公司做这普通的事情，厌烦哪些标题党，我们抛开那些高大上的台词，回归到面试的本质。本课程帮助小伙伴们快速梳理知识，不会涉及到具体的很细节的知识点，关注面试本身。公司一般会从以下5个方面考察一个人的能力，本课程的100问是总结了最近2-3年常问的面试题，适合初中级前端工程师。1、HTML(5)和CSS3方面1
path 路径模块咖啡の猫 node.js 后端
在Node.js开发中，处理文件路径是一项常见的任务。为了简化路径操作并避免跨平台兼容性问题，Node.js提供了一个名为path的核心模块。本文将详细介绍path模块的基础知识、主要功能以及如何利用它来实现路径操作。什么是path模块？path模块提供了实用工具来处理和转换文件路径，使得开发者能够编写出跨平台兼容的代码。无论是构建动态文件路径还是解析现有路径，path模块都能大大简化这些操作。跨
【云原生进阶之数据库技术】第二章-Oracle-使用-3.4.2-Oracle Active Data Guard调优江中散人云原生进阶-数据库专栏云原生进阶-PaaS专栏数据库云原生 oracle ADG 数据库调优
1OracleActiveDataGuard调优1.1调优策略OracleActiveDataGuard（ADG）调优涉及多个层面，旨在确保备用数据库在提供实时查询服务的同时，维持高效的数据同步与良好的系统性能。为了确保ADG环境的高性能和可靠性，需要进行适当的调优。以下是一些关键的调优领域和建议：1.网络连接与日志传输优化：带宽与延迟：确保主备数据库之间的网络连接具有足够的带宽和低延迟，以减少日
学习网络技术有必要学习python吗？就是不吃苦瓜 python入门学习程序人生职场和发展数据分析 python windows 智能路由器
学习网络技术当然可以学习Python。他俩还能结合起来呢，以实现网络编程的目的。具体来说，可以从以下几个方面结合：1.网络爬虫Python有强大的网络爬虫和数据采集库，如BeautifulSoup、Scrapy、Requests等，可以用来爬取互联网上的各种数据，如新闻、图片、视频、商品信息等。2.Web开发Python有多种Web框架，如Django、Flask等，可以用来进行Web开发，实现网
基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型汀、人工智能 LLM工业级落地实践 langchain milvus embedding 人工智能自然语言处理语言模型大模型
基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型0.Milvus与Faiss对比Milvus相对于Faiss的优势主要体现在以下几个方面：在线数据更新与实时搜索：Milvus支持在线的数据更新和实时的向量搜索，这意味着在数据频繁变动的场景下，用户无需重新构建整个索引，从而大大减少了维护成本。相比之
Redis系列之进阶篇（下）可乐不渴了 Redis redis 进阶
Redis系列之进阶篇（下）前言上一期我们学习了Redis的一些高级应用，今天我们来继续学习Redis的高级技术。这篇文章主要内容是：布隆过滤器限流GeoHashScan本文所学知识点过多，请做好实践。1.布隆过滤器布隆过滤器是一种高级数据结构，专门用于解决去重和检测某个对象是否存在的问题。布隆过滤器就像一个不怎么精确的set结构，当你使用它的contains方法判断某个对象是否存在时，它可能会误
强化学习探索与利用：多臂老虎机的UCB与Softmax策略海棠AI实验室智元启示录深度学习人工智能机器学习 USB Softmax
目录引言多臂老虎机问题概述ε-贪心算法（ε-Greedy）上置信界（UCB，UpperConfidenceBound）软max策略（Softmax）算法对比与评估实验与结果总结与展望参考文献引言多臂老虎机问题（Multi-ArmedBandit,MAB）是强化学习领域中的一个经典问题，广泛应用于广告推荐、网页优化、金融交易、医疗决策等场景。其核心挑战在于如何平衡探索（exploration）和利用
目录遍历文件包含测试蚂蚁质量安全测试安全 web安全网络
众多Web应用程序在日常运作中，都离不开对文件的使用与管理。然而，一旦应用程序所采用的输入验证方法设计欠佳或部署不当，攻击者便有机可乘，利用这类漏洞对系统发起攻击，进而读取或写入那些本不应被随意访问的文件。在某些极端情形下，攻击者甚至能够借助此漏洞执行任意代码或系统命令。传统意义上，Web服务器与Web应用程序通常会部署身份验证机制，以此来管控对文件及资源的访问权限。Web服务器会尽力将用户可访问
清华北大相继推出DeepSeek教学手册，手把手教你学习DeepSeek，从入门到精通。 AI小魔女学习 AIGC pdf
DeepSeek资料链接：https://pan.quark.cn/s/862e3c3fcdbf前段时间，清华大学推出重磅资料《DeepSeek：从入门到精通》发布首日，就冲上热搜，热度居高不下。作为一份面向大众公开免费的ai学习资料，其质量缺丝毫不输网上绝大多数付费教程。一时间，成为了广大ai爱好者内部互相推崇的“ai宝藏秘籍”。没过多久，北大也出品了自己的DeepSeek学习手册，AI时代正在
STM32之按键检测最爱是生活 stm32 嵌入式硬件单片机
KEY是按键，接PE2口，LED灯，接PC0口，使用STMF103ZET6，则用按键控制小灯亮灭的标准库程序如下：#include"led.h"//Deviceheader#include"key.h"#include"SysTick.h"intmain(){SysTick_Init(72);Led_Init();Key_Init();while(1){if(GPIO_ReadInputDataB
R语言绘制自定义形状词云图 dltan 可视化 R语言 r语言开发语言
R语言绘制自定义形状词云图方法程序结果如下：#常规直接使用install.packages("wordcloud2")是无法进行自定义形状的词云图绘制，必须降低包的版本，使用之前的wordcloud2老版本原始包library(wordcloud2)batman=system.file("examples/3.png",package="wordcloud2")###读取形状图片，注意图片默认放在
云服务器部署DeepSeek Janus-Pro生成图片实战 deepseek
序本文主要研究一下如何在腾讯云HAI-GPU服务器上部署DeepSeekJanus-Pro来进行文本生成图片步骤选择带GPU的服务器到deepseek2025试用一下带GPU的服务器下载Janusgitclonehttps://github.com/deepseek-ai/Janus.git安装依赖cdJanuspipinstall-e.安装gradiopipinstallgradio安装torc
实体识别处理--在给定的文本中识别特定类型的实体风清扬【coder】自然语言分析处理算法深度学习人工智能 nlp 自然语言处理
整体功能概述这个算法实现了一个实体识别系统，主要用于在给定的文本中识别特定类型的实体。它结合了字典匹配和向量相似度匹配两种方法，利用预训练的BERT模型来获取实体的嵌入表示，通过构建Trie树来提高字典匹配的效率。代码结构和模块分析1.导入必要的库importtorchfromtorchimportnnfromtransformersimportBertTokenizer,BertModelfro
如何将图片档案信息读取出来？并把档案信息相关性进行关联上官-王野 python
这里写自定义目录标题欢迎使用Markdown编辑器生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器确定目标和需求明确需要提取的信息类型，如元数据、标签、描述等。了解关联的标准，如主题、时间、
操作es聚合操作并显示其他字段_Elasticsearch 之聚合分析入门 weixin_39944595 操作es聚合操作并显示其他字段
本文主要介绍Elasticsearch的聚合功能，介绍什么是Bucket和Metric聚合，以及如何实现嵌套的聚合。首先来看下聚合(Aggregation)：什么是Aggregation？首先举一个生活中的例子，这个是京东的搜索界面，在搜索框中输入“华为”进行搜索，就会得到如上界面，搜索框就是我们常用的搜索功能，而下面这些，比如分类、热点、操作系统、CPU类型等是根据ES的聚合分析获得的相关结果。
python运行程序为什么会卡住_为什么我的 Python 程序卡住啦！ weixin_39808953
本文简答介绍在linux环境下如何利用gdb来分析卡住的程序，本文使用的Python为Cpython2.7，操作系统为Debian。阻塞在IO程序被卡住，很可能是程序被阻塞了，即在等待(wait)等个系统调用的结束，比如磁盘IO与网络IO、多线程，默认的情况下很多系统调用都是阻塞的。多线程的问题复杂一下，后面专门介绍。下面举一个UDPSocket的例子(run_forever_block.py)：
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他