彭世瑜

Python：Spider爬虫工程化入门到进阶（1）Scrapy

本文通过简单的小例子，亲自动手创建一个Spider爬虫工程化的Scrapy项目

本文默认读着已经掌握基本的Python编程知识

1、环境准备

确保已经安装Python3

$ python3 --version
Python 3.10.6

1.1、创建虚拟环境

创建一个虚拟环境，可以很好的和其他项目的依赖进行隔离，避免相互冲突

# 创建名为：venv 的python3虚拟环境
$ python3 -m venv venv

# 目录下会创建一个名为：venv 的目录
$ ls
venv

# 激活虚拟环境，激活后命令行前面会出现虚拟环境标记(venv)
$ source venv/bin/activate
(venv)$

1.2、安装Scrapy

Scrapy也是一个Python库，通过pip 可以很容易的安装Scrapy

$ pip install Scrapy

# 查看scrapy版本
$ scrapy version
Scrapy 2.9.0

1.3、创建爬虫项目

在当前目录下，创建名为：web_spiders 的爬虫项目

注意命令行中最后一个.不能少

# 命令格式：scrapy startproject  [project_dir]

# 注意：项目名称只能是数字、字母、下划线
$ scrapy startproject web_spiders .

项目结构

$ tree -I venv
.
├── scrapy.cfg
└── web_spiders
    ├── __init__.py
    ├── items.py
    ├── middlewares.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

我们暂时不用管这写目录都是做什么的，后面根据需求会逐步使用到

2、爬虫示例-爬取壁纸

程序目的：爬取壁纸数据

目标网站：https://mouday.github.io/wallpaper/

2.1、分析目标网站

通过分析，不难找到数据接口

https://mouday.github.io/wallpaper-database/2023/08/03.json

返回的数据结构如下：

{
    "date":"2023-08-03",
    "headline":"绿松石般的泉水",
    "title":"泽伦西自然保护区，斯洛文尼亚",
    "description":"泽伦西温泉位于意大利、奥地利和斯洛文尼亚三国的交界处，多个泉眼汇集形成了这个清澈的海蓝色湖泊。在这里，游客们可以尽情欣赏大自然色彩瑰丽的调色盘。",
    "image_url":"https://cn.bing.com/th?id=OHR.ZelenciSprings_ZH-CN8022746409_1920x1080.webp",
    "main_text":"泽伦西自然保护区毗邻意大利和奥地利边境，距离斯洛文尼亚的克拉尼斯卡戈拉不到5公里。"
}

2.2、生成爬虫文件

Scrapy同样提供了命令行工具，可以快速的生成爬虫文件

# 生成爬虫文件命令：scrapy genspider  
scrapy genspider wallpaper mouday.github.io

此时，目录下生成了一个爬虫文件wallpaper.py

$ tree -I venv
.
├── scrapy.cfg
└── web_spiders
    ├── __init__.py
    ├── items.py
    ├── middlewares.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        ├── __init__.py
        └── wallpaper.py             # 可以看到我们新建的爬虫文件

生成 wallpaper.py 的内容

import scrapy


class WallpaperSpider(scrapy.Spider):
    name = "wallpaper"
    allowed_domains = ["mouday.github.io"]
    start_urls = ["https://mouday.github.io"]

    def parse(self, response):
        pass

2.3、编写爬虫代码

将爬虫文件wallpaper.py 修改如下，编写我们的业务代码

import scrapy
from scrapy.http import Response


class WallpaperSpider(scrapy.Spider):
    name = "wallpaper"

    allowed_domains = ["mouday.github.io"]

    # 替换爬虫开始爬取的地址为我们需要的地址
    # start_urls = ["https://mouday.github.io"]
    start_urls = ["https://mouday.github.io/wallpaper-database/2023/08/03.json"]

    # 将类型标注加上，便于我们在IDE中快速编写代码
    # def parse(self, response):
    def parse(self, response: Response, **kwargs):
        # 我们什么也不做，仅打印爬取的文本
        print(response.text)

2.4、运行爬虫代码

# 运行爬虫命令：scrapy crawl 
$ scrapy crawl wallpaper

2023-08-03 22:57:34 [scrapy.utils.log] INFO: Scrapy 2.9.0 started (bot: web_spiders)
2023-08-03 22:57:34 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.9.4, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.10.6 (main, Aug 13 2022, 09:17:23) [Clang 10.0.1 (clang-1001.0.46.4)], pyOpenSSL 23.2.0 (OpenSSL 3.1.2 1 Aug 2023), cryptography 41.0.3, Platform macOS-10.14.4-x86_64-i386-64bit
2023-08-03 22:57:34 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'web_spiders',
 'FEED_EXPORT_ENCODING': 'utf-8',
 'NEWSPIDER_MODULE': 'web_spiders.spiders',
 'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['web_spiders.spiders'],
 'TWISTED_REACTOR': 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'}
2023-08-03 22:57:34 [asyncio] DEBUG: Using selector: KqueueSelector
2023-08-03 22:57:34 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.asyncioreactor.AsyncioSelectorReactor
2023-08-03 22:57:34 [scrapy.utils.log] DEBUG: Using asyncio event loop: asyncio.unix_events._UnixSelectorEventLoop
2023-08-03 22:57:34 [scrapy.extensions.telnet] INFO: Telnet Password: 5083c2db86c14a1f
2023-08-03 22:57:34 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2023-08-03 22:57:34 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2023-08-03 22:57:34 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2023-08-03 22:57:34 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2023-08-03 22:57:34 [scrapy.core.engine] INFO: Spider opened
2023-08-03 22:57:34 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2023-08-03 22:57:34 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2023-08-03 22:57:36 [scrapy.core.engine] DEBUG: Crawled (404) <GET https://mouday.github.io/robots.txt> (referer: None)
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 5 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 10 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 11 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 14 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 17 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 19 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 20 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 22 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 23 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 25 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 26 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 28 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 29 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 30 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 31 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 32 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 33 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 34 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 35 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 39 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 44 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 45 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 46 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 66 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 71 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 76 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 77 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 81 without any user agent to enforce it on.
2023-08-03 22:57:36 [protego] DEBUG: Rule at line 85 without any user agent to enforce it on.
2023-08-03 22:57:36 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://mouday.github.io/wallpaper-database/2023/08/03.json> (referer: None)
{
  "date": "2023-08-03",
  "headline": "绿松石般的泉水",
  "title": "泽伦西自然保护区，斯洛文尼亚",
  "description": "泽伦西温泉位于意大利、奥地利和斯洛文尼亚三国的交界处，多个泉眼汇集形成了这个清澈的海蓝色湖泊。在这里，游客们可以尽情欣赏大自然色彩瑰丽的调色盘。",
  "image_url": "https://cn.bing.com/th?id=OHR.ZelenciSprings_ZH-CN8022746409_1920x1080.webp",
  "main_text": "泽伦西自然保护区毗邻意大利和奥地利边境，距离斯洛文尼亚的克拉尼斯卡戈拉不到5公里。"
}
2023-08-03 22:57:36 [scrapy.core.engine] INFO: Closing spider (finished)
2023-08-03 22:57:36 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 476,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 7201,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 1,
 'downloader/response_status_count/404': 1,
 'elapsed_time_seconds': 2.092338,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2023, 8, 3, 14, 57, 36, 733301),
 'httpcompression/response_bytes': 9972,
 'httpcompression/response_count': 2,
 'log_count/DEBUG': 34,
 'log_count/INFO': 10,
 'memusage/max': 61906944,
 'memusage/startup': 61906944,
 'response_received_count': 2,
 'robotstxt/request_count': 1,
 'robotstxt/response_count': 1,
 'robotstxt/response_status_count/404': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2023, 8, 3, 14, 57, 34, 640963)}
2023-08-03 22:57:36 [scrapy.core.engine] INFO: Spider closed (finished)

运行爬虫后，输出了很多日志，我们可以先不管，可以看到我们需要的数据已经爬取到了

{
  "date": "2023-08-03",
  "headline": "绿松石般的泉水",
  "title": "泽伦西自然保护区，斯洛文尼亚",
  "description": "泽伦西温泉位于意大利、奥地利和斯洛文尼亚三国的交界处，多个泉眼汇集形成了这个清澈的海蓝色湖泊。在这里，游客们可以尽情欣赏大自然色彩瑰丽的调色盘。",
  "image_url": "https://cn.bing.com/th?id=OHR.ZelenciSprings_ZH-CN8022746409_1920x1080.webp",
  "main_text": "泽伦西自然保护区毗邻意大利和奥地利边境，距离斯洛文尼亚的克拉尼斯卡戈拉不到5公里。"
}

3、总结

我们通过以上学习，仅编写了2行代码，就完成了爬取数据的工作。

同时，也了解到了好几个命令，通过Scrapy 提供的命令行工具，可以进行如下操作：

创建爬虫项目：scrapy startproject web_spiders .
生成爬虫文件：scrapy genspider wallpaper mouday.github.io
运行爬虫代码：scrapy crawl wallpaper

4、参考文章

Scrapy 安装文档：https://docs.scrapy.org/en/latest/intro/install.html
Scrapy命令行文档： https://docs.scrapy.org/en/latest/topics/commands.html

Python真经：筑基开光篇 zzzzjflzdvkk python 开发语言
第一章：灵脉筑基Python真经乃跨三界之法，无论Windows、Linux、MacOSX，抑或云端秘境、移动外域，皆可开辟灵脉，筑基修炼。修士欲入此道，须先探查本命灵台是否已结Python丹种。可于终端秘境中掐诀念咒，输入「python」真言，若有金光浮现，则显其丹种品阶；若无回应，便是灵脉未开，需行筑基之法。第二章：天机阁取经灵脉之源修士当登临「天机阁」此乃Python真经本源之地。阁中藏有最
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
Python使用pycryptodome库来进行AES加密解密飞起来fly呀 Python python
在现代通信和数据存储中，加密技术是保障数据安全的核心手段。AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于各种信息安全领域。Python提供了丰富的加密库，其中PyCryptodome是一个功能强大且常用的库，它支持多种加密算法和模式。以下指南将详细介绍如何在Python中使用PyCryptodome库进行AES加密和解密。一、安装PyCryptodom
janeczku / calibre-web忘记密码命令行重置密码慌雨前端 linux 运维
根据博客https://blog.csdn.net/gaoxiangfei/article/details/137070897但一直报错：Passworddoesn’tcomplywithpasswordvalidationrules进入容器：dockerexec-itcontainer_id/bin/bash直到我尝试这样的方式：root@782e4226f457:/#python3/app/c
Python二级考试试题汇总（史上最全） m0_67265464 面试学习路线阿里巴巴前端 intellij-idea 经验分享
Python二级考试试题（一）以下关于程序设计语言的描述，错误的选项是：APython语言是一种脚本编程语言B汇编语言是直接操作计算机硬件的编程语言C程序设计语言经历了机器语言、汇编语言、脚本语言三个阶段D编译和解释的区别是一次性翻译程序还是每次执行时都要翻译程序正确答案：C表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留
ModuleNotFoundError: No module named ‘Crypto‘ 小武小武每天练武 python 开发语言
看到这个错误提示“ModuleNotFoundError:Nomodulenamed‘Crypto’”，说明Python环境中缺少Crypto模块。这通常发生在pycryptodome库没有正确安装的情况下。解决步骤1.安装pycryptodome确保你安装了pycryptodome库，这是包含Crypto模块的库。使用以下命令来安装：pipinstallpycryptodome2.检查Pytho
Python, Java 开发全国苦难人群诉苦平台APP Geeker-2025 python java
开发一个“全国苦难人群诉苦平台APP”是一个非常有社会意义的项目，旨在为需要帮助的人群提供一个表达困难、寻求支持和解决方案的平台。这种APP可以帮助政府、公益组织和社会各界更好地了解和解决社会问题，同时为苦难人群提供心理支持和实际帮助。以下是一个高层次的开发思路，以及如何用**Python**和**Java**实现相关功能的示例。---###**1.功能需求分析**一个“全国苦难人群诉苦平台APP
【蓝桥杯集训·每日一题2025】 AcWing 4905. 面包店 python 查理零世蓝桥杯2025每日一题蓝桥杯算法 python
AcWing4905.面包店Week43月14日题目描述贝茜开了一家面包店。贝茜的面包店中只有一个烤箱，该烤箱制作一块饼干需要花费的时间为tCt_CtC，制作一块松饼需要花费的时间为tMt_MtM。烤箱每次只能制作一个糕点，也就是说制作AAA块饼干和BBB块松饼需要花费的时间为A×tC+B×tMA\timest_C+B\timest_MA×tC+B×tM。有NNN个客人来光顾贝茜的生意，编号1∼N
吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型 Bryan Ding python
用相同的代码方式调用OpenAI、Anthropic、Google等发布的大模型，还能实现便捷的模型切换和对比测试。刚刚，AI著名学者、斯坦福大学教授吴恩达最新开源项目实现了。吴恩达在推文中宣布了这一好消息开源新的Python包：aisuite！这个工具可以让开发者轻松使用来自多个提供商的大型语言模型。在谈到为何构建这个项目时，吴恩达表示构建应用时，发现与多个提供商集成非常麻烦。aisuite正是
项目报错 SyntaxError: Unexpected token ‘??=‘ 和node-sass报python错误；nuxt、vue项目院人冲冲冲前端 javascript 开发语言
前提：node14.21.3项目报错SyntaxError:Unexpectedtoken'??='1.仔细看错误代码位置，发现是在node_modules文件中（找来源）2.node_modules文件报错Unexpectedtoken'??='15:59:58constlist=obj[list]??=[];^^^SyntaxError:Unexpectedtoken'??='atnewScr
python的reload 风语者666 python java linux
先看看from...import...的问题#importparse_tumor_report.parse_tumor_report#这样是错的fromparse_tumor_reportimportparse_tumor_report#这个是正确用法再看reload的问题parse_report是我自定义的一个模块文件。该文件（模块）中包含了一个parse_tumor_report类。这样是没错
Python中三种表示NA的方式风语者666 python
Python中三种表示NA的方式#-*-coding:utf-8-*-importnumpyasnpimportpandasaspd#data_frame=np.load('a.npy',allow_pickle=True)#print(data_frame.columns)df=pd.DataFrame({'one':[1,2,3,pd.NA]})df=pd.DataFrame({'one':[
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
python常用的第三方库下载方法 ZJ_star_1220 pycharm ide python
方法一：在windows系统中使用pip命令下载打开dos窗口输入命令“pipinstallselenium“后按回车键，看到successfully既安装成功。其他常用的命令：【pipinstallselenium==4.4.3】安装指定版本的库/包【pipinstallselenium】安装最新版本的库/包【pipshowselenium】查看库/包的安装路径、版本号【pipuninstall
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
python 开放的通讯系统高保密性张小秦命令模式算法 python
优点1.点对点（P2P）加密通信：•采用点对点通信模式，消息直接在客户端之间传输，无需通过中央服务器。•提高隐私性，避免中央服务器成为单点故障或攻击目标。•降低通信延迟，消息传输更高效。2.强大的加密机制：•使用AES（高级加密标准）对消息进行加密，确保通信内容的安全性。•每个会话生成唯一的加密密钥，确保密钥的安全性。•使用AES的EAX模式，支持加密和消息认证，防止消息被篡改。3.临时数据存储：
Python的pywt库的安装赵孝正 Python标准库使用 #python和pip安装 python 数据库开发语言
目录pywt库的全称是PyWavelets，https://pywavelets.readthedocs.io/en/latest/。安装pywt库：pipinstallPyWavelets而不是VS2017中默认的pipinstallpywt，真是坑啊。>>>importpywt>>>x=[3,7,1,1,-2,5,4,6]>>>cA,cD=pywt.dwt(x,‘db2′)>>>printcA
Python漂浮爱心代码 Want595 趣味编程 python 开发语言
目录系列文章前言小海龟漂浮爱心完整代码尾声系列文章序号直达链接表白系列1Python无法拒绝的表白界面（完整代码）_python玫瑰花雨编程-CSDN博客2Python满屏飘字表白代码（完整代码）_抖音同款满屏飘字表白代码(python版)-CSDN博客3Python无限弹窗满屏表白代码（完整代码）_python弹窗满屏幕-CSDN博客4Python李峋同款跳动的爱心（完整代码）_python绘制
VSCode 2025最新后端开发必备插件汇总（必备插件合集，Python、Java、Go等语言） Code_流苏实用软件与高效工具 vscode python java 后端开发必备插件合集
前言:作为微软推出的轻量级跨平台编辑器，VSCode凭借智能代码补全、远程开发、Git集成等核心功能，已成为后端开发者首选工具。其强大的插件生态更是覆盖了主流后端语言支持、代码质量优化、性能分析等全场景需求。名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、语言支持类插件二、代码质量和格式化工具三、数据库工具四、AP
2025年Python后端开发指南：从基础到云原生实践 ctrl_cv工程师￥云原生 django flask pycharm
在2025年，Python后端开发已全面进入云原生与智能化时代。开发者不仅需要掌握传统后端技术栈，还需融合容器化、AI辅助编程等新兴技术。本文基于行业最新趋势与最佳实践，系统梳理Python后端开发的核心要点与进阶方向，涵盖开发环境、架构设计、性能优化等关键领域。一、开发环境与工具链1.环境配置标准化Python版本：推荐Python3.12+，支持模式匹配（PatternMatching）和更优
shell脚本重启python脚本 mzgong python
#!/bin/bashwhiletrue#循环检测脚本是否停止doprocnum=$(ps-ef|grep"run.py"|grep-vgrep|wc-l)#记录正在运行run.py的数量echo"ps-efgrepreturn:"${procnum}#信息输出if[[${procnum}==0]];then#如果run.py正在运行数量等于0，脚本中断，需要重启filename=$(date+%
使用Python的 multiprocessing 模块实现多进程并行计算（上完整代码）小码小李开发语言 python 数据库
使用Python的multiprocessing模块实现多进程并行计算的较为详细复杂的示例代码，用于计算一个较大范围内数字的平方，并将结果汇总。以下是一个更具体、复杂且详尽的多进程并行计算代码示例，用于分析多个大型文本文件中单词出现的频率：importmultiprocessingimporttimeimportrefromcollectionsimportCounter#函数用于读取单个文件内容
You are using pip version 10.0.1, however version 20.0.2 is available.的解决方案柒柒钏小知识点 python
在安装第三方库时出现以下提示：Youareusingpipversion10.0.1,howeverversion20.0.2isavailable.输入：python-mpipinstall--upgradepip结果：还是提示上述错误输入：python-mpipinstall--Upip结果：如下所示，更新完成之后继续安装第三库即可。
【Python】全局解释器锁（Global Interpreter Lock，GIL）彬彬侠 Python基础全局解释器锁 GIL CPython 多进程 C 扩展 python
全局解释器锁（GlobalInterpreterLock，简称GIL）是CPython（Python的标准实现）中的一个机制，它确保同一时刻只有一个线程在执行Python字节码。GIL的主要作用是保护Python内部的数据结构，避免多线程访问共享数据时发生竞争条件，导致数据损坏。GIL的工作原理在Python的多线程环境中，GIL会限制多个线程同时执行Python字节码。尽管操作系统可以调度多个线
C++调用Python程序方法超级大反派@_@ C++c++python 开发语言
前言：在之前做的一个项目中，要使用一段Python的代码。一般来讲可以将Python代码中的功能在C++项目中重构，但是如果Python项目太大，或者这部分是别人写的，自己不清楚整个项目的逻辑，这样重构起来就比较麻烦。这里给出了另外一种实现方法，即利用Python的API使得C++项目可以直接启动Python程序，快速在PC端验证代码功能。急性子可直接看：2.2C++调用python有参有返回值函
vscode中调试Python和C++的混合代码 destiny44123 vscode python c++
文章目录使用流程参考一些差异使用流程参考ExampledebuggingmixedPythonC++inVSCode一些差异这里假设的项目是通过python调用c++的相应共享库(so)文件。首先，新建文件夹.vscode，在其中添加文件配置launch.json.示例如下：{"version":"0.2.0","configurations":[{"name":"(gdb)附加","type":
Python一键搞定Word与PDF文档批量转换 Selina .a python教程 python word pdf
在日常工作中，我们经常需要将Word文档（.docx）转换为PDF格式，或者反过来操作。手动进行这种转换不仅费时费力，还容易出错。为此，我们可以利用Python编写一个批量转换工具，一键搞定Word与PDF文档的转换。本文将详细介绍如何实现这一目标，并提供源码和工具。所需库的安装首先，我们需要安装一些Python库来实现这个功能。推荐使用以下两个库：python-docx：用于处理Word文件内容
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa