像风一样的男人@

爬虫--Scrapy高级(配置日志,settings中配置详解)

先写一个简单的分页爬虫:

#创建scrapy环境,在爬虫文件中(qiushi.py)中

import scrapy
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor

from xiushibaike.items import XiushibaikeItem


class QiushiSpider(CrawlSpider):
    name = 'qiushi'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    rules = [
        Rule(
            LinkExtractor(
                allow=('/text/page/\d+/',),						  #要匹配分页的标签元素
                restrict_xpaths=('//ul[@class="pagination"]'),    #要匹配分页元素的分页域
            ),
            callback='parse_item',					       		  #回调函数
            follow=True											  #分页后,是否跟进
        )
    ]


    def parse_item(self, response, **kwargs):
       # print(response.text)
       dz_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
       for dz in dz_list:
           name = dz.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').get()
           content = dz.xpath('./a/div[@class="content"]/span/text()').get().strip()
           print(name, content)
           item = XiushibaikeItem()
           item['name'] = name
           item['content'] = content
           yield item







#items.py中

import scrapy
class XiushibaikeItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    content = scrapy.Field()






#管道(pipelines.py)中
from itemadapter import ItemAdapter


class XiushibaikePipeline:
    def open_spider(self,spider):     #爬虫开始执行一次
        self.f = open('qiushibaike.txt','a',encoding='utf-8')

    def process_item(self, item, spider):
        name = item.get('name')
        content = item.get('content')
        string = str((name,content)) + '\n'    #文件追加写入
        self.f.write(string)
        return item

    def close_spider(self,spider):   #爬虫结束执行一次
        self.f.close()



#至此,这个爬虫已经可以运行，如果要配置日志则在settings.py中添加如下配置

Scrapy(框架自带)配置日志

可以修改配置文件settings.py，任意位置添加下面两行，效果会清爽很多。
LOG_ENABLED = True  # 开启
LOG_FILE = "mySpider.log" #日志文件名
LOG_LEVEL = "INFO" #日志级别



Log levels(日志级别详解)
	- Scrapy提供5层logging级别:
	- CRITICAL - 严重错误(critical)
	- ERROR - 一般错误(regular errors)
	- WARNING - 警告信息(warning messages)
	- INFO - 一般信息(informational messages)
	- DEBUG - 调试信息(debugging messages)





logging设置(日志配置)

通过在setting.py中进行以下设置可以被用来配置logging:

`LOG_ENABLED`

	默认: True，启用logging

`LOG_ENCODING`

	默认: 'utf-8'，logging使用的编码

`LOG_FILE`

	默认: None，在当前目录里创建logging输出文件的文件名

`LOG_LEVEL`

	默认: 'DEBUG'，log的最低级别

Python标准库的logging模块

#在爬虫文件中
import logging

LOG_FORMAT = "%(asctime)s - %(levelname)s - %(message)s"  # 设置输出格式
DATE_FORMAT = "%Y/%m/%d %H:%M:%S"  # 设置时间格式
logging.basicConfig(filename='sina.log', filemode='a+', format=LOG_FORMAT, datefmt=DATE_FORMAT)

#在自己想要的地方加上日志
logging.info('download data')

Settings.py详解

DOWNLOAD_DELAY = 0.25   			-- 设置下载间隔为250ms

DOWNLOAD_TIMEOUT = 60   			--设置下载超时时间,一般写为60足够

REACTOR_THREADPOOL_MAXSIZE = 10 	--默认开启10个线程

BOT_NAME = 'xiushibaike'    		--用来构造默认 User-Agent，同时也用来log，建项目时其也被自动赋值

CONCURRENT_REQUESTS = 32    		--最大请求并发数(默认16)

ROBOTSTXT_OBEY = False				--是否遵守爬虫协议(默认为True,一般改为False)

CONCURRENT_REQUESTS_PER_DOMAIN = 16 --针对单个域名的并发最大值限制


#CONCURRENT_REQUESTS_PER_IP = 16	--和上面的单个域名一般只配置一个
默认: `0`

对单个IP进行并发请求的最大值。如果非0，则忽略 [`CONCURRENT_REQUESTS_PER_DOMAIN`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-CONCURRENT_REQUESTS_PER_DOMAIN) 设定， 使用该设定。 也就是说，并发限制将针对IP，而不是网站。

该设定也影响 [`DOWNLOAD_DELAY`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-DOWNLOAD_DELAY): 如果 [`CONCURRENT_REQUESTS_PER_IP`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-CONCURRENT_REQUESTS_PER_IP) 非0，下载延迟应用在IP而不是网站上。





COOKIES_ENABLED = False         --是否禁用cookies(默认可用为True)


TELNETCONSOLE_ENABLED = False   --禁用Telnet控制台（默认启用）




DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}                                        -- 是否重写请求头




SPIDER_MIDDLEWARES = {
    'xiushibaike.middlewares.XiushibaikeSpiderMiddleware': 543,
}										 -- 启用或禁用爬虫中间件



DOWNLOADER_MIDDLEWARES = {
    'xiushibaike.middlewares.XiushibaikeDownloaderMiddleware': 543,
}										--启用或禁用下载中间件




EXTENSIONS = {
    'scrapy.extensions.telnet.TelnetConsole': None,
}										--启用或禁用扩展





ITEM_PIPELINES = {
   'xiushibaike.pipelines.XiushibaikePipeline': 300,
}										--配置项目管道



AUTOTHROTTLE_START_DELAY = 5			--初始下载延迟

AUTOTHROTTLE_MAX_DELAY = 60		     	--在高延迟情况下设置的最大下载延迟

AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0   --Scrapy应该并行发送到每个远程服务器的平均请求数

AUTOTHROTTLE_DEBUG = False				-- 启用显示接收到的每个响应的限制状态

URLLENGTH_LIMIT = 2083      			--爬取URL的最大长度

REDIRECT_MAX_TIMES = 20      			
--定义request允许重定向的最大次数。超过该限制后该request直接返回获取到的结果。 对某些任务我
们使用Firefox默认值。

LOG_STDOUT = False
--如果为 `True` ，进程所有的标准输出(及错误)将会被重定向到log中。例如， 执行 `print 'hello'` ，其将
会在Scrapy log中显示。



ITEM_PIPELINES_BASE = {} 
--保存项目中默认启用的pipeline的字典。 永远不要在项目中修改该设定，而是修改 [`ITEM_PIPE
LINES`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-ITEM_PI
PELINES)。



ITEM_PIPELINES = {}   #默认为{}
--保存项目中启用的pipeline及其顺序的字典。该字典默认为空，值(value)任意。 不过值(value)习惯
设定在0-1000范围内。
示例:
ITEM_PIPELINES = {
    'mybot.pipelines.validate.ValidateMyItem': 300,
    'mybot.pipelines.validate.StoreMyItem': 800,
	}



DEPTH_LIMIT = 0   -- 爬取网站最大允许的深度(depth)值。如果为0，则没有限制。



CONCURRENT_ITEMS = 100
--IItem Processor(即 [Item Pipeline](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/it
em-pipeline.html#topics-item-pipeline)) 同时处理(每个response的)item的最大值。



SCHEDULER 
-- 默认: `'scrapy.core.scheduler.Scheduler'   用于爬取的调度器。


启用和配置HTTP缓存（默认情况下禁用）	
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

Settings.py配置原图

# 项目名称
BOT_NAME = '$project_name'

SPIDER_MODULES = ['$project_name.spiders']
NEWSPIDER_MODULE = '$project_name.spiders'

# 在项目处理器（也称为“ 项目管道”）中并行处理的最大并发项目数（每个响应），默认100。
#CONCURRENT_ITEMS = 100

# Scrapy下载器将执行的并发（即，并发）请求的最大数量，默认16
CONCURRENT_REQUESTS = 8

# 从同一网站下载连续页面之前，下载程序应等待的时间（以秒为单位）。
# 这可以用来限制爬网速度，以避免对服务器造成太大的冲击。支持小数。
# 默认情况下，Scrapy不会在请求之间等待固定的时间，而是使用0.5 * DOWNLOAD_DELAY和1.5 * DOWNLOAD_DELAY之间的随机间隔。
#DOWNLOAD_DELAY = 0

# 将对任何单个域执行的并发（即，并发）请求的最大数量，默认8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16

# 将对任何单个IP执行的并发（即，并发）请求的最大数量，默认0。
# 如果非0，CONCURRENT_REQUESTS_PER_DOMAIN这个参数会被忽略，即按IP不按域名。DOWNLOAD_DELAY也是按IP
#CONCURRENT_REQUESTS_PER_IP = 16

# 将用于实例化Scrapy shell中的项目的默认类
#DEFAULT_ITEM_CLASS = 'scrapy.item.Item'

# 对于任何站点，将允许爬网的最大深度。如果为零，则不施加限制
#DEPTH_LIMIT = 0

# 根据DEPTH_PRIORITY的值取决于深度优先或广度优先，即正值为广度优先(BFO)，负值为深度优先(DFO)
# 计算公式：request.priority = request.priority - ( depth * DEPTH_PRIORITY )
#DEPTH_PRIORITY = 0

# 是否启用cookie
COOKIES_ENABLED = False

# 如果启用，Scrapy将记录请求中发送的所有cookie（即Cookie 标头）和响应中接收的所有cookie（即Set-Cookie标头）
#COOKIES_DEBUG = False

# 是否收集详细的深度统计信息。如果启用此功能，则在统计信息中收集每个深度的请求数
#DEPTH_STATS_VERBOSE = False

# 是否启用DNS内存缓存
#DNSCACHE_ENABLED = True

# DNS内存缓存大小
#DNSCACHE_SIZE = 10000

# 处理DNS查询的超时时间（以秒为单位）。支持浮动
#DNS_TIMEOUT = 60

# 用于爬网的下载器
#DOWNLOADER = 'scrapy.core.downloader.Downloader'

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# 包含您的项目中启用的下载器中间件及其命令的字典
#DOWNLOADER_MIDDLEWARE = {}

# 用于Scrapy HTTP请求的默认标头。它们被填充在 DefaultHeadersMiddleware
DEFAULT_REQUEST_HEADERS = {
}

# Scrapy中默认启用的下载程序中间件的字典。低值更接近引擎，高值更接近下载器，
# 不要试图修改此设置，请修改DOWNLOADER_MIDDLEWARE
#DOWNLOADER_MIDDLEWARES_BASE = {
#     'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
#     'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
#     'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
#     'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
#     'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
#     'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
#     'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
#     'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
#     'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
#     'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
#     'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
#     'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
#     'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
#     'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
# }

# 是否启用下载器统计信息收集
#DOWNLOADER_STATS = True

# 包含在项目中启用的请求下载处理程序的字典
#DOWNLOAD_HANDLERS = {}

# 包含请求下载处理程序的默认字典
# 如果要禁用FTP处理程序，请设置DOWNLOAD_HANDLERS = {'ftp': None}
#DOWNLOAD_HANDLERS_BASE = {
#     'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
#     'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
#     'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
#     's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
#     'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
# }

# 下载程序的超时时间（以秒为单位）
#DOWNLOAD_TIMEOUT = 180

# 载程序将下载的最大响应大小（以字节为单位,默认1024MB），为0则不限制
#DOWNLOAD_MAXSIZE = 1073741824

# 下载程序将开始警告的响应大小（以字节为单位，默认32MB）
#DOWNLOAD_WARNSIZE = 33554432

# 声明的Content-Length与服务器发送的内容不匹配，是否触发异常ResponseFailed([_DataLoss]) 
# 如果为False，可以在爬虫文件中判断并处理 if 'dataloss' in response.flags: 
#DOWNLOAD_FAIL_ON_DATALOSS = True

# 用于检测和过滤重复请求的类
#DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

# 默认情况下，RFPDupeFilter仅记录第一个重复的请求。设置DUPEFILTER_DEBUG为True它将记录所有重复的请求。
#DUPEFILTER_DEBUG = False

# 包含您的项目中启用的扩展及其顺序的字典
#EXTENSIONS = {}

# 包含默认情况下在Scrapy中可用的扩展程序及其顺序的字典
#EXTENSIONS_BASE = {
#     'scrapy.extensions.corestats.CoreStats': 0,
#     'scrapy.extensions.telnet.TelnetConsole': 0,
#     'scrapy.extensions.memusage.MemoryUsage': 0,
#     'scrapy.extensions.memdebug.MemoryDebugger': 0,
#     'scrapy.extensions.closespider.CloseSpider': 0,
#     'scrapy.extensions.feedexport.FeedExporter': 0,
#     'scrapy.extensions.logstats.LogStats': 0,
#     'scrapy.extensions.spiderstate.SpiderState': 0,
#     'scrapy.extensions.throttle.AutoThrottle': 0,
# }

# 包含要使用的项目管道及其顺序的字典。值是任意的，但是习惯上将它们定义在0-1000范围内。低值优先于高值
#ITEM_PIPELINES = {}

# 是否启用日志记录
#LOG_ENABLED = True

# 用于日志记录的编码
#LOG_ENCODING = 'utf-8'

# 用于记录输出的文件名
#LOG_FILE = None

# 用于格式化日志消息的字符串
#LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

# 用于格式化日期/时间的字符串，用于改变LOG_FORMAT 中的asctime占位符
#LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S'

# 用于格式化不同操作的日志消息的类
#LOG_FORMATTER = "scrapy.logformatter.LogFormatter"

# 最低记录级别, 可用：CRITICAL, ERROR, WARNING, INFO, DEBUG
#LOG_LEVEL = 'DEBUG'

# 如果为True，所有标准输出（和错误）将被重定向到日志，例如print也会被记录在日志
#LOG_STDOUT = False

# 如果为True，则日志将仅包含根路径;如果设置为False，则显示负责日志输出的组件
#LOG_SHORT_NAMES = False

# 每次统计记录打印输出之间的间隔（以秒为单位）
#LOGSTATS_INTERVAL = 60.0

# 是否启用内存调试
#MEMDEBUG_ENABLED = False

# 启用内存调试后，如果此设置不为空，则会将内存报告发送到指定的邮箱地址，否则该报告将被写入日志。
# 例如：MEMDEBUG_NOTIFY = ['[email protected]']
#MEMDEBUG_NOTIFY = []

# 是否启用内存使用扩展。此扩展跟踪该进程使用的峰值内存（将其写入统计信息）。
# 当超过内存限制时，它还可以选择关闭Scrapy进程，并在发生这种情况时通过电子邮件通知
#MEMUSAGE_ENABLED = True

# 关闭Scrapy之前允许的最大内存量
#MEMUSAGE_LIMIT_MB = 0

#MEMUSAGE_CHECK_INTERVAL_SECONDS = 60.0

# 电子邮件列表，用于通知是否已达到内存限制
#MEMUSAGE_NOTIFY_MAIL = False

# 发送警告电子邮件通知最大内存之前允许的最大内存量（以兆字节为单位）。如果为零，则不会发出警告
#MEMUSAGE_WARNING_MB = 0

# 使用genspider命令创建爬虫的模板
#NEWSPIDER_MODULE = ""

# 如果启用，Scrapy将在从同一网站获取请求的同时等待随机的时间（介于0.5 * DOWNLOAD_DELAY和1.5 *之间DOWNLOAD_DELAY）
#RANDOMIZE_DOWNLOAD_DELAY = True

# Twisted Reactor线程池大小的最大限制。这是各种Scrapy组件使用的通用多用途线程池。
# 线程DNS解析器，BlockingFeedStorage，S3FilesStore仅举几例。
# 如果遇到阻塞IO不足的问题，请增加此值。
#REACTOR_THREADPOOL_MAXSIZE = 10

# 定义可以重定向请求的最长时间。超过此最大值后，将按原样返回请求的响应
#REDIRECT_MAX_TIMES = 20

# 调整重定向请求的优先级，为正则优先级高
#REDIRECT_PRIORITY_ADJUST = 2

# 调整重试请求的优先级
#RETRY_PRIORITY_ADJUST = -1

# 是否遵循robot协议
ROBOTSTXT_OBEY = False

# 用于解析robots.txt文件的解析器后端
#ROBOTSTXT_PARSER = 'scrapy.robotstxt.ProtegoRobotParser'

#ROBOTSTXT_USER_AGENT = None

# 用于爬网的调度程序
#SCHEDULER = 'scrapy.core.scheduler.Scheduler'

# 设置为True将记录有关请求调度程序的调试信息
#SCHEDULER_DEBUG = False

# 调度程序将使用的磁盘队列的类型。其他可用类型：scrapy.squeues.PickleFifoDiskQueue，
# scrapy.squeues.MarshalFifoDiskQueue， scrapy.squeues.MarshalLifoDiskQueue
#SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'

# 调度程序使用的内存队列的类型。其他可用类型： scrapy.squeues.FifoMemoryQueue
#SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'

# 调度程序使用的优先级队列的类型。另一种可用的类型是 scrapy.pqueues.DownloaderAwarePriorityQueue
#SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.ScrapyPriorityQueue'

# 正在处理响应数据的软限制（以字节为单位）。
# 如果所有正在处理的响应的大小总和高于此值，Scrapy不会处理新的请求
#SCRAPER_SLOT_MAX_ACTIVE_SIZE  = 5_000_000

# 包含您的项目中启用的蜘蛛合约的字典，用于测试蜘蛛
#SPIDER_CONTRACTS = {}

# 包含Scrapy合同中默认启用的Scrapy合同的字典
#SPIDER_CONTRACTS_BASE  = {
#     'scrapy.contracts.default.UrlContract' : 1,
#     'scrapy.contracts.default.ReturnsContract': 2,
#     'scrapy.contracts.default.ScrapesContract': 3,
# }

# 将用于加载蜘蛛的类
#SPIDER_LOADER_CLASS = 'scrapy.spiderloader.SpiderLoader'

# 包含您的项目中启用的蜘蛛中间件及其命令的字典
#SPIDER_MIDDLEWARES = {}

#SPIDER_MIDDLEWARES_BASE = {
#     'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
#     'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
#     'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
#     'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
#     'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
# }

# Scrapy将在其中寻找蜘蛛的模板列表
#SPIDER_MODULES  = {}

# 用于收集统计信息的类
#STATS_CLASS = 'scrapy.statscollectors.MemoryStatsCollector'

# 蜘蛛完成后，将Scrapy统计信息转储到Scrapy日志中
#STATS_DUMP = True

# 蜘蛛抓取完毕后发送Scrapy统计信息的邮箱列表
#STATSMAILER_RCPTS = []

# 指定是否 将启用telnet控制台
#TELNETCONSOLE_ENABLED = True

# 用于telnet控制台的端口范围。如果设置为None或0，则使用动态分配的端口
#TELNETCONSOLE_PORT = [6023, 6073]

# 使用startproject命令创建新项目和使用 genspider命令创建新的Spider时要在其中查找模板的目录
#TEMPLATES_DIR = "templates"

# 允许抓取的URL的最大URL长度
#URLLENGTH_LIMIT = 2083

# 爬网时使用的默认User-Agent
#USER_AGENT = "Scrapy/VERSION (+https://scrapy.org)"

【python】解决No module named _sqlite3的问题欧阳秦穆
环境版本说明：centos7python3.6.4django2.0在创建django项目时候。报错以下信息详细错误信息如下：原因：未安装sqlite模块解决：1安装sqlite-develyuminstallsqlite-devel2重新编译pythoncd/usr/local/python3.6.4./configuremakemakeinstall
CentOS-7的“ifupdown“与Debian的“ifupdown“对比笔记250706 kfepiza OS操作系统 Windows Linux 等 #控制台命令行 Shell bash cmd 等网络通讯传输协议 IP TCP UDP 物联 centos debian 笔记 linux 网络
CentOS-7的"ifupdown"与Debian的"ifupdown"对比笔记250706CentOS7和Debian的ifupdown工具名称相同，但在实现机制、配置文件语法和系统集成上存在显著差异。以下是核心对比分析：⚙️一、核心差异概览对比维度CentOS7Debian工具定位network-scripts套件的一部分，依赖传统ifcfg文件独立包(ifupdown)，使用/etc/ne
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
Python Scrapy的爬虫中间件开发 AI天才研究院 python scrapy 爬虫 ai
PythonScrapy爬虫中间件开发：从原理到实战的深度解析关键词Scrapy中间件、爬虫扩展、请求响应处理、反爬绕过、中间件生命周期、钩子函数、分布式爬取摘要本文系统解析Scrapy爬虫中间件（SpiderMiddleware）的开发方法论，覆盖从基础概念到高级实践的全链路知识。通过第一性原理推导中间件的核心机制，结合层次化架构分析（理论→设计→实现→应用），提供生产级代码示例与可视化流程模型
使用Python将PDF转换成word、PPT wh3933 python pdf word
在现代企业环境中，文档格式的转换是一项普遍且关键的需求。PDF（PortableDocumentFormat）作为一种最终的、通常不可编辑的“打印”状态格式，被广泛用于分发和归档。然而，内容的创建、协作和修改主要在MicrosoftOffice套件中进行，特别是Word（DOCX）和PowerPoint（PPTX）。因此，以编程方式弥合这两种格式之间的鸿沟，已成为数据提取、内容迁移和工作流自动化领
Python实现文件移动到指定文件夹 wh3933 python java 前端
在Python中，将文件从一个位置移动到另一个位置是一项常见的操作。无论是整理下载、归档旧文件，还是在复杂的项目中管理文件结构，掌握文件移动的技巧都至关重要。本文将全面介绍在Python中移动文件的各种方法，并提供详尽的代码示例，帮助您轻松应对不同场景下的文件管理需求。核心方法：shutil.move()在Python标准库中，shutil模块提供了高级的文件操作功能，其中的shutil.move
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
python中使用pyinstaller将python项目打包为exe可执行文件不吃西红柿丿 python windows
1、安装pyinstallerpipinstallpyinstaller-ihttps://pypi.tuna.tsinghua.edu.cn/simple2、打包应用2.1、使用命令行直接打包pyinstaller-F-w-iyour_path/log.icomain.py命令：-F将项目打包为单个exe文件，没有其它文件-D将项目打包为一个文件夹里面又有一个exe文件以及其它依赖，启动速度比-
如何解决pip安装报错ModuleNotFoundError: No module named ‘os’问题 lyzybbs 全栈Bug解决方案专栏 pip python pycharm 开发语言 pandas numpy beautifulsoup
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘os’问题1.摘要在使用PyCharm2025的控制台执行pipinstall时，常常会遇到各种奇怪的安装失败或安装后仍然报ModuleNotFoundError的问题，例如“Nomodulenamed‘os’”。本文将从开发场景、环境
如何解决pip安装报错ModuleNotFoundError: No module named ‘sys’问题 lyzybbs 全栈Bug解决方案专栏 pip pycharm python pandas scrapy beautifulsoup matplotlib
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘sys’问题摘要在使用PyCharm内置终端或控制台执行pipinstallsys等命令时，常常会遇到如下异常：ModuleNotFoundError:Nomodulenamed‘sys’该错误看似与常驻Python核心库sys有关，但
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
Java+Python智能化云盘【Day5-1】关沐吖 Java+Python Ai智能云盘项目开发专栏 python java 开发语言
RAG系统链路和数据加载Loaders技术OK啊昨天Day4-2，最后提及了很多的一些Loader加载器，有文档类型、数据库类型、网页加载器类型等等，它们其实都是属于langchain_community.document_loaders这个包下的类。今天来先复习一下都有哪些，再讲讲其中的代码运行的基本框架，和文档中有图片的处理方式。Loader的分类与常见类型文件加载器（FileLoaders）
Java+Python智能化云盘【Day3】关沐吖 Java+Python Ai智能云盘项目开发专栏 java python 开发语言
提示词工程Prompt简介：大模型必备Prompt提示词工程讲解什么是PromptEngineering提示词工程通过特定格式的文本输入引导AI模型生成期望输出的技术，明确地告诉模型你想要解决的问题或完成的任务也是大语言模型理解用户需求并生成相关、准确回答或内容的基础类比：给Java程序员的任务需求文档（越清晰明确，结果越符合预期）为什么需要学习？大模型就是你的员工，你可以有多个助手，OpenAI
Java+Python智能化Ai云盘[Day2]
OK啊，为了完成学校老师布置的UML作业主播也是开始拿自己的项目开始当成期末大作业来交了。顺道的我也把自己的项目整个的梳理了一通，如果大家最近有UML的大作业要交也可以自取，到时候我把文章word版本直接发到百度网盘上去。里面我只有类图、用例图、活动图、顺序图、状态图。这次也算是一个提前复习了一下项目了把，整个的文档文字都是拿ai去写的，图的话也是我先看了一遍代码，然后给ai说了一遍也算是自己理通
基于uniapp小程序的诗词学习系统附带文章源码部署视频讲解等
文章目录前言详细视频演示具体实现截图核心技术介绍小程序框架Uniapp前端框架Vue持久层框架MyBaits为什么选择我代码参考数据库参考测试用例参考源码获取前言博主介绍：✌CSDN特邀作者、资深全栈开发程序员，曾在互联网大厂担任高级职位、码云/掘金/华为云/阿里云/InfoQ/StackOverflow/github等平台优质作者、专注于Java、小程序、前端、python等技术领域毕业项目实战
鸿蒙设备开发OpenHarmony深度解读之设备认证：HiChain机制部分源码解析1（推荐模块之外）
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……一、概述H
Windows安装MySQL及Python操作MySQL数据库脚本实例详解
1、Windows上安装MySQL便于测试，笔者在windows上安装MySQL，如有现成Linux下的MySQL和Python环境，也可直接使用。MySQL的官网下载链接安装步骤1)下载后的mysql-5.7.23-winx64.zip安装包解压至某一位置，在mysql-5.7.23-winx64.zip根目录下创建my.ini文件添加以下内容：my.ini[mysql]default-char
（纯新手练习五）python基础代码，我手把手带你敲（类与对象，实例，构造函数__init__初始化对象属性，继承，方法重写，类的文档字符串，模块化）星期天要睡觉 python 开发语言
目录1.基本理论简述类与对象构造函数（Constructor）继承（Inheritance）方法重写（MethodOverriding）四者关系总结类的文档字符串（Docstring）2.练习开始3.代码模块化练习（纯新手练习五）python基础代码，我手把手带你敲（类与对象，实例，构造函数__init__初始化对象属性，继承，方法重写，类的文档字符串，模块化）（下一节课：文件操作）基本理论简述类
区间求最值问题高效解决方法东皇太星 python
对于区间求最值场景，如果区间不定长度的，可以使用稀疏表进行求解，如果区间是固定长度的，则可以使用分块的思想（与稀疏表原理类似），都是通过压缩状态个数，1关于稀疏表的原理详见：稀疏表（SparseTable，ST原理及应用场景下面是一个稀疏表的python实现classSolution:def__init__(self,nums):self.nums=numsself.init_value=-999
python优先队列使用_Python优先队列实现方法示例
本文实例讲述了Python优先队列实现方法。分享给大家供大家参考，具体如下：1.代码importQueueimportthreadingclassJob(object):def__init__(self,priority,description):self.priority=priorityself.description=descriptionprint'Newjob:',description
python优先队列使用_python 线程队列PriorityQueue（优先队列）（37）
在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进后出队列LifoQueue，而今天给大家介绍的是最后一种：优先队列PriorityQueue，对队列中的数据按照优先级排序，那么具体怎么用呢？一.队列Queue分类：1.线程队列Queue—FIFO(先进先出队列)，即哪个数据先存入，取数据的时候先取哪个数据，同生活中的排队买东西；2.线程队列LifoQue
Python|Pyppeteer规避反自动化检测方法【最新方案】(33) 写python的鑫哥 Pyppeteer从入门到精通 python pyppeteer puppeteer 规避反自动化检测反爬虫
前言本文是该专栏的第33篇，结合优质项目案例持续分享Pyppeteer的干货知识，记得关注。相信有些同学在使用Pyppeteer框架进行某个自动化操作的时候，会触发平台的检测机制，让目标平台识别出当前是机器人在操作，而非人为操作，导致让你的程序无法继续进行下一步。对于上述这种情况，你是不是有很大的疑惑呢？别担心，本文笔者专门针对上述问题，来详细介绍在使用Pyppeteer的过程中，出现反自动化机制
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
取余和取模到底是不是一回事？对比Python、Java、C和C++中的%运算符霜叶桑 java python c语言 c++
取余和取模到底是不是一回事？对比Python、JAVA、C和C++中的%运算符数学中的「取余」和「取模」计算机领域中的「取余」和「取模」Python、Java、C和C++中的`%`运算符Python：取模运算Java：取余运算C和C++：取余运算为什么一般用正除数数学中的「取余」和「取模」在纯数学中，当我们谈论整数除法a÷ba\divba÷b（aaa是被除数，bbb是除数，且b≠0b\not=0
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
C++基础复习笔记 xuwzen C++c++笔记
一、数组定义在C++中，数组初始化有多种方式，以下是常见的几种方法：默认初始化数组元素未显式初始化时，内置类型（如int、float）的元素值未定义（垃圾值），类类型调用默认构造函数。intarr1[5];//元素值未定义聚合初始化（列表初始化）使用花括号{}直接初始化所有元素。若列表元素少于数组长度，剩余元素默认初始化（内置类型为0）。intarr2[3]={1,2,3};//完全初始化inta
【大厂机试题+多种解法+算法可视化笔记】欢乐的周末 xuwzen 编码训练算法
题目小华和小为是很要好的朋友，他们约定周末一起吃饭。通过手机交流，他们在地图上选择了多个聚餐地点（由于自然地形等原因，部分聚餐地点不可达），求小华和小为都能到达的聚餐地点有多少个？输入描述第一行输入m和n，m代表地图的长度，n代表地图的宽度。第二行开始具体输入地图信息，地图信息包含：0为通畅的道路1为障碍物（且仅1为障碍物）2为小华或者小为，地图中必定有且仅有2个（非障碍物）3为被选中的聚餐地点（
cesium-native+OpenGL开发笔记—渲染GIS球
坐标系转换OpenGL坐标系右手坐标系，X轴水平向右，Y轴竖直向上，Z轴指向屏幕外面。Y（绿色，朝上）^|||*---->X（红色，向右）//Z（蓝色，向前）（指向屏幕外）3DTiles坐标系右手坐标系，Z轴朝上Z（蓝色，朝上）^||/Y（绿色，朝屏幕内）|/*---->X（红色，朝右）glTF模型坐标系右手坐标系，Y轴朝上3DTiles和OpenGL坐标系上方向存在差异，实际绘制是在OpenGL
【计算机三级】网路技术学习笔记第二章中小型网络系统总体规划与设计努力的小刘@ 计算机等级考试网络计算机网络网络协议
计算机三级网络技术二、中小型网络系统总体规划与设计考点（一）：网络总体设计基本方法1.核心层网络结构设计整个网络系统的主干部分是核心层网络，是设计与建设的重点，目前应用于核心层网络的技术标准主意要是GE/10GE,核心设备是高性能路由器，连接核心路由器的是具有冗余链路的光纤，整个网络流量的40%-60%都需要有核心层网络来承载直接接入核心路由器采取链路冗余的办法，直接连接两台核心路由器，其特点是直
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

爬虫--Scrapy高级(配置日志,settings中配置详解)

Settings.py配置原图

你可能感兴趣的:(笔记,python)