白杆杆红伞伞

python 爬虫：scrapy 框架

创建工程

scrapy startproject [工程名称]

创建Spider

# 进入工程目录
# 创建爬虫 
scrapy genspider [爬虫名称] [要爬的目标url]

运行

scrapy crawl [爬虫名称]
scrapy crawl [爬虫名称] -o quotes.json  # 爬取结果保存到文件
									  # 支持文件类型json、csv、xml、pickle、marshal

# 工程目录创建main.py :
#  利于调试
from scrapy.cmdline import execute
import os
import sys

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy','crawl','quotes'])

items.py

定义爬取的数据结构，使用方法与字典类似

import scrapy

class QuoteItem(scrapy.Item):
   	text = scrapy.Field()
    	author = scrapy.Field()
    	tags = scrapy.Field()

class ImageItem(scrapy.Item):
        '''
        ImagePipeline Item 定义
        '''
        collection = table = 'images'
        id = scrapy.Field()
        url = scrapy.Field()
        title = scrapy.Field()
        thumb = scrapy.Field()

middlewares.py

Downloader Middleware

下载中间件，处于Scrapy的Request与Response之间的处理模块

Downloader Middleware的功能：修改User_Agent、处理重定向、设置代理、失败重试、设置Cookies等

DOWNLOADER_MIDDLEWARES_BASE 是 Scrapy中默认已经启用的一些默认的下载中间件
{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}
核心方法
process_request(request,spider)

Request被Scrapy引擎调度给Downloader之前，执行process_request()。返回类型不同，产生的效果不同

None ： Scrapy 将继续处理该Request，继续执行其他Downloader Middleware 的process_request，一直到Downloader把Request执行后得到Response才结束

Response ：更低优先级的Downloader Middleware 的process_request不再被调用，转而process_response()会依次被调用

Request：更低优先级的Downloader Middleware会停止执行，Request会放到调度器中，如果被Scheduler调度了，所有的Downloader Middleware会重新执行

IgnoreRequest ：所有的Downloader Middleware的process_exception()方法会依次执行。如果没处理异常，则Request的errorback()方法会被调用

process_response(request,response,spider)

Downloader执行Request下载之后，会等到相应的Response。Scrapy引擎便会将Response发送给Spider解析，在发送之前调用process_response()

request : 更低优先级的Downloader Middleware的process_response() 方法不会继续调用。Request会放到调度器中，如果被Scheduler调度了，所有的Downloader Middleware会重新执行

Response：更低优先级的Downloader Middleware的process_response() 方法会继续调用

IgnoreRequest ：所有的Downloader Middleware的process_exception()方法会依次执行。如果没处理异常，则Request的errorback()方法会被调用
process_exception(request,exception,spider)

当Downloader或process_request()方法抛出异常时

None：更低优先级的Downloader Middleware的process_exception()会被调用

Response：更低优先级的Downloader Middleware的process_exception()不再被调用，转而调用process_response()

Request：更低优先级的Downloader Middleware的process_exception()不再被调用。Request会放到调度器中，如果被Scheduler调度了，所有的Downloader Middleware会重新执行
import random
from scrapy import signals
                    
class UserAgentMiddleware(object):
    def __init__(self,user_agent='Scrapy') :
        self.user_agent = user_agent
        self.user_agents = [
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36",
            "Mozilla/5.0 (Windows NT 9.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36",
            "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
        ]
                        
    def from_crawler(cls,crawler):
        o = cls(crawler.settings['USER_AGENT'])
        crawler.signals.connect(o.spider_opened,signal = signals.spider_closed)
        return o
                        
    def spider_opened(self,spider):
        self.user_agent = getattr(spider,'user_agent',self.user_agent)
                    
    def process_request(self,request,spider):
        if self.user_agent:
            request.headers.setdefault(b'User-Agent',self.user_agent)
            # request.headers['User-Agent'] = self.user_agent
            # request.headers['User-Agent'] = random.choice(self.user_agents) # 推荐随机 user_agents

Spider Middleware

Soider Middleware 是介入到Scrapy的Spider处理机制的钩子框架

当Downloader生成Response之后，Response会被发送给Spider，在发送给Spider之前Response会首先经过Spider Middleware处理，当Spider处理生成Item和Request之后，Item和Request还会经过Spider Middleware的处理。

Spider Middleware有一下三个作用：

Downloader生成Response发送给Spider之间处理Response

Spider生成Request发送给Schedule之间，处理Request

Spider生成Item发送给Item Pipeline之间处理Item

SPIDER_MIDDLEWARES_BASE定义了默认中间件：
{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}
核心方法

process_spider_input(response,spider)

当Response被Spider Middleware处理时调用；

返回None，Scrapy 将会继续处理Response，调用其他的Spider Middleware

抛出异常，不再调用其他Spider Middleware的process_spider_input，而调用Request的errback()方法。errback的输出将会被重新输入到中间件中，使用process_spider_output方法处理

process_spider_output(response,result,spider)

当Spider处理Response返回结果时被调用；参数中result包含Request或Item对象的可迭代对象；方法必须返回包含Request或Item对象的可迭代对象

process_spider_exception(response,exception,spider)

当process_spider_input方法抛出异常时，process_spider_exception方法被调用；

返回None：Scrapy继续处理异常，调用其他Spider Middleware中的process_spider_exception方法

返回一个可迭代对象：其他Spider Middleware的process_spider_output，process_spider_exception不会再被调用

process_start_requests(start_requests,spider)

以Spider启动的Request为参数被调用，执行过程类似process_spider_output，且必须返回Request

pipelines.py

定义数据管道，定义一个类并实现process_item()方法，方法必须返回包含数据的字典或Item对象，或者抛出DropItem异常

from_crawler : 是一个类方法，@class method 标识，是一种依赖注入的方式。它的参数就是crawler，通过crawler可以拿到全局配置的每个配置信息。

open_spider：当Spider开启时，方法被调用。可以做一些初始化工作，比如连接数据库

close_spider：当Spider关闭时，方法调用。处理一些收尾工作

process_item ：最主要的函数，处理数据

数据存储建议使用mongoDB

from itemadapter import ItemAdapter
from scrapy.exceptions import DropItem
from sympy import im
from tutorial.items import QuoteItem
import pymysql
import pymongo

class TextPipeline(object):
    '''
    文本处理
    '''
    def __init__(self):
        self.limit = 50

    def process_item(self,item:QuoteItem,spider):
        if item['text']:
            if len(item['text']) > self.limit:
                item['text'] = item['text'][0:self.limit].rstrip()+'...'
        else:
            return DropItem('Missing Text')
        return item

class MysqlPipeline(object):
    '''
    文本存储到数据库
    '''
    def __init__(self,host,port,user,pwsd,db_name):
        self.host = host
        self.port = port
        self.user = user
        self.pwsd = pwsd
        self.db_name = db_name

    @classmethod
    def from_crawler(cls,crawler):
        host = crawler.settings.get("MYSQL_HOST")
        port = crawler.settings.get("MYSQL_PORT")
        user = crawler.settings.get("MYSQL_USER")
        pwsd = crawler.settings.get("MYSQL_PWSD")
        db_name = crawler.settings.get("MYSQL_DB")
        return cls(host,port,user,pwsd,db_name)

    def open_spider(self,spider):
        self.client = pymysql.connect(host= self.host,
                                         port= self.port, 
                                         user= self.user, 
                                         password= self.pwsd ,
                                         db= self.db_name)

    def process_item(self,item,spider):
        name = item.__class__.__name__
        author = item['author']
        tags = item['tags']
        text = pymysql.converters.escape_string(item['text'])
        cursor = self.client.cursor()
        sqlstr = "insert into quotes values(\"%s\",\"%s\",\"%s\",\"%s\")" % (name,author,tags,text)
        cursor.execute(sqlstr.replace('\r','').replace('\n','').replace('\'',''))
        self.client.commit()

    def close_spider(self,spider):
        self.client.close()

class MongoPipeline(object):
    def __init__(self,mongo_uri,mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls,crawler):
        '''
        静态函数，创建类对象
        '''
        return cls(
            mongo_uri = crawler.settings.get("MONGO_URI"),
            mongo_db = crawler.settings.get("MONGO_DB")
        )

    def open_spider(self,spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self,item,spider):
        name = item.__class__.__name__
        self.db['name'].insert_one(dict(item))
        return item

    def close_spider(self,spider):
        self.client.close()

Image Pipeline 是Scrapy提供的专门下载图片、文件的Pipeline。

内置的ImagesPipeline 会默认读取Item的image_urls字段，并认为该字段是一个列表并。

并不是所以的Item都有image_urls字段，需要自定义ImagePipeline（继承内置的ImagePipeline，重写file_path、item_completed、get_media_requests函数）

from scrapy import Request
from scrapy.exceptions import DropItem
from tutorial.items import QuoteItem
from scrapy.pipelines.images import ImagesPipeline

class ImagesPipeline(ImagesPipeline):
 def file_path(self, request, response=None, info=None, *, item=None):
     url = request.url;
     file_name = url.split('/')[-1]
     return file_name

 def item_completed(self, results, item, info):
     '''
     :results get_media_requests的返回结果
              results为一个列表,其元素是一个元组,元组的第一个元素为bool值即ok,用来判断下载成功或失败。
              第二个元素为一个字典即x,是该Item对应的下载结果,字典中分别有url、path、checksum三个键值对。
     '''
     image_paths = [x['path'] for ok,x in results if ok]
     if not image_paths:
         raise DropItem('Image Download Failed')
     # 返回item，供下一个pipeline使用
     return item

 def get_media_requests(self, item, info):
     '''
     执行下载 文件自动保存到  IMAGES_STORE = './images'
     '''
     yield Request(item['url'])

settings.py

配置文件

# ImagePipeline 下载文件、图片的路径
IMAGES_STORE = './images'

# 全局生效,修改USER_AGENT
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"

ITEM_PIPELINES={
# 数字越小 越被先调用
'tutorial.pipelines.TextPipeline':300,
'tutorial.pipelines.MysqlPipeline':400
}
MYSQL_HOST='localhost'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PWSD = '123456'
MYSQL_DB = 'spider_text'
MONGO_URI = 'localhost'
MONGO_DB = 'tutorial'

spiders

放置Spider的文件夹

spdier结构

name：每个项目唯一的名字，用来区分不同的spider

allowed_domains：允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉。

start_urls：Spider在启动时爬取的url列表，初始请求是由它来定义的。

custom_settings : 一个字典，是专属spider的配置，此配置会覆盖全局配置

crawler：它是是由from_crawler() 方法设置的，代表的是本Spider类对应的Crawler对象。Crawler对象包含很多的项目组件，最常用的是获取项目设置信息，即Settings

settings：是一个Settings对象，利用它可以直接获取项目的全局设置变量

start_requests()：用户生成初始请求，它必须返回一个可迭代对象，会默认使用start_urls中的地址构造Request；Request是GET请求方式，FormRequest是POST请求方式

parse：是 Spider 的一个方法，被调用时 start_urls 里面的链接构成的请求完成下载执行后

closed() ：当Spider关闭时，该方法会被调用，处理收尾工作

import scrapy
from tutorial.items import QuoteItem
from scrapy.http.response.html import HtmlResponse

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']
 	# spider 单独设置 USER_AGENT
    custom_settings = {
        "USER_AGENT": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36",
    }
    def parse(self, response:HtmlResponse):
        '''
        解析html
        '''
        quotes = response.css('.quote')
        for quote in quotes:
            item = QuoteItem()
            item['text'] = quote.css('.text::text').extract_first()
            item['author'] = quote.css('.author::text').extract_first()
            item['tags'] = quote.css('.tags .tag::text').extract()
            yield item
        next = response.css('.pager .next a::attr("href")').extract_first()
        url = response.urljoin(next)
        yield scrapy.Request(url=url,callback=self.parse)

start_requests ：发起请求，可以在此处修改要爬取的地址；

默认发起的是get请求，如需要用post，则必须重写start_requests ，使用FormRequest、JsonRequest；

可以在start_requests 设置headers，cookies模拟登陆；

import json
from urllib.parse import urlencode
from scrapy import Request ,Spider
from scrapy.http.response.html import HtmlResponse

from tutorial.items import ImageItem


class ImagesSpider(Spider):
    name = 'images'
    allowed_domains = ['images.so.com']
    start_urls = ['https://image.so.com/']

    def start_requests(self):
        data = {'ch':'beauty','t1':595}
        base_url = "https://image.so.com/zjl?"
        for page in range(0,50):
            data['sn'] = page*30
            params = urlencode(data)
            url = base_url+params
            # get请求
            yield Request(url,self.parse) # 也可以定义其他 parse
            # # post请求
            # JsonRequest(url, data=data, callback=self.parse) # json 参数
            # FormRequest(url, formdata=data, callback=self.parse) # form表单
            # Request(url, method='POST', body=json.dumps(body),headers={'Content-Type':'application/json'}) # json 参数

    def parse(self, response:HtmlResponse):
        result = json.loads(response.text)
        for image in  result.get('list'):
            item = ImageItem()
            item['id'] = image.get('id')
            item['url'] = image.get('qhimg_url')
            item['title'] = image.get('title')
            item['thumb'] = image.get('qhimg_thumb')
            yield item

Selector

Selector是一个可以独立使用的模块。使用方法是构建一个对象，调用相关的方法：xpath()、css()等来获取数据。
from scrapy import Selector

body = '....'
selector = Selector(body)
title = selector.xpath('//title/text()').extract_first()
print(title)
Spider 的 response有一个selector，可以通过response.selector.xpath()、css()等获取信息；调用response的xpath()、css()等于调用selector。

selector方法：

extract()：方法可以提取节点（返回节点数组）

extract_first()：方法提取列表的第一个元素

Selector 选择器xpath和css可以嵌套使用

Selector选择器支持正则
response.xpath('//a/text()').re('Name:\s(.*)') # 返回列表
response.xpath('//a/text()').re_first('Name:\s(.*)') # 返回第一个

cookie设置

自定义cookie

settings.py设置

# 必须开启，否则自定义cookie不起作用
# Disable cookies (enabled by default) 开启cookie
COOKIES_ENABLED = True

方式一

# 在downloader middleware的process_request中设置
def process_request(self, request, spider):
    request.cookies={
        "sessionid":"......"
    }
    return request

方式二

# 在spider爬虫主文件中，重写start_request方法，在scrapy的Request函数的参数中传递cookies
def start_requests(self):
 	headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0"}
        # 指定cookies
	cookies = {
        'uuid': '66a0f5e7546b4e068497.1542881406.1.0.0',
        '_lxsdk_cuid': '1673ae5bfd3c8-0ab24c91d32ccc8-143d7240-144000-1673ae5bfd4c8',
        '__mta': '222746148.1542881402495.1542881402495.1542881402495.1', 'ci': '20',
        'rvct': '20%2C92%2C282%2C281%2C1',
        '_lx_utm': 'utm_source%3DBaidu%26utm_medium%3Dorganic',
        '_lxsdk_s': '1674f401e2a-d02-c7d-438%7C%7C35'
    }
    # 再次请求到详情页，并且声明回调函数callback，dont_filter=True 不进行域名过滤，meta给回调函数传递数据
	yield Request(detailUrl, headers=headers, cookies=cookies, callback=self.detail_parse, meta={'myItem': item},  dont_filter=True)

全局cookie

# 必须关闭
COOKIES_ENABLED = False
# 设置全局cookie
DEFAULT_REQUEST_HEADERS={
    'cookie':'sessionid=1232...',
    'Accept':'text/html,...',
    'Accept-Language':'zh-CN,zh',
    'Connection':'keep-alive'
}

启动多个爬虫

如果Scrapy项目包含多个爬虫，可以利用CrawlerProcess类并发执行多个爬虫

# main.py 

from scrapy.utils.project import get_project_settings
from scrapy.crawler import CrawlerProcess

def start():
   	setting = get_project_settings()
   	process = CrawlerProcess(setting)
    
   	# 不运行的爬虫
   	spider_besides=['other']
   	for spider_name in process.spiders.list():
           if spider_name in spider_besides:
               continue
           print('执行爬虫：%s'%(spider_name))
           process.crawl(spider_name)
           process.start()
    
if __name__ == '__main__':
   	start()

Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python如何实现粒子效果如烟雾、火焰、雨滴等. openwin_top python编程示例系列二 python 开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在Panda3D中实现粒子效果主要依赖于其内置的粒子系统。这个系统允许开发者创建各种动态的视觉效果，如烟雾、火焰、雨滴等。下面我将详细介绍如何在Panda3D中添加一个简单的粒子效果。步骤1:准备粒
Python中的机制：全局解释锁和回收机制林十一npc Python语言 python 开发语言
Python中的机制：全局解释锁和回收机制一、全局解释锁GIL1.基础原理全局解释锁：是CPython中引入的一种机制，确保同一时刻保持一个线程执行Python的字节码。锁的粒度：GIL是全局唯一的锁，线程在执行Pyhton代码前必须要获取GIL,执行完毕后进行释放。线程切换：CPython解释器通过固定间隔（如python字节码指令或遇到I/O操作），释放GIL,触发线程切换。底层实现GIL的实
大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署晴天彩虹雨 AI 大模型 ai 语言模型 gpt 人工智能
本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re
python实现简易任务管理器 Roc-xb python 服务器 linux
本章教程，主要利用python实现一个简单的任务管理器，可以快速结束任务进程。目录一、实例代码二、效果演示一、实例代码#!/usr/bin/python#-*-coding:UTF-8-*-"""@author:Roc-xb"""#encoding:utf-8importsubprocessdefexecute_cmd(command):subprocess.run('chcp65001',she
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

python 爬虫 ：scrapy 框架