friklogff

scrapy框架学习笔记-1

前言

在现代互联网时代，网页数据获取和处理已经成为了重要的技能之一。无论是为了获取信息、做市场研究，还是进行数据分析，掌握网页爬取和数据处理技术都是非常有用的。本文将介绍从网页加载到数据存储的完整过程，包括网络请求、数据解析、反爬措施、多任务异步爬虫、数据存储和面向对象编程等内容。通过本文的学习，读者将能够掌握从网页上收集信息的基本原理和技术，以及如何将这些信息进行处理和存储。

网页加载的全过程

假设我们在浏览器输入www.example.com这个网址并回车,会发生以下过程:

浏览器检查本地缓存,看看这个网页是否访问过,如果访问过就直接显示本地缓存内容,不用再到服务器请求。
如果没有本地缓存,浏览器就创建一个HTTP请求,请求www.example.com这个服务器上的网页。
请求发出去,服务器接收到请求后查找网页文件,找到后把网页文件的内容放入HTTP响应返回给浏览器。
浏览器接收到服务器返回的HTML内容,就像得到一块土豆一样,先要洗干净、切块,才能烹饪。浏览器也要解析HTML、CSS、JS,才能显示出漂亮的界面。
浏览器会生成DOM树来存储HTML标签结构,生成CSSOM树来存储CSS样式规则。
浏览器执行页面的JavaScript代码,这可能会修改DOM或CSSOM。
浏览器会将DOM和CSSOM整合形成一棵渲染树,确定每个节点的样式和坐标。
按渲染树来布局,计算每个节点的大小和位置,然后把页面绘制出来。
把绘制好的页面显示在浏览器窗口。
当我们点击、输入时,浏览器会实时响应,重新执行JavaScript、调整样式、重新布局、重绘页面。

我用通俗易懂的语言,详细再给你解释一遍网页的加载过程:

小明输入网址,按下回车键,浏览器听到后开始工作。
浏览器先看看小明是不是之前来过这个网站,如果来过就拿出旧网页给小明看。
如果没来过,浏览器就给网站服务器发个邮件,说想看看你家的网站,请把网页的内容回复我。
网站服务器收到浏览器的邮件,找到网页文件后封入信封回邮给浏览器。
浏览器收到服务器的回信,把信封打开,里面是一堆代码和图片之类的。
浏览器把这些代码和图片像积木一样拼在一起,先建立一个DOM树结构,再确定CSS样式,然后把两棵树合成一棵渲染树。
浏览器按渲染树计算每个部分的位置和大小,然后把网页画出来。
把画好的网页拿给小明看,小明开心地浏览网页了。
如果小明点击网页或者输入内容,浏览器会重新执行代码,重绘页面。

网页加载的渲染的两种形式:

服务器端渲染

服务器收到客户端请求后,使用服务器语言(如PHP)生成整合了数据的HTML内容。
这样浏览器拿到的源代码中已经包含了需要展示的数据。

客户端渲染

浏览器拿到服务器返回的HTML源代码后,开始解析和渲染。
通过执行JavaScript代码,可以实现网页的动态效果和交互。
数据和页面内容的整合在浏览器本地完成。
这样的渲染方式需要通过F12-network，在Fetch/XHR或JS中寻找需要的数据。
preserver log可以记录你访问过的页面，打钩可避免网页302，重定向造成的影响

区分服务器端和客户端渲染非常重要。服务器端渲染可以减轻客户端压力,客户端渲染可以提供更好的交互体验。现代网页开发通常会结合两种渲染方式的优点。

Network面板中的各部分:

Headers
请求头和响应头,显示了请求和响应的所有HTTP头信息,包括通用头和自定义头。重要的头会展开显示,如User-Agent, Cookie, Referer等。
Payload
请求Payload显示发送给服务器的数据体,比如POST请求的表单数据或JSON体。
响应Preview显示接收到的响应结果内容,比如HTML代码,图片文件,JSON数据等。
Cookies
请求Cookies显示请求头中Cookie相关信息。
响应Cookies显示响应头设置的Cookie内容。
可查看Cookie的传递过程。
Initiator
显示发起该请求的资源信息,比如HTML标签引入的img/script/link等。
可了解资源之间的依赖关系。
Timing
累积持续时间:整个请求过程总计耗时。
块级别时间明细:分别显示队列、域名解析、TCP连接、TLS安全连接、请求响应等每个阶段的耗时。
方便找出性能瓶颈。
Response
显示响应状态码(200, 404等)和响应来源(服务端响应,浏览器缓存等)
可快速识别请求是否成功。
筛选条件
可按方法,域名,类型,文本等条件进行过滤,组合使用可保存筛选条件。

requests库的用法:

安装

pip install requests

GET请求

GET请求用于获取服务器的数据。它通过URL的参数传递请求数据。

import requests

params = {'key1': 'value1', 'key2': 'value2'}

response = requests.get('http://httpbin.org/get', params=params)
print(response.url)
# http://httpbin.org/get?key1=value1&key2=value2

requests会将params字典类型自动转换为url参数。
也可以直接将参数拼接到url中:

import requests

response = requests.get('http://httpbin.org/get?key1=value1&key2=value2')

百度搜索实例

https://www.baidu.com/s?tn=85070231_38_hao_pg&wd=总结
https://www.baidu.com/s?tn=85070231_38_hao_pg&wd=%E6%80%BB%E7%BB%93
params = {‘tn’: ‘85070231_38_hao_pg’, ‘wd’: ‘总结’}

POST请求

POST请求用于向服务器发送数据。它通过请求体传递参数。

import requests

data = {'key1': 'value1', 'key2': 'value2'}

response = requests.post('http://httpbin.org/post', data=data)
print(response.text)
# {
#   "form": {
#     "key1": "value1",
#     "key2": "value2"
#   }
# }

requests会自动编码data字典为表单格式。
也可以直接传递字符串:

data = 'key1=value1&key2=value2'
response = requests.post('http://httpbin.org/post', data=data)

此外,还可以传递JSON数据:

import json

data = {'key1': 'value1', 'key2': 'value2'}
data = json.dumps(data) 

response = requests.post('http://httpbin.org/post', data=data)

两种不同实例

Form Data形式
http://www.xinfadi.com.cn/priceDetail.html data = {‘key1’:‘value1’, ‘key2’: ‘value2’}

response = requests.post(‘http://httpbin.org/post’, data=data)
传递字典即可

Request Payload形式
能直观的看到是json类型的数据
两种方案

requests.post(url,json={字典})

requests.post(url,data=json.dumps({字典}),
headers={ “Content-Type” : “application/json; charset=UTF-8” })

HTTP状态码

200系列 - 请求成功,表示服务器成功处理了请求。常见有:

200 OK - 一般请求成功返回此代码
204 No Content - 请求成功但无内容返回

300系列 - 重定向,表示资源已被分配了新的URI。常见有:

301 Moved Permanently - 永久重定向
302 Found - 临时重定向->location
304 Not Modified - 资源未修改,直接使用缓存

400系列 - 客户端错误,表示请求存在语法错误或无法完成请求。常见有:

400 Bad Request - 请求报文存在语法错误
401 Unauthorized - 需要身份认证信息
403 Forbidden - 服务器拒绝请求
404 Not Found - 请求资源不存在

500系列 - 服务器内部错误,表示服务器无法完成请求。常见有:

500 Internal Server Error - 服务器内部错误
503 Service Unavailable - 服务器暂时过载或维护

简单的反爬操作:

请求头:

User-Agent:标识客户端浏览器信息,可用于反爬检测,表示用户用什么设备发送的请求。
- 直接从浏览器复制,用于伪装访问设备。
Cookie:网站用于跟踪会话,可检测非正常Cookie来实现反爬，是服务器记录在浏览器上的一个字符串，写入在本地的一个文件中，作用是和服务器保持住会话，在服务器端叫session。（HTTP请求是无状态请求）
- 1. 从浏览器直接复制,适用于简单场景。
- 1. 使用requests.session()自动保持会话,处理set-cookie,适用于复杂场景。如果网页使用Js维护Cookie,需要自己额外处理。
Referer:标识来源页面,用来检测上一个url是什么,可检测Referer来防止盗链。
- 直接复制来源页面URL,用于伪造访问来源。
网页自定义参数:这是最难处理的,需要通过逆向工程分析参数算法,找到生成参数的代码逻辑。

响应头:

Location:302重定向地址,可设置跳转难以解析的页面用于反爬。
Set-Cookie:设置Cookie,可用于保存难以伪造的Cookie实现访问控制。
网站还可以在这些头部中添加各种参数,来进行访问验证、opensession遥测等,以识别爬虫行为。

requests.Session的用法:

创建Session对象

import requests

session = requests.Session()

首先导入requests模块,然后调用requests.Session()来创建一个Session对象。

设置请求头

可以通过Session对象的headers属性预设请求头,这些头信息将会应用于该Session实例发出的所有请求:

session.headers = {
  'User-Agent': 'Mozilla/5.0',
  'Authorization': 'Bearer xxxxxxxxxxxxx' 
}

设置Cookies

session.cookies.update({
  'name': 'value',
  'foo': 'bar'
})

通过Session的cookies属性可以预设请求中的Cookies。

发送请求

response = session.get(url, params=params)
response = session.post(url, data=data)

可以使用Session对象的get()、post()等方法发送请求。

关闭Session

session.close()

当Session使用完后,可以调用close()方法关闭该Session对象。
相比直接使用requests.get()/post()等函数,使用Session对象的好处是:

避免重复传参,提高效率
自动处理Cookies,实现状态保持
方便REQUESTS头及Cookies的管理

数据解析方法

三种解析HTML数据的方法:

正则表达式re

在html中获取到js的一部分代码(字符串)
使用re.compile()编译正则表达式
re.findall()方法根据正则在文本中提取匹配内容
适用于从文本中提取固定模式的字符串

import re

html = ''

pattern = re.compile(r'var data = "(.*)"') 
result = pattern.findall(html)

调用xpath()提取指定节点

用来解析常规的html结构.
可以获取属性、文本等信息
处理速度快

from lxml import etree

html = etree.HTML(resp.text)
result = html.xpath('//li/text()')

etree的xpath默认返回的是列表.

if ret:
	ret[0]
else:
	XXX

BeautifulSoup

创建BeautifulSoup对象解析.xml,.svg
使用find()/find_all()搜索文档树
获取name、attrs、text等信息
可以处理不规整文档

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
result = soup.find_all('li')

综合来说,正则适合提取固定模式字符串,lxml解析速度快,BeautifulSoup可以应对“烂”文档。

json和jsonp的解析方法:

JSON数据解析

从响应中获取JSON字符串

resp_text = response.text

尝试直接加载解析

try:
    data = response.json() 
except:
    # 处理异常

如果失败,则手动加载解析

import json

data = json.loads(resp_text )

在解析前,一定要打印检查resp_text 确认是标准JSON格式,才进行解析。
如果遇到反爬．你很可能拿到的东西和抓包工具不一致.
切记，先打印resp_text ．确定好你的返回的内容是json格式，才开始转化

JSONP数据解析

JSONP格式如:XXXXXX({json}) => {json}
想办法去掉左右两端的XXXXXX( )=>得到的就是json
“XXXXXX({json}) “.replace(“XXXXXX(”，””)[:-1]
需要去除方法调用部分,保留JSON字符串
得到JSON字符串后,加载解析


以上两张图可以看出XXXXXX为callback值

多任务异步爬虫．多线程，多进程，协程异步I/O

区别

多线程:线程之间共享进程内存空间,线程切换成本低,适合I/O密集作业。但线程不安全,需要锁机制。
多进程:进程有独立内存, Kosten比线程高,适合CPU密集作业。进程间通信复杂,需要IPC。
协程:在单线程中以异步方式实现并发,减少切换带来的消耗。适合I/O密集场景,可大幅提升效率。

适用场景

多线程:爬取大量小页面,线程间共享解析函数等。
多进程:爬取数据规模巨大,CPU密集型数据处理。
协程:需要大量I/O操作的异步爬虫,提高并发量。

实现难度

多线程:线程模块较为简单,难点在线程安全和死锁问题。
多进程:进程间通信和数据传递实现复杂度高。
协程:需理解异步语法,错误调试难度较大。

多线程

原理:导入threading模块,用Thread类创建线程。线程间共享进程内存空间,互不影响,可同时执行。
实例:

from threading import Thread
import requests

def crawl(url):
    r = requests.get(url)
    print(r.text)

t1 = Thread(target=crawl, args=('url1',))
t2 = Thread(target=crawl, args=('url2',))
t1.start()
t2.start()

多进程

原理:导入multiprocessing模块,用Process类创建进程。进程有独立内存空间,需要通过Queue、Pipe等方式通信。
实例:

from multiprocessing import Process, Queue

def crawler(q):
    data = crawl_page() 
    q.put(data)

q = Queue()
p1 = Process(target=crawler, args=(q,))
p2 = Process(target=crawler, args=(q,))
p1.start() 
p2.start()

协程异步I/O

原理:使用async/await语法,进行异步编程。遇await切换到其他协程,不阻塞程序执行。
实例:

import asyncio

async def fetch(url):
    print('fetching')
    return await aiohttp.get(url)
    
async def main():
    await fetch(url1)
    await fetch(url2)
    
loop = asyncio.get_event_loop()
loop.run_until_complete(main())

数据存储

CSV

CSV适合存储表格化数据,如电商订单、用户信息等
可以用Excel等软件方便编辑和查看数据
支持数据交换,可以导入到数据库或其他系统
Python中常用csv模块操作

import csv

# 写入CSV文件
with open('data.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    
    # 写入标题行  
    writer.writerow(['ID', 'Name', 'Age'])  
    
    # 写入数据行
    writer.writerow(['1', '张三', 20])
    writer.writerow(['2', '李四', 25])
    
# 读取CSV文件    
with open('data.csv', 'r') as csvfile:
    reader = csv.reader(csvfile)
    
    # 读取标题    
    headers = next(reader)  
    
    # 读取每行数据
    for row in reader:
        print(row)

字典写入CSV

import csv

with open('data.csv', 'w', newline='') as f:
    fieldnames = ['id', 'name', 'age']
    writer = csv.DictWriter(f, fieldnames=fieldnames)

    writer.writeheader()
    writer.writerow({'id': 1, 'name': '张三', 'age': 20})
    writer.writerow({'id': 2, 'name': '李四', 'age': 25})

Pandas读写CSV并存入Excel

import pandas as pd

df = pd.read_csv('data.csv')
df.to_csv('new_data.csv', index=False)
df.to_excel( "hehe.xls", header=False,index=False)

csv本质是文本文件

f = open("data.csv", modew" , encoding="utf-8")f.write("1")
f.write(" , ")
f.write("张三")
f.write(" , ")
f.write( '"张,三"')
f.write(" , ")
f.write("5000")
f.write(" \n ")
f.write(" , ")
f.write("张四")
f.write(" , ")
f.write( '"张,四"')
f.write(" , ")
f.write("5030")
f.write(" \n ")
import pandas
r = pandas.read_csv ( "data.csv " , sep="," , headen=None)
print(r)
r.to_excel( "hehe.xls", header=False,index=False)

MySQL

数据类型:整型、字符串、日期时间等,设置符合存储需求的字段类型
查询语句:SELECT与WHERE过滤数据,ORDER BY排序,LIMIT分页
联表查询:INNER JOIN,LEFT/RIGHT JOIN 等方式联结多个表GetData
事务处理:START TRANSACTION到COMMIT,处理包含多条SQL语句的事务
Python中操作:

import pymysql

# 连接数据库
conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test')

# 插入数据
cursor = conn.cursor()
cursor.execute("INSERT INTO tb_user VALUES (NULL, '张三', 25)") 
conn.commit()

# 查询数据
cursor.execute("SELECT * FROM tb_user")
result = cursor.fetchall()
print(result)

MongoDB

文档存储:JSON格式灵活存储数据
数据模式自由,无需定义表结构
丰富的查询语言:正则匹配、树形查询、地理位置查询等
Python中操作:

from pymongo import MongoClient

# 连接Mongodb
client = MongoClient('localhost', 27017)
collection = client['testdb']['user']

# 插入文档
data = {'name': '张三', 'age': 25}
collection.insert_one(data)

# 查询文档  
results = collection.find({'age': {'$gt': 20}}) 
for result in results:
    print(result)

Redis

键值对存储,value支持多种数据结构
提供字符串、哈希、列表、集合、有序集合5种数据结构操作
支持事务,具有原子性
丰富的功能:发布订阅、LRU过期等
Python中操作:

import redis

# 连接Redis
r = redis.StrictRedis(host='localhost', port=6379, db=0)

# 字符串操作
r.set('username', '张三') 

# 散列操作
r.hset('user', 'name', '张三')  

# 列表操作
r.lpush('list', 1,2,3)

面向对象编程

编程思想的转变

目前我们编写的代码属于面向过程:

获取页面源代码
解析页面源代码
存储数据

面向过程注重步骤,按照顺序一步步实现功能。
类似我要喝可乐的过程:

从沙发上起来
走到冰箱门前
拿出可乐
喝一口
关上冰箱门

面向对象思维

面向对象编程核心在于思维方式的转变:

你要操纵对象,让对象给你干活
最终结果都是能喝到可乐
让对象去操作

要实现面向对象需要:

定义对象
让对象会进行操作

程序员可以自由构思创造对象,然后定义对象的属性和方法。

创建对象

在Python中通过类(Class)可以创建对象,类是对象的模板,包含对象的属性和方法。
定义一个类:

class Cat:

  def __init__(self, name, age):
    self.name = name
    self.age = age

  def meow(self):
    print("喵喵喵")
    
tom = Cat("汤姆", 3)
tom.meow()

面向对象编程可以提高代码的封装性、继承性和可维护性。需要转换编程思维方式,主要关注对象和类的设计。

总结

本文全面介绍了网页加载、数据处理和存储的关键概念和技术。无论是初学者还是有一定经验的开发者，都能从中受益匪浅。通过掌握这些技能，读者可以更有效地收集和处理网络数据，为各种应用场景提供有力支持。无论是进行数据分析、信息收集、还是网站开发，本文提供了重要的基础知识和实用技巧。希望读者能够积极学习和实践，不断提升自己的技能水平。

特别声明：
此教程为纯技术分享！本教程的目的决不是为那些怀有不良动机的人提供及技术支持！也不承担因为技术被滥用所产生的连带责任！本教程的目的记录分享学习技术的过程

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include