Python中文社区

最新实用Python异步爬虫代理池（开源）

-- Illustrations by Tom Haugomat --

陈键冬

Python中文社区专栏作者，pyecharts开源项目核心开发者。

GitHub:chenjiandongx

项目地址

https://github.com/chenjiandongx/async-proxy-pool

Async Proxy Pool

异步爬虫代理池，以 Python asyncio 为基础，旨在充分利用 Python 的异步性能。

运行环境

项目使用了 sanic，一个异步网络框架。所以建议运行 Python 环境为 Python3.5+，并且 sanic 不支持 Windows 系统，Windows 用户（比如我 smile）可以考虑使用 Ubuntu on Windows。

如何使用

安装 Redis

项目数据库使用了 Redis，Redis 是一个开源（BSD 许可）的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。所以请确保运行环境已经正确安装了 Redis。安装方法请参照官网指南。

下载项目源码

$ git clone https://github.com/chenjiandongx/async-proxy-pool.git

安装依赖

使用 requirements.txt

$ pip install -r requirements.txt

使用 pipenv Pipfile

$ pipenv install

配置文件

配置文件 config.py，保存了项目所使用到的所有配置项。如下所示，用户可以根据需求自行更改。不然按默认即可。

#!/usr/bin/env python
# coding=utf-8
# 请求超时时间（秒）
REQUEST_TIMEOUT = 15
# 请求延迟时间（秒）
REQUEST_DELAY = 0
# redis 地址
REDIS_HOST = "localhost"
# redis 端口
REDIS_PORT = 6379
# redis 密码
REDIS_PASSWORD = None
# redis set key
REDIS_KEY = "proxies"
# redis 连接池最大连接量
REDIS_MAX_CONNECTION = 20
# REDIS SCORE 最大分数
MAX_SCORE = 10
# REDIS SCORE 最小分数
MIN_SCORE = 0
# REDIS SCORE 初始分数
INIT_SCORE = 9
# sanic web host
SANIC_HOST = "localhost"
# sanic web port
SANIC_PORT = 3289
# 是否开启 sanic 日志记录
SANIC_ACCESS_LOG = True
# 批量测试数量
VALIDATOR_BATCH_COUNT = 256
# 校验器测试网站，可以定向改为自己想爬取的网站，如新浪，知乎等
VALIDATOR_BASE_URL = "https://httpbin.org/"
# 校验器循环周期（分钟）
VALIDATOR_RUN_CYCLE = 15
# 爬取器循环周期（分钟）
CRAWLER_RUN_CYCLE = 30
# 请求 headers
HEADERS = {
"X-Requested-With": "XMLHttpRequest",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36",
}

运行项目运行客户端，启动收集器和校验器

# 可设置校验网站环境变量 set/export VALIDATOR_BASE_URL="https://example.com"
$ python client.py
2018-05-16 23:41:39,234 - Crawler working...
2018-05-16 23:41:40,509 - Crawler √ http://202.83.123.33:3128
2018-05-16 23:41:40,509 - Crawler √ http://123.53.118.122:61234
2018-05-16 23:41:40,510 - Crawler √ http://212.237.63.84:8888
2018-05-16 23:41:40,510 - Crawler √ http://36.73.102.245:8080
2018-05-16 23:41:40,511 - Crawler √ http://78.137.90.253:8080
2018-05-16 23:41:40,512 - Crawler √ http://5.45.70.39:1490
2018-05-16 23:41:40,512 - Crawler √ http://117.102.97.162:8080
2018-05-16 23:41:40,513 - Crawler √ http://109.185.149.65:8080
2018-05-16 23:41:40,513 - Crawler √ http://189.39.143.172:20183
2018-05-16 23:41:40,514 - Crawler √ http://186.225.112.62:20183
2018-05-16 23:41:40,514 - Crawler √ http://189.126.66.154:20183
...
2018-05-16 23:41:55,866 - Validator working...
2018-05-16 23:41:56,951 - Validator × https://114.113.126.82:80
2018-05-16 23:41:56,953 - Validator × https://114.199.125.242:80
2018-05-16 23:41:56,955 - Validator × https://114.228.75.17:6666
2018-05-16 23:41:56,957 - Validator × https://115.227.3.86:9000
2018-05-16 23:41:56,960 - Validator × https://115.229.88.191:9000
2018-05-16 23:41:56,964 - Validator × https://115.229.89.100:9000
2018-05-16 23:41:56,966 - Validator × https://103.18.180.194:8080
2018-05-16 23:41:56,967 - Validator × https://115.229.90.207:9000
2018-05-16 23:41:56,968 - Validator × https://103.216.144.17:8080
2018-05-16 23:41:56,969 - Validator × https://117.65.43.29:31588
2018-05-16 23:41:56,971 - Validator × https://103.248.232.135:8080
2018-05-16 23:41:56,972 - Validator × https://117.94.69.166:61234
2018-05-16 23:41:56,975 - Validator × https://103.26.56.109:8080
...

运行服务器，启动 web 服务

$ python server.py
[2018-05-16 23:36:22 +0800] [108] [INFO] Goin' Fast @ http://localhost:3289
[2018-05-16 23:36:22 +0800] [108] [INFO] Starting worker [108]

总体架构

项目主要几大模块分别是爬取模块，存储模块，校验模块，调度模块，接口模块。

爬取模块负责爬取代理网站，并将所得到的代理存入到数据库，每个代理的初始化权值为 INIT_SCORE。
存储模块封装了 Redis 操作的一些接口，提供 Redis 连接池。
校验模块验证代理 IP 是否可用，如果代理可用则权值 +1，最大值为 MAX_SCORE。不可用则权值 -1，直至权值为 0 时将代理从数据库中删除。
调度模块负责调度爬取器和校验器的运行。
接口模块使用 sanic 提供 WEB API 。

/

欢迎页面

$ http http://localhost:3289/
HTTP/1.1 200 OK
Connection: keep-alive
Content-Length: 42
Content-Type: application/json
Keep-Alive: 5
{
"Welcome": "This is a proxy pool system."
}

/pop

随机返回一个代理，分三次尝试。

尝试返回权值为 MAX_SCORE，也就是最新可用的代理。
尝试返回随机权值在 (MAXSCORE -3) - MAXSCORE 之间的代理。
尝试返回权值在 0 - MAX_SCORE 之间的代理

$ http http://localhost:3289/pop
HTTP/1.1 200 OK
Connection: keep-alive
Content-Length: 38
Content-Type: application/json
Keep-Alive: 5
{
"http": "http://46.48.105.235:8080"
}

/get/

返回指定数量的代理，权值从大到小排序。

$ http http://localhost:3289/get/10
HTTP/1.1 200 OK
Connection: keep-alive
Content-Length: 393
Content-Type: application/json
Keep-Alive: 5
[
{
"http": "http://94.177.214.215:3128"
},
{
"http": "http://94.139.242.70:53281"
},
{
"http": "http://94.130.92.40:3128"
},
{
"http": "http://82.78.28.139:8080"
},
{
"http": "http://82.222.153.227:9090"
},
{
"http": "http://80.211.228.238:8888"
},
{
"http": "http://80.211.180.224:3128"
},
{
"http": "http://79.101.98.2:53281"
},
{
"http": "http://66.96.233.182:8080"
},
{
"http": "http://61.228.45.165:8080"
}
]

/count

返回代理池中所有代理总数

$ http http://localhost:3289/count
HTTP/1.1 200 OK
Connection: keep-alive
Content-Length: 15
Content-Type: application/json
Keep-Alive: 5
{
"count": "698"
}

/count/

返回指定权值代理总数

$ http http://localhost:3289/count/10
HTTP/1.1 200 OK
Connection: keep-alive
Content-Length: 15
Content-Type: application/json
Keep-Alive: 5
{
"count": "143"
}

/clear/

删除权值小于等于 score 的代理

$ http http://localhost:3289/clear/0
HTTP/1.1 200 OK
Connection: keep-alive
Content-Length: 22
Content-Type: application/json
Keep-Alive: 5
{
"Clear": "Successful"
}

扩展爬取网站

在 crawler.py 文件里新增你自己的爬取方法。

class Crawler:
@staticmethod
def run():
...
# 新增你自己的爬取方法
@staticmethod
@collect_funcs # 加入装饰器用于最后运行函数
def crawl_xxx():
# 爬取逻辑

sanic 性能测试

使用 wrk 进行服务器压力测试。基准测试 30 秒, 使用 12 个线程, 并发 400 个 http 连接。

测试 http://127.0.0.1:3289/pop

$ wrk -t12 -c400 -d30s http://127.0.0.1:3289/pop
Running 30s test @ http://127.0.0.1:3289/pop
12 threads and 400 connections
Thread Stats Avg Stdev Max +/- Stdev
Latency 350.37ms 118.99ms 660.41ms 60.94%
Req/Sec 98.18 35.94 277.00 79.43%
33694 requests in 30.10s, 4.77MB read
Socket errors: connect 0, read 340, write 0, timeout 0
Requests/sec: 1119.44
Transfer/sec: 162.23KB

测试 http://127.0.0.1:3289/get/10

Running 30s test @ http://127.0.0.1:3289/get/10
12 threads and 400 connections
Thread Stats Avg Stdev Max +/- Stdev
Latency 254.90ms 95.43ms 615.14ms 63.51%
Req/Sec 144.84 61.52 320.00 66.58%
46538 requests in 30.10s, 22.37MB read
Socket errors: connect 0, read 28, write 0, timeout 0
Requests/sec: 1546.20
Transfer/sec: 761.02KB

性能还算不错，再测试一下没有 Redis 操作的 http://127.0.0.1:3289/

$ wrk -t12 -c400 -d30s http://127.0.0.1:3289/
Running 30s test @ http://127.0.0.1:3289/
12 threads and 400 connections
Thread Stats Avg Stdev Max +/- Stdev
Latency 127.86ms 41.71ms 260.69ms 55.22%
Req/Sec 258.56 92.25 520.00 68.90%
92766 requests in 30.10s, 13.45MB read
Requests/sec: 3081.87
Transfer/sec: 457.47KB

Requests/sec: 3081.87

关闭 sanic 日志记录，测试 http://127.0.0.1:3289/

$ wrk -t12 -c400 -d30s http://127.0.0.1:3289/
Running 30s test @ http://127.0.0.1:3289/
12 threads and 400 connections
Thread Stats Avg Stdev Max +/- Stdev
Latency 34.63ms 12.66ms 96.28ms 58.07%
Req/Sec 0.96k 137.29 2.21k 73.29%
342764 requests in 30.10s, 49.69MB read
Requests/sec: 11387.89
Transfer/sec: 1.65MB

Requests/sec: 11387.89

实际代理性能测试

test_proxy.py 用于测试实际代理性能

运行代码

$ cd test
$ python test_proxy.py
# 可设置的环境变量
TEST_COUNT = os.environ.get("TEST_COUNT") or 1000
TEST_WEBSITE = os.environ.get("TEST_WEBSITE") or "https://httpbin.org/"
TEST_PROXIES = os.environ.get("TEST_PROXIES") or "http://localhost:3289/get/20"

实测效果

https://httpbin.org/

测试代理： http://localhost:3289/get/20
测试网站： https://httpbin.org/
测试次数： 1000
成功次数： 1000
失败次数： 0
成功率： 1.0

https://taobao.com

测试代理： http://localhost:3289/get/20
测试网站： https://taobao.com/
测试次数： 1000
成功次数： 984
失败次数： 16
成功率： 0.984

https://baidu.com

测试代理： http://localhost:3289/get/20
测试网站： https://baidu.com
测试次数： 1000
成功次数： 975
失败次数： 25
成功率： 0.975

https://zhihu.com

测试代理： http://localhost:3289/get/20
测试网站： https://zhihu.com
测试次数： 1000
成功次数： 1000
失败次数： 0
成功率： 1.0

可以看到其实性能是非常棒的，成功率极高。 wink

实际应用示例

import random
import requests
# 确保已经启动 sanic 服务
# 获取多个然后随机选一个
try:
proxies = requests.get("http://localhost:3289/get/20").json()
req = requests.get("https://example.com", proxies=random.choice(proxies))
except:
raise
# 或者单独弹出一个
try:
proxy = requests.get("http://localhost:3289/pop").json()
req = requests.get("https://example.com", proxies=proxy)
except:
raise

aiohttp 的坑

整个项目都是基于 aiohttp 这个异步网络库的，在这个项目的文档中，关于代理的介绍是这样的。

划重点：aiohttp supports HTTP/HTTPS proxies

但是，它根本就不支持 https 代理好吧，在它的代码中是这样写的。

划重点：Only http proxies are supported

我的心情可以说是十分复杂的。astonished 不过只有 http 代理效果也不错没什么太大影响，参见上面的测试数据。

参考借鉴项目

ProxyPool
proxy_pool

License

Python中文社区

全球Python中文开发者的

精神部落

Python中文社区作为一个去中心化的全球技术社区，以成为全球20万Python中文开发者的精神部落为愿景，目前覆盖各大主流媒体和协作平台，与阿里、腾讯、百度、微软、亚马逊、开源中国、极客邦、CSDN等业界知名公司和技术社区建立了广泛的联系，拥有来自十多个国家和地区数万名登记会员，会员来自以公安部、工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司，全平台近20万开发者关注。

最近热门文章

用Python分析苹果公司股价数据

Nginx+uwsgi部署Django应用

用文本挖掘剖析近5万首《全唐诗》

Python自然语言处理分析倚天屠龙记

Python 3.6实现单博主微博文本、图片及热评爬取

▼ 点击下方阅读原文，免费成为社区会员

你可能感兴趣的:(最新实用Python异步爬虫代理池（开源）)

一周学会Flask3 Python Web开发-Jinja2模板访问对象 java1234_小锋 Flask3视频教程 python flask flask3 Jinja2
锋哥原创的Flask3PythonWeb开发Flask3视频教程：2025版Flask3Pythonweb开发视频教程(无废话版)玩命更新中~_哔哩哔哩_bilibili如果渲染模板传的是对象，如果如何来访问呢？我们看下下面示例：定义一个Student类classStudent:def__init__(self,name,age):self.name=nameself.age=age构造一个对象，
2024 Android面试心得，已拿到offer 2401_89820624 android 面试职场和发展
二、Java垃圾回收机制需要理解JVM，内存划分——方法区、内存堆、虚拟机栈（线程私有）、本地方法栈（线程私有）、程序计数器（线程私有）,理解回收算法——标记清除算法、可达性分析算法、标记-整理算法、复制算法、分代算法，优缺点都理解下。详细的可以看看其他同学写的点击打开链接三、类加载机制这个可以结合热修复深入理解下。点击打开链接四、线程和线程池，并发，锁等一系列问题这个可以扩展下如何自己实现一个线
Python函数式编程 2401_86372470 python 开发语言 windows
是函数的返回值，注意这里不需使用return关键字。我们将上面的double函数改写成一个匿名函数，如下：1.lambdax:2*x那怎么调用匿名函数呢？可以直接这样使用：1.>>>(lambdax:2*x)(8)2.16由于匿名函数本质上是一个函数对象，也可以将其赋值给另一个变量，再由该变量来调用函数，如下：1.>>>f=lambdax:2*x#将匿名函数赋给变量f2.>>>f3.at0x7f8
Python 框架学习 Django篇 (六) 数据表关联_django orm 的 __ 链表,使用什么链接方式 2401_86372470 python 学习 django
表之间以对多的关系就是数据库中的“外键”，下面我们举个例子，比如一个医药系统中肯定会有客户的信息吧，我们先定义一个客户的基本信息（客户名称、联系电话、居住地址）viDjango_demo/paas/models.pyclassCustomer(models.Model):#客户名称name=models.CharField(max_length=200)#联系电话phonenumber=model
问题：Flask应用中的用户会话(Session)管理失效 m0_74823094 面试学习路线阿里巴巴 flask python 后端
我来分享一个常见的PythonWeb开发问题：问题：Flask应用中的用户会话(Session)管理失效这是一个在Flask开发中经常遇到的问题。当用户登录后，有时会话会意外失效，导致用户需要重复登录。解决方案：1.首先，确保正确设置了SecretKey：fromflaskimportFlask,sessionapp=Flask(__name__)设置一个安全的密钥pp.secret_key=‘y
【PCL】vs2022配置PCL环境 IT小学僧点云 python 数据结构算法
vs2022配置PCL环境前言一、安装教程二、路径python脚本前言vs2022配置PCL环境和路径Python脚本一、安装教程看这位兄弟写的就行二、路径python脚本因为我和他的版本并不一样，一个一个改太麻烦了，所以特此写了个python脚本。请注意要脚本中OpenNI2位置，修改成你的位置即可。importos#查找给定路径中的PCL依赖库defdependency(paths):#将输入
Python入门教程丨3.5 正则表达式凌小添 Python教程 python 正则表达式 mysql
今天我们来学习Python里超实用的字符串匹配和正则表达式。这是处理文本数据的神器，无论是爬虫、数据清洗还是文本分析，都离不开它，我们从基础语法讲起，再到实战场景，深入体会正则的妙用。1.re库正则表达式（RegularExpression，简称regex或regexp）是一种用来匹配字符串的强大工具。它由一串字符和特殊符号组成，用于描述或匹配一系列符合某种模式的字符串。正则表达式广泛应用于文本搜
Anconda/Poetry创建虚拟环境，并利用Pycharm设置该虚拟环境 up_learning pycharm python
一、当没有使用poetry做项目管理时1、通过cmd终端创建虚拟环境python-mvenv.venv#或者通过该方式安装虚拟环境（其中指定python版本，并安装两个必要软件）：condacreate-nvenvpython=3.7.16setuptoolspip--offline#通过cd进入conda安装目录下可以查看所有的虚拟环境，或者下面命令condaenvlist#退出当前的虚拟环境c
【python库】Pydantic 陆·柒 python pydantic
什么是PydanticPydantic是一个Python库，主要用于数据验证和设置管理。它使用Python的类型提示（typehints）来定义数据的结构，并在运行时验证数据是否符合定义的结构。简单来说，它可以确保数据的准确性和完整性，帮助开发人员在早期发现数据相关的问题。例如，在处理用户输入、API响应或者配置文件时，Pydantic可以验证数据的格式、类型和取值范围等是否正确用法总结数据定义和
Python数据处理掌握Pandas.to_datetime函数时间序列（参数解析与实战）步入烟尘 Python超入门指南全册 python pandas 开发语言时间函数参数解析
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
SpringBoot 监控 SQL 运行情况（实战教程） 153_m0_67912929 spring boot sql 后端
1基本概念2添加依赖3配置相关属性4sql监控5慢sql记录6spring监控7去Ad（广告）8获取Druid的监控数据1基本概念Druid是Java语言中最好的数据库连接池。虽然HikariCP的速度稍快，但是，Druid能够提供强大的监控和扩展功能，也是阿里巴巴的开源项目。Druid是阿里巴巴开发的号称为监控而生的数据库连接池，在功能、性能、扩展性方面，都超过其他数据库连接池，包括DBCP、C
【重要】如何使用Poetry做python项目开发：虚拟环境创建、软件分发？ fK0pS 经验分享
如何使用Poetry做python项目开发：虚拟环境创建、软件分发？#TraceVisualizationGUI#Step1:生成GUI*.ui文件对应的python文件cd.\visualizationgui\pyuic5-oTraceVisualization.py.\GUI\TraceVisualization.ui#Step2:Packagesoftwarepipinstallpoetry
Python poetry 虚拟环境 IT小学僧 Python 1024程序员节 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、Poetry是什么？二、使用步骤1.安装poetry2、初始化poetry3、创建虚拟环境启动和退出虚拟环境poetry常用指令总结一、Poetry是什么？Poetry是一个Python依赖管理和打包工具，它简化了项目的创建、依赖管理和发布流程。它的核心理念是将所有的依赖关系和项目配置集中在一个文件中，使得项目管理变得更加
2024-2025最新软考系统架构设计师的复习资料教材，解决如何快速高效通过该考试，试题的重点和难点在哪里？案例分析题和论文题的要点和踩坑点分析九张算数数字工匠系统架构学习方法职场和发展运维开发 pat考试考研面试
目录引言考试概述考试结构考试内容复习策略制定复习计划学习资源知识点详解系统架构基础设计原则与模式系统分析与设计软件开发过程项目管理系统集成性能与优化安全性设计新兴技术试题解析选择题案例分析题论文题重点与难点分析模拟试题与答案参考资料总结引言系统架构设计师考试是软考高级资格考试之一，旨在考察考生在系统架构设计领域的综合能力和专业知识。通过该考试可以获得系统架构设计师资格认证，对职业发展有重要意义。本
库存python whl文件免费下载（4）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
库存python whl文件免费下载（3）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
SSM框架整合大揭秘：Spring+SpringMVC+MyBatis配置详解与实战小柒笔记 spring mybatis java
在JavaWeb开发中，SSM（Spring、SpringMVC、MyBatis）框架是常用的技术栈，它们分别负责业务逻辑层、控制层和数据访问层。本文将详细介绍如何整合这三个框架，并通过实例进行说明。SSM框架简介Spring：Spring是一个开源的企业级Java应用框架，它提供了IoC（控制反转）和AOP（面向切面编程）等特性，可以简化Java企业应用的开发。SpringMVC：SpringM
还不会用DeepSeek？看这篇就懂啦 t0_54coder 【AI】人工智能实用技术人工智能
在人工智能飞速发展的今天，DeepSeek作为一款强大的工具崭露头角。很多小伙伴可能听说过它，却不知道怎么用。别着急，这篇文章就手把手教你，保证通俗易懂，还有超多实用案例，让你快速上手！一、认识DeepSeekDeepSeek是一家专注通用人工智能（AGI）的中国科技公司，致力于大模型的研发与应用。它开源的推理模型DeepSeek-R1非常厉害，性能和OpenAI-o1正式版相当，而且可以免费商用
部署 Llama 3.1 405B：分步指南,深入研究 Llama 最新模型 Llama 3.1 4050 亿参数模型的部署。这个强大的模型需要大量的 VRAM，特别是 4 位量化版本需要 231 G 知识大胖 NVIDIA GPU和大语言模型开发教程 llama ai
简介今天，我们将深入研究Llama最新模型Llama3.14050亿参数模型的部署。这个强大的模型需要大量的VRAM，特别是4位量化版本需要231GB。但是，经过一些优化，我们可以使用8x4090GPU在192GB上运行它。最好的部分？我们只需要运行三个终端命令即可完成所有设置。推荐文章《使用DSPy、Qdrant和Llama3对复杂问题进行多跳检索和推理,利用DSPy的无提示框架进行复杂的LLM
python自动化办公 2501_90802096 python
好的！以下是一篇关于“Python自动化办公”的专业文章，介绍如何使用Python实现日常办公任务的自动化，包括处理Excel和Word文件、发送邮件、自动化网页操作等内容。这些技能可以帮助办公人员节省时间、提高效率。---Python自动化办公：高效处理日常任务一、引言在现代办公环境中，重复性任务占据了大量时间和精力，例如数据录入、文件整理、报表生成和邮件发送等。Python作为一种强大的编程语
python在web开发中的应用 2501_90802096 python
Python在Web开发中的应用：框架、技术与实战案例一、引言Python作为一种简洁、高效且功能强大的编程语言，在Web开发领域备受开发者青睐。其丰富的生态系统和活跃的社区支持使得Python成为构建各类Web应用的理想选择。本文将介绍Python在Web开发中的应用，涵盖主流框架、开发技术以及实战案例，帮助读者快速掌握PythonWeb开发的核心技能。---二、PythonWeb开发框架Pyt
python数据分析基础002 -使用matplotlib绘图（散点图，条形图，直方图） 2401_84139192 程序员 python 数据分析 matplotlib
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
库存python whl文件免费下载（1）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
SAM应用：医学图像和视频中的任何内容分割中的基准测试与部署烧技湾 AI &Computer Vision SAM MED2SAN 医学图像分割分割一切
医学图像和视频中的任何内容分割：基准测试与部署目录摘要：一、引言1.1SAM2在医学图像和视频中的应用二.结果2.1数据集和评估协议2.2二维图像分割的评估结果三讨论四局限性和未来的工作五、方法5.1数据来源和预处理5.2微调协议5.3评估指标总结关键字：SAM、分割一切基础模型、医学图像、视频、多模态最近医学分割模型发展迅速，基于SAM的医学图像处理得到了进一步的发展。为了追踪医学图像处理的最新
基于Python的冒泡排序,选择排序,插入排序(适合小白体质的宝宝们) 心碎小猫p 算法数据结构
一.冒泡排序:1.原理：相邻运算两两相比较，将大的向后移，第一轮全部两两比较完毕后，最大值就在最大索引处。依此类推，每轮都会找到一个"最大值"，并将其置于当前轮次的最后位置，直到结束。2.具体思路：以下述列表为例：35472第一轮：第一次比较：位于0索引的数字3，将与位于1索引的数字5进行比较，数字5比数字3大，因此数字3和数字5的位置不需要改变。第二次比较：位于1索引的数字5和位于2索引的数字4
背包问题-动态规划算法(附带Python代码解析) 心碎小猫p 算法动态规划 python
一.背包问题概述：给定n种物品和一个容量为capacity的背包，其中每一个物品的重量和价值已知。问：应该如何选择装入背包的物品，使得装入背包中的物品的总价值最大？二.分析过程：1.思路：对于每一个物品只有两种选择，第一种情况：装入当前物品；第二种情况：不装入当前物品。我们从第一个物品开始，将其重量和背包容量进行比较，如果比背包容量小，则选择将这个物品装入背包，记录它的价值（如果比背包容量大，忽略
DPVS_dpvs学习笔记: 2 启动流程熊勒个猫 DPVS
整个工程量其实不大，截止到现在dpvs代码量只有不到2w行，相当轻量级了，和当年redis开源时体量相当。整体架构先看架构图，对外交互层controlplane比较像lvs，不会陌生。LoadBalancer模块根据lvs翻译而来，支持大家常用的几种转发模式。和lvs差别最大的地方就是，dpvs自己实现了轻量级的tcp协义栈，并且在用户层模拟了网卡，就是最下面的NetDevices层。为什么要自己
逻辑回归分类python实例_Python逻辑回归原理及实际案例应用 Zcc四月逻辑回归分类python实例
前言目录1.逻辑回归2.优缺点及优化问题3.实际案例应用4.总结正文在前面所介绍的线性回归,岭回归和Lasso回归这三种回归模型中,其输出变量均为连续型,比如常见的线性回归模型为:其写成矩阵形式为:现在这里的输出为连续型变量,但是实际中会有'输出为离散型变量'这样的需求,比如给定特征预测是否离职(1表示离职,0表示不离职).显然这时不能直接使用线性回归模型,而逻辑回归就派上用场了.1.逻辑回归引用
【AI-38】为什么开源的是预训练好的模型权重，而不是预训练模型呢？ W Y 人工智能 DeepSeek
开源预训练好的模型权重而不是整个预训练模型，主要有以下几方面原因：知识产权与商业考量保护核心技术与数据：模型开发者可能希望保护模型的某些核心技术细节、独特算法或私有数据，这些是模型的关键竞争力所在。只开源权重可以让开发者在分享部分成果的同时，保留对核心部分的控制权，避免技术泄露。例如，一些企业在研发大模型时，使用了独特的数据清洗和标注方法，或者在模型架构上有创新的设计，他们可能不想公开这些细节，以
Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用 mosquito_lover1 python 深度学习 pytorch cnn
人脸识别技术是一种基于人脸特征进行身份识别的生物识别技术，其核心原理包括人脸检测、人脸对齐、特征提取、特征匹配、身份识别。一、应用场景安防：门禁、监控。金融：刷脸支付、身份验证。社交：自动标注、美颜。医疗：患者身份确认、情绪分析。二、关键技术深度学习：CNN在人脸检测、特征提取中表现优异。大数据：大规模数据集（如LFW、MegaFace）提升模型泛化能力。硬件加速：GPU、TPU等加速计算，提升实
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在