沐码人

Python爬虫实战——搭建自己的IP代理池

如今爬虫越来越多，一些网站网站加强反爬措施，其中最为常见的就是限制IP，对于爬虫爱好者来说，能有一个属于自己的IP代理池，在爬虫的道路上会减少很多麻烦

环境参数

工具	详情
服务器	Ubuntu
编辑器	Pycharm
第三方库	requests、bs4、redis

搭建背景

之前用Scrapy写了个抓取新闻网站的项目，今天突然发现有一个网站的内容爬不下来了，通过查看日志发现是IP被封，于是就有了这篇文章。

思路

一般出售IP代理的都会提供一些免费代理，既然是免费的就不要浪费，我们只要把免费的代理爬下了，及时维护和更新就可以把免费的变成我们自己的代理池

编写爬虫

搜索免费代理会有很多结果，一般情况大部分都可以使用，这里以其中一家代理为例，打开代理网站以后，首先通过浏览器查看代码，然后分析代码开始编写爬虫

网站源代码


...
<tr class="success">
	<td class="ip"><div style="display:inline-block;">div>
	<span style="display:inline-block;">59span><span style="display:inline-block;">.1span><div style="display:inline-block;">div><p style="display:none;">0p><span>0span><span style="display:inline-block;">span><span style="display:inline-block;">8.span><div style="display:inline-block;">12div><span style="display:inline-block;">5span><p style="display:none;">p><span>span><p style="display:none;">p><span>span><div style="display:inline-block;">.2div><div style="display:inline-block;">41div>:<span class="port GEGEA">8080span>td>
<td><a title="高匿代理IP" style="color:red;" class="href">高匿a>td>
<td><a title="http代理IP" class="href">httpa>td>
<td><a title="中国代理IP" class="href">中国a>  
<a title="北京代理IP" class="href">北京a>  
<a title="北京代理IP" class="href">北京a> td><td><a title="方正宽带代理IP" class="href">方正宽带a>td>
<td>2.786 秒td><td>7分钟前td><td style="color: green; font-weight: bold;">11天td>tr>
....

通过上面一条数据可以看出，提供者为防止网站被爬取还是做了一些防范措施，但是我们可以使用正则表达式取出IP地址和端口号。
使用正则表达式的时候我们一般会有两种思路

1.提取数字和点.
2.过滤html标签,保留我们想要的数字和点

这里我们以第二种方法为例

soup = BeautifulSoup(html, 'html.parser')
data = soup.find('td', class_='ip')
res=re.compile('|<.*?>',re.S)
proxy=re.sub(res, '', str(data))
print(proxy)

# 59.108.125.241:8080

这个时候IP地址和端口号就提取出来了，当你把整个网页的代理地址都提取出来以后，你会发现没有一个可以使用的。

这是为什么呢？难道是代理商提供的免费代理都是垃圾，其实不然，细心的你可能会发现你匹配的端口和他们官网显示的端口号不一样，很显然他们的端口号是通过js动态加载的，遇到这种情况，我们一般也会想到2种解决方案

使用selenium
破解js
如果加密方式复杂、js文件很多，无从下手时可以使用selenium，好在我们今天爬取的这个网站js文件不是很多，通过打断点，很容易定位到我们要解密的js文件，下面我就分享一下的我解决方法

破解js

找到对应的js文件

可以给网站中的每个js文件打断点，一步步调试找出影响数据的js文件,通过调试我找到这样一个文件

eval(function(p,a,c,k,e,d){e=function(c){return(c<a?"":e(parseInt(c/a)))+((c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--)d[e(c)]=k[c]||e(c);k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1;};while(c--)if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);return p;}('1M(17(p,a,c,k,e,r){e=17(c){18(c1s?1b.1r(c+1q):c.1v(1u))};19(!\'\'.1a(/^/,1b)){1c(c--)r[e(c)]=k[c]||e(c);k=[17(e){18 r[e]}];e=17(){18\'\\\\w+\'};c=1};1c(c--)19(k[c])p=p.1a(1t 1y(\'\\\\b\'+e(c)+\'\\\\b\',\'g\'),k[c]);18 p}(\'i h$=[\\\'\\\\E\\\\n\\\\x\\\\s\\\\j\\\',"\\\\l\\\\m\\\\v\\\\o","\\\\o\\\\j\\\\G\\\\p","\\\\r\\\\q\\\\H\\\\l\\\\I\\\\J\\\\K",\\\'\\\\M\\\',"\\\\m\\\\j\\\\j\\\\s",\\\'\\\\v\\\\p\\\\m\\\\k\\\\k\\\',"\\\\k\\\\n\\\\p\\\\r\\\\j","\\\\O","","\\\\p\\\\l\\\\q\\\\Q\\\\j\\\\o","\\\\n\\\\R\\\\k\\\\o",\\\'\\\\S\\\\T\\\\V\\\\z\\\\A\\\\B\\\\C\\\\D\\\\u\\\\F\\\',"\\\\n\\\\m\\\\s\\\\k\\\\l\\\\u\\\\q\\\\j","\\\\16\\\\x\\\\r\\\\q",\\\'\\\'];$(y(){$(h$[0])[h$[1]](y(){i a=$(t)[h$[2]]();L(a[h$[3]](h$[4])!=-w){N};i b=$(t)[h$[5]](h$[6]);P{b=(b[h$[7]](h$[8]))[w];i c=b[h$[7]](h$[9]);i d=c[h$[10]];i f=[];U(i g=W;g>Y)}Z(e){}})})\',1A,1B,\'|||||||||||||||||1C|1x|1z|1p|1h|1i|1d|1e|1f|1m|1n|1o|1g|1k|1l|1j|1W|17|1X|1Y|1V|1S|1T|1U|1Z|23|25|24|20|21|19|22|18|1R|1H|1I|1J|1G|1D|1E|1F|1O|1P|1Q|1N|||||||1K\'.1L(\'|\'),0,{}))',62,130,'|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||function|return|if|replace|String|while|x70|x68|x6c|this|x65|x61|0x1|x49|x63|x6e|x69|x72|x73|29|fromCharCode|35|new|36|toString|parseInt|var|RegExp|x74|62|69|_|x42|for|x43|x41|try|x67|x75|x6a|split|eval|catch|0x0|window|0x3|x20|x47|x48|x2e|x46|x6f|x44|x45|x5a|x4f|x66|x2a|x6d|x78|x64'.split('|'),0,{}))

解密js文件

很显然上面这个文件是加密压缩过的，通过在线解密工具，两次解密以后我们得到这样一个方法，有点js基础的同学应该能看的懂，但是还是不够直观，因为这个方法首先定义了一个数组，每个变量都是用数组切片的方式代替，所以一眼很难看出加密方式

var _$ = ['\x2e\x70\x6f\x72\x74', "\x65\x61\x63\x68", "\x68\x74\x6d\x6c", "\x69\x6e\x64\x65\x78\x4f\x66", '\x2a', "\x61\x74\x74\x72", '\x63\x6c\x61\x73\x73', "\x73\x70\x6c\x69\x74", "\x20", "", "\x6c\x65\x6e\x67\x74\x68", "\x70\x75\x73\x68", '\x41\x42\x43\x44\x45\x46\x47\x48\x49\x5a', "\x70\x61\x72\x73\x65\x49\x6e\x74", "\x6a\x6f\x69\x6e", ''];
$(function() {
	$(_$[0])[_$[1]](function() {
		var a = $(this)[_$[2]]();
		if (a[_$[3]](_$[4]) != -0x1) {
			return
		};
		var b = $(this)[_$[5]](_$[6]);
		try {
			b = (b[_$[7]](_$[8]))[0x1];
			var c = b[_$[7]](_$[9]);
			var d = c[_$[10]];
			var f = [];
			for (var g = 0x0; g < d; g++) {
				f[_$[11]](_$[12][_$[3]](c[g]))
			};
			$(this)[_$[2]](window[_$[13]](f[_$[14]](_$[15])) >> 0x3)
		} catch (e) {}
	})
})

通过对数组的拆分，你会发现上面方法的核心内容可以简化成这样

    var f = []; 
    var c="GEGEA".split(""); 
	for (var g = 0; g < c.length; g++) {
		f.push('ABCDEFGHIZ'.indexOf(c[g]))
	};

我来解释一下这个代码片段，首先"GEGEA"这个值是怎么来的？这个值不是固定的，而是网页源码中class=‘port GEGEA’ port的同级class，获取到这个class以后，先把它转为数组，判断数组中的每个元素在’ABCDEFGHIZ’中的位置，会得到一个类似这样的数组[6, 4, 6, 4, 0]，再把这个新数组转为字符串，然后位移，就可以得到真实的端口号,所以可以把解密函数简化成这样

    // 定义一个数组，用于记录class在'ABCDEFGHIZ'出现的位置
    var f = []; 
    // 把class转为一个数组
    var c="GEGEA".split(""); 
    // 根据数组的长度记录数组中每个元素在'ABCDEFGHIZ'出现的位置
	for (var g = 0; g < c.length; g++) {
		f.push('ABCDEFGHIZ'.indexOf(c[g]))
	};
	// 把数组转为字符串,再进行运算
	var port=f.join('')>>0x3
	// 得到真实的端口号
	console.log(port)

如果上面的js解密步骤你已经理解，接下来用python重写一下这个解密步骤很会简单很多，具体代码如下所示

# port_class 是源代码port的同级class
def parse_port(self,port_class):
        string = 'ABCDEFGHIZ'
        arr = list(port_class)
        lists = []
        for x in range(0, len(arr)):
            lists.append(string.find(arr[x]))

        ports = ''.join(str(x) for x in lists)
        return int(ports) >> 3

这段python代码和上面的js代码逻辑一致，效果也一样，只不过是用python翻译了一遍。

到这里爬虫的难点我们都解决了，现在要做的是把爬取下来的代理存储到redis里面。
至于为什么用redis存储，有以下几点原因：

redis相比mysql、文件写入速度更快
使用redis里的集合特性，不用担心有重复数据
项目中使用了分布式爬虫，存到redis中方便多台服务器调用

IP代理池添加和维护

下面分为4个步骤来分享一下IP代理池的维护

安装redis
不同系统redis的安装方法不同，本文以Ubuntu为空

apt-get install redis-server

redis 安装好以后会自动安装一个客户端redis-cli,我们可以通过redis-cli对数据的增删改查,比如：

# 进入客户端
redis-cli
# 添加一条数据
set name 'hello world'
# 获取name的值
get name

但是我们总不能把IP代理地址一个个手动添加到redis里，所以我们还要安装一个python操作redis的模块

这个模块名刚好也叫redis

pip install redis

模块安装好我们就可以通过python管理redis里的数据了
redis有5种数据类型分别为：string(字符串),hash(哈希),list(列表),set(集合)及zset(有序集合)，我们这里主要使用set(集合)

添加IP代理地址到redis

# 导入模块
import redis
# 连接到Redis服务器
conn = redis.Redis(host='127.0.0.1', port=6379)
# 添加数据 key 可以更加自己的需求设置
conn.sadd('proxy','119.179.0.1:8083')
# 随机取出一条代理地址
conn.redis.srandmember('proxy')

验证IP代理是否有效
可以在存入的时候可以验证，也可以在取的时候验证代理是否有效,但是如果存入的时候就验证，取得时候有可能已经不能使用

# 导入模块
import redis
import requests
# 连接到Redis服务器
conn = redis.Redis(host='127.0.0.1', port=6379)
# 随机取出一条代理数据
ip=conn.redis.srandmember('proxy')
print(ip)

url='https://www.baidu.com'
proxies = {
            "http": "http://" + ip.decode("utf-8")
        }
        
# 使用IP代理访问百度，测试代理地址是否有效
try:
    data = requests.get(url=url, proxies=proxies, timeout=5)
except:
    # 代理地址无效

删除无效的IP代理

验证IP代理是否无效，如果代理地址无效，可以使用以下命令删除代理，这样可以保证我们代理池中的地址都是有效的

conn.redis.srem('proxy', '无效的IP代理地址')

最后把获取代理的步骤封装成一个方法，在需要代理的地方调用即可

到这里我们的代理池就搭建好了，如果感觉只有一个网站的数据不能我们使用，只需要多爬取几个免费代理及时维护就可以啦。

对于大多数爬虫初学者来说，其实爬取一个没有反爬的网站不是什么难事，无非就是把网站的源代码获取下来，然后使用bs4或者正则表达式来提取数据,这里我专门找来一个有反爬的网站，就是想让大家感受一下反爬的流程，当然这也是很简单的一个。

对于代理池的搭建记住三点即可：

添加IP代理
验证IP代理是否有效
及时删除无效代理

总结：本文用一半的篇幅再和大家分享JS破解的步骤，对于没有JS基础的同学看起来会有点吃力，但是通过python的解密步骤，可能会让你对JS加密流程有个大致了解。reids的操作可以参考具体文档

JS在线解密工具

https://tool.lu/js/

参考文档

https://pypi.org/project/redis/

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#

爬取网站

http://www.goubanjia.com

源代码

https://github.com/iyuyoung/proxy_pool

案例
https://www.mphot.cn

Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
Python 代码库之如何获取数据array最后一个元素（含demo源码） iCloudEnd
Python代码库之如何获取数据array最后一个元素（含demo源码）源码>>>some_list=[1,2,3]>>>some_list[-1]=3#Setthelastelement>>>some_list[-2]=2#Setthesecondtolastelement>>>some_list[1,2,3]更多精彩代码请关注我的专栏reportlab教程和源码大全python源码大全Sqli
Python,Rust开发关停大脑APP Geeker-2025 python rust
要关停名为“大脑”的APP，具体实现方式取决于APP的运行环境和架构。以下是针对不同场景的Python和Rust解决方案：---###**场景1：终止本地进程（适合桌面/服务端应用）**####Python方案（使用`psutil`库）```pythonimportpsutildefstop_brain_app():target_name="brain_app"#替换为实际进程名forprocin
Python,Java,C++开发磁悬浮原理与技术实操APP Geeker-2025 python java c++
#磁悬浮原理与技术实操APP技术方案基于Python、Java和C++开发的磁悬浮原理学习与应用APP，结合理论教学与实操模拟：##系统架构设计```mermaidgraphTDA[跨平台客户端-C++/Qt]-->|API调用|B[后端服务-Java/Spring]B-->C[磁悬浮模拟引擎-Python]B-->D[硬件控制接口]C-->E[物理模型计算]D-->F[磁悬浮套件]A-->G[3
Python,C++开发电学/动力学与发明创造APP
#电学/动力学与发明创造APP-Python与C++集成解决方案##系统架构设计```mermaidgraphTDA[用户界面-Qt/PyQt]-->B[应用逻辑层-Python]B-->C[核心引擎-C++]C-->D[硬件接口]C-->E[物理引擎]B-->F[3D可视化]F-->G[OpenGL/Vulkan]```##技术栈分工|组件|技术|功能||------|------|------
Python,Go开发光电效应与日常应用APP Geeker-2025 python golang
以下是一个基于Python与Go开发的光电效应科普与应用APP的完整技术方案，结合了物理原理模拟、实时数据处理及生活场景应用，参考了工业级开发实践（如光电实验数据处理和能源设备控制）：---###一、系统架构设计```mermaidgraphLRA[Go微服务层]-->B[Python科学计算层]A-->C[数据库/物联网]B-->D[硬件接口]D-->E[传感器/实验设备]subgraph前端A
Python,Go are applicated to develop the app “Star travel and your preparation”
为了开发“星际旅行准备”应用（**StarTravelandYourPreparation**），结合**Python**和**Go**的技术优势，可设计如下分层架构，融合深空导航、生命维持系统（LSS）优化与跨星域资源管理功能：---###**1.核心架构设计**####**(1)星际导航引擎（Go）**-**角色**：实时多维空间路径规划与异常规避-**实现**：-**曲速走廊计算**：基于A
Python SSTI漏洞原理与基础利用以及Fenjing的使用教程 cba尼里托圣 python 网络 web安全
文章目录一、Python类与对象模型基础二、魔术方法的作用与利用价值1.__class__魔术方法2.__bases__与__mro__魔术方法3.__subclasses__()魔术方法4.__init__魔术方法5.__globals__魔术方法三、魔术方法链的构建与利用1.漏洞验证2.获取类对象3.定位到object基类4.遍历object的子类5.定位危险类6.获取全局变量空间7.执行命令
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
Python,C++开发磁流体研究以及应用APP Geeker-2025 python c++
#Python与C++开发磁流体研究与应用APP方案以下是一个结合Python与C++的磁流体(MHD)研究与应用APP的完整技术方案，融合了高性能计算、实时仿真和工业应用场景：##系统架构设计```mermaidgraphTDA[用户界面层]-->B[Python应用层]B-->C[C++核心计算层]C-->D[硬件接口层]D-->E[实验设备/传感器]subgraph前端A1[桌面端-PyQt
【Python】socket 宅男很神经 python 开发语言
第一章：网络通信基石——深入理解OSI与TCP/IP模型在深入探究Pythonsocket模块之前，我们必须首先建立对网络通信底层原理的深刻理解。socket作为操作系统提供的低级网络接口，其行为和功能直接映射着网络协议栈的各个层次。因此，对OSI（开放系统互连）模型和TCP/IP模型的透彻分析，是理解socket操作精髓的先决条件。1.1网络通信的起源与核心概念网络通信的本质是数据在不同物理位置
安装python后如何安装numpy_如何简单安装NumPy与SciPy
2015-12-27回答numpy是一个定义了数值数组和矩阵类型和它们的基本运算的语言扩展。scipy是一种使用numpy来做高等数学、信号处理、优化、统计和许多其它科学任务的语言扩展。学习这两个工具的话，官方有很详细的文档和教程来帮助入门：我是传送门另外，还有一本书《numpyandscipy》，很薄，才67页：我是传送门如何安装numpy和scipy之所以写这篇文章主要是因为scipy官网貌似
Python 中 sys 库的全面解析与实战应用二向箔reverse 服务器 python
在Python的众多标准库中，sys库占据着举足轻重的地位。它与Python解释器紧密交互，为开发者提供了访问解释器内部信息和控制解释器行为的强大能力。无论是命令行参数处理、系统环境配置，还是程序退出控制，sys库都能大显身手。本文将带您深入探索sys库的常用功能，通过丰富的实例讲解，助您轻松掌握其使用技巧。sys库的基础认知sys库是Python的内置标准库，无需额外安装，只需通过imports
python环境安装jupyter 爱分享的胖头鱼 02.Python(基础知识)jupyter ide python python虚拟环境
安装完毕之后下一步可以参考：配置jupyter的启动路径-CSDN博客1前提条件：python环境系统：win10python：本地已经有python，可以查看本地的python版本：C:\Users\PC>python--versionPython3.8.102安装jupyter并启动安装jupyterC:\Users\PC>pipinstalljupyternotebookCollecting
python爬虫之获取渲染代码
获取渲染后的网页代码过get()方法获取浏览器中的网页资源后,浏览器将自动渲染网页源代码内容，并生成渲染后的的时使用page_source()方法即可获取渲染后的网页代码。示例代码:'''获取渲染后的网页代码'''fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=O
学习笔记(66):Python入门教程-datetime模块时间运算顾子宇研发管理 python 编程语言 Python 小猿圈 Python入门教程
立即学习:https://edu.csdn.net/course/play/24459/296363?utm_source=blogtoedudatetime模块：datetime.date：表示日期的类，常用属性有year，month，daydatetime.time：表示时间的类，常用的属性有hour,minute,second,microseconddatetime.datetime：表示日
掌握reStructuredText：编写与格式化文档的技巧
本文还有配套的精品资源，点击获取简介：reStructuredText（rST）是一种轻量级文本标记语言，广泛用于Python社区的文档编写，特别是借助Sphinx文档生成器。本文介绍了rST的基础语法和高级特性，包括段落、标题、强调、代码、列表、引用、链接、图像、表格、章节组织、自定义角色和指令、包含和排除文件以及源代码高亮。同时，探讨了Sphinx与rST结合使用的高级功能，包括扩展、配置和构
[Python] -项目实战5- Python 实现简易学生成绩管理系统踏雪无痕老爷子 Python python 开发语言
一、为什么做这个项目？学习OOP和GUI基础：通过类与对象封装学生信息，熟悉Tkinter构建窗口、表格、按钮等。实用性强：可添加、查询、删除、修改学生记录，是常见管理系统的基本功能。扩展性好：后续可以接入数据库、图表展示、权限控制等功能。二、核心技术与工具tkinter：Python内置的桌面GUI库，用于构建窗口界面、表单和按钮。sqlite3：轻量级关系数据库，适合小型持久化存储，无需部署服
[Python] -项目实战类3- 用Python制作一个记事本应用踏雪无痕老爷子 Python 开发语言 python
一、为什么要自己写记事本？提升GUI编程能力：通过构建窗口、菜单、文本区等组件，理解基本控件的使用。实用工具：自定义功能、更轻量、更符合个人使用习惯。实验与扩展空间大：方便加入特色功能，如自动保存、代码高亮、插件等。二、准备工作✅安装Python（建议Python 3.7+）。无需安装第三方库，tkinter是Python标准库的一部分。用于构建UI界面。sudoaptinstallpython3
[Python] -项目实战4- 利用Python进行Excel批量处理踏雪无痕老爷子 Python python excel 开发语言
一、为什么要批量处理Excel文件？节省时间：人工对数十、数百个Excel文件重复操作不现实，Python批量处理一次搞定。保证一致性：统一格式、统一操作，避免手动误差。易于集成：可嵌入日常自动化流程，支持定时和触发执行。二、常用库及选型建议库作用优势局限pandas读取/清洗/分析Excel数据语法简
python中的keys方法 m0_58134286 python dict
d.keys()1.作用：获取字典d中的所有key值，返回值是一个对象2.例子：dict1=dict（one=1，two=2）print（dict1.keys（））//输出结果为：dict_keys（["one","two"])3.思考：若何将返回值转换成列表print（list(dict1.keys())//输出结果为：["one","two"]
bash方式启动模型训练 BILLY BILLY 深度学习基础开发必备工具自动驾驶
export\PATHPYTHONPATH=/workspace/mmlab/mmdetection/:/workspace/mmlab/mmsegmentation/:/workspace/mmlab/mmdeploy/:${env:PYTHONPATH}\CUDA_VISIBLE_DEVICES=0\DATA_ROOT_1=/mnt/data/…/\DATA_ROOT_2=/mnt/data/
Python基础(十四): 函数作用域伯wen
一、基本概念1、变量的作用域变量的作用范围:可操作范围Python是静态作用域,也就是说在Python中,变量的作用域源于它在代码中的位置,在不同的位置,可能有不同的命名空间2、命名空间命名空间是作用域的体现形式表示变量不同的具体的操作范围3、Python-LEGBL-Local:函数内的命名空间作用范围:当前整个函数体deftest():a=10print(a)test()#打印:10a的作用范
爬虫实战案例（两个） AI 嗯啦爬虫
该博客展示两个简单的爬虫实战案例，一个是从人民邮电出版社上爬取其中一个分类的全部图书信息，另一个是在苏宁易购上爬取某个商品的好评和差评，用两个简单的案例讲解爬虫在实际情况下的运作流程一、获取图书信息需求：统计人民邯电出版社官网中与关键词“python”有关的全部图书，包含图书名、价格、作者名等信息，并将获取的信息写入“Excel图书汇总，txt”文件中。流程：配置浏览器并打开目标网站搜索"Pyth
Python高效编程技术大全：从解释器到异步编程竹石文化传播有限公司
本文还有配套的精品资源，点击获取简介：《Python高性能编程技术》旨在指导开发者深入理解Python的性能优化方法。本书涵盖了从解释器机制、数据结构和内置函数的优化，到使用Numpy、Pandas、多线程和多进程进行数值计算和数据处理，再到并发编程和性能分析等全面技术，帮助开发者提升代码执行效率和处理各种性能挑战。1.Python解释器性能分析Python作为一门解释型语言，其性能受到解释器行为
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
Python Day16 赵英英俊 Python训练 python
@浙大疏锦行Pythonday16内容：numpy数组的创建以及相关操作numpy的索引理解SHAP值代码：importnumpyasnpa=np.array([[1,2],[3,4],[5,6]])b=np.array([[7,8],[9,10],[11,12]])效果：
【OCR炼丹】解析HIT-OR3C数据集online部分Python版完整代码
最近开始炼手写体汉字识别方面的丹，网上找了下数据集，主要有：中科院自动化研究所开源的CASIA数据集（下载链接地址）哈工大开源的HIT-OR3C数据集（下载链接地址）这俩数据集的存储形式与之前接触过的一些共有数据集的保存形式有很大的区别，对于C、C++不是很熟用Python较多的我来说踩了不少的坑（还都是CSDN、知乎、Google都搜不到的巨坑），造福下后来人吧。首先，明确一点，由于博主此次研究
如何解决AttributeError: ‘NoneType‘ object has no attribute问题
如何解决AttributeError:‘NoneType’objecthasnoattribute问题问题背景与概述在Python项目开发和调试过程中，经常会碰到这样一个异常信息：AttributeError:'NoneType'objecthasnoattribute'foo'这意味着你尝试访问或调用某个对象的属性／方法foo，但此时对象本身是None，从而触发了AttributeError。本
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Python爬虫实战——搭建自己的IP代理池

你可能感兴趣的:(Python)