q56731523

Python3爬虫教程之ADSL拨号爬虫ip池的使用

在我之前做爬虫经常需要维护自己的爬虫ip池，他可以挑选出很多有用的爬虫地址，因为不是专业的而且这些爬虫ip通常是公共爬虫ip，所以可用率不是太高，而且这样类型的地址很大情况下都是多人共用的，被封地址概率很大。另外要说的是这些爬虫ip时效也非常的短，虽然筛选过后但是还是避免不了这样的问题存在。

之前我们也了解了付费爬虫ip的使用，付费爬虫ip的质量相对免费爬虫ip就会好不少，这的确已经是一个相对不错的方案了，但本节要介绍的方案可以使我们既能不断更换爬虫ip，又可以保证爬虫ip的稳定性。

在一些付费爬虫ip套餐中，大家可能会注意到有这样的一个套餐 - 独享爬虫ip或私密爬虫ip，这种其实就是用了专用服务器搞得爬虫ip服务，相对一般的付费爬虫ip来说，其稳定性更好，速度也更快，同时 IP 可以动态变化。这种独享爬虫ip或私密爬虫ip的 IP 切换大多数都是基于ADSL拨号机制来实现的，一台远程桌面每拨号一次就可以换一个 IP，同时远程桌面上搭建了爬虫ip服务，我们就可以直接使用该远程桌面的爬虫ip来进行数据爬取了。

本节我们就来实际操作一下ADSL拨号爬虫ip服务器的使用方法。

1、什么是 ADSL

ADSL，英文全称是 Asymmetric Digital Subscriber Line，即非对称数字用户环路。它的上行和下行带宽不对称，它采用频分复用技术把普通的电话线分成了电话、上行和下行 3 个相对独立的信道，从而避免了相互之间的干扰。

ADSL 通过拨号的方式上网，拨号时需要输入 ADSL 账号和密码，每次拨号就更换一个 IP。IP 分布在多个 A 段，如果 IP 都能使用，则意味着 IP 量级可达千万。如果我们将 ADSL 主机作为爬虫ip，每隔一段时间远程桌面拨号就换一个 IP，这样可以有效防止 IP 被封禁。另外，由于我们是直接使用专有的远程桌面搭建的爬虫ip服务，所以其爬虫ip的稳定性相对更好，爬虫ip响应速度也相对更快。

2、准备工作

在本节开始之前，我们需要先购买几台动态拨号远程桌面，建议2台或以上。因为远程桌面在拨号的一瞬间服务器正在切换 IP，所以拨号之后爬虫ip是不可用的状态，所以需要2台及以上远程桌面来做负载均衡。

首先准备了一台电信同时安装了 CentOS Linux 系统的远程桌面。

开通后我们可以在后台找到服务器的连接 IP、端口、用户名、密码，拨号所用的用户名和密码。

然后找到远程管理面板 − 远程连接的用户名和密码，也就是 SSH 远程连接服务器的信息。比如我使用的 IP 和端口是 zhengjiang.hahado.cn:30042，用户名是 root，命令行下输入如下内容：

ssh root@zhongweidx01.jsq.bz -p 30042

输入连接密码，就可以连接上远程服务器了，如图所示：

登录成功之后，我们便可以开始本节的正式内容了。

3、测试拨号

远程桌面默认已经配置了拨号相关的信息，如宽带用户名和密码等，所以我们无需额外进行配置，只需要调用相应的拨号命令即可实现拨号和IP地址的切换。

我们可以输入如下拨号命令来进行拨号：

pppoe-start

拨号命令成功运行，没有报错信息，耗时约几秒，结束之后整个主机就获得了一个有效的爬虫地址。

如果要停止拨号，可以输入如下命令：

pppoe-stop

运行完该命令后，网络就会断开，之前的地址也会被释放。

注意：不同的远程桌面的拨号命令可能不同，如某些远程桌面的拨号命令为 adsl-start 和 adsl-stop，请以官方文档的说明为准。

所以，如果要想切换地址，我们只需要将上面的两个命令组合起来，先执行 pppoe-stop，再执行 pppoe-start。每次拨号，ifconfig 命令观察主机的 IP，如图所示：

可以看到，这里我们执行了停止和开始拨号的命令之后，通过 ifconfig 命令获取的网卡信息的 IP 地址就变化了，所以我们成功实现了 IP 地址的切换。

好，那如果我们要想将这台远程桌面设置为可以实时变化 IP 的爬虫ip服务器的话，主要就有这几件事情：

在远程桌面上运行爬虫ip服务软件，使之可以提供 HTTP 爬虫ip服务。

实现远程桌面定时拨号更换地址。

实时获取远程桌面的爬虫ip和端口信息。

接下来我们就来完成这几部分内容吧。

4、设置爬虫ip服务器

当前我们使用的远程桌面使用的是 Linux 的 CentOS 系统，目前它是无法作为一个爬虫ip服务来使用的，因为该远程桌面上面目前并没有运行相关的爬虫ip软件。要想让该远程桌面提供HTTP爬虫ip服务，我们需要在其上面安装并运行相关的服务。

那什么软件能提供这种爬虫ip服务呢？目前业界比较流行的有 Squid 和 TinyProxy，配置完成之后它们会在特定端口上运行一个HTTP模式的爬虫ip。知道了该远程桌面当前的IP之后，我们就能使用该远程桌面上 Squid 或 TinyProxy 提供的HTTP爬虫ip了。

这里我们以 Squid 为例来进行一下配置。

首先我们安装一下 Squid，在 CentOS 的安装命令如下：

sudo yum -y update
yum -y install squid

运行完之后，我们便可以成功安装好 Squid 了。

如果要想启动 Squid，可以运行如下命令：

systemctl start squid

如果想配置开机自动启动，可以运行如下命令：

systemctl enable squid

Squid 成功运行之后，我们可以使用如下命令查看当前 Squid 的运行状态：

systemctl status squid

如图所示，我们可以看到 Squid 就成功运行了：

默认情况下，Squid 会运行在 3128 端口，也就是相当于在远程桌面的 127.0.0.1:3128 上启动了爬虫ip服务，接下来我们可以来测试下 Squid 的爬虫ip效果，在该台远程桌面上运行 curl 命令请求 https://httpbin.org，并配置使用远程桌面的爬虫ip：

curl -x http://127.0.0.1:3128 https://httpbin.org/get

这里 curl 的 -x 参数代表设置 HTTP 爬虫ip，由于这是在远程桌面上运行的，所以爬虫ip直接设置为了 http://127.0.0.1:3128。

运行完毕之后，我们再运行下 ifconfig 获取下当前远程桌面的 IP，运行结果如图所示：

可以看到返回结果的 origin 字段的 IP 就和 ifconfig 获取的地址是一致的。

接下来，我们在自己本机上（非远程桌面）运行如下命令测试下爬虫ip的连通情况，这里IP就需要更换为远程桌面本身的地址了，刚才可以看到远程桌面当前拨号的IP是 106.45.104.166，所以需要运行如下命令：

curl -x http://106.45.104.166:3128 https://httpbin.org/get

然而发现并没有对应的输出结果，爬虫ip连接失败。

其实原因在于默认情况下 Squid 并没有开启允许外网访问，我们可以进行 Squid 的相关配置，如更改当前爬虫ip运行端口、允许连接的 IP，配置高匿爬虫ip等等，这些都需要修改 /etc/squid/squid.conf 文件。

要允许公网访问，最简单的方案就是将 /etc/squid/squid.conf 中的该行：

http_access deny all

修改为：

http_access allow all

意思是允许来自所有IP的请求连接。

另外还需要在配置文件的开头acl配置的部分添加该行内容：

acl all src 0.0.0.0/0

另外我们还想将 Squid 配置成高度匿名爬虫ip，这样目标网站就无从通过一些参数如 X-Forwarded-For 来得知爬虫机本身的 IP 了，所以在配置文件中再添加如下配置：

request_header_access Via deny all

request_header_access X-Forwarded-For deny all

另外有的远程桌面厂商可能默认封禁了 Squid 的 3128 端口，建议更换一个端口，比如 3328，修改改行：

http_port 3128

修改为：

http_port 3328

修改完配置之后保存配置文件，然后重新启动 Squid 即可：

systemctl restart squid

这时候在本机上（非远程桌面）重新运行刚才的 curl 命令，同时更改下端口：

curl -x http://106.45.104.166:3328 https://httpbin.org/get

即可得到返回结果：

{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Host": "httpbin.org",
    "User-Agent": "curl/7.64.1",
    "X-Amzn-Trace-Id": "Root=1-60ea8fc0-0701b1494e4680b95889cdb1"
  },
  "origin": "106.45.104.166",
  "url": "https://httpbin.org/get"
}

这时候我们就可以在本机上直接使用远程桌面的爬虫ip了！

5、动态获取爬虫IP

现在我们已经可以执行命令让主机动态切换地址了，同时也在主机上编辑好爬虫ip服务了，接下来我们只需要知道拨号后的地址就可以使用爬虫ip了。

那怎么动态获取拨号主机的地址呢？又怎么来维护这些爬虫ip呢？怎么保证获取到的爬虫ip一定是可用的呢？这时候我们可能想到一些问题：

如果我们只有一台拨号远程桌面并设置了定时拨号的话，那么在拨号的几秒时间内，该远程桌面提供的爬虫ip服务是不可用的。

如果我们不用定时拨号的方法，而想要在爬虫端控制拨号远程桌面的拨号操作的话，爬虫端还需要单独的逻辑来处理拨号和重连的问题，这会带来额外的开销。

综合考虑下来，一个比较好的解决方案是：

为了不增加爬虫端的逻辑开销，爬虫端应该无需关心拨号远程桌面的拨号操作，我们只需要保证爬虫通过某个接口获取到的爬虫ip是可用的就行了，拨号远程桌面的爬虫ip的维护逻辑和爬虫是毫不相关的。

为了解决一台拨号远程桌面在拨号时爬虫ip不可用的问题，我们需要有多台远程桌面同时提供爬虫ip服务，我们可以将不同远程桌面的拨号时段错开，当一台远程桌面正在拨号时，我们可以用其他远程桌面顶替。

为了更加方便地维护和使用爬虫ip，我们可以像前文介绍的爬虫ip池一样把这些远程桌面的爬虫ip统一维护起来，所有拨号远程桌面的爬虫ip统一存储到一个公共的 Redis 数据库中，可以使用 Redis 的 Hash 存储方式，存好每台远程桌面和对应爬虫ip的映射关系。拨号远程桌面拨号前将自己对应的爬虫ip内容清空，拨号成功之后再将爬虫ip更新，这样 Redis 数据库中的爬虫ip就一定是实时可用的爬虫ip了。

利用这种思路，我们要做的其实就有如下几点：

配置一个可以公网访问的 Redis 数据库，每台远程桌面可以将自己的爬虫ip存储到对应的 Redis 数据库中，由该 Redis 数据库维护这些爬虫ip。

申请多台拨号远程桌面并按照上文所述配置好 Squid 爬虫ip服务，每台远程桌面设置定时拨号来更换 IP。

每台远程桌面在拨号前删除 Redis 数据库中原来的爬虫ip，拨号成功之后测试一下爬虫ip的可用性，将最新的爬虫ip更新到 Redis 数据库中即可。

OK，接下来我们就来操作一下吧。

由于远程桌面要进行 Redis 数据库的操作，所以我们可以使用 Python 来实现，所以先在远程桌面上装下 Python：

yum -y install python3

关于自动拨号、连接 Redis 数据库、获取本机爬虫ip、设置 Redis 数据库的操作，我已经写好了一个 Python 的包并发布到 PyPi 了，我们可以直接使用这个包来完成如上的功能，这个包叫做 adslproxy，可以在远程桌面上使用 pip3 来安装：

pip3 install adslproxy

安装完毕之后，我们可以使用 export 命令设置下环境变量：

export REDIS_HOST=<Redis数据库的地址>
export REDIS_PORT=<Redis数据库的端口>
export REDIS_PASSWORD=<Redis数据库的密码>
export PROXY_PORT=<拨号远程桌面配置的爬虫ip端口>
export DIAL_BASH=<拨号脚本>
export DIAL_IFNAME=<网卡名称>
export CLIENT_NAME=<远程桌面的唯一标识>
export DIAL_CYCLE=<拨号间隔>

这里 REDIS_HOST、REDIS_PORT、REDIS_PASSWORD 就是远程 Redis 的连接信息，就不再赘述了。PROXY_PORT 就是远程桌面上爬虫ip服务的端口，我们已经设置为了 3328。DIAL_BASH 就是拨号的命令，即 pppoe-stop;pppoe-start，当然该脚本的内容不同的远程桌面厂商可能不同，以实际为准。DIAL_IFNAME 即拨号远程桌面上的网卡名称，程序可以通过获取该网卡的信息来获取当前拨号主机的 IP 地址，通过上述操作可以发现，网卡名称叫做 ppp0，当然这个名称也是以实际为准。CLIENT_NAME 就是远程桌面的唯一标识，用来在 Redis 中存储主机和爬虫ip的映射，因为我们有多台远程桌面，所以不同远程桌面的名称应该设置为不同的字符串，比如 adsl1、adsl2 等等。

这里我们设置如图所示：

设置好环境变量之后，我们就可以运行 adslproxy 命令来进行拨号了，命令如下：

adslproxy send

运行结果如下：

2021-07-11 15:30:03.062 | INFO     | adslproxy.sender.sender:loop:90 - Starting dial...
2021-07-11 15:30:03.063 | INFO     | adslproxy.sender.sender:run:99 - Dial started, remove proxy
2021-07-11 15:30:03.063 | INFO     | adslproxy.sender.sender:remove_proxy:62 - Removing adsl1...
2021-07-11 15:30:04.065 | INFO     | adslproxy.sender.sender:remove_proxy:69 - Removed adsl1 successfully
2021-07-11 15:30:05.373 | INFO     | adslproxy.sender.sender:run:111 - Get new IP 106.45.105.33
2021-07-11 15:30:15.552 | INFO     | adslproxy.sender.sender:run:120 - Valid proxy 106.45.105.33:3328
2021-07-11 15:30:16.501 | INFO     | adslproxy.sender.sender:set_proxy:82 - Successfully set proxy 106.45.105.33:3328
2021-07-11 15:33:36.678 | INFO     | adslproxy.sender.sender:loop:90 - Starting dial...
2021-07-11 15:33:36.679 | INFO     | adslproxy.sender.sender:run:99 - Dial started, remove proxy
2021-07-11 15:33:36.680 | INFO     | adslproxy.sender.sender:remove_proxy:62 - Removing adsl1...
2021-07-11 15:33:37.214 | INFO     | adslproxy.sender.sender:remove_proxy:69 - Removed adsl1 successfully
2021-07-11 15:33:38.617 | INFO     | adslproxy.sender.sender:run:111 - Get new IP 106.45.105.219
2021-07-11 15:33:48.750 | INFO     | adslproxy.sender.sender:run:120 - Valid proxy 106.45.105.219:3328
...

这里我们就可以看到，因为远程桌面在拨号之后当前爬虫ip就会失效了，所以在拨号之前程序先尝试从 Redis 中删除当前远程桌面的爬虫ip。接下来就开始执行拨号操作，拨号成功之后验证一下爬虫ip是可用的，然后再将该爬虫ip存储到 Redis 数据库中。循环往复运行，我们就达到了定时更换 IP 的效果，同时 Redis 数据库中也是实时可用的爬虫ip。

最后按照同样的配置，我们可以购买多台拨号远程桌面并进行如上同样的设置，这样就有多个稳定的定时更新的爬虫ip可用了，Redis 中会实时更新各台远程桌面的爬虫ip，如图所示。

图中所示是四台 ADSL 拨号远程桌面配置并运行后 Redis 数据库中的内容，其中的爬虫ip都是实时可用的。

6、使用爬虫ip

那怎么使用爬虫ip呢？我们可以在任意可以公网访问的远程桌面上连接刚才的 Redis 数据库并搭建一个 API 服务即可。怎么搭建呢？我们可以同样使用刚才的 adslproxy 库，该库也提供了 API 服务的功能。

为了方便测试，我们在本机进行测试，安装好 adslproxy 包之后，然后设置好 REDIS 相关的环境变量：

export REDIS_HOST=<Redis数据库的地址>
export REDIS_PORT=<Redis数据库的端口>
export REDIS_PASSWORD=<Redis数据库的密码>

然后运行如下命令启动即可：

2020-07-11 16:31:58.651 | INFO     | adslproxy.server.server:serve:68 - API listening on http://0.0.0.0:8425

可以看到 API 服务就在 8425 端口上运行了，我们打开浏览器即可访问首页，如图所示：

其中最重要的就是 random 接口了，我们使用 random 接口即可获取 Redis 数据库中的一个随机爬虫ip，如图所示：

测试下可用性也没有问题，这样爬虫就可以使用这个爬虫ip来进行数据爬取了。

最后，我们将 API 服务部署一下，这个 ADSL 爬虫ip服务就可以像爬虫ip池一样被使用了，每请求一次API就可以获取一个实时可用爬虫ip，不同的时间段这个爬虫ip就会实时更换，而且连接稳定速度又快，实在是网络爬虫的最佳搭档。

7、总结

本节我们介绍了ADSL拨号爬虫ip的由来。通过这种爬虫ip，我们可以无限次更换IP，而且线路非常稳定，爬虫抓取效果也会好很多。

导出docker-compse.yml中docker镜像成tar文件青春不流名 eureka 云原生
#!/bin/bash#确保脚本在正确的目录下运行SCRIPT_DIR=$(dirname"$(realpath"$0")")cd"$SCRIPT_DIR"||exit1#定义docker-compose文件路径COMPOSE_FILE="${SCRIPT_DIR}/docker-compose.yml"#创建导出目录EXPORT_DIR="${SCRIPT_DIR}/docker_images"
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
树莓派中 Python+opencv打开摄像头 68lizi 光电设计 python
树莓派中Python+opencv打开摄像头注意不要使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)，我在树莓派使用这个的时候会报错，在windows不会报错，具体原因不清楚cap=cv2.VideoCapture(0)#使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)会报错whileTrue:status,img=cap.read()i
python实现读取文件的指定某行内容 Fitz1318 Python3学习 python
python实现读取文件的指定某行内容最近有一个需求就是读取一个文件中的指定某行的内容，现将方法记录如下importlinecache#这里填写你自己的文件位置和行号text=linecache.getline("../TestFile/test_C1.json",2)print(text)
[Python] 使用 dataclass 简化数据结构：定义、功能与实战踏雪无痕老爷子 Python python 开发语言
在经典面向对象编程中，为了保存和操作数据往往需要定义多个类，手写__init__()、__repr__()、__eq__()等方法。Python3.7引入了@dataclass装饰器，它能自动生成这些常见方法，大幅减少样板代码。本文将介绍dataclass的定义与参数、比较与普通类的差别、实战示例，以及常见注意事项。一、什么是dataclass@dataclass是一种类装饰器，它通过类成员的类型
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？股票程序化交易接口量化交易股票API接口 Python股票量化交易程序化交易系统 macd指标 kdj指标 boll指标股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参
股票程序化交易软件如何选择？这些要点你知道吗股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链股票程序化交易软件功能特性稳定性成本股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交
微信小程序跳转其他小程序以及跳转网站
一、跳转其他小程序1.1知道appid和页面路径wx.navigateToMiniProgram({appId:appid,//替换为目标小程序AppIDpath:pathWithParams,//小程序路径envVersion:'release',//开发版、体验版或正式版success(res){console.log("跳转到其他小程序成功！",res);},fail(err){consol
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
python实战项目79：采集知乎话题下的所有回答 wp_tao Python副业接单实战项目 python 开发语言
python实战项目79：采集知乎话题下的所有回答一、项目介绍二、代码使用方法三、drissionpage的优缺点四、完整代码五、注意事项一、项目介绍需求是采集知乎某话题下的所有回答，这里以话题“大学宿舍相处之间遇到莫名其妙的冷落怎么办呢？”为例，网页链接为https://www.zhihu.com/question/1898156781215146265，其中189815678121514626
【网络】Linux 内核优化实战 - net.ipv4.tcp_rmem 和 net.core.rmem_default 关系锅锅来了 Linux性能优化原理和实战网络 linux tcp/ip
net.ipv4.tcp_rmem和net.core.rmem_default都是Linux内核中控制网络接收缓冲区的参数，但它们的作用范围、优先级和使用场景存在明显区别。以下是详细对比：核心区别参数net.ipv4.tcp_rmemnet.core.rmem_default作用协议仅针对TCP协议针对所有网络协议（TCP、UDP等）参数类型三元组：mindefaultmax单个值：默认缓冲区大小
使用 pip 命令下载 whl离线安装包、安装三希 pip
使用pip命令直接从线上下载whl离线安装包并转存到离线环境的过程实际上是分两步进行的：第一步：在线环境下载whl包bash#在具有网络连接的环境中pipdownload--only-binary=:all:--wheel--platform--python-version这里的参数说明：：需要下载的Python包名称。--only-binary=:all:：只下载二进制包（即whl文件）。--w
安卓开发手动构建 .so XCZHONGS android
手动构建.so（兼容废弃ABI）下载旧版NDK（推荐r16b）地址：https://developer.android.com/ndk/downloads/older_releases下载NDKr16b（最后支持armeabi、mips、mips64的版本）使用ndk-build手动构建（不使用Gradle）在源文件目录下执行D:\ideal\androidstudio\sdk\ndk\16.1.
ArkTS 开发学习路径全攻略：从入门到实战码农乐园学习
随着HarmonyOS的持续演进，ArkTS（ArkTypeScript）已成为鸿蒙系统的主力开发语言。特别是HarmonyOSNEXT推行纯鸿蒙化后，ArkTS成为构建鸿蒙原生应用的唯一选择。本文将为你梳理一套系统化的学习路径，从语法基础到实战项目，再到系统能力调用与分布式开发，一步步带你成为合格的鸿蒙开发者。第一阶段：ArkTS语言和HarmonyOS基础入门学习目标：掌握ArkTS基础语法；
【Python】如何使用.whl文件安装Python包？ civilpy python 开发语言
基本原理在Python的世界中，.whl文件是一种分发格式，它代表“Wheel”。Wheel是一种Python包格式，旨在提供一种快速、可靠且兼容的方式，用于安装Python库。与源代码包相比，Wheel文件是预编译的，这意味着它们已经包含了编译后的扩展模块，这使得安装过程更快，更简单。代码示例以下是使用.whl文件安装Python包的示例步骤：示例1：基本安装假设你已经下载了一个名为exampl
AIRIOT物联网低代码平台如何配置MQTT驱动？ AIRIOT 网络服务器物联网
MQTT驱动配置简介MQTT全称为消息队列遥测传输（英语：MessageQueuingTelemetryTransport），是ISO标准（ISO/IECPRF20922）下基于发布(Publish)/订阅(Subscribe)范式的消息协议，工作在TCP/IP协议族上。MQTT最大优点在于，可以用极少的数据和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协
Nordic智能楼宇自动化系统方案/nrf-knx-iot Halfway-- Product 物联网 iot
1:KNXIoT通过物联网（IoT）的强大功能和灵活性扩展了KNX标准的能力。因此，它允许KNX设备与物联网设备和云服务集成，从而能够创建先进的智能楼宇自动化系统。通过KNXIoT，设备可以在IP网络上进行通信，从而在设备连接和控制方式上提供更大的灵活性2:KNXIoT由3个主要负责数据互操作性的主要元素组成：KNXIoT第三方API一个标准化的API，通过一个抽象层连接KNX特定知识和第三方应用
鸿蒙 ArkTS 开发知识点全体系（HarmonyOS NEXT 架构）码农乐园 harmonyos 架构华为
一、基础知识：ArkTS语言与项目结构1.ArkTS基础语法（华为增强TypeScript）类型声明与推导函数与箭头函数类、接口、枚举、泛型模块导入与导出装饰器语法（@Entry、@Component等）异步编程（async/await）2.DevEcoStudio开发环境项目创建与构建模拟器配置与真机调试工程结构（entry、pages、resources、common、config.json）
如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
Node.js 全局对象 froginwe11 开发语言
Node.js全局对象引言Node.js作为一种流行的JavaScript运行环境，以其高性能、轻量级和跨平台的特点，被广泛应用于服务器端编程、网络应用开发等领域。在Node.js中，全局对象是一个重要的概念，它为开发者提供了一系列内置的全局变量和方法，使得编程变得更加便捷。本文将详细介绍Node.js的全局对象，帮助开发者更好地理解和运用它们。Node.js全局对象概述Node.js的全局对象指
Python3 数字(Number) froginwe11 开发语言
Python3数字(Number)引言在编程语言中，数字是构成程序的基础元素之一。Python3作为一种高级编程语言，提供了丰富的数字类型和操作方法。本文将详细介绍Python3中的数字类型，包括整数、浮点数、复数等，并探讨它们的特性和应用。整数（Integer）整数是Python3中最基本的数据类型之一，用于表示没有小数部分的数值。在Python3中，整数类型没有大小限制，可以表示任意大小的整数
鞋履智造的“隐形工匠”：PROFIBUS DP转ETHERNET/IP网关应用实践
在鞋履制造产线中，西门子PLC凭借PROFIBUSDP协议实现精准逻辑控制，而涂胶机器人多采用ETHERNET/IP协议执行鞋面粘合与处理任务。为实现设备高效协同，JH-PB-EIP疆鸿智能PROFIBUSDP转ETHERNET/IP网关化身“通信中枢”，破解协议壁垒，成为提升鞋子舒适度与耐用性的核心助力。硬件连接时，需先在西门子PLC中完成DP从站组态，设定地址并通过专用电缆接入网关DP端口，针
别再为通信发愁！机床厂PROFIBUS DP转EtherNet/IP网关应用指南，低成本实现智能升级 JIANGHONGZN PROFIBUS DP 工业通讯协议网关 ETHERNET/IP
在现代机床制造工厂中，设备间的无缝通信是实现高效、柔性生产的关键。西门子PLC（如S7-300/1500系列）作为核心控制器广泛采用PROFIBUSDP现场总线，而高端机器人系统（如FANUC、KUKA）则普遍支持EtherNet/IP协议。在这类异构网络共存的环境中，协议转换网关成为打通数据壁垒的核心枢纽。网关的核心作用与工作流程角色定位：网关作为“翻译官”，部署在西门子PLC（PROFIBUS
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Python3爬虫教程之ADSL拨号爬虫ip池的使用

你可能感兴趣的:(爬虫,tcp/ip,python,爬虫ip,代理ip)