这也是计划的一部分

python爬虫：多线程收集/验证IP从而搭建有效IP代理池

文章目录

- - - 搭建代理IP池
    - - (1)IP来源
      - (2)初步收集IP
      - (3)可用性检验
      - (4)IP池存储展示
      - (5)单线程IP池完整实现
      - (6)多线程IP验证

搭建代理IP池

(1)IP来源

了解到代理IP及其端口的价值后，我们知道必须拥有一定数目的可用IP才能够完成大量数据的爬取。

但代理IP从哪儿来呢？

付费从代理网站上获得相应服务
搭建自身的免费IP代理池

自身搭建的IP代理池能够满足绝大部分需求了

倘若需要做专业性较强的爬虫，建议还是去找一些优质的网站购买稳定服务。

(2)初步收集IP

首先给出几个免费代理IP网址

https://www.kuaidaili.com/ 
http://www.66ip.cn/index.html
http://www.ip3366.net/
https://www.89ip.cn/index_1

打开89免费代理网页我们很快找到了我们需要的信息——IP及其端口

通过XPATH其页面内容进行解析获取

URL提供越多抓取到的IP就越多相同的XPATH能够对同一网站的不同页面进行请求

但针对不同的网站需要重新编写XPATH。

url = 'https://www.89ip.cn/index_1.html'
html = requests.get(url=url, headers=headers)
tree = etree.HTML(html, parser=parser)  # 加载html文件
ip_list = tree.xpath('//div[@class="layui-form"]//tr/td[1]/text()')
post_list = tree.xpath('//div[@class="layui-form"]//tr/td[2]/text()')

从该页上抓取到25个IP

			180.165.133.13		:	53281		
			36.137.70.178		:	7777		
			27.42.168.46		:	55481		
			47.105.91.226		:	8118		
			221.122.91.61		:	80		
			183.247.202.230		:	30001		
			183.154.220.72		:	9000		
			171.92.20.37		:	9000		
			171.92.21.168		:	9000		
			223.10.18.173		:	8118		
			183.247.215.218		:	30001		
			222.174.11.87		:	7890		
			183.222.217.168		:	9091		
			182.139.111.125		:	9000		
			60.211.218.78		:	53281		
			220.170.145.103		:	7302		
			183.247.199.114		:	30001		
			218.1.142.142		:	57114		
			222.64.153.165		:	9000		
			61.61.26.181		:	80		
			218.28.141.66		:	8001		
			223.94.85.131		:	9091		
			221.178.239.200		:	7302		
			182.139.110.124		:	9000		
			43.248.133.29		:	8080

此时使用字典存储而非列表是为了去重

防止相同的IP被重复写入增加负担。

(3)可用性检验

免费代理提高的IP往往质量较低为保证后续使用时的效率

完成对IP的初步收集后，我们需要对这些IP进行可用性检验。

访问http://httpbin.org/ip能够观察到当前访问所用的IP

如我访问的结果是

{
  "origin": "223.104.40.44"
}

那么我们使用相应代理IP对该网页进行请求

获取响应结果后与传入的代理IP进行比较就能够得知代理是否成功。

def test(ip, port):
    # 如果代理成功 则页面解析获取的IP应当与输入IP相同
    # True 代理成功 False代理失败
    print('开始测试' + str(ip) + '...')
    url = 'http://httpbin.org/ip'
    proxies = {"http": f"http://{ip}:{port}", "https": f"http://{ip}:{port}"}
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    html = getHTMLText(url=url, headers=headers, data=None, proxies=proxies)
    if html == "GET异常":
        return False
    return parse(html)[0] == ip

def test_list(ip_dic):
    ip_list = list(ip_dic.keys())
    for num in range(len(ip_list)):
        if test(ip_list[num], ip_dic[ip_list[num]]):
            print(str(ip_list[num]) + '有效')
        else:
            print(str(ip_list[num]) + '无效')
            ip_dic.pop(ip_list[num])
    return ip_dic

随机进行两个IP测试:

    ip_dic = {
        '101.200.127.149': '3129',
        '58.220.95.114': '10053'
    }
    test_list(ip_dic)

运行结果：

开始测试101.200.127.149...
101.200.127.149有效
开始测试58.220.95.114...
58.220.95.114无效

(4)IP池存储展示

将经过检验的IP及其端口存储在本地方便其余爬虫程序调用

存储的方式有很多：mysql,txt,excel等等我这用了最简单的文本文件存储。

## 4.结果展示
def save_ip_text(ip_dic):
    for ip in list(ip_dic.keys()):
        with open("IP_Pool.txt", 'a', encoding='utf-8') as fd:
            fd.write(str(ip) + ",\t" + str(ip_dic[ip]) + '\n')
    print('可用IP池已保存至IP_Pool.txt')


def show_ip(ip_dic):
    # 简单打印
    for ip in list(ip_dic.keys()):
        print(str(ip) + ":\t" + str(ip_dic[ip]))

运行结果:

(5)单线程IP池完整实现

完整搭建代理IP池，其中收集IP与IP有效性检验均使用了单线程。

import random
import time
import re
from multiprocessing.dummy import Pool
import requests
from lxml import etree


# 1.获取网页静态源码的requests框架
def getHTMLText(url, data, headers, proxies, code='utf-8'):
    try:
        # headers 避免被检测出自身为程序访问 将自己伪装成浏览器
        r = requests.get(url=url, params=data, headers=headers, proxies=proxies)
        # t = random.randint(1, 5)  # 随机睡眠 降低机器辩认度
        # time.sleep(t)
        r.raise_for_status()
        r.encoding = code
        return r.text
    # 返回静态源码或异常提示
    except:
        return "GET异常"


# 2.代理池

# 1
def get_kuaidaili_IP():
    # 获取快代理网站前三页IP及其端口
    print('抓取快代理网站前三页IP及其端口')
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    parser = etree.HTMLParser(encoding="utf-8")
    ip_dic = {}

    for i in range(1, 4):
        url = 'https://free.kuaidaili.com/free/inha/' + str(i) + '/'
        html = getHTMLText(url=url, headers=headers, data=None, proxies=None)
        tree = etree.HTML(html, parser=parser)  # 加载html文件
        ip_list = tree.xpath('/html/body/div/div[4]/div[2]/div[2]/div[2]/table/tbody/tr/td[1]/text()')
        post_list = tree.xpath('/html/body/div/div[4]/div[2]/div[2]/div[2]/table/tbody/tr/td[2]/text()')
        dic = dict(zip(ip_list, post_list))
        ip_dic = dict(ip_dic, **dic)
    return ip_dic


# 2
def get_66ip_IP():
    # 获取66免费代理网前三页IP及其端口
    print('抓取66免费代理网前三页IP及其端口')
    ip_dic = {}
    parser = etree.HTMLParser(encoding="utf-8")
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }

    def obtain(url):
        html = getHTMLText(url=url, headers=headers, data=None, proxies=None)
        tree = etree.HTML(html, parser=parser)  # 加载html文件
        ip_list = tree.xpath('//*[@id="main"]/div[1]/div[2]/div[1]//tr/td[1]/text()')
        post_list = tree.xpath('//*[@id="main"]/div[1]/div[2]/div[1]//tr/td[2]/text()')
        dic = dict(zip(ip_list, post_list))
        return dic

    url = 'http://www.66ip.cn/index.html'
    ip_dic = dict(ip_dic, **obtain(url))
    for i in range(2, 4):
        url = 'http://www.66ip.cn/' + str(i) + '.html'
        ip_dic = dict(ip_dic, **obtain(url))

    return ip_dic


# 3
def get_ip3366_IP():
    # 获取3366云代理网站前三页IP及其端口
    print('抓取3366云代理网站前三页IP及其端口')
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    parser = etree.HTMLParser(encoding="utf-8")
    ip_dic = {}

    for i in range(1, 4):
        url = 'http://www.ip3366.net/free/?stype=1&page=' + str(i)
        html = getHTMLText(url=url, headers=headers, data=None, proxies=None)
        tree = etree.HTML(html, parser=parser)  # 加载html文件
        ip_list = tree.xpath('//*[@id="list"]/table/tbody/tr/td[1]/text()')
        post_list = tree.xpath('//*[@id="list"]/table/tbody/tr/td[2]/text()')
        dic = dict(zip(ip_list, post_list))
        ip_dic = dict(ip_dic, **dic)
    return ip_dic


# 4
def get_89ip_IP():
    # 获取89免费代理网站前三页IP及其端口
    print('抓取89免费代理网站前三页IP及其端口')
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    parser = etree.HTMLParser(encoding="utf-8")
    ip_dic = {}

    for i in range(1, 4):
        url = 'https://www.89ip.cn/index_1' + str(i) + '.html'
        html = getHTMLText(url=url, headers=headers, data=None, proxies=None)
        tree = etree.HTML(html, parser=parser)  # 加载html文件
        ip_list = tree.xpath('//div[@class="layui-form"]//tr/td[1]/text()')
        post_list = tree.xpath('//div[@class="layui-form"]//tr/td[2]/text()')
        dic = dict(zip(ip_list, post_list))
        ip_dic = dict(ip_dic, **dic)
    return ip_dic


# 5
def get_kxdaili_IP():
    # 获取云代理网站高匿与普匿两页IP及其端口
    print('抓取云代理网站高匿与普匿两页IP及其端口')
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    parser = etree.HTMLParser(encoding="utf-8")
    ip_dic = {}

    for i in range(1, 2):
        url = 'http://www.kxdaili.com/dailiip.html'
        html = getHTMLText(url=url, headers=headers, data=None, proxies=None)
        tree = etree.HTML(html, parser=parser)  # 加载html文件
        ip_list = tree.xpath('//div[@class="hot-product-content"]//tr/td[1]/text()')
        post_list = tree.xpath('//div[@class="hot-product-content"]//tr/td[2]/text()')
        dic = dict(zip(ip_list, post_list))
        ip_dic = dict(ip_dic, **dic)

    for i in range(1, 2):
        url = 'http://www.kxdaili.com/dailiip/2/1.html'
        html = getHTMLText(url=url, headers=headers, data=None, proxies=None)
        tree = etree.HTML(html, parser=parser)  # 加载html文件
        ip_list = tree.xpath('//div[@class="hot-product-content"]//tr/td[1]/text()')
        post_list = tree.xpath('//div[@class="hot-product-content"]//tr/td[2]/text()')
        dic = dict(zip(ip_list, post_list))
        ip_dic = dict(ip_dic, **dic)

    return ip_dic


## 3.测试

def parse(html):
    # 利用正则表达式 解析并获取页面中所有IP地址
    ip_list = re.findall(
        r'(?,
        html)
    return ip_list


def test(ip, port):
    # 如果代理成功 则页面解析获取的IP应当与输入IP相同
    # True 代理成功 False代理失败
    print('开始测试' + str(ip) + '...')
    url = 'http://httpbin.org/ip'
    proxies = {"http": f"http://{ip}:{port}", "https": f"http://{ip}:{port}"}
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    html = getHTMLText(url=url, headers=headers, data=None, proxies=proxies)
    if html == "GET异常":
        return False
    return parse(html)[0] == ip


def test_list(ip_dic):
    ip_list = list(ip_dic.keys())
    for num in range(len(ip_list)):
        if test(ip_list[num], ip_dic[ip_list[num]]):
            print(str(ip_list[num]) + '有效')
        else:
            print(str(ip_list[num]) + '无效')
            ip_dic.pop(ip_list[num])
    return ip_dic


## 4.结果展示
def save_ip_text(ip_dic):
    for ip in list(ip_dic.keys()):
        with open("IP_Pool.txt", 'a', encoding='utf-8') as fd:
            fd.write(str(ip) + ",\t" + str(ip_dic[ip]) + '\n')
    print('可用IP池已保存至IP_Pool.txt')


def show_ip(ip_dic):
    # 简单打印
    for ip in list(ip_dic.keys()):
        print(str(ip) + ":\t" + str(ip_dic[ip]))



def main():
    print('------------------------------------------------')
    print('------------------------------------------------')
    print('1.开始初步IP收集')
    ip_dic = {}
    ip_dic = dict(ip_dic, **get_kuaidaili_IP())
    ip_dic = dict(ip_dic, **get_66ip_IP())
    ip_dic = dict(ip_dic, **get_ip3366_IP())
    ip_dic = dict(ip_dic, **get_89ip_IP())
    ip_dic = dict(ip_dic, **get_kxdaili_IP())
    print('2.完成初步IP收集')
    print('抓取到共计\t' + str(len(ip_dic)) + '个IP')
    print('------------------------------------------------')
    print('------------------------------------------------')
    print('3.开始可用性测试')
    ip_dic = test_list(ip_dic)
    print('------------------------------------------------')
    print('------------------------------------------------')
    print('4.有效IP存储')
    save_ip_text(ip_dic)
    print('最终有效IP数目计为\t' + str(len(ip_dic)))

if __name__ == '__main__':
    main()

运行结果:

"D:\Program Files\Python\python.exe"
------------------------------------------------
------------------------------------------------
1.开始初步IP收集
抓取快代理网站前三页IP及其端口
抓取66免费代理网前三页IP及其端口
抓取3366云代理网站前三页IP及其端口
抓取89免费代理网站前三页IP及其端口
抓取云代理网站高匿与普匿两页IP及其端口
2.完成初步IP收集
抓取到共计	100个IP
------------------------------------------------
------------------------------------------------
3.开始可用性测试
开始测试117.114.149.66...
117.114.149.66无效
开始测试122.9.101.6...
122.9.101.6无效
开始测试47.113.90.161...
47.113.90.161有效
开始测试222.74.73.202...
........
------------------------------------------------
------------------------------------------------
4.有效IP存储
可用IP池已保存至IP_Pool.txt
最终有效IP数目计为	5
Process finished with exit code 0

最终成功抓取了多个网站共十来页的免费IP并进行了可用性测试，最终保存至本地文本文件中。

之后使用时随机进行文本文件提取即可。

但我们也能够看出免费代理的有效率的确很低 经过筛选后最终能够使用的IP不足10个。

(6)多线程IP验证

将初步收集的字典放入URLS中就能够完成多线程验证。

相比之前单线程速度要提高了许多。

import threading
import requests
import time
import queue
import re

start = time.time()
# 填充队列
URLs = {
    '120.220.220.95': '8085',
    '101.200.127.149': '3129',
    '183.247.199.215': '30001',
    '61.216.185.88': '60808'
}


# 为线程定义一个函数
class myThread(threading.Thread):
    # 定义线程
    def __init__(self, name, q):
        threading.Thread.__init__(self)
        # 线程名称
        self.name = name
        #
        self.q = q

    def run(self):
        # 开始线程
        print("Starting " + self.name)
        while True:
            try:
                # 执行crawl耗时操作
                crawl(self.name, self.q)
            except:
                break
        # 退出线程
        print("Exiting " + self.name)


def getHTMLText(url, data, headers, proxies, code='utf-8'):
    try:
        r = requests.get(url=url, params=data, headers=headers, proxies=proxies)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return "GET异常"


def parse(html):
    # 利用正则表达式 解析并获取页面中所有IP地址
    ip_list = re.findall(
        r'(?,
        html)
    return ip_list


def crawl(threadNmae, q):
    ip = q.get(timeout=2)
    print(threadNmae + '开始测试' + str(ip) + '...')
    url = 'http://httpbin.org/ip'
    proxies = {"http": f"http://{ip}:{URLs.get(ip)}", "https": f"http://{ip}:{URLs.get(ip)}"}
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'
    }
    html = getHTMLText(url=url, headers=headers, data=None, proxies=proxies)
    if html == "GET异常":
        print(str(ip) + '无效')
        return False

    if parse(html)[0] == ip:
        print(str(ip) + '有效')
    else:
        print(str(ip) + '无效')
        URLs.pop(ip)
    return parse(html)[0] == ip

workQueue = queue.Queue(len(URLs.keys()))
for url in URLs.keys():
    workQueue.put(url)

threads = []
for i in range(1, 5):
    # 创建4个新线程
    thread = myThread("Thread-" + str(i), q=workQueue)
    # 开启新线程
    thread.start()
    # 添加新线程到线程列表
    threads.append(thread)

# 等待所有线程完成
for thread in threads:
    thread.join()

end = time.time()
print("Queue多线程IP验证耗时：{} s".format(end - start))
print("Exiting Main Thread")

运行结果:

"D:\Program Files\Python\python.exe" 
Starting Thread-1
Thread-1开始测试120.220.220.95...
Starting Thread-2
Thread-2开始测试101.200.127.149...
Starting Thread-3
Thread-3开始测试183.247.199.215...
Starting Thread-4
Thread-4开始测试61.216.185.88...
183.247.199.215无效
101.200.127.149有效
Exiting Thread-3
Exiting Thread-2
120.220.220.95有效
Exiting Thread-1
61.216.185.88无效
Exiting Thread-4
Queue多线程IP验证耗时：23.041887998580933 s
Exiting Main Thread

Process finished with exit code 0

python绘图实例 charlie_wang007 python python
pythonPlt实例背景：业务的健身数据，有一个字段是其他附加信息，格式是json，需要查出该字段，解出json，拿到目标数据，按要求聚合，如燃脂是0.25的有几个目的：要验证运营页面的概览数据是否正确策略：从表中查出数据，格式化，用plt绘制，与被测页面的图形数据对比代码如下：#coding:utf8importMySQLdbimportjsonimportpandasaspdimportnu
python精彩编程200例-编程语言入门经典100例【Python版】 weixin_37988176
无论学习哪门计算机语言，只要把100例中绝大部分题目都做一遍，就基本掌握该语言的语法了。【程序1】题目：有1、2、3、4个数字，能组成多少个互不相同且无重复数字的三位数？都是多少？#Filename:001.pycnt=0#countthesumofresultforiinrange(1,5):forjinrange(1,5):forkinrange(1,5):ifi!=jandi!=kandj!
Python简单Web开发 patrick_wang_bigdata python
WSGI介绍HTTP协议和HTML的介绍不在这里说明，可以去看廖雪峰老师的教程了解这方面内容。一个web应用的本质是：浏览器发送一个HTTP请求服务器收到请求，生成一个HTML文档服务器把HTML文档作为HTTP响应的Body发送给浏览器浏览器收到HTTP响应，从HTTP响应Body中取出HTML并显示最简单的web应用就是先把HTML保存好，然后需要时直接响应给HTTP请求。对Python而言，
Jenkins pipeline共享库的最佳实践 DevOps探索者 Jenkins jenkins 运维
Jenkins共享库使用教程Jenkins共享库（SharedLibraries）是一个功能强大的工具，旨在帮助团队在多个Jenkins项目中重用代码。这使得CI/CD流水线能够更加高效、简洁，并减少重复劳动。通过共享库，你可以将常用的Groovy脚本、步骤、函数等提取到一个公共的位置，使得多个项目都能引用它们。1.什么是Jenkins共享库？Jenkins共享库是一个包含可以在多个Jenkins
LSTM的推导与实现 YZXnuaa NLP Python库
最近在看CS224d，这里主要介绍LSTM(LongShort-TermMemory)的推导过程以及用Python进行简单的实现。LSTM是一种时间递归神经网络，是RNN的一个变种，非常适合处理和预测时间序列中间隔和延迟非常长的事件。假设我们去试着预测‘IgrewupinFrance...（很长间隔）...IspeakfluentFrench’最后的单词，当前的信息建议下一个此可能是一种语言的名字
Linux网络编程——TCP多客户端连接服务器「已注销」 linux c语言 tcpip
1、Select函数原型#includeintselect(intnfds,fd_set*readfds,fd_set*writefds,fd_set*exceptfds,structtimeval*timeout);函数参数：intnfds：监听的文件描述符中最大文件描述符加1，告诉内核需要检测文件描述符的个数；readfds：监听有读数据到达文件描述符集合，传入传出参数；writefds：监听
【Conda】解决 Conda 安装包时遇到的 `Collecting package metadata` 问题丶2136 #conda conda
目录引言一、问题展示二、问题分析三、解决步骤1.更新Conda2.创建新环境3.指定包版本4.使用`--no-cache-dir`参数5.更换安装通道6.清理Conda缓存7.查看Conda配置8.使用详细日志模式（VerboseMode）9.使用Pip安装包10.使用Mamba11.其他高级操作四、示例操作流程1.更新Conda2.创建并激活新环境3.使用`conda-forge`通道安装包4.
【环境配置】已解决 | python conda环境下安装GDAL库报错乐蕴 python conda 开发语言
GDAL库安装报错安装命令：pipinstallGDAL报错内容：CollectingGDALUsingcachedgdal-3.9.1.tar.gz(840kB)Installingbuilddependencies...errorerror:subprocess-exited-with-error×pipsubprocesstoinstallbuilddependenciesdidnotrun
Python绘图案例 Adiga无线丢人
importmatplotlib.pyplotasplt#构建数据x_data=['2012','2013','2014','2015','2016','2017','2018']y_data=[58000,60200,63000,71000,84000,90500,107000]y_data2=[52000,54200,51500,58300,56800,59500,62700]#绘图plt.b
Linux——网络（tcp）爱吃喵的鲤鱼 linux 运维服务器
文章目录目录文章目录前言一、TCP逻辑1.面向连接三次握手（建立连接）四次挥手（关闭连接）2.可靠性3.流量控制4.拥塞控制5.基于字节流6.全双工通信7.状态机8.TCP头部结构9.TCP的应用场景二、编写tcp代码函数1.Socket创建与配置socket()setsockopt()2.绑定与监听bind()listen()3.连接与接受连接connect()accept()4.数据发送与接收
java.io.IOException: Broken pipe 异常分析重楼七叶一枝花_1200 Java Exception java 开发语言
org.apache.catalina.connector.ClientAbortException:java.io.IOException:Brokenpipe是一个常见的Java异常，通常在使用Tomcat服务器处理HTTP请求时出现。这个异常表示客户端在服务器完成响应之前关闭了连接，导致服务器端试图写入数据到一个已经关闭的连接上。具体来说，“Brokenpipe”（断开的管道）意味着客户端与
Python 自动玩谷歌浏览器“恐龙小游戏” 程序员-夏天 Python python chrome 开发语言
相信在座的各位小伙伴对GoogleChrome浏览器中的一个游戏彩蛋恐龙小游戏(ChromeDino)不陌生吧。在断开网络连接，我们访问网站的时候，就会出现一个小霸王龙，在我们再按下空格键后，即可开始这个游戏，或者在谷歌浏览器的地址栏输入chrome://dino/,按下空格键，也可这个开始游戏。这是一个简单的无限跑步游戏，它会让你跳过仙人掌，并闪避障碍物，游戏控制也很简单，按空格键开始游戏，按空
python all函数用法 Danker01 python all函数
python的内置函数有很多，高级函数也有很多，今天讲一个小小的例子，因为之前没有用过，所以在这里记录一下。使用场景：给出一个由字符串组成的列表，怎么取判断每一个字符串里是不是包含共同的一个部分，例如下面：str_list=['//img14.360buyimg.com/n5/s85x85_jfs/t1/7121/5/4850/249681/5bdc086dE0d08ee7e/65767cb85c
all()是python内置函数吗_Python all() 函数 weixin_39790168
Pythonall()函数描述all()函数用于判断给定的可迭代参数iterable中的所有元素是否都为TRUE，如果是返回True，否则返回False。元素除了是0、空、None、False外都算True。函数等价于：defall(iterable):forelementiniterable:ifnotelement:returnFalsereturnTruePython2.5以上版本可用。语法
超简洁 100行Javascript代码实现2048游戏，浏览器可玩入职啦 100行实战项目 javascript 游戏开发语言
本文发表于入职啦(公众号:ruzhila)大家可以访问入职啦学习更多的编程实战。完全用Javascript的Canvas实现2048游戏，打开浏览器就可以玩项目地址代码已经开源，2048-js欢迎Star代码运行效果：所有的项目都在github上开源：100-line-code欢迎Star用100行代码的不同语言（Java、Python、Go、Javascript、Rust）实现项目，通过讲解项目
Python 3.9它来啦！！！ python程序员小'鹏 python 编程语言经验分享程序人生
Python3.9，来了！小编本身就是一名python开发工程师，我自己花了三天时间整理了一套python学习教程，从最基础的python脚本到web开发，爬虫，数据分析，数据可视化，机器学习，等，这些资料有想要的小伙伴"点击"即可领取过去一年，来自世界各地的开发者们一直在致力于Python3.8的改进。Python3.9beta版本已经存在了一段时间，第一个正式版本于2020年10月5日发布。每
python3基础-17 内建函数 doker_p python基础
内置函数abs()dict()help()min()setattr()all()dir()hex()next()slice()any()divmod()id()object()sorted()ascii()enumerate()input()oct()staticmethod()bin()eval()int()open()str()bool()exec()isinstance()ord()sum(
python all 函数_Python all（）函数 cunchi4221 列表 python javascript java 编程语言 ViewUI
pythonall函数Pythonall()functionisoneofthebuilt-infunctions.IttakesiterableasanargumentandreturnsTrueifallelementsoftheiterablearetrueorit’sempty.Pythonall（）函数是内置函数之一。它以iterable作为参数，如果iterable的所有元素均为tru
java 高级工程师面试题集锦,持续更新~ aifans_bert java学习 java 开发语言后端
找大厂面试题,看套路!Java面试题及答案及面试解析说到找工作,你认为现在最重要的事情是什么?当然找大厂面试题,看套路!以下面试题就是小编为大家准备的,希望对大家有用!1.面向对象的特征请阅读严宏博士的Java模式或设计模式解释中的桥梁模式)。封装:一般认为封装是将数据和操作数据的方法绑定起来,数据的访问只能通过定义。吐血总结!50道Python面试题集锦(附答案)这些面试题涉及Python基础知
洛谷【线段覆盖】题解 R_D_LEGEND c++算法数据结构
题目出处：洛谷P1803凌乱的yyy/线段覆盖凌乱的yyy/线段覆盖题目背景快noip了，yyy很紧张！题目描述现在各大oj上有nnn个比赛，每个比赛的开始、结束的时间点是知道的。yyy认为，参加越多的比赛，noip就能考的越好（假的）。所以，他想知道他最多能参加几个比赛。由于yyy是蒟蒻，如果要参加一个比赛必须善始善终，而且不能同时参加222个及以上的比赛。输入格式第一行是一个整数nnn，接下来
基于SpringBoot的模拟证券交易系统 SAFE20242034 #一 SpringBoot spring boot 后端 java
模拟证券交易系统项目概述本项目是一个基于Java的模拟证券交易系统，主要功能包括用户注册、登录、账户管理、股票查询、股票买卖以及交易记录查询等操作。系统采用SpringBoot实现后端，MySQL作为数据存储，前端使用HTML和JavaScript提供简单交互。主要功能模块1.用户注册与登录用户可以注册一个账户，包括用户名、密码、初始余额。用户登录后可访问其账户信息和进行股票交易操作。2.股票查询
python谷歌浏览器dino游戏，完整开源代码 terryzhang404 python chrome pygame 游戏 pycharm
观前提示：本文选自作者个人博客，为获得更好观感，请访问博主博客得到更好体验）说到googlechrome，很多人都会想到它标志性的断网小游戏——chromedino，今日，我们利用python还原并将代码开源，欢迎随时取用。话不多说，直接进入正题实现效果第一部分:配置环境编译器：pycharm社区版2024.1插件：pygame导入所用库,没有的可以去下载，具体方法不多赘述，网上有importpy
2024年Python最全用Python制作一个自动抢票脚本_python抢票脚本，Python面试项目全代码 Android失眠夜程序员 python 学习面试
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！classConcert:def__init__(
AI软件外包需要注意什么外包开发AI软件的关键因素是什么如何选择AI外包开发语言北京动点飞扬软件 AI外包
1.定义目标与需求首先，要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理，还是其他功能？明确目标可以帮助你选择合适的技术和方法。2.选择开发平台与工具开发AI智能体的软件时，你需要选择适合的编程语言、框架和工具。例如：编程语言：Python是最常用的语言，因为它有强大的AI/ML库，如TensorFlow、PyTorch、scikit-learn等。开发平台：你可以使用本地环境、
【python】all()函数介绍叶阿猪 python python 开发语言
一、说明Python中的all()函数是一个内置函数，用于判断一个可迭代对象（如列表、元组、字符串等）中的所有元素是否都为True（或者更准确地说，是否都等价于True）。二、基本语法all(iterable)iterable：一个可迭代对象。返回值：返回True或者返回False三、工作原理如果可迭代对象为空（例如空列表、空元组或空字符串），则all()返回True。否则，all()会迭代可迭代
Python & NumPy & Matplotlib 版本依赖小猪快跑爱摄影 Python python numpy matplotlib
文章目录相关文献依赖项版本列表相关文献官网版本依赖链接依赖项版本列表以下列表显示了Python和NumPy依赖项的最低版本对于不同版本的Matplotlib。点击链接获取完整内容依赖项的规范。MatplotlibPythonNumPy3.93.91.23.03.83.91.21.03.73.81.20.03.63.81.19.03.53.71.17.03.43.71.16.03.33.61.15.
-bash: ./****.py: /usr/bin/python^M: bad interpreter: No such file or directory GeoWin_CAU GeoPython Spatial Big Data（空间大数据）python linux windows
在windows系统下写的python脚本，在linux下赋予权限chmod+xxxx.py以后，执行./xxx.py运行提示：bash:/usr/bin/autocrorder:/usr/bin/python^M:badinterpreter:Nosuchfileordirectory更多文章请点击我
Too many dimensions: 3 ＞ 2 爱理科的小王子 python
报错：Toomanydimensions:3>2解决方法1：pipinstalllabelme==3.16.7还是不行解决方法2：把这串代码换成下面的关于这段代码的相关解释
批量复制--python代码爱理科的小王子 python 开发语言
importos#定义文件夹路径xml_folder='path/to/xml_folder'jpg_folder='path/to/jpg_folder'#获取文件夹中的文件列表xml_files=sorted(os.listdir(xml_folder))jpg_files=sorted(os.listdir(jpg_folder))#检查文件数量是否一致iflen(xml_files)!=l
json.loads和json.dumps有什么区别，什么时候用json.loads，什么时候用json.dumps？兰若姐姐自动化 AI大模型 json python
发现很多小伙伴对json.loads()和json.dumps()傻傻分不清，不知道什么时候应该用json.loads()，什么时候用json.dumps()，这里简单给大家分享一下json.loads()和json.dumps()是Python标准库json模块中的两个重要函数,它们之间有以下区别:功能:json.loads()：将JSON格式的字符串转换为Python对象(通常是dict或li
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

python爬虫：多线程收集/验证IP从而搭建有效IP代理池

文章目录

搭建代理IP池

(1)IP来源

(2)初步收集IP

(3)可用性检验

(4)IP池存储展示

(5)单线程IP池完整实现

(6)多线程IP验证

你可能感兴趣的:(爬虫,爬虫,python,tcp/ip)