如何选择爬虫代理？

1. 什么是代理服务器？

摘自百度百科：https://baike.baidu.com/item/http%E4%BB%A3%E7%90%86/7689519?fr=aladdin
代理服务器英文全称是Proxy Server，其功能就是代理网络用户去取得网络信息。形象的说：它是网络信息的中转站。在一般情况下，我们使用网络浏览器直接去连接其他Internet站点取得网络信息时，须送出Request信号来得到回答，然后对方再把信息以bit方式传送回来。
代理服务器是介于浏览器和Web服务器之间的一台服务器，有了它之后，浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求，Request信号会先送到代理服务器，由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。而且，大部分代理服务器都具有缓冲的功能，就好象一个大的Cache，它有很大的存储空间，它不断将新取得数据储存到它本机的存储器上，如果浏览器所请求的数据在它本机的存储器上已经存在而且是最新的，那么它就不重新从Web服务器取数据，而直接将存储器上的数据传送给用户的浏览器，这样就能显著提高浏览速度和效率。
更重要的是：Proxy Server(代理服务器)是Internet链路级网关所提供的一种重要的安全功能，它的工作主要在开放系统互联( OSI )模型的会话层。
主要的功能有：
- 1.突破自身IP访问限制，访问国外站点（）。如：教育网、169网等网络用户可以通过代理访问国外网站。
- 2.访问一些单位或团体内部资源。如某大学FTP(前提是该代理地址在该资源的允许访问范围之内)，使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP下载上传，以及各类资料查询共享等服务。
- 3.突破中国电信的IP封锁。中国电信用户有很多网站是被限制访问的，这种限制是人为的，不同Serve对地址的封锁是不同的。所以不能访问时可以换一个国外的代理服务器试试。
- 4.提高访问速度。通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问相同的信息时，则直接由缓冲区中取出信息，传给用户，以提高访问速度。
- 5.隐藏真实IP。上网者也可以通过这种方法隐藏自己的IP，免受攻击。

2. 代理的类型？

参考：http://www.360doc.com/content/13/1217/10/14919052_337800783.shtml

2.1. 按照协议分类

常用的代理类型有：ftp、http、https、socks、RTSP、POP3等代理类型。其中：
- HTTP代理和HTTPS代理： 能够代理客户机的HTTP访问，主要是代理浏览器访问网页，它的端口一般为80、8080、3128等。http访问http网站，https代理访问https网站：
- FTP代理： 能够代理客户机上的FTP软件访问FTP服务器，它的端口一般为21、2121。
- RTSP代理： 代理客户机上的Realplayer访问Real流媒体服务器的代理，其端口一般为554。
- POP3代理： 代理客户机上的邮件软件用POP3方式收发邮件，端口一般为110。使用方法参考文章：http://blog.csdn.net/zwq912318834/article/details/78014762
- SOCKS代理： SOCKS代理与其他类型的代理不同，它只是简单地传递数据包，而并不关心是何种应用协议，既可以是HTTP请求，也可以是HTTPS请求等，所以SOCKS代理服务器比其他类型的代理服务器速度要快得多。SOCKS代理又分为SOCKS4和SOCKS5，二者不同的是SOCKS4代理只支持TCP协议（即传输控制协议），而SOCKS5代理则既支持TCP协议又支持UDP协议（即用户数据包协议），还支持各种身份验证机制、服务器端域名解析等。SOCK4能做到的SOCKS5都可得到，但SOCKS5能够做到的SOCK4则不一定能做到，比如我们常用的聊天工具QQ在使用代理时就要求用SOCKS5代理，因为它需要使用UDP协议来传输数据。

注意：代理必须( IP + Port + http/https(socks4/5) )协议，三个字段一起配合使用，不能只用( IP + Port )两个字段。

2.2. 按照匿名度分类

从另一个角度来说，代理又可以分为三种，即高度匿名代理、普通匿名代理和透明代理。
- 高度匿名代理不改变客户机的请求，这样在服务器看来就像有个真正的客户浏览器在访问它，这时客户的真实IP是隐藏的，服务器端不会认为我们使用了代理。
- 普通匿名代理能隐藏客户机的真实IP，但会改编我们的请求信息，服务器端有可能会认为我们使用了代理（仅仅是可能而已，一般说来是没问题的），但其实这种代理的安全性可能比高度匿名代理更高，有的代理甚至会剥离客户机发送信息中的一部分，这样服务器端就根本探测不到我们所用的操作系统版本和浏览器版本。
- 第三种就是透明代理，它不但改编我们的请求信息，还会传送真实的IP地址。

2.3. 爬虫应该选择什么样的代理？

针对不需要用户登录，cookie验证的网站，一般选择动态高匿代理。
对于需要用户登录，身份认证的。一般选择静态IP

3. 代理资源从哪里来？

4. 购买的代理如何使用？

网上有很多方法告诉我们如何获取免费代理，但事实上免费代理的可用率非常低。如果是大型的爬虫项目，还是比较推荐使用收费的代理。而目前收费代理的提供方式一般是两种：
- 第一种：通过API链接的方式获取。
- 第二种：通过用户名，密码（隧道）+ 服务器地址，直接使用。

4.1. API接口模式

以讯代理为例：http://www.xdaili.cn/
使用定时器，每个一段时间就往List中填充相关的代理IP。其实从服务器拿到的动态高匿IP都是有时效性的，一般在1~3分钟不等。
嵌入在scrapy框架的middleware.py中

# 文件 middlewares.py
# -*- coding: utf-8 -*-
from scrapy import signals
import random
from myClawer.dictionary import useragent
import datetime
from scrapy import log
import threading
import requests

# 统计参数，用于分析代理IP的有效率
statisticProxyInfo = {
    'getProxiesTime': 0,        # 统计从API获取代理所花费的总时间，以秒为单位
    'getProxiesSuccess': 0,     # 统计从API获取代理成功的总次数
    'getProxiesFail': 0,        # 统计从API获取代理失败的总次数
    'requestTotalCount': 0,     # 统计总共发出了多少个url请求
    'requestproxyCount': 0,     # 统计使用代理的url请求总个数
    'requestNoProxyCount': 0    # 统计不使用代理的url请求总个数
}

proxies_Lst = []        # 本地 IP 池
TIMERPER = 5            # 设置定时调用API连接获取代理的时间间隔 5s
proxies_repeat = {}     # 用于记录重复IP的重复度
timerLst = []           # 用于存储定时器，用于获取代理

# 讯代理 http://www.xdaili.cn/
def getProxiesFromXunAPI():
    global proxies_repeat
    xunProxyLst = []
    APIUrl = "http://www.xdaili.cn/ipagent//privateProxy/applyStaticProxy?spiderId=f16617004ca945d19ae3ff8aff0a6b97&returnType=2&count=11"
    head = {"User-Agent": random.choice(useragent)}
    try:
        s = requests.session()
        resp = s.get(url=APIUrl, headers=head)
        statisticProxyInfo['getProxiesTime'] += 1
        htmlJson = resp.json()
        ERRORCODE = htmlJson['ERRORCODE']
        RESULT = htmlJson['RESULT']
        # print(f"\n###### getProxiesFromXunAPI Timer log start")
        # print(htmlJson)
        # print(f"######## getProxiesFromXunAPI Timer log end\n")
        if (ERRORCODE == '0'):
            statisticProxyInfo['getProxiesSuccess'] += 1
            xunProxyLst.extend([f"{item['ip']}:{item['port']}" for item in RESULT])
            # print(f"len:{len(xunProxyLst)},  xunProxyLst:{xunProxyLst}")
            for item in xunProxyLst:
                if item in proxies_repeat:
                    proxies_repeat[item] += 1
                else:
                    proxies_repeat[item] = 1
            return xunProxyLst
        else:
            statisticProxyInfo['getProxiesFail'] += 1
            print(f"getProxiesFromXunAPI ERRORCODE:{ERRORCODE}")
            return None
    except Exception as e:
        statisticProxyInfo['getProxiesFail'] += 1
        print(f"getProxiesFromXunAPI exception:{e}")
        return None

# 启动定时器：定时获取代理IP, 存在于爬虫的生命周期
def timerUpdateProxies():
    from myClawer.pipelines import runTimer
    global proxies_Lst
    global timerLst
    tmp_lst = getProxiesFromXunAPI()    # 修改成想测试的那个代理
    if tmp_lst:
        proxies_Lst = tmp_lst[:]

    if runTimer and not timerLst:
        t = threading.Timer(TIMERPER, timerUpdateProxies)
        t.start()
        timerLst.append(t)
    else:
        # 爬虫结束，定时器停止
        if runTimer == False:
            for everyTimer in timerLst:
                everyTimer.cancel()
            print(f"Clawer is closed at time:{datetime.datetime.now()}, cancel all timer.")

# 添加 user-agent头
class HeadersMiddleware:
    def process_request(self, request, spider):
        # print('Using HeadersMiddleware!')
        request.headers['User-Agent'] = random.choice(useragent)

# 添加 代理头
class ProxiesMiddleware(object):
    def __init__(self):
        runTime = datetime.datetime.now()
        print(f"Instance ProxiesMiddleware, startProxyTimer at runTime:{runTime}.")
        timerUpdateProxies()

    def process_request(self, request, spider):
        # print('Using ProxiesMiddleware!')
        statisticProxyInfo['requestTotalCount'] += 1

        # 在这里识别 request.url是不是指列表页，列表页不使用代理。
        # 或者在发送列表页request时，将某个栏位(flags可用，类型是列表)置上标记，在这个地方检察这个标记，从而决定要不要启动代理。
        # flags[0] 如果为1表示这条request并不需要添加代理
        if request.flags and request.flags[0] == 1:
            statisticProxyInfo['requestNoProxyCount'] += 1
            print(f"No need proxy, requestTotalCount:{statisticProxyInfo['requestTotalCount']}, "
                  f"requestNoProxyCount:{statisticProxyInfo['requestNoProxyCount']}, url={request._get_url()}")
        else:
            if not request.meta.get('proxyFlag'):
                if proxies_Lst:
                    proxy = random.choice(proxies_Lst)
                    statisticProxyInfo['requestproxyCount'] += 1
                    request.meta['proxy'] = proxy
                    print(f"Set proxy to: {proxy}, requestTotalCount:{statisticProxyInfo['requestTotalCount']}, "
                          f"requestproxyCount:{statisticProxyInfo['requestproxyCount']}")
                else:
                    statisticProxyInfo['requestNoProxyCount'] += 1
                    print(f"Can't set proxy, proxies_Lst is empty.")

    @staticmethod
    def statisticProxyInfo():
        # 在pipelines.py的close_spider中调用
        global proxies_repeat
        print(f"statisticProxyInfo as below:")
        print(f"getProxiesTime:{statisticProxyInfo['getProxiesTime']}, \n"
              f"getProxiesSuccess:{statisticProxyInfo['getProxiesSuccess']}, \n"
              f"getProxiesFail:{statisticProxyInfo['getProxiesFail']}, \n"
              f"requestTotalCount:{statisticProxyInfo['requestTotalCount']}, \n"
              f"requestproxyCount:{statisticProxyInfo['requestproxyCount']}, \n"
              f"requestNoProxyCount:{statisticProxyInfo['requestNoProxyCount']}, \n")

        print(f"\nstatisticProxyRepeat as below:")
        for key,value in proxies_repeat.items():
            print(f"####ProxyLog100 proxy:{key}  count:{value}")

# 文件 pipelines.py
runTimer = True     # 用来控制middlewares中的定时器

class MongoPipeline:
    def open_spider(self, spider):
        pass
    def process_item(self, item, spider):
        pass
    def close_spider(self, spider):
        global runTimer
        runTimer = False    # 爬虫结束，关闭定时器

这种API模式有两个很大的弊端：
- 第一：实践发现，scrapy请求Request的方式是间歇性 + 批量模式。Request是一批一批发出去的。而这种IP的有效时间只有1~3分钟，Request首先加上代理头，然后等待调度，这段时间代理IP有可能会失效。
- 第二：本地代理池的储备目前是5个（根据套餐而定），如果一次加代理头的ur过多，算100个吧，那么100个url从5个IP中选择，那么平均下来，会有20 url选到同一个代理IP，重复率过高，会被反爬网站抓到。当然这个可以通过修改代理池的算法来实现。
上述弊端出现的原因主要是因为添加代理IP和正式将Request发出去请求网页之间存在一个时差。

4.2. 隧道模式

以阿布云为例：http://www.abuyun.com.cn/

# 文件 middlewares.py

# -*- coding: utf-8 -*-
from scrapy import signals

class ProxiesMiddleware:
    def process_request(self, request, spider):
        # print('Using ProxiesMiddleware!')
        if not request.meta.get('proxyFlag'):
            request.meta['proxy']='http://AFJK46J10HG8F89G:[email protected]:9020'

有效解决上述API链接的弊端。

4.3. 固定IP模式

以讯代理为例，直接在代码中加上 IP：Port
适合对IP重复度不敏感的站点。

5. python使用单线程测试代理的成功率和平均时间。

5.1. 测试代码

# python 3.6.1
import time
import datetime
import functools
import requests
import random
import threading

# 定义配置信息
domains = ["www.amazon.com"]  # 待测试的域名

ids_req = ["B018A2RRG4", "B002GCJOC0", "0071386211", "B00MHIKRIS",
           "B00JRYV860", "B00JQUNC1E", "B06XXNMSQ2", "B00PVRHYDI",
           "B01LVV0SW7", "B01LR8PG6Q", "B003DQSMGC", "B00853CKZC",
           "B00IYOQOI6", "013418548X", "B017RZ45F6", "B00V27VX7E",
           "B01I6RD5I2", "B000BYA52S", "B01MXBR9I6", "B073Y7BM3N",
           "B01JRUU3P0", "B01N21UQHN", "B00394HMS2", "B001RCUNJ8",
           "B006LXOJC0", "B06XSC2B4Z", "B01N6DC2ZE", "B01HI1W1V4",
           "B0179JX8GC", "B00LZ5NA1U", "B004L5JCZ4", "B001B16VT6",
           "B01NAJGGA2", "B06ZYX6Y1T", "B00PGJWYJ0", "B0179JX8GC",
           "B01L9WSTEG", "B00LZS5EEI", "B01EFG8AHO", "B018YLFDY4",
           "B00UY1YTGG", "B004B8AZH0", "B0194WDVHI", "B01K7OHDKS",
           "B00339C3P0", "B06XBY86BR", "B00DFFT9SQ", "B06XVXRYTM",
           "B003EM8008", "B00JRGOKQ8", "B00PDN097S", "B01GIVWTAI",
           "B009OVU93E", "B017HME9AU", "B008AGQMQC", "B010S9N6OO",
           "B0123MKO7G", "B01DDPUQTS", "B00NUS53CY", "B01I1430WQ",
           "B00ECHYTBI", "B01EM9OHC6", "B0159TXEKY", "B071ZGBN2C",
           "B00DDMITLO", "B01M0TJBA7", "B01M0FE59Y", "B01N0VNIA9",
           "B018YLFDY4", "B010S5VXKC", "B01KV4FIOC", "B010S9N6OO",
           "B009ZVL7N4", "B0194WDVHI", "B00LOXURO6", "B00SXRXUFE",
           "B003UH9I2G", "B01NAJGGA2", "B06Y28Y4L7", "B0711V1B3S",
           "B0187DR12G", "B011KPRE1G", "B013DG2FNW", "B00FZYT278",
           "B073P7VWFK", "B010OYASRG", "B01K9S260E", "B01A6TW31S",
           "B0046VGPHQ", "B01H3MTVE8", "B00DUJEWDE", "B01GDR3HHG",
           "B005CWK0FG", "B0728GP9XH", "B00NJGAJNU", "B003YT6RNS",
           "B073TQJQPL", "B00G7UY3EG", "B00MNV8E0C", "B017RCO1JY"]  # 100个

useragent = [
  'Mozilla/5.0 (compatible; Googlebot/2.1;  http://www.google.com/bot.html)',
  'Googlebot/2.1 ( http://www.googlebot.com/bot.html)',
  'DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1;  http://www.google.com/bot.html)',
  'Mozilla/5.0 (iPhone; U; CPU iPhone OS) (compatible; Googlebot-Mobile/2.1;  http://www.google.com/bot.html)',
  'SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1)'
]

proxies_Lst = []    # 本地 IP 池
timerLst = []       # 存储定时器
runTimer = True
proxies_count = {}  # 记录每个代理被使用的频率

# 装饰器
def timeDecorator(func):
    '''
    装饰器，记录函数的执行时间
    :param func:
    :return:
    '''
    @functools.wraps(func)      # 方便调试，堆栈能显示真实的func name，而不是wrapper
    def wrapper(*args, **kwargs):
        startTime = datetime.datetime.now()
        print(f"Enter func:{func.__name__} at {startTime}")
        res = func(*args, **kwargs)
        endTime = datetime.datetime.now()
        print(f"Leave func:{func.__name__} at {endTime}, usedTime: {endTime-startTime}")
        return res
    return wrapper

# 讯代理
def getProxiesFromXunAPI():
    xunProxyLst = []
    APIUrl = "http://www.xdaili.cn/ipagent//privateProxy/applyStaticProxy?spiderId=f16617004ca945d19ae3ff8aff0a6b97&returnType=2&count=1"
    head = {"User-Agent": random.choice(useragent)}
    try:
        s = requests.session()
        resp = s.get(url=APIUrl, headers=head)
        htmlJson = resp.json()
        ERRORCODE = htmlJson['ERRORCODE']
        RESULT = htmlJson['RESULT']
        if (ERRORCODE == '0'):
            xunProxyLst.extend([f"{item['ip']}:{item['port']}" for item in RESULT])
            return xunProxyLst
        else:
            return None
    except Exception as e:
        print(f"getProxiesFromXunAPI exception:{e}")
        return None

# 定时根据
def timerUpdateProxies():
    global proxies_Lst
    global timerLst
    tmp_lst = getProxiesFromXunAPI()
    if tmp_lst:
        proxies_Lst = tmp_lst[:]
    if runTimer and not timerLst:
        t = threading.Timer(5, timerUpdateProxies)
        t.start()
        timerLst.append(t)
    else:
        # 测试结束，定时器停止
        if runTimer == False:
            for everyTimer in timerLst:
                everyTimer.cancel()
            print(f"Clawer is closed at time:{datetime.datetime.now()}, cancel all timer.")

# 统计代理IP的重复率
def statisticProxyCount(proxy):
    if proxy in proxies_count:
        proxies_count[proxy] += 1
    else:
        proxies_count[proxy] = 1

# 构造Url请求
def getUrlsFromIds(domain, ids_lst):
    '''
    构造url，amazon商品详情页url格式：www.amazon.com/dp/ANSI_ID
    :param domain: domain of amazon
    :param ids_lst: batch operator
    :return:
    '''
    urls_lst = [f"http://{domain}/dp/{ID}" for ID in ids_lst]
    return urls_lst

# 根据abuyun提供的隧道号，密钥，生成动态代理。 需要购买
def getProxyFromAbuyun(tunnel, secret):
    # proxy = f'http://AFJK46J10HG8F89G:[email protected]:9020'
    proxy = f'http://{tunnel}:{secret}@proxy.abuyun.com:9020'
    return proxy

# 测量使用讯代理访问目标urls需要消耗的时间
@timeDecorator
def statisticSpeedOfProxy(urls):
    '''
    主要是统计使用代理时，访问成功，失败数，以及成功的情况下，访问每条url的平均时间
    :param proxy: 使用的代理
    :return: 详细的日志信息
    '''
    print(f"The result of use proxy to request url.\n")
    header = {"User-Agent": random.choice(useragent)}
    success_count = 0           # statusCode == 200
    connectFail_count = 0       # statusCode != 200 or timeout
    proxyFail_count = 0         # requests Exception
    totalSuccessTime = 0
    for url in urls:
        tmpProxy = random.choice(proxies_Lst)
        statisticProxyCount(tmpProxy)
        proxies = {"http": tmpProxy,
                   "https": tmpProxy}
        startTime = datetime.datetime.now()
        try:
            s = requests.session()
            response = s.get(url=url, proxies=proxies, headers=header, timeout=30)
            endTime = datetime.datetime.now()
            usedTime = endTime - startTime
            print(f"use proxy:{tmpProxy}, request url:{url}, statusCode:{response.status_code}, usedTime:{usedTime}")
            if response.status_code == 200:
                success_count += 1
                totalSuccessTime += usedTime.total_seconds()
            else:
                connectFail_count += 1
        except Exception as e:
            proxyFail_count += 1
            print(f"Exception: proxy:{tmpProxy}, url={url}, e:{e}")
        # time.sleep(1)   # 控制好时间间隔
    avgTime = "100000"
    if success_count != 0:
        avgTime = totalSuccessTime / success_count
    print(f"Statistic_proxy, total:{len(urls)}: success:{success_count}, "
          f"totalSuccessTime:{totalSuccessTime}, avgTime:{avgTime}, "
          f"connectFail_count:{connectFail_count}, proxyFail_count:{proxyFail_count}")
    return ( len(urls), success_count, totalSuccessTime, avgTime, connectFail_count,
             proxyFail_count)


# 测量不使用代理访问目标urls需要消耗的时间
@timeDecorator
def statisticSpeedWithoutProxy(urls):
    '''
    主要是统计不使用代理时，访问成功，失败数，以及成功的情况下，访问每条url的平均时间
    尤其需要主要好时间间隔，以防网站反扒，IP被封
    :param urls: 用来测试速度的url集合
    :return: 详细的日志信息
    '''
    print(f"The result of not use proxy:\n")
    header = {"User-Agent": random.choice(useragent)}
    success_count = 0       # statusCode == 200
    connectFail_count = 0   # statusCode != 200 or timeout
    unknowFail_count = 0    # requests Exception
    totalSuccessTime = 0
    i = 0
    for url in urls:
        if i == 10: break   # 本地网络抓取10个指标就好
        i += 1
        startTime = datetime.datetime.now()
        try:
            s = requests.session()
            response = s.get(url=url, headers=header, timeout=30)
            endTime = datetime.datetime.now()
            usedTime = endTime - startTime
            print(f"request url:{url}, statusCode:"
                  f"{response.status_code}, usedTime:{usedTime}")
            if response.status_code == 200:
                success_count += 1
                totalSuccessTime += usedTime.total_seconds()
            else:
                connectFail_count += 1
        except Exception as e:
            unknowFail_count += 1
            print(f"Exception: url={url}, e:{e}")
        time.sleep(20)  # 控制好时间间隔
    avgTime = "100000"
    if success_count != 0:
        avgTime = totalSuccessTime / success_count
    print(f"Statistic_No_proxy, total:{len(urls)}: "
          f"success:{success_count}, totalSuccessTime:{totalSuccessTime}, "
          f"avgTime:{avgTime}, connectFail_count:{connectFail_count}, proxyFail_count:{unknowFail_count}")
    return ( len(urls), success_count, totalSuccessTime, avgTime, connectFail_count, unknowFail_count )

if __name__ == '__main__':
    MainRunTime = datetime.datetime.now()
    amazonDeatilUrls = getUrlsFromIds(domain=domains[0], ids_lst=ids_req)
    amazonPageUrls = []
    timerUpdateProxies()

    # 测试使用讯代理爬取amazon商品详情网页的速度
    print("\n##### The speed result of use xun proxy for amazon detail page. ")
    res = statisticSpeedOfProxy(amazonDeatilUrls)
    print(f"use_proxy Totalurls:{res[0]}, successCount:{res[1]}, totalSuccessTime:{res[2]}, "
          f"avgTime:{res[3]}, connectFailCount:{res[4]}, proxyFailCount:{res[5]}\n")

    # 测试不使用代理爬取amazon商品详情网页的速度
    print("The speed result of not use proxy for amazon detail page. ")
    res = statisticSpeedWithoutProxy(urls=amazonDeatilUrls)
    # res: [len(urls), success_count, totalSuccessTime, avgTime, connectFail_count, proxyFail_count, detail_log]
    print(f"No_proxy Totalurls:{res[0]}, successCount:{res[1]}, totalSuccessTime:{res[2]}, "
          f"avgTime:{res[3]}, connectFailCount:{res[4]}, proxyFailCount:{res[5]}\n")

    print("\n##### The statistic of proxy used. ")
    for key,value in proxies_count.items():
        print(f"proxy: {key},  count:{value}")

    runTimer = False    # 关闭定时器

5.2. 测试结果对比

6. 代理使用注意事项。

代理必须 IP + Port + http/https(socks4/5)协议三个字段一起配合使用，不能只用IP + Port两个字段。
使用的代理协议与访问网页协议是否一致，如http不能请求https网址，只能https抓取https网址。
设置的超时时间是否太短，推荐超时设置为20-30秒，太短了请求没完成就返回，导致失败。
爬取的网页是否有反爬取策略，是否设置了Headers的User-Agent、Cookie、Referer等。
提取的是否是最新检测可用的代理，提取过滤条件越少越好，提取后及时使用，注意代理的时效性，也就是存活时间。
您是否设置了重试次数，推荐设置重试4次，提高爬取的成功率。
为了提高代理提取和使用效率，推荐在您的本地数据库存储代理，并把您可用的代理标记为可用，这样您直接在您本地获取可用的代理进行使用；每次从API提取的代理如果可用，则更新到本地数据库里，这样日积月累本地的代理库的可用代理将会越来越多，可满足您的个性化需求，详细的设计方案如下（当然这个对代理IP的来源是有要求的，如果存活时间只有1-3分钟，这种策略无效…）：
- 从API提取代理，爬取您的目标网页，可用则存入您的数据库，标记为1，成功次数也记为1
- 每次使用，直接从您的本地数据库里，提取标记为1的代理使用
- 爬取使用时，若成功则继续标记为1，并把成功次数加1；若失败则标记为0，成功次数不变
- 下次爬取时，优先提取标记为1的代理，其次提取成功次数大于1的代理，并按成功次数由多到少排序，重复步骤3
- 下次再爬取时，继续从API提取代理，重复步骤1、步骤3
- 上述设计的优点，既积累了大量可用代理，又可通过成功次数获取稳定代理IP，一举两得。
浏览器设置的代理为什么无法使用呢？
- 很多代理对浏览器的header信息(如User-Agent)有限制，导致无法直接通过浏览器设置代理进行访问，解决办法，可以通过firefox或chrome浏览器插件设置代理，参考https://blog.mimvp.com/article/21108.html，浏览器大都只支持http代理，不支持https和socks代理，并且http代理一般无法访问https网站，设置时需注意。不推荐通过浏览器设置代理访问（除非你已非常精通代理），强烈推荐编程使用代理。
7. 需要登录的网站下使用代理的注意事项
使用代理就是为了突破单个IP频率的限制，但是，在需要登录的网站上爬取，尤其需要注意。当登录之后，你的IP不断变化，或者说经常用不同的IP去登录网站，对于一些比较严格的网站来说，你的帐号很快就会被封掉了（尤其是国外的一些社交网站，涉及到个人隐私的，facebook等）。
正确的办法是，将一个IP对应一个账号，并发抓取（注意频率，间隔时间设置大一些）。

参考文章：

http://blog.csdn.net/ithomer/article/details/74034673
https://proxy.mimvp.com/question.php

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
2024年最新初面蚂蚁金服，Python爬虫实战：爬取股票信息(1)，面试题解析已整理成文档怎么办 imtokenmax合约众筹 2024年程序员学习 python 爬虫开发语言
收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来如果你需要这些资料，可以添加V无偿获取：hxbc188（备注666）正文首先要爬取股票数据
Python怎么去抓取公众号的文章？Python爬虫爬取微信公众号方法快乐星球没有乐 python 爬虫微信
很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了，但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。1.下载wkhtmltopdf1这个应用程序，它可以将HTML格式的数据转换成PDF格式的。2.打开python编辑器，新建一个python项目命名为wxgzhPDF并在里面创建一个空白的pyt
Python爬虫——使用JSON库解析JSON数据_爬虫json解析 Java老杨程序员 python 爬虫 json
文章目录1如何在网页中获取JSON数据？2Python内置的JSON库这几天在琢磨爬取动态网页，发现需要爬取js内容，虽然说最后还是没有用上JSON库进行解析，不过笔记写的都写了，就发出来记录一下吧。1如何在网页中获取JSON数据？打开一个具有动态渲染的网页，按F12打开浏览器开发工具，点击“网络”，再刷新一下网页，观察是否有新的数据包。发现有js后缀的文件，这就是我们想要的json数据了。2Py
Python100个库分享第16个—sqlparse(SQL解析器) 一晌小贪欢 Python100个库分享 sql python 爬虫开发语言 python学习 python爬虫
目录专栏导读库的介绍库的安装1、解析SQL语句2、格式化SQL语句3、提取表名4、分割多条SQL语句实际应用代码参考：总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
Python爬虫-小某书达人榜单写python的鑫哥爬虫实战进阶 python 爬虫开发语言 cookie requests
前言本文是该专栏的第35篇，后面会持续分享python爬虫干货知识，记得关注。本文案例来介绍某平台达人榜单，值得注意的是，在开始之前，需要提前登录，否则榜单无法拿到。废话不多说，下面跟着笔者直接往下看正文。正文目标：aHR0cHM6Ly9keS5odWl0dW4uY29tL2FwcC8jL2FwcC9kYXNoYm9hcmQ=（注：使用base64自行解码）需求：红薯版-达人榜单打开页面之后，先点
【Python爬虫实战】：二手房数据爬取 3344什么都不是 python pandas 数据分析
文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
2024年Python爬虫：爬取招聘网站系列 - 前程无忧 2401_84562659 程序员 python 爬虫开发语言
importpprint#格式化输出模块importcsv#保存csv数据算了，我直接贴代码吧，流程都写清楚了，我把注释也标上了。兄弟们在学习的时候没有人解答和好的学习资料教程就很痛苦，解答或者其它教程都在这了电子书、视频都有！对应视频教程：【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧，零基础也能学会！f=open(‘python招聘数据1.csv’,mode=‘a’,encoding
2024年Python最新Python爬虫入门教程30：爬取拉勾网招聘数据信息(1) 2401_84584609 程序员 python 爬虫信息可视化
Python爬虫入门教程23：A站视频的爬取，解密m3u8视频格式Python爬虫入门教程24：下载某网站付费文档保存PDFPython爬虫入门教程25：绕过JS加密参数，实现批量下载抖某音无水印视频内容Python爬虫入门教程26：快手视频网站数据内容下载Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化Python爬虫入门教程28：爬取微博热搜榜并做动态数据展示Python爬虫
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
2024年Python最全Python爬虫实战：爬取股票信息_python 获取a股所有代码(1) 2401_84585339 程序员 python 爬虫 windows
doc=PyQuery(r.text)list=[]#获取所有section中a节点，并进行迭代foriindoc('.stockTablea').items():try:href=i.attr.hreflist.append(re.findall(r"\d{6}",href)[0])except:continuelist=[item.lower()foriteminlist]#将爬取信息转换小写
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

如何选择爬虫代理？

1. 什么是代理服务器？

2. 代理的类型？

2.1. 按照协议分类

2.2. 按照匿名度分类

2.3. 爬虫应该选择什么样的代理？

3. 代理资源从哪里来？

4. 购买的代理如何使用？

4.1. API接口模式

4.2. 隧道模式

4.3. 固定IP模式

5. python使用单线程测试代理的成功率和平均时间。

5.1. 测试代码

5.2. 测试结果对比

6. 代理使用注意事项。

7. 需要登录的网站下使用代理的注意事项

参考文章：

你可能感兴趣的:(python爬虫)