weixin_39857174

python爬虫面试代理池_Python爬虫代理池搭建的方法步骤

一、为什么要搭建爬虫代理池

在众多的网站防爬措施中，有一种是根据ip的访问频率进行限制，即在某一时间段内，当某个ip的访问次数达到一定的阀值时，该ip就会被拉黑、在一段时间内禁止访问。

应对的方法有两种：

1. 降低爬虫的爬取频率，避免IP被限制访问，缺点显而易见：会大大降低爬取的效率。

2. 搭建一个IP代理池，使用不同的IP轮流进行爬取。

二、搭建思路

1、从代理网站(如：西刺代理、快代理、云代理、无忧代理)爬取代理IP；

2、验证代理IP的可用性(使用代理IP去请求指定URL，根据响应验证代理IP是否生效)；

3、将可用的代理IP保存到数据库；

常用代理网站：西刺代理、云代理、IP海、无忧代理、飞蚁代理、快代理

三、代码实现

工程结构如下：

ipproxy.py

IPProxy代理类定义了要爬取的IP代理的字段信息和一些基础方法。

# -*- coding: utf-8 -*-

import re

import time

from settings import PROXY_URL_FORMATTER

schema_pattern = re.compile(r'http|https$', re.I)

ip_pattern = re.compile(r'^([0-9]{1,3}.){3}[0-9]{1,3}$', re.I)

port_pattern = re.compile(r'^[0-9]{2,5}$', re.I)

class IPProxy:

'''

{

"schema": "http", # 代理的类型

"ip": "127.0.0.1", # 代理的IP地址

"port": "8050", # 代理的端口号

"used_total": 11, # 代理的使用次数

"success_times": 5, # 代理请求成功的次数

"continuous_failed": 3, # 使用代理发送请求，连续失败的次数

"created_time": "2018-05-02" # 代理的爬取时间

}

'''

def __init__(self, schema, ip, port, used_total=0, success_times=0, continuous_failed=0,

created_time=None):

"""Initialize the proxy instance"""

if schema == "" or schema is None:

schema = "http"

self.schema = schema.lower()

self.ip = ip

self.port = port

self.used_total = used_total

self.success_times = success_times

self.continuous_failed = continuous_failed

if created_time is None:

created_time = time.strftime('%Y-%m-%d', time.localtime(time.time()))

self.created_time = created_time

def _get_url(self):

''' Return the proxy url'''

return PROXY_URL_FORMATTER % {'schema': self.schema, 'ip': self.ip, 'port': self.port}

def _check_format(self):

''' Return True if the proxy fields are well-formed,otherwise return False'''

if self.schema is not None and self.ip is not None and self.port is not None:

if schema_pattern.match(self.schema) and ip_pattern.match(self.ip) and port_pattern.match(self.port):

return True

return False

def _is_https(self):

''' Return True if the proxy is https,otherwise return False'''

return self.schema == 'https'

def _update(self, successed=False):

''' Update proxy based on the result of the request's response'''

self.used_total = self.used_total + 1

if successed:

self.continuous_failed = 0

self.success_times = self.success_times + 1

else:

print(self.continuous_failed)

self.continuous_failed = self.continuous_failed + 1

if __name__ == '__main__':

proxy = IPProxy('HTTPS', '192.168.2.25', "8080")

print(proxy._get_url())

print(proxy._check_format())

print(proxy._is_https())

settings.py

settings.py中汇聚了工程所需要的配置信息。

# 指定Redis的主机名和端口

REDIS_HOST = 'localhost'

REDIS_PORT = 6379

# 代理保存到Redis key 格式化字符串

PROXIES_REDIS_FORMATTER = 'proxies::{}'

# 已经存在的HTTP代理和HTTPS代理集合

PROXIES_REDIS_EXISTED = 'proxies::existed'

# 最多连续失败几次

MAX_CONTINUOUS_TIMES = 3

# 代理地址的格式化字符串

PROXY_URL_FORMATTER = '%(schema)s://%(ip)s:%(port)s'

USER_AGENT_LIST = [

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

# 爬取到的代理保存前先检验是否可用，默认True

PROXY_CHECK_BEFOREADD = True

# 检验代理可用性的请求地址，支持多个

PROXY_CHECK_URLS = {'https':['https://icanhazip.com'],'http':['http://icanhazip.com']}

proxy_util.py

proxy_util.py 中主要定义了一些实用方法，例如：proxy_to_dict(proxy)用来将IPProxy代理实例转换成字典；proxy_from_dict(d)用来将字典转换为IPProxy实例；request_page()用来发送请求；_is_proxy_available()用来校验代理IP是否可用。

# -*- coding: utf-8 -*-

import random

import logging

import requests

from ipproxy import IPProxy

from settings import USER_AGENT_LIST, PROXY_CHECK_URLS

# Setting logger output format

logging.basicConfig(level=logging.INFO,

format='[%(asctime)-15s] [%(levelname)8s] [%(name)10s ] - %(message)s (%(filename)s:%(lineno)s)',

datefmt='%Y-%m-%d %T'

)

logger = logging.getLogger(__name__)

def proxy_to_dict(proxy):

d = {

"schema": proxy.schema,

"ip": proxy.ip,

"port": proxy.port,

"used_total": proxy.used_total,

"success_times": proxy.success_times,

"continuous_failed": proxy.continuous_failed,

"created_time": proxy.created_time

}

return d

def proxy_from_dict(d):

return IPProxy(schema=d['schema'], ip=d['ip'], port=d['port'], used_total=d['used_total'],

success_times=d['success_times'], continuous_failed=d['continuous_failed'],

created_time=d['created_time'])

# Truncate header and tailer blanks

def strip(data):

if data is not None:

return data.strip()

return data

base_headers = {

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'

}

def request_page(url, options={}, encoding='utf-8'):

"""send a request,get response"""

headers = dict(base_headers, **options)

if 'User-Agent' not in headers.keys():

headers['User-Agent'] = random.choice(USER_AGENT_LIST)

logger.info('正在抓取: ' + url)

try:

response = requests.get(url, headers=headers)

if response.status_code == 200:

logger.info('抓取成功: ' + url)

return response.content.decode(encoding=encoding)

except ConnectionError:

logger.error('抓取失败' + url)

return None

def _is_proxy_available(proxy, options={}):

"""Check whether the Proxy is available or not"""

headers = dict(base_headers, **options)

if 'User-Agent' not in headers.keys():

headers['User-Agent'] = random.choice(USER_AGENT_LIST)

proxies = {proxy.schema: proxy._get_url()}

check_urls = PROXY_CHECK_URLS[proxy.schema]

for url in check_urls:

try:

response = requests.get(url=url, proxies=proxies, headers=headers, timeout=5)

except BaseException:

logger.info("< " + url + " > 验证代理 < " + proxy._get_url() + " > 结果：不可用 ")

else:

if response.status_code == 200:

logger.info("< " + url + " > 验证代理 < " + proxy._get_url() + " > 结果：可用 ")

return True

else:

logger.info("< " + url + " > 验证代理 < " + proxy._get_url() + " > 结果：不可用 ")

return False

if __name__ == '__main__':

headers = dict(base_headers)

if 'User-Agent' not in headers.keys():

headers['User-Agent'] = random.choice(USER_AGENT_LIST)

proxies = {"https": "https://163.125.255.154:9797"}

response = requests.get("https://www.baidu.com", headers=headers, proxies=proxies, timeout=3)

print(response.content)

proxy_queue.py

代理队列用来保存并对外提供 IP代理，不同的代理队列内代理IP的保存和提取策略可以不同。在这里， BaseQueue 是所有代理队列的基类，其中声明了所有代理队列都需要实现的保存代理IP、提取代理IP、查看代理IP数量等接口。示例的 FifoQueue 是一个先进先出队列，底层使用 Redis 列表实现，为了确保同一个代理IP只能被放入队列一次，这里使用了一个Redis proxies::existed 集合进行入队前重复校验。

# -*- coding: utf-8 -*-

from proxy_util import logger

import json

import redis

from ipproxy import IPProxy

from proxy_util import proxy_to_dict, proxy_from_dict, _is_proxy_available

from settings import PROXIES_REDIS_EXISTED, PROXIES_REDIS_FORMATTER, MAX_CONTINUOUS_TIMES, PROXY_CHECK_BEFOREADD

"""

Proxy Queue Base Class

"""

class BaseQueue(object):

def __init__(self, server):

"""Initialize the proxy queue instance

Parameters

----------

server : StrictRedis

Redis client instance

"""

self.server = server

def _serialize_proxy(self, proxy):

"""Serialize proxy instance"""

return proxy_to_dict(proxy)

def _deserialize_proxy(self, serialized_proxy):

"""deserialize proxy instance"""

return proxy_from_dict(eval(serialized_proxy))

def __len__(self, schema='http'):

"""Return the length of the queue"""

raise NotImplementedError

def push(self, proxy, need_check):

"""Push a proxy"""

raise NotImplementedError

def pop(self, schema='http', timeout=0):

"""Pop a proxy"""

raise NotImplementedError

class FifoQueue(BaseQueue):

"""First in first out queue"""

def __len__(self, schema='http'):

"""Return the length of the queue"""

return self.server.llen(PROXIES_REDIS_FORMATTER.format(schema))

def push(self, proxy, need_check=PROXY_CHECK_BEFOREADD):

"""Push a proxy"""

if need_check and not _is_proxy_available(proxy):

return

elif proxy.continuous_failed < MAX_CONTINUOUS_TIMES and not self._is_existed(proxy):

key = PROXIES_REDIS_FORMATTER.format(proxy.schema)

self.server.rpush(key, json.dumps(self._serialize_proxy(proxy),ensure_ascii=False))

def pop(self, schema='http', timeout=0):

"""Pop a proxy"""

if timeout > 0:

p = self.server.blpop(PROXIES_REDIS_FORMATTER.format(schema.lower()), timeout)

if isinstance(p, tuple):

p = p[1]

else:

p = self.server.lpop(PROXIES_REDIS_FORMATTER.format(schema.lower()))

if p:

p = self._deserialize_proxy(p)

self.server.srem(PROXIES_REDIS_EXISTED, p._get_url())

return p

def _is_existed(self, proxy):

added = self.server.sadd(PROXIES_REDIS_EXISTED, proxy._get_url())

return added == 0

if __name__ == '__main__':

r = redis.StrictRedis(host='localhost', port=6379)

queue = FifoQueue(r)

proxy = IPProxy('http', '218.66.253.144', '80')

queue.push(proxy)

proxy = queue.pop(schema='http')

print(proxy._get_url())

proxy_crawlers.py

ProxyBaseCrawler 是所有代理爬虫的基类，其中只定义了一个 _start_crawl() 方法用来从搜集到的代理网站爬取代理IP。

# -*- coding: utf-8 -*-

from lxml import etree

from ipproxy import IPProxy

from proxy_util import strip, request_page, logger

class ProxyBaseCrawler(object):

def __init__(self, queue=None, website=None, urls=[]):

self.queue = queue

self.website = website

self.urls = urls

def _start_crawl(self):

raise NotImplementedError

class KuaiDailiCrawler(ProxyBaseCrawler): # 快代理

def _start_crawl(self):

for url_dict in self.urls:

logger.info("开始爬取 [ " + self.website + " ] :::> [ " + url_dict['type'] + " ]")

has_more = True

url = None

while has_more:

if 'page' in url_dict.keys() and str.find(url_dict['url'], '{}') != -1:

url = url_dict['url'].format(str(url_dict['page']))

url_dict['page'] = url_dict['page'] + 1

else:

url = url_dict['url']

has_more = False

html = etree.HTML(request_page(url))

tr_list = html.xpath("//table[@class='table table-bordered table-striped']/tbody/tr")

for tr in tr_list:

ip = tr.xpath("./td[@data-title='IP']/text()")[0] if len(

tr.xpath("./td[@data-title='IP']/text()")) else None

port = tr.xpath("./td[@data-title='PORT']/text()")[0] if len(

tr.xpath("./td[@data-title='PORT']/text()")) else None

schema = tr.xpath("./td[@data-title='类型']/text()")[0] if len(

tr.xpath("./td[@data-title='类型']/text()")) else None

proxy = IPProxy(schema=strip(schema), ip=strip(ip), port=strip(port))

if proxy._check_format():

self.queue.push(proxy)

if tr_list is None:

has_more = False

class FeiyiDailiCrawler(ProxyBaseCrawler): # 飞蚁代理

def _start_crawl(self):

for url_dict in self.urls:

logger.info("开始爬取 [ " + self.website + " ] :::> [ " + url_dict['type'] + " ]")

has_more = True

url = None

while has_more:

if 'page' in url_dict.keys() and str.find(url_dict['url'], '{}') != -1:

url = url_dict['url'].format(str(url_dict['page']))

url_dict['page'] = url_dict['page'] + 1

else:

url = url_dict['url']

has_more = False

html = etree.HTML(request_page(url))

tr_list = html.xpath("//div[@id='main-content']//table/tr[position()>1]")

for tr in tr_list:

ip = tr.xpath("./td[1]/text()")[0] if len(tr.xpath("./td[1]/text()")) else None

port = tr.xpath("./td[2]/text()")[0] if len(tr.xpath("./td[2]/text()")) else None

schema = tr.xpath("./td[4]/text()")[0] if len(tr.xpath("./td[4]/text()")) else None

proxy = IPProxy(schema=strip(schema), ip=strip(ip), port=strip(port))

if proxy._check_format():

self.queue.push(proxy)

if tr_list is None:

has_more = False

class WuyouDailiCrawler(ProxyBaseCrawler): # 无忧代理

def _start_crawl(self):

for url_dict in self.urls:

logger.info("开始爬取 [ " + self.website + " ] :::> [ " + url_dict['type'] + " ]")

has_more = True

url = None

while has_more:

if 'page' in url_dict.keys() and str.find(url_dict['url'], '{}') != -1:

url = url_dict['url'].format(str(url_dict['page']))

url_dict['page'] = url_dict['page'] + 1

else:

url = url_dict['url']

has_more = False

html = etree.HTML(request_page(url))

ul_list = html.xpath("//div[@class='wlist'][2]//ul[@class='l2']")

for ul in ul_list:

ip = ul.xpath("./span[1]/li/text()")[0] if len(ul.xpath("./span[1]/li/text()")) else None

port = ul.xpath("./span[2]/li/text()")[0] if len(ul.xpath("./span[2]/li/text()")) else None

schema = ul.xpath("./span[4]/li/text()")[0] if len(ul.xpath("./span[4]/li/text()")) else None

proxy = IPProxy(schema=strip(schema), ip=strip(ip), port=strip(port))

if proxy._check_format():

self.queue.push(proxy)

if ul_list is None:

has_more = False

class IPhaiDailiCrawler(ProxyBaseCrawler): # IP海代理

def _start_crawl(self):

for url_dict in self.urls:

logger.info("开始爬取 [ " + self.website + " ] :::> [ " + url_dict['type'] + " ]")

has_more = True

url = None

while has_more:

if 'page' in url_dict.keys() and str.find(url_dict['url'], '{}') != -1:

url = url_dict['url'].format(str(url_dict['page']))

url_dict['page'] = url_dict['page'] + 1

else:

url = url_dict['url']

has_more = False

html = etree.HTML(request_page(url))

tr_list = html.xpath("//table//tr[position()>1]")

for tr in tr_list:

ip = tr.xpath("./td[1]/text()")[0] if len(tr.xpath("./td[1]/text()")) else None

port = tr.xpath("./td[2]/text()")[0] if len(tr.xpath("./td[2]/text()")) else None

schema = tr.xpath("./td[4]/text()")[0] if len(tr.xpath("./td[4]/text()")) else None

proxy = IPProxy(schema=strip(schema), ip=strip(ip), port=strip(port))

if proxy._check_format():

self.queue.push(proxy)

if tr_list is None:

has_more = False

class YunDailiCrawler(ProxyBaseCrawler): # 云代理

def _start_crawl(self):

for url_dict in self.urls:

logger.info("开始爬取 [ " + self.website + " ] :::> [ " + url_dict['type'] + " ]")

has_more = True

url = None

while has_more:

if 'page' in url_dict.keys() and str.find(url_dict['url'], '{}') != -1:

url = url_dict['url'].format(str(url_dict['page']))

url_dict['page'] = url_dict['page'] + 1

else:

url = url_dict['url']

has_more = False

html = etree.HTML(request_page(url, encoding='gbk'))

tr_list = html.xpath("//table/tbody/tr")

for tr in tr_list:

ip = tr.xpath("./td[1]/text()")[0] if len(tr.xpath("./td[1]/text()")) else None

port = tr.xpath("./td[2]/text()")[0] if len(tr.xpath("./td[2]/text()")) else None

schema = tr.xpath("./td[4]/text()")[0] if len(tr.xpath("./td[4]/text()")) else None

proxy = IPProxy(schema=strip(schema), ip=strip(ip), port=strip(port))

if proxy._check_format():

self.queue.push(proxy)

if tr_list is None:

has_more = False

class XiCiDailiCrawler(ProxyBaseCrawler): # 西刺代理

def _start_crawl(self):

for url_dict in self.urls:

logger.info("开始爬取 [ " + self.website + " ] :::> [ " + url_dict['type'] + " ]")

has_more = True

url = None

while has_more:

if 'page' in url_dict.keys() and str.find(url_dict['url'], '{}') != -1:

url = url_dict['url'].format(str(url_dict['page']))

url_dict['page'] = url_dict['page'] + 1

else:

url = url_dict['url']

has_more = False

html = etree.HTML(request_page(url))

tr_list = html.xpath("//table[@id='ip_list']//tr[@class!='subtitle']")

for tr in tr_list:

ip = tr.xpath("./td[2]/text()")[0] if len(tr.xpath("./td[2]/text()")) else None

port = tr.xpath("./td[3]/text()")[0] if len(tr.xpath("./td[3]/text()")) else None

schema = tr.xpath("./td[6]/text()")[0] if len(tr.xpath("./td[6]/text()")) else None

if schema.lower() == "http" or schema.lower() == "https":

proxy = IPProxy(schema=strip(schema), ip=strip(ip), port=strip(port))

if proxy._check_format():

self.queue.push(proxy)

if tr_list is None:

has_more = False

run.py

通过run.py启动各个代理网站爬虫。

# -*- coding: utf-8 -*-

import redis

from proxy_queue import FifoQueue

from settings import REDIS_HOST, REDIS_PORT

from proxy_crawlers import WuyouDailiCrawler, FeiyiDailiCrawler, KuaiDailiCrawler, IPhaiDailiCrawler, YunDailiCrawler, \

XiCiDailiCrawler

r = redis.StrictRedis(host=REDIS_HOST, port=REDIS_PORT)

fifo_queue = FifoQueue(r)

def run_kuai():

kuaidailiCrawler = KuaiDailiCrawler(queue=fifo_queue, website='快代理[国内高匿]',

urls=[{'url': 'https://www.kuaidaili.com/free/inha/{}/', 'type': '国内高匿',

'page': 1},

{'url': 'https://www.kuaidaili.com/free/intr/{}/', 'type': '国内普通',

'page': 1}])

kuaidailiCrawler._start_crawl()

def run_feiyi():

feiyidailiCrawler = FeiyiDailiCrawler(queue=fifo_queue, website='飞蚁代理',

urls=[{'url': 'http://www.feiyiproxy.com/?page_id=1457', 'type': '首页推荐'}])

feiyidailiCrawler._start_crawl()

def run_wuyou():

wuyoudailiCrawler = WuyouDailiCrawler(queue=fifo_queue, website='无忧代理',

urls=[{'url': 'http://www.data5u.com/free/index.html', 'type': '首页推荐'},

{'url': 'http://www.data5u.com/free/gngn/index.shtml', 'type': '国内高匿'},

{'url': 'http://www.data5u.com/free/gnpt/index.shtml', 'type': '国内普通'}])

wuyoudailiCrawler._start_crawl()

def run_iphai():

crawler = IPhaiDailiCrawler(queue=fifo_queue, website='IP海代理',

urls=[{'url': 'http://www.iphai.com/free/ng', 'type': '国内高匿'},

{'url': 'http://www.iphai.com/free/np', 'type': '国内普通'},

{'url': 'http://www.iphai.com/free/wg', 'type': '国外高匿'},

{'url': 'http://www.iphai.com/free/wp', 'type': '国外普通'}])

crawler._start_crawl()

def run_yun():

crawler = YunDailiCrawler(queue=fifo_queue, website='云代理',

urls=[{'url': 'http://www.ip3366.net/free/?stype=1&page={}', 'type': '国内高匿', 'page': 1},

{'url': 'http://www.ip3366.net/free/?stype=2&page={}', 'type': '国内普通', 'page': 1},

{'url': 'http://www.ip3366.net/free/?stype=3&page={}', 'type': '国外高匿', 'page': 1},

{'url': 'http://www.ip3366.net/free/?stype=4&page={}', 'type': '国外普通', 'page': 1}])

crawler._start_crawl()

def run_xici():

crawler = XiCiDailiCrawler(queue=fifo_queue, website='西刺代理',

urls=[{'url': 'https://www.xicidaili.com/', 'type': '首页推荐'},

{'url': 'https://www.xicidaili.com/nn/{}', 'type': '国内高匿', 'page': 1},

{'url': 'https://www.xicidaili.com/nt/{}', 'type': '国内普通', 'page': 1},

{'url': 'https://www.xicidaili.com/wn/{}', 'type': '国外高匿', 'page': 1},

{'url': 'https://www.xicidaili.com/wt/{}', 'type': '国外普通', 'page': 1}])

crawler._start_crawl()

if __name__ == '__main__':

run_xici()

run_iphai()

run_kuai()

run_feiyi()

run_yun()

run_wuyou()

爬取西刺代理时，后台日志示例如下：

Redis数据库中爬取到的代理IP的数据结构如下:

四、代理测试

接下来，使用爬取好的代理来请求 http://icanhazip.com 进行测试，代码如下：

# -*- coding: utf-8 -*-

import random

import requests

from proxy_util import logger

from run import fifo_queue

from settings import USER_AGENT_LIST

from proxy_util import base_headers

# 测试地址

url = 'http://icanhazip.com'

# 获取代理

proxy = fifo_queue.pop(schema='http')

proxies = {proxy.schema:proxy._get_url()}

# 构造请求头

headers = dict(base_headers)

if 'User-Agent' not in headers.keys():

headers['User-Agent'] = random.choice(USER_AGENT_LIST)

response = None

successed = False

try:

response = requests.get(url,headers=headers,proxies = proxies,timeout=5)

except BaseException:

logger.error("使用代理< "+proxy._get_url()+" > 请求 < "+url+" > 结果：失败 ")

else:

if (response.status_code == 200):

logger.info(response.content.decode())

successed = True

logger.info("使用代理< " + proxy._get_url() + " > 请求 < " + url + " > 结果：成功 ")

else:

logger.info(response.content.decode())

logger.info("使用代理< " + proxy._get_url() + " > 请求 < " + url + " > 结果：失败 ")

# 根据请求的响应结果更新代理

proxy._update(successed)

# 将代理返还给队列，返还时不校验可用性

fifo_queue.push(proxy,need_check=False)

使用 http://218.66.253.144:80 代理请求成功后将代理重新放回队列，并将 Redis 中该代理的 used_total 、success_times 、continuous_failed三个字段信息进行了相应的更新。

到此这篇关于Python爬虫代理池搭建的方法步骤的文章就介绍到这了,更多相关Python爬虫代理池搭建内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

你可能感兴趣的:(python爬虫面试代理池)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
如何解决 NPM proxy，当我们在终端nodejs应用程序时出现代理相关报错
Thisisaproblemrelatedtonetworkconnectivity.npmERR!networkInmostcasesyouarebehindaproxyorhavebadnetworksettings.在使用npminstall下载包的时候总是报以下错误:在控制台或VisualStudioCode终端中运行以下命令：npmconfigrmproxynpmconfigrmhttp
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
学习日记-spring-day45-7.10 永日45670 学习 spring java
知识点：1.初始化Bean单例池完成getBeancreateBean（1）知识点核心内容重点单例词初始化在容器初始化阶段预先创建单例对象，避免在getBean时动态创建单例词必须在容器初始化时完成加载，否则会触发异常getBean方法逻辑1.从beanDefinitionMap查询BeanDefinition2.根据scope判断单例/多例3.单例：直接从单例词获取4.多例：反射动态创建新对象多
C++面试核心知识点全面解析：从基础到高级
掌握这些核心知识点，轻松应对90%的C++技术面试一、基础语法与关键字1.1const关键字的多种用法//1.常量变量constintMAX_SIZE=100;//2.常量指针与指针常量constint*ptr1=&var;//指向常量的指针int*constptr2=&var;//常量指针constint*constptr3=&var;//指向常量的常量指针//3.常量成员函数classMyCl
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出