爬虫免费可用的代理IP获取

爬虫免费可用的代理IP获取

  Lan   2020-05-29 14:48   155 人阅读  0 条评论

爬虫嘛,速度快了,IP指不定就被禁了,但是市面上很多的免费ip经看不经用,收费的又想白嫖,额说了这么多就是想白嫖而已。然后前段时间在网上瞎转悠的时候看到了一个网站的IP存活情况还算不错,爬虫免费可用的代理IP获取_第1张图片,请求百度,超时设置为0.1秒,然后采集10个存活10个(比我在某宝上1000个存活不到1个的好多了)www.lanol.cn

然后来看下这家的网站:爬虫免费可用的代理IP获取_第2张图片

然后就是自己已经写好的爬取代码(清洗保存这些自己根据需要稍加处理即可)

import parsel
import requests

url = 'https://www.7yip.cn/free/?action=china&page=1'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/80.0.3987.163 Safari/537.36',
}
html = requests.get(url=url, headers=headers).text
html = parsel.Selector(html)
Ip = html.xpath('//td[@data-title="IP"]/text()').extract()
Port = html.xpath('//td[@data-title="PORT"]/text()').extract()
LeiXing = html.xpath('//td[@data-title="类型"]/text()').extract()
result = []
# By:Lan
for i in range(len(Ip)):
    a = (LeiXing[i] + '://' + Ip[i] + ':' + Port[i])
    pro = {LeiXing[i]: a}
    result.append(pro)
# 代码源于www.lanol.cn
for i in result:
    try:
        ssss = requests.get(url='http://www.baidu.com', headers=headers, proxies=i, timeout=0.1).status_code
        if ssss == 200:
            print(i)
    except:
        print('不合格')
本文地址: https://www.lanol.cn/post/250.html
版权声明:本文为原创文章,版权归  Lan 所有,欢迎分享本文,转载请保留出处!
点赞
赞赏 打赏二维码
PREVIOUS:第一次开发程序有感,一名刚入门程序员的感慨。
NEXT:让python像C#,java一样取下标,Python enumerate() 函数

文章导航

你可能感兴趣的:(爬虫免费可用的代理IP获取)