异步爬取+多线程+redis构建一个运转丝滑且免费http-ip代理池 (一)

前言:

之前构建的那个代理池,虽然也使用了多线程,但是对于数据的爬取在效率上还是不如人意

相关链接(https://mp.csdn.net/mp_blog/creation/editor/134479431);又担心爬取的服务器架不住,所以一直不敢采取异步爬取;  在测试多番之后,发现是可以的!

于是,开始...

这一步,主要是进行

正文(一):

效果:异步爬取+多线程+redis构建一个运转丝滑且免费http-ip代理池 (一)_第1张图片

代码:

import logging
import asyncio
import aiohttp
import time
from bs4 import BeautifulSoup

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)


#请求头
headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36',
}

# 异步获取URL的函数
async def fetch_url(session, url):
    try:
        async with session.

你可能感兴趣的:(15天玩转高级python,redis,数据库,缓存)