爬虫(性能相关)

多进程和多进程在何种情况下使用
IO密集型用多线程,爬虫就是IO密集型
计算密集型用多进程
wusir爬虫链接

多线程请求(多进程类似)

from concurrent.futures import ThreadPoolExecutor
import requests
import time


def func(url):
    response = requests.get(url)
    print(url, response)
    return response


def done(future):
    response = future.result()
    print(response.status_code)


url_lst = [
    'https://www.cnblogs.com/',
    'http://www.baidu.com',
    'http://www.sohu.com',
    'https://www.sogou.com',
]

tpool = ThreadPoolExecutor(max_workers=5)

for url in url_lst:
    v = tpool.submit(func,url)
    v.add_done_callback(done)
tpool.shutdown(wait=True)

使用协程+异步IO

asyncio
asyncio模块:(需要自己封装Http数据包)
aiohttp模块:(这个模块封装了http数据包)
方法一:asyncio + aiohttp
方法二:asyncio + requests

gevent
方法一:gevent + requests
方法二:gevent(协程池,对多法多少个请求) + requests from gevent.pool import Pool
方法三:gevent + requests → grequests(合成模块) pip install grequests

Twisted
pip3 install twisted

Tornado
pip3 install tornado

排名:gevent——Twisted——Tornado——asyncio

自定义异步IO模块

1、socket客户端,服务端,是阻塞的
设置成非阻塞 setbloking(False) ,当链接无响应时就会报错

2、IO多路复用
r_lst, w_lst, x_lst, = select.select([skobj], [], [])
r[skobj] # 表示有人给我发送数据
w[skobj] # 表示我已经和别人创建链接成功
x[skobj] # 表示发生异常的sk对象

3、r_lst, w_lst, x_lst, = select.select([skobj], [], [])
参数列表里面不一定要是sk对象,但对象必须有:fileno方法,并返回一个文件描述符

IO多路复用
select模块
r,w,e = while 监听多个socket对象;利用其特性开发异步IO模块。

异步IO
非阻塞的socket + IO多路复用

你可能感兴趣的:(爬虫)