协程是实现并发编程的一种方式。 Python 3.7 以上版本中,使用协程写异步程序非常简单。
我们首先来区分一下 Sync(同步)和 Async(异步)的概念。
所谓 Sync,是指操作一个接一个地执行,下一个操作必须等上一个操作完成后才能执行。
而 Async 是指不同操作间可以相互交替执行,如果其中的某个操作被 block 了,程序并不会等待,而是会找出可执行的操作继续执行。从而可以提高效率。
Python使用Asyncio库进行异步编程。Asyncio可以在一个主线程中,交替进行多个不同的任务(task),这里的任务,就是特殊的 future 对象。这些不同的任务,被一个叫做 event loop 的对象所控制。
下面看看Asyncio切换task的细节。
task有两个关键的状态:一是ready状态;二是wait状态。ready状态,是task随时待命准备运行。而wait状态,是指任务已经运行,但是处于等待I/O操作完成的状态。
event loop 会维护两个任务列表,分别存放ready状态的task和wait状态的task。event loop从ready状态的task列表中,选取一个任务,使其运行,一直到这个任务把控制权交还给 event loop 为止。
当任务把控制权交还给 event loop 时,event loop 会根据其是否完成,把任务放到ready状态列表或wait状态列表,然后遍历wait状态列表中的任务,查看他们是否完成。
如果完成,则将其放到ready状态的列表;如果未完成,则继续放在wait状态的列表。
这样,当所有任务被重新放置在合适的列表后,新一轮的循环又开始了:event loop 继续从ready状态的列表中选取一个任务使其执行…如此周而复始,直到所有任务完成。
对于 Asyncio 来说,它的任务在运行时不会被外部的一些因素打断,因此 Asyncio 内的操作不会出现 race condition 的情况,不需要担心线程安全的问题。
import asyncio
import time
async def worker_1(): # def前面加一个async表示是个异步函数
print('worker_1 start')
await asyncio.sleep(1) # ⑤ 遇到 await,事件调度器切断当前任务执行
print('worker_1 done') # ⑧ worker_1彻底执行完毕,调度器去调度worker_2
async def worker_2():
print('worker_2 start')
await asyncio.sleep(2) # ⑦ 遇到 await,事件调度器切断当前任务执行,去调度worker_1
print('worker_2 done') # ⑨ 【1】秒钟后,worker_1彻底执行完毕,等切回到worker_2时在等1秒就好了
async def main():
task1 = asyncio.create_task(worker_1()) # ② 创建两个task,立即进入事件循环等待被调度
task2 = asyncio.create_task(worker_2())
print('before await') # ③ 执行到此
await task1 # ④ 从当前的主任务中切出,事件调度器开始调度worker_1
print('awaited worker_1')
await task2 # ⑥ 事件调度器开始调度worker_2
print('awaited worker_2') # ⑩ 主任务输出 'awaited worker_2',协程全任务结束,事件循环结束
start = time.time()
asyncio.run(main()) # ①程序进入 main() 函数,事件循环开启;
print("Escape {}".format(time.time() - start)) # 一共花2秒
import time
import asyncio # ① 首先 import asyncio
async def crawl_page(url): # ② async 声明异步函数
print('crawling {}'.format(url))
sleep_time = int(url.split('_')[-1])
await asyncio.sleep(sleep_time) # ③ await进入被调用的协程函数,执行完毕返回后再继续,会阻塞
print('OK {}'.format(url))
return sleep_time
async def main(urls):
tasks = []
for url in urls:
coroutine_object = crawl_page(url) # ④调用异步函数crawl_page并不会执行,而是会得到一个协程对象coroutine_object
tasks.append(asyncio.create_task(coroutine_object)) # ⑤create_task将协程对象制作成任务,并立即执行
res = await asyncio.gather(*tasks,
return_exceptions=True) # ⑤阻塞在这,等所有任务都结束,return_exceptions=True可以避免个别协程对象执行时出错影响大局
return res # ⑥ 返回每一个协程对象的执行结果
if __name__ == '__main__':
start = time.time()
result = asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4'])) # asyncio.run执行协程
print("Escape {}".format(time.time() - start))
print(result)
asyncio.queue模块则实现了面向多生产协程、多消费协程的队列。
import asyncio
import random
async def consumer(queue, ids):
while True:
value = await queue.get()
print('{} get a val: {}'.format(ids, value))
await asyncio.sleep(1)
async def producer(queue, ids):
for i in range(5):
val = random.randint(1, 10)
await queue.put(val)
print('{} put a val: {}'.format(ids, val))
await asyncio.sleep(1)
async def main():
queue = asyncio.Queue()
consumer1 = asyncio.create_task(consumer(queue, "consumer1"))
consumer2 = asyncio.create_task(consumer(queue, "consumer2"))
producer1 = asyncio.create_task(producer(queue, "producer1"))
producer2 = asyncio.create_task(producer(queue, "producer2"))
await asyncio.sleep(10)
consumer2.cancel()
consumer1.cancel()
await asyncio.gather(consumer1, consumer2, producer1, producer2, return_exceptions=True)
asyncio.run(main())
import asyncio
import aiohttp
from bs4 import BeautifulSoup
async def fetch_content(url):
async with aiohttp.ClientSession(
headers=header, connector=aiohttp.TCPConnector(ssl=False)
) as session:
async with session.get(url) as response:
return await response.text()
async def main():
url = "https://movie.douban.com/cinema/later/beijing/"
init_page = await fetch_content(url)
init_soup = BeautifulSoup(init_page, 'lxml')
movie_names, urls_to_fetch, movie_dates = [], [], []
all_movies = init_soup.find('div', id="showing-soon")
for each_movie in all_movies.find_all('div', class_="item"):
all_a_tag = each_movie.find_all('a')
all_li_tag = each_movie.find_all('li')
movie_names.append(all_a_tag[1].text)
urls_to_fetch.append(all_a_tag[1]['href'])
movie_dates.append(all_li_tag[0].text)
tasks = [fetch_content(url) for url in urls_to_fetch]
pages = await asyncio.gather(*tasks)
for movie_name, movie_date, page in zip(movie_names, movie_dates, pages):
soup_item = BeautifulSoup(page, 'lxml')
img_tag = soup_item.find('img')
print('{} {} {}'.format(movie_name, movie_date, img_tag['src']))
asyncio.run(main())