Python并发编程——threading模块,爬虫加速

本文是对python并发编程中threading模块的学习记录,欢迎感兴趣的朋友们一起交流讨论。

目录

      • 1. 如何创建线程
      • 2.多线程示例(爬虫加速)

1. 如何创建线程

  • 引入多线程模块
import threading
  • 定义功能函数(需要各个线程执行的方法)
def func_0(args):
	......

def func)1(args):
	......

需要注意的是:各个线程执行的方法不一定相同

  • 创建线程
thread_0 = threading.Thread(target=func, args=(arg_0,...)
# Thread对象创建线程
# target参数指向目标函数,注意是直接传递函数名
# args参数传递函数变量,注意要表示为元组,即使只传递一个变量也要表示为(arg_0,)
  • 线程启动
thread_0.start()
  • 等待线程结束
thread_0.join()
# 如果程序运行过程中关心线程是否结束那么可以采用join()进行等待,并不一定要添加

2.多线程示例(爬虫加速)

import requests
import threading
import time

# 确定需要爬取的页面
urls = [...]

# 定义爬取方法,一次爬取一个页面的内容
def crawl(url):
	r = requests.get(url)
	return r.text

# 定义单线程版本
def single_thread():
	for url in urls:
		print(len(crawl(url))
	print('finish')

# 定义多线程版本
def multi_threads():
	threads = []
	for url in urls:
		threads.append(threading.Thread(target=crawl, args=(url,))
	for thread in threads:
		thread.start()
	for thread in threads:
		thread.joint() # 确认全部执行完毕
	print('finish')

# 运行程序
if __name__ == '__main__':
	start = time.time()
	single_thread()
	print('single_thread costL', time.time()-start)

	start = time.time()
	multi_threads()
	print('multi_threads cost:', time.time()-start)

为什么爬虫可以使用multi thread进行加速呢?

  • 爬虫是网络连接下载拉取的技术,而网络下载属于高IO负载,容易受到IO能力限制。而python的多线程技术是非常适合解决IO-Bound类问题的。
  • 关于多python中多进程,多线程与多协程的理解可以参考我的另一篇博文: 关于python多进程,多线程与多协程的理解与选择

你可能感兴趣的:(python,python,并发,多线程)