励志的大鹰哥

web爬虫第四弹 - 生产者与消费者模型（python）

前言

做了很长一段时间爬虫工作，一直没时间记录。去年好不容易静下心来想写点东西，也是因为各种琐事断掉了，看了下之前的爬虫笔记。 web爬虫第三弹， postman的使用；第四弹：代理ip的充分使用；第五弹：原型链；第六弹：简单的加密；第七弹：各种混淆等等，全部都是草稿。。。本来想着写个草稿慢慢补充慢慢发布。结果还是没能发布，唉！我这三天打鱼两天晒网的性格啊，啥时候能改。
话不多说，进入今天的主题：生产者消费者模型 。如果单聊生产者消费者模型，大家应该都能说出个12345，但是如果不是正儿八经的大型项目却很少用到。也可能是自己确实菜，我的原则是cv过来的东西能运行绝不优化。也不看他是什么模式什么设计，这就导致了我一段时间再提起生产者消费者模型就忘记具体干啥的，再次复习再次忘。

案例一

业务刚给我发过来一个压缩包，里面是一些产品的型号，数量为2000w。需要我去查询一下产品参数并补充至数据库（数据就不给大家放了， 这里只用于学习）。首先看到这个量就知道不是一个快活。产品参数查询需要1- 通过搜索产品信息获取产品列表； 2- 判断产品列表中是否存在该型号，如存在则进入详情页，否则记录为无数据； 3- 进入详情页获取参数信息。4- 如果存在图片，则需要下载。所以一个产品需要对页面请求4次。2000w的量就一共是8000w次以内的请求，请求数量已经达到了项目级别。如果按照常规框架一天20w的查询已经算多的了，也需要3个月完成。

0- 分析

项目得完成时间还得短。必须要用分布式，正常应该使用scrapy-redis，但是因为机器限制。所以我手动将数据拆成了3份。两份回家处理一份公司处理。于是就有了今天的内容。跟着步骤一步一步的优化我们的代码。

1- 程序v1：单机器单进程

2000w的数据分成3分，没份大概在700w。如果是7w的数据我们会怎么做。

以上就是分出来的数据。以下则是初步的代码。并没有任何反爬，考虑到封ip的情况，代理ip还是需要给上的。此处代理ip的逻辑不要学习，一切为了方便，偷拿过去被领导骂概不负责。

import os, time, requests, cchardet, traceback, redis, shutil, json
import random

import pandas as pd
from lxml import etree


# 读取需要爬取的数据
def read_file(path):
	redis_pool = redis.ConnectionPool(host='*.*.*.*', port=6379, password='spider..', db=6)
	redis_conn = redis.Redis(connection_pool=redis_pool)
	key = 'key'			# 此为数据库名， 和网站的域名, 为了规避风险， 大家体谅体谅
	for filepath, dirnames, filenames in os.walk(path):
		for filename in filenames:
			filename_num = filename.split('.')[0]
			print(filename_num)

			# 读取Excel中的数据
			file_path = os.path.join(filepath, filename)
			res_list = read_excel(file_path)

			write_path = os.path.join(filepath, '已查询数据.txt')

			with open(write_path, mode='r', encoding='utf-8') as f:
				str_pro = f.read()
			w_lsit = str_pro.split(';')

			for pro_name in res_list:
				if pro_name in w_lsit:
					print('已查询： ' + str(pro_name))
					continue
				# 开始抓取
				result_dict = crawl_info(str(pro_name))
				print('这里正常接受了数据: ')
				print(result_dict)
				print('----------------------------------------------------------------')
				redis_dict = {}
				if result_dict:
					redis_dict[str(result_dict)] = 0
				else:
					redis_dict[str(filename_num)] = 0
				redis_conn.zadd(key, redis_dict)

				# 写入已处理数据
				with open(write_path, mode='a', encoding='utf-8') as f:
					if str(pro_name) == '':
						pass
					f.write(str(pro_name))
					f.write(';')

			# 处理了一个数据， 则移动
			mycopyfile(file_path, r'D:\work_done\local_data')


# 爬虫主逻辑
def crawl_info(pro_name):
	# ============================================== 列表页数据抓取  ==============================================
	result_dict = {}
	# 格式化url
	pro_name_str = pro_name.strip()
	pro_name_param = pro_name.replace(' ', '%')
	url = f"https://www.key.com/keywords/{pro_name_param}"
	print('要爬取的url： ' + url)
	# 爬取列表页数据, 重试5次
	for t in range(9):
		status, html, redirected_url = downloader(url, debug=True)
		# 数据解析， 获取详情url
		if status !=200:
			print('{}列表页面查询失败============================'.format(url))
			if t > 6:
				return {}
			continue
		html_page = etree.HTML(html)
		if not html_page:
			return {}
		if not html_page.xpath("//div[@class='bot']//a[@title='{}']/@href".format(pro_name_str)):
			print('没有获取到指定的详情页')
			return result_dict
		detail_url = html_page.xpath("//div[@class='bot']//a[@title='{}']/@href".format(pro_name_str))[0]
		detail_url = 'https://www.keys.com' + detail_url

		# ============================================== 详情页数据抓取  ==============================================
		detial_status, detial_html, detial_redirected_url = downloader(detail_url)
		if detial_status != 200:
			print('{}详情页面查询失败============================'.format(detail_url))
			if t > 6:
				return {}
			return result_dict
		if type(html_page) == 'NoneType':
			return {}
		# 数据解析， 获取详情数据
		detial_html_page = etree.HTML(detial_html)

		if not detial_html_page.xpath("//h2/text()"):
			print('未查询到数据！！！')
			return {}

		try:
			pro_id = detial_html_page.xpath("//h2/text()")[0]
			pro_img = detial_html_page.xpath("//div[@class='imgBox']/img/@src")[0]
			pro_title_1 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[0]
			pro_title_2 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[1]
			pro_title_3 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[2]
			pro_title_4 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[3]
			pro_Mfr_No = detial_html_page.xpath("//div[@class='cot']/div[@attr='Mfr No:']/text()")[0]
			pro_USHTS = detial_html_page.xpath("//div[@class='cot']/div[@attr='USHTS:']/text()")[0]
			pro_Manufacturer = detial_html_page.xpath("//div[@class='cot']/div[@attr='Manufacturer:']/a/@href")[0]
			pro_Package = detial_html_page.xpath("//div[@class='cot']/div[@attr='Package:']/text()")[0]
			pro_Datasheet = detial_html_page.xpath("//div[@class='cot']/div[@attr='Datasheet:']/a/@href")[0]
			pro_Description = detial_html_page.xpath("//div[@class='cot']/div[@attr='Description:']/text()")[0]

			result_dict['pro_id'] = pro_id
			result_dict['pro_img'] = pro_img
			result_dict['pro_title_1'] = pro_title_1.replace('\n', '').strip()
			result_dict['pro_title_2'] = pro_title_2.replace('\n', '').strip()
			result_dict['pro_title_3'] = pro_title_3.replace('\n', '').strip()
			result_dict['pro_title_4'] = pro_title_4.replace('\n', '').strip()
			result_dict['pro_Mfr_No'] = pro_Mfr_No.replace('\n', '').strip()
			result_dict['pro_USHTS'] = pro_USHTS.replace('\n', '').strip()
			result_dict['pro_Manufacturer'] = 'https://www.keys.com' + pro_Manufacturer.replace('\n', '').strip()
			result_dict['pro_Package'] = pro_Package.replace('\n', '').strip()
			result_dict['pro_Datasheet'] = pro_Datasheet.replace('\n', '').strip()
			result_dict['pro_Description'] = pro_Description.replace('\n', '').strip()
			break
		except:
			print('数据有误！！！')
		print('这里正常获取了数据： ' + str(result_dict))
		print('-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=')

	return result_dict


# 下载器
def downloader(url, timeout=10, headers=None, debug=False, binary=False):
	_headers = {'User-Agent': ('Mozilla/5.0 (compatible; MSIE 9.0; '
                       'Windows NT 6.1; Win64; x64; Trident/5.0)')}
	redirected_url = url
	if headers:
		_headers = headers
	try:
		# 从本地获取 ip
		proxies = get_local_proxy()
		r = requests.get(url, headers=_headers, timeout=timeout, proxies=proxies)
		if binary:
			html = r.content
		else:
			encoding = cchardet.detect(r.content)['encoding']
			html = r.content.decode(encoding)
		status = r.status_code
		redirected_url = r.url
	except:
		if debug:
			traceback.print_exc()
		msg = 'failed download: {}'.format(url)
		print(msg)
		if binary:
			html = b''
		else:
			html = ''
		status = 0
	return status, html, redirected_url


# 读取Excel中产品信息
def read_excel(file_path):
	execl_df = pd.read_excel(file_path)
	result = execl_df['Product'].values
	res_list = list(result)
	return res_list


# 获取付费代理
def get_proxy_from_url():
	proxy_url = 'http://http.tiqu.alibabaapi.com/getip?用的是太阳代理后面的参数就不能让你们知道了'
	print("获取了付费代理。。。")
	res_json = requests.get(proxy_url).json()
	print(res_json)
	proxies = {'https': ''}
	if res_json['code'] == 0:
		ip = res_json['data'][0]['ip']
		port = res_json['data'][0]['port']
		proxies = {"https": ip + ":" + port}
	ip_path = r'./代理池.txt'
	with open(ip_path, mode='w', encoding='utf-8') as f:
		f.write(str(proxies))
	return proxies


# 从本地获取ip
def get_local_proxy():
	# 代理是为了方便， 不要学习这段， 后续会有专门的高效利用代理ip的文章
	with open('./代理池.txt', mode='r', encoding='utf-8') as f:
		res_str = f.read()
	res_str = res_str.replace("'", '"')
	proxies_list = json.loads(res_str)

	proxies = random.choice(proxies_list)
	proxy = {"https": proxies['https']}
	return proxy


# 将代理更新到代理池
def str_2_txt(proxy_ip):
	ip_path = r'./代理池.txt'
	with open(ip_path, mode='w', encoding='utf-8') as f:
		f.write(str(proxy_ip))
	return 'ok'


# 文件夹下一个文件处理完后移动到指定目录
def mycopyfile(srcfile, dstpath):  # 复制函数
	if not os.path.isfile(srcfile):
		print("%s not exist!" % (srcfile))
	else:
		fpath, fname = os.path.split(srcfile)  # 分离文件名和路径
		if not os.path.exists(dstpath):
			print('路径不存在')
			os.makedirs(dstpath)  # 创建路径
		shutil.copy(srcfile, dstpath + '\\' + fname)  # 复制文件
		print("copy %s -> %s" % (srcfile, dstpath + '\\' + fname))


if __name__ == '__main__':
	path = r"D:\data_space\path_1"
	read_file(path)

风风火火写了2个钟结果以为搞定了项目。一运行10秒一条数据。就算不出问题，一天也才跑1w的数据。内心os：“儿子，我给你找到了个铁饭碗，这个项目可以干到你退休。”

2- 程序v2：多机器多线程

一天10000的筛选了还是太低了。如果程序慢一定是电脑的问题，不可能是我写的问题，于是开多两台机器，开多两个pycharm， 2000w的数据手动分给3台机器，一台机器跑700w，每台机器开11个pycharm。一个进程只用跑70w的数据。真棒！70天就能跑完这个项目了。又可以划水3个月！！！
一台机器分11个文件夹

开他个11个程序

总结
如果只是几十万，百万级数据或许可以试一下这个简单的办法。也能做到一周之内搞定数据的查询。但是2000w的数据，前前后后多次拆分容易出错不说，对人力的消耗也是一大缺陷。长痛不如短痛，我们这次不能再使用CV大法了。得改进我们的程序。那我们正式进入今天的主题。

3- 程序v3：生产者消费者

1- 我们先来分析下需求
2000w的数据，短时间拿到结果。那我们目前已经有了产品型号，初始url已经有了

url = f"https://www.key.com/keywords/{pro_name_param}"

那就更简单了，有2000w个这样的url。

生产者：
读取文件中的产品型号构建出url，并将url推至队列。

消费者：
读取队列中url，进行数据抓取，清洗，入库

队列
保持队列数据最大化

这时候我们不用考了阻塞的问题，很明显，生产者生产速度远远快于消费者消费速度，我们只用将队列设置到尽可能大的情形下，慢慢等所有的数据全部抓取完成就行了。

import threading, os, queue, shutil, requests, cchardet, traceback, random, json, pymysql, redis
import time

import pandas as pd
from lxml import etree


def produce():
	'''
		1- 从 mysql 中提取数据。 
		2- 读取 redis 中的数据
		3- 如果数据在 redis 中， 则直接将 redis 中的数据返回 
			3.1- 将返回的数据写入 mysql 表二。 继续下一条
		4- 不在redis中， 则读取url，写入队列
	:return: 
	'''
	# 从mysql中提取数据
	mysql_pro_info = read_mysql()
	print('我们看一下数据库中产品信息： ')
	'''
	(('ZXMP6A17G ',), ('ZXRE1004FF ',))
	'''
	print(mysql_pro_info)

	for item in mysql_pro_info:
		q.put(item[0])


def read_mysql():
	mydb = pymysql.connect(
		host="*.*.*.*",  # 默认用主机名
		port=3306,
		user="root",  # 默认用户名
		password="*..",  # mysql密码
		database='chipsmall',  # 库名
		charset='utf8'  # 编码方式
	)
	mycursor = mydb.cursor()

	sql = "select p_id from filter_pro"
	product_info = ''
	try:
		mycursor.execute(sql)
		print('mysql执行成功。。。')

		product_info = mycursor.fetchall()
	except Exception as e:
		print('执行失败。。。')
		print(e)
		mydb.rollback()
	mydb.commit()
	mydb.close()
	return product_info


def read_redis():
	redis_pool = redis.ConnectionPool(host='*.*.*.*', port=6379, password='*..', db=6)
	redis_conn = redis.Redis(connection_pool=redis_pool)

	filter_end_index = redis_conn.zcard('key')

	res_list = redis_conn.zrange('key', 0, filter_end_index)

	return [res.decode('utf-8') for res in res_list]


def consume():
	'''
		1- 连接 redis
		2- 查询到结果
		3- 结果写入redis
	:return:
	'''
	# 链接redis
	redis_pool = redis.ConnectionPool(host='*.*.*.*', port=6379, password='*..', db=6)
	redis_conn = redis.Redis(connection_pool=redis_pool)
	key = 'filter_product'

	while True:
		item = q.get()
		if not item:
			break
		print(' consume %s' % item)
		result_dict = crawl_info(str(item))
		print('这里正常接受了数据: ')
		print(result_dict)
		print('----------------------------------------------------------------')
		# 获取到的数据写入 redis
		redis_dict = {}
		redis_dict[str(result_dict)] = 0

		redis_conn.zadd(key, redis_dict)
		write_path = './已查询数据.txt'
		# 写入已处理数据
		with open(write_path, mode='a', encoding='utf-8') as f:
			if str(item) == '':
				pass
			f.write(str(item))
			f.write('&;&')


# 爬虫主逻辑
def crawl_info(pro_name):
	# ============================================== 列表页数据抓取  ==============================================
	result_dict = {}
	# 格式化url
	pro_name_str = pro_name.strip()
	pro_name_param = pro_name.replace(' ', '%')
	url = f"https://www.keys.com/keywords/{pro_name_param}"
	print('要爬取的url： ' + url)
	# 爬取列表页数据, 重试5次
	for t in range(9):
		status, html, redirected_url = downloader(url, debug=True)
		# 数据解析， 获取详情url
		if status !=200:
			print('{}列表页面查询失败============================'.format(url))
			if t > 6:
				return {}
			continue
		html_page = etree.HTML(html)
		if not html_page:
			return {}
		if not html_page.xpath("//div[@class='bot']//a[@title='{}']/@href".format(pro_name_str)):
			print('没有获取到指定的详情页')
			return result_dict
		detail_url = html_page.xpath("//div[@class='bot']//a[@title='{}']/@href".format(pro_name_str))[0]
		detail_url = 'https://www.keys.com' + detail_url

		# ============================================== 详情页数据抓取  ==============================================
		detial_status, detial_html, detial_redirected_url = downloader(detail_url)
		if detial_status != 200:
			print('{}详情页面查询失败============================'.format(detail_url))
			if t > 6:
				return {}
			return result_dict
		if type(html_page) == 'NoneType':
			return {}
		# 数据解析， 获取详情数据
		detial_html_page = etree.HTML(detial_html)

		if not detial_html_page.xpath("//h2/text()"):
			print('未查询到数据！！！')
			return {}

		try:
			pro_id = detial_html_page.xpath("//h2/text()")[0]
			pro_img = detial_html_page.xpath("//div[@class='imgBox']/img/@src")[0]
			pro_title_1 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[0]
			pro_title_2 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[1]
			pro_title_3 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[2]
			pro_title_4 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[3]
			pro_Mfr_No = detial_html_page.xpath("//div[@class='cot']/div[@attr='Mfr No:']/text()")[0]
			pro_USHTS = detial_html_page.xpath("//div[@class='cot']/div[@attr='USHTS:']/text()")[0]
			pro_Manufacturer = detial_html_page.xpath("//div[@class='cot']/div[@attr='Manufacturer:']/a/@href")[0]
			pro_Package = detial_html_page.xpath("//div[@class='cot']/div[@attr='Package:']/text()")[0]
			pro_Datasheet = detial_html_page.xpath("//div[@class='cot']/div[@attr='Datasheet:']/a/@href")[0]
			pro_Description = detial_html_page.xpath("//div[@class='cot']/div[@attr='Description:']/text()")[0]

			result_dict['pro_id'] = pro_id
			result_dict['pro_img'] = pro_img
			result_dict['pro_title_1'] = pro_title_1.replace('\n', '').strip()
			result_dict['pro_title_2'] = pro_title_2.replace('\n', '').strip()
			result_dict['pro_title_3'] = pro_title_3.replace('\n', '').strip()
			result_dict['pro_title_4'] = pro_title_4.replace('\n', '').strip()
			result_dict['pro_Mfr_No'] = pro_Mfr_No.replace('\n', '').strip()
			result_dict['pro_USHTS'] = pro_USHTS.replace('\n', '').strip()
			result_dict['pro_Manufacturer'] = 'https://www.keys.com' + pro_Manufacturer.replace('\n', '').strip()
			result_dict['pro_Package'] = pro_Package.replace('\n', '').strip()
			result_dict['pro_Datasheet'] = pro_Datasheet.replace('\n', '').strip()
			result_dict['pro_Description'] = pro_Description.replace('\n', '').strip()
			break
		except:
			print('数据有误！！！')
		print('这里正常获取了数据： ' + str(result_dict))
		print('-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=')

	return result_dict


# 下载器
def downloader(url, timeout=10, headers=None, debug=False, binary=False):
	_headers = {'User-Agent': ('Mozilla/5.0 (compatible; MSIE 9.0; '
                       'Windows NT 6.1; Win64; x64; Trident/5.0)')}
	redirected_url = url
	if headers:
		_headers = headers
	try:
		# 从本地获取 ip
		proxies = get_local_proxy()
		r = requests.get(url, headers=_headers, timeout=timeout, proxies=proxies)
		if binary:
			html = r.content
		else:
			encoding = cchardet.detect(r.content)['encoding']
			html = r.content.decode(encoding)
		status = r.status_code
		redirected_url = r.url
	except:
		if debug:
			traceback.print_exc()
		msg = 'failed download: {}'.format(url)
		print(msg)
		if binary:
			html = b''
		else:
			html = ''
		status = 0
	return status, html, redirected_url


# 获取付费代理
def get_proxy_from_url():
	proxy_url = 'http://http.tiqu.alibabaapi.com/getip?不能看不能看'
	print("获取了付费代理。。。")
	res_json = requests.get(proxy_url).json()
	print(res_json)
	proxies = {'https': ''}
	if res_json['code'] == 0:
		ip = res_json['data'][0]['ip']
		port = res_json['data'][0]['port']
		proxies = {"https": ip + ":" + port}
	ip_path = r'../代理池.txt'
	with open(ip_path, mode='w', encoding='utf-8') as f:
		f.write(str(proxies))
	return proxies


# 从本地获取ip
def get_local_proxy():
	# 读取本地
	with open('../代理池.txt', mode='r', encoding='utf-8') as f:
		res_str = f.read()
	res_str = res_str.replace("'", "&")
	res_str = res_str.replace('&', '"')
	proxies_list = json.loads(res_str)

	proxies = random.choice(proxies_list)
	proxy = {"https": proxies['https']}
	return proxy


# 将代理更新到代理池
def str_2_txt(proxy_ip):
	ip_path = r'../代理池.txt'
	with open(ip_path, mode='w', encoding='utf-8') as f:
		f.write(str(proxy_ip))
	return 'ok'


# 文件夹下一个文件处理完后移动到指定目录
def mycopyfile(srcfile, dstpath):  # 复制函数
	if not os.path.isfile(srcfile):
		print("%s not exist!" % (srcfile))
	else:
		fpath, fname = os.path.split(srcfile)  # 分离文件名和路径
		if not os.path.exists(dstpath):
			print('路径不存在')
			os.makedirs(dstpath)  # 创建路径
		shutil.copy(srcfile, dstpath + '\\' + fname)  # 复制文件
		print("copy %s -> %s" % (srcfile, dstpath + '\\' + fname))


if __name__ == '__main__':
	q = queue.Queue()

	producer = threading.Thread(target=produce, args=())
	consumer1 = threading.Thread(target=consume, args=())
	consumer2 = threading.Thread(target=consume, args=())
	consumer3 = threading.Thread(target=consume, args=())
	producer.start()
	consumer1.start()
	consumer2.start()
	consumer3.start()
	producer.join()
	consumer1.join()
	consumer2.join()
	consumer3.join()

以上就是生产者消费者的思路了，生产者读取数据库中的数据存入队列，消费者持续获取抓取数据，直至队列中数据为空。

案例二

数据库中有36w的有效数据，需要去另一个网站通过型号下载图片和PDF内容。

0- 分析

看完案例一应该很清楚，起始url已经存在了， 1- 生产者：只需要读取redis中的数据，抽出图片url和pdfurl推送至队列。 2- 消费者：拿到队列中的数据，进行图片和pdf的抓取。队列为空，则流程结束。

我们直接上代码

import time

import redis, json, re, pymysql, requests, random, queue, threading

'''
1- 读取redis中数据
2- 校验是否有图片
3- pdf补充
'''


def produce(result_list):
	# 从redis中提取数据

	print('redis中数据读取完毕。。。')
	print(result_list)
	for item in result_list:
		print(item)
		res = item.replace('"', "`")
		res = res.replace("'", '"')
		if '{' not in res:
			continue
		try:
			q.put(res)
			print('{}已推至队列'.format(res))
		except Exception as e:
			print('数据{}推送至队列出错'.format(res))
			continue
	print('生产者生产完成了')

def redis_opt(key, filter_start_index=0, filter_end_index=0):
	redis_pool = redis.ConnectionPool(host='*.*.*.*', port=6379, password='*..', db=6)
	redis_conn = redis.Redis(connection_pool=redis_pool)

	filter_end_index = redis_conn.zcard(key)
	print(filter_end_index)
	res_list = redis_conn.zrange(key, 0, filter_end_index)
	# res_list = redis_conn.zrange(key, 0, 50)

	return [res.decode('utf-8') for res in res_list]


def check_sql(data_list):
	print(data_list)
	mydb = pymysql.connect(
		host="*.*.*.*",  # 默认用主机名
		port=3306,
		user="root",  # 默认用户名
		password="*..",  # mysql密码
		database='chipsmall',  # 库名
		charset='utf8'  # 编码方式0
	)
	mycursor = mydb.cursor()

	sql = "INSERT IGNORE INTO into_web (p_id, pro_img, pro_title_2, pro_title_3, pro_Mfr_No, pro_Manufacturer, " \
		  "pro_Package, pro_Datasheet, pro_Description, img_status) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"

	# sql = 'select * from filter_pro'
	try:
		mycursor.executemany(sql, data_list)
		# data = mycursor.execute(sql)
		print('mysql执行成功。。。')
	except Exception as e:
		print('执行失败。。。')
		print(e)
		mydb.rollback()
	mydb.commit()
	mydb.close()
	# print(data)

	return


def request_download(ind, IMAGE_URL):
	import requests
	r = requests.get(IMAGE_URL)
	with open('./image/img_{}.jpg'.format(ind), 'wb') as f:
		f.write(r.content)
	return r


def into_list():
	headers = {
		'Connection': 'close',
		'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.58'
	}
	user_agent_list = [
		"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
		"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
		"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
		"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
		"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
		"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
		"Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
		]
	headers['User-Agent'] = random.choice(user_agent_list)

	json_list = []
	index = 0
	while True:
		if q.empty():
			# 队列为空则退出
			break
		index += 1
		print(index)
		res = q.get()
		print('获取到res')
		if '{' in res:
			try:
				res = res.replace("'", '"')
				json_res = json.loads(res)
				if not str(json_res["pro_img"]):
					continue
				img_status = 'False'
				img_code = b''
				if '.jpg' in str(json_res["pro_img"]):
					# 下载图片, 换成400
					print('数据{}正常下载了图片'.format(res))
					pic_url = str(json_res["pro_img"]).replace('200dimg', '400dimg')
					img_code = request_download(1, pic_url).content
					img_status = 'True'
				pdf_code = b''
				if '.pdf' in json_res["pro_Datasheet"]:
					pdf_code = requests.get(json_res["pro_Datasheet"], headers=headers).content
					print('PDF下载完成')
				# 存在图片
				json_list.append([json_res["pro_id"], img_code, json_res["pro_title_2"], json_res["pro_title_3"],
								  json_res["pro_Mfr_No"], json_res["pro_Manufacturer"], json_res["pro_Package"],
								  pdf_code, json_res["pro_Description"], img_status])

			except Exception as e:
				print(e)
				if not res:
					res = ''
				with open('错误数据.txt', mode='w', encoding='utf-8') as f:
					f.write(res)
					f.write(';')
					f.write('\n')
	check_sql(json_list)
	print('写入了数据库{}'.format(index))
	return []


if __name__ == '__main__':
	key = 'appelectronic'
	q = queue.Queue()
	result_list = redis_opt(key)
	producer = threading.Thread(target=produce, args=(result_list,))
	consumer1 = threading.Thread(target=into_list, args=())
	consumer2 = threading.Thread(target=into_list, args=())
	consumer3 = threading.Thread(target=into_list, args=())
	consumer4 = threading.Thread(target=into_list, args=())
	consumer5 = threading.Thread(target=into_list, args=())
	consumer6 = threading.Thread(target=into_list, args=())
	consumer7 = threading.Thread(target=into_list, args=())
	consumer8 = threading.Thread(target=into_list, args=())
	consumer9 = threading.Thread(target=into_list, args=())
	consumer10 = threading.Thread(target=into_list, args=())
	consumer11 = threading.Thread(target=into_list, args=())
	producer.start()
	time.sleep(10)		# 很关键， 生产者为一个线程。消费者为11个线程，如果生产者消费者同时启动，可能出现消费者误判队列为空的情况
	consumer1.start()
	consumer2.start()
	consumer3.start()
	consumer4.start()
	consumer5.start()
	consumer6.start()
	consumer7.start()
	consumer8.start()
	consumer9.start()
	consumer10.start()
	consumer11.start()
	producer.join()
	consumer1.join()
	consumer2.join()
	consumer3.join()
	consumer4.join()
	consumer5.join()
	consumer6.join()
	consumer7.join()
	consumer8.join()
	consumer9.join()
	consumer10.join()
	consumer11.join()

中间需要注意几个点，就是请求链接超标问题，需要修改为短连接， header弄个随机的ua。无需ip。

案例三

0- 分析

我们最终的产品已经处理完毕，在上传到公司网站上时需要添加水印。针对几十万张图，单线程添加也是不够的，这时候我们继续使用之前的思路。

1- 直接上代码

import os, queue, threading, time
from PIL import Image


def loop_dir():
	file_path = r"./image"
	result_list = []
	for filepath, dirnames, filenames in os.walk(file_path):
		for filename in filenames:
			file_path = os.path.join(filepath + '/' + filename)
			print(file_path)
			with open('已添加水印.txt', mode='r', encoding='utf-8') as f:
				pro_str = f.read()
			pro_list = pro_str.split(';')
			if filename in pro_list:
				continue
			result_list.append(file_path)
	return result_list


def into_q(result_list):
	for item in result_list:
		q.put(item)
	print('生产者生产完成')


def add_watermark():
	while True:
		if q.empty():
			print('队列已空')
			break

		pic_path = q.get()
		file_name = str(pic_path).split('/')[-1]
		print('获取到了file_name {}'.format(file_name))
		img = Image.open(pic_path)

		watermark = Image.open(r"水印.png")

		wm_width, wm_height = watermark.size

		watermark = watermark.resize((wm_width, wm_height))

		x = 1
		y = 1

		img.paste(watermark, (x, y), watermark)

		img.save(r"D:\Scriptspace\本地数据补充\数据筛选\加水印\{}".format(file_name))



def exist_folder(pro_id):
	with open('已添加水印.txt', mode='a', encoding='utf-8') as f:
		f.write(pro_id)
		f.write(';')
	return ''



if __name__ == '__main__':
	'''
	1- 读取目录下所有的图片
	2- 添加水印
	'''
	q = queue.Queue()
	result_list = loop_dir()

	producer = threading.Thread(target=into_q, args=(result_list, ))
	consumer0 = threading.Thread(target=add_watermark, args=())
	consumer1 = threading.Thread(target=add_watermark, args=())
	consumer2 = threading.Thread(target=add_watermark, args=())
	consumer3 = threading.Thread(target=add_watermark, args=())
	consumer4 = threading.Thread(target=add_watermark, args=())
	consumer5 = threading.Thread(target=add_watermark, args=())
	consumer6 = threading.Thread(target=add_watermark, args=())
	consumer7 = threading.Thread(target=add_watermark, args=())
	consumer8 = threading.Thread(target=add_watermark, args=())
	consumer9 = threading.Thread(target=add_watermark, args=())

	producer.start()
	time.sleep(10)
	consumer0.start()
	consumer1.start()
	consumer2.start()
	consumer3.start()
	consumer4.start()
	consumer5.start()
	consumer6.start()
	consumer7.start()
	consumer8.start()
	consumer9.start()

	producer.join()
	consumer0.join()
	consumer1.join()
	consumer2.join()
	consumer3.join()
	consumer4.join()
	consumer5.join()
	consumer6.join()
	consumer7.join()
	consumer8.join()
	consumer9.join()

36w张图片仅需5分钟全部添加水印完成。

更新下完整代码

import threading, os, queue, shutil, requests, cchardet, traceback, random, json, pymysql, redis, time
from lxml import etree


# 创建一个任务队列
task_queue = queue.Queue()


class MysqlClass:
    def __init__(self, host="*.*.*.*", port=3306, user="*", password="*", database='*'):
        self.host = host
        self.port = port
        self.user = user
        self.password = password
        self.database = database

        self.mydb = pymysql.connect(
            host=self.host,  # 默认用主机名
            port=self.port,
            user=self.user,  # 默认用户名
            password=self.password,  # mysql密码
            database=self.database,  # 库名
            charset='utf8'  # 编码方式
        )
        self.mycursor = self.mydb.cursor()

    def read_mysql(self, sql):
        # 'select * from filter_pro'
        data = []
        try:
            self.mycursor.execute(sql)
            data = self.mycursor.fetchall()
            print('mysql读取执行成功。。。')
        except Exception as e:
            print('读取执行失败。。。')
            print(e)
            self.mydb.rollback()
        self.mydb.commit()
        self.mydb.close()

        return data

    def insert_mysql(self, data_list, sql):
        flag = False
        lock = threading.Lock()
        try:
            with lock:
                self.mycursor.executemany(sql, data_list)
            print('mysql插入执行成功。。。')
            flag = True
        except Exception as e:
            print('插入执行失败。。。{}{}'.format(sql, str(data_list)))
            print(e)
            self.mydb.rollback()
        finally:
            # 关闭游标和数据库连接
            self.mydb.commit()
            self.mydb.close()

        return flag


class RedisClass:
    def __init__(self, db_key, db_index, db_host='*.*.*.*', db_port=6379, db_password='*', filter_start_index=0, filter_end_index=0):
        # 传入DB表名，和DB序号
        self.db_key = db_key
        self.db_index = db_index
        self.db_host = db_host
        self.db_port = db_port
        self.db_password = db_password
        self.filter_start_index = filter_start_index
        self.filter_end_index = filter_end_index

        self.redis_pool = redis.ConnectionPool(host=self.db_host, port=self.db_port, password=self.db_password,
                                               db=self.db_index)
        self.redis_conn = redis.Redis(connection_pool=self.redis_pool)

    def count_redis_data(self):
        # 计数： 获取redis中数据数量
        return self.redis_conn.zcard(self.db_key)

    def read_redis(self):
        # 读取redis中全部数据
        if self.filter_start_index == 0 and self.filter_end_index == 0:
            # 如果无输入查询数量， 则全表查询
            self.filter_end_index = self.redis_conn.zcard(self.db_key)
        print('查询到的数量为： {}'.format(self.filter_end_index))
        res_list = self.redis_conn.zrange(self.db_key, self.filter_start_index, self.filter_end_index)

        return [res.decode('utf-8') for res in res_list]

    def insert_redis(self, redis_dict):
        flag = False
        self.redis_conn.zadd(self.db_key, redis_dict)
        return flag



# 生产者线程类
class ProducerThread(threading.Thread):
    def __init__(self, mysql_pro_info):
        super().__init__()
        self.mysql_pro_info = mysql_pro_info

    def run(self):
        for item in self.mysql_pro_info:
            task_queue.put(item)
            print(f"Produced by {self.name}: {item}")


# 消费者线程类
class ConsumerThread(threading.Thread):
    def run(self):
        '''
        	1- 连接 redis
        	2- 查询到结果
        	3- 结果写入redis
        :return:
        '''
        redis_obj_retry = RedisClass('WeeklyRetry', 9)
        redis_obj_done = RedisClass('WeeklyDone', 9)

        while True:
            # 从队列获取任务
            item = task_queue.get()
            item = str(item).replace('!  ', '').strip()
            if len(str(item)) < 3:
                print('{}小于3'.format(str(item)))
                continue

            # 如果产品已经爬取， 则跳过
            redis_done = redis_obj_done.read_redis()
            if str(item) in redis_done:
                print("数据{}已查询， 跳过".format(item))
                continue

            print(f"Consumed by {self.name}: {item}")
            print(' consume %s' % item)
            result_dict = crawl_info(str(item))
            # 获取到的数据写入 redis
            redis_dict = {}
            if result_dict:
                print('我们看一下result_dict： {}'.format(str(result_dict)))
                if result_dict.get('retry'):
                    # 如果数据异常， 则重试
                    redis_dict[str(item)] = 0
                    redis_obj_retry.insert_redis(redis_dict)

                result_tup = (result_dict['pro_id'], result_dict['pro_data_attr'], result_dict['pro_img'],
                               result_dict['pro_title_1'], result_dict['pro_title_2'], result_dict['pro_title_3'],
                               result_dict['pro_title_4'], result_dict['pro_Mfr_No'], result_dict['pro_USHTS'],
                               result_dict['pro_Manufacturer'], result_dict['pro_Package'], result_dict['pro_Datasheet'],
                               result_dict['pro_Description'])
                mysql_obj_insert = MysqlClass()
                mysql_sql = "INSERT IGNORE INTO weekly_update (pro_id, pro_data_attr, pro_img, pro_title_1, pro_title_2, pro_title_3, " \
                            "pro_title_4, pro_mfr_no, pro_ushts, pro_manufacturer, pro_package_url, pro_datasheet_url, pro_description)" \
                            " VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"
                mysql_obj_insert.insert_mysql([result_tup], mysql_sql)
                redis_obj_done.insert_redis({str(item): 0})
                print('这里正常接受了数据: {}'.format(str(result_dict)))

            # 标记任务完成
            task_queue.task_done()
            print('----------------------------------------------------------------')


# 爬虫主逻辑
def crawl_info(pro_name):
    # ============================================== 列表页数据抓取  ==============================================
    result_dict = {}
    # 格式化url
    pro_name_str = pro_name.strip()
    # 构建url用指定方法
    pro_name_param = pro_name_str.replace(' ', '%')
    url = f"https://www.*.com/keywords/{pro_name_param}"
    print('要爬取的url： ' + url)
    # 爬取列表页数据, 重试7次
    url_flag = False
    detail_url = ''
    for t in range(7):
        status, html, redirected_url = downloader(url, debug=True)
        # 数据解析， 获取详情url
        if status !=200:
            if t > 6:
                print('============={}查询页面状态码不为200============='.format(url))
                # 6次请求失败， 则返回异常
                return {'retry': 1}
            continue
        html_page = etree.HTML(html)
        if not html_page:
            return {}
        # 如果该页查询无结果， 直接返回
        if html_page.xpath("//b[contains(text(), 'Sorry, no results.')]"):
            # 数据不存在
            print('Sorry, no results.')
            return {}
        # 如果查询到进入了详情页， 则直接解析数据返回
        pro_name_str = pro_name_str.replace("'", "")	# xpath语法中不能包含单引号，或者其他特殊字符
        if html_page.xpath("//h2[contains(text(), '{}')]/text()".format(pro_name_str)):
            print('已经重定向到详情页: {}'.format(redirected_url))
            detail_url = redirected_url
            detial_html_page = html_page
        if not detail_url:
            # 未进入到详情页， 又可以查询到数据， 则解析列表
            if not html_page.xpath("//div[@class='bot']//a[@title='{}']/@href".format(pro_name_str)):
                # 没有详情页地址
                return {}
            # 在列表中查询到指定数据
            detail_url = html_page.xpath("//div[@class='bot']//a[@title='{}']/@href".format(pro_name_str))[0]
            detail_url = 'https://www.*.com' + detail_url

            # ============================================== 详情页数据抓取  ==============================================
            detial_status, detial_html, detial_redirected_url = downloader(detail_url)
            if detial_status != 200:
                print('{}详情页面查询失败============================'.format(detail_url))
                if t > 6:
                    return {'retry': 1}
                return result_dict
            if type(html_page) == 'NoneType':
                return {}
            # 数据解析， 获取详情数据
            detial_html_page = etree.HTML(detial_html)

            if not detial_html_page.xpath("//h2/text()"):
                print('未查询到数据！！！')
                return {}
            print('开始解析数据。。。')
        try:
            pro_id = ''
            if detial_html_page.xpath("//h2/text()"):
                pro_id = detial_html_page.xpath("//h2/text()")[0]
            pro_img = ''
            if detial_html_page.xpath("//div[@class='imgBox']/img/@src"):
                pro_img = detial_html_page.xpath("//div[@class='imgBox']/img/@src")[0]
            pro_title_1 = ''
            if detial_html_page.xpath("//div[@class='crumbs w']/a/text()"):
                pro_title_1 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[0]
            pro_title_2 = ''
            if detial_html_page.xpath("//div[@class='crumbs w']/a/text()"):
                pro_title_2 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[1]
            pro_title_3 = ''
            if detial_html_page.xpath("//div[@class='crumbs w']/a/text()"):
                pro_title_3 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[2]
            pro_title_4 = ''
            if detial_html_page.xpath("//div[@class='crumbs w']/a/text()"):
                pro_title_4 = detial_html_page.xpath("//div[@class='crumbs w']/a/text()")[3]
            pro_Mfr_No = ''
            if detial_html_page.xpath("//div[@class='cot']/div[@attr='Mfr No:']/text()"):
                pro_Mfr_No = detial_html_page.xpath("//div[@class='cot']/div[@attr='Mfr No:']/text()")[0]
            pro_USHTS = ''
            if detial_html_page.xpath("//div[@class='cot']/div[@attr='USHTS:']/text()"):
                pro_USHTS = detial_html_page.xpath("//div[@class='cot']/div[@attr='USHTS:']/text()")[0]
            pro_Manufacturer = ''
            if detial_html_page.xpath("//div[@class='cot']/div[@attr='Manufacturer:']/a/text()"):
                pro_Manufacturer = detial_html_page.xpath("//div[@class='cot']/div[@attr='Manufacturer:']/a/text()")[0]
            pro_Package = ''
            if detial_html_page.xpath("//div[@class='cot']/div[@attr='Package:']/text()"):
                pro_Package = detial_html_page.xpath("//div[@class='cot']/div[@attr='Package:']/text()")[0]
            pro_Datasheet = ''
            if detial_html_page.xpath("//div[@class='cot']/div[@attr='Datasheet:']/a/@href"):
                pro_Datasheet = detial_html_page.xpath("//div[@class='cot']/div[@attr='Datasheet:']/a/@href")[0]
            pro_Description = ''
            if detial_html_page.xpath("//div[@class='cot']/div[@attr='Description:']/text()"):
                pro_Description = detial_html_page.xpath("//div[@class='cot']/div[@attr='Description:']/text()")[0]

            pro_data_attr = {}
            attr_list = detial_html_page.xpath("//div[@class='specifications']//ul/li")
            for attr in attr_list:
                attr_key = attr.xpath(".//span/text()")[0]
                attr_value = attr.xpath(".//p/text()")[0]
                pro_data_attr[attr_key] = attr_value

            result_dict['pro_data_attr'] = str(pro_data_attr).replace('\n', '').strip()
            result_dict['pro_id'] = pro_id.replace('\n', '').strip()
            result_dict['pro_img'] = pro_img.replace('\n', '').strip()
            result_dict['pro_title_1'] = pro_title_1.replace('\n', '').strip()
            result_dict['pro_title_2'] = pro_title_2.replace('\n', '').strip()
            result_dict['pro_title_3'] = pro_title_3.replace('\n', '').strip()
            result_dict['pro_title_4'] = pro_title_4.replace('\n', '').strip()
            result_dict['pro_Mfr_No'] = pro_Mfr_No.replace('\n', '').strip()
            result_dict['pro_USHTS'] = pro_USHTS.replace('\n', '').strip()
            result_dict['pro_Manufacturer'] = pro_Manufacturer.replace('\n', '').strip()
            result_dict['pro_Package'] = pro_Package.replace('\n', '').strip()
            result_dict['pro_Datasheet'] = pro_Datasheet.replace('\n', '').strip()
            result_dict['pro_Description'] = pro_Description.replace('\n', '').strip()
            break
        except Exception as e:
            print('detail_url{} :xpath解析不成功。'.format(detail_url))

        print('-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=')
    return result_dict


# 下载器
def downloader(url, timeout=10, headers=None, debug=False, binary=False):
    headers = {
        'Connection': 'close'
    }
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
        "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
    ]
    headers['User-Agent'] = random.choice(user_agent_list)
    redirected_url = url
    if headers:
        _headers = headers
    try:
        # 从本地获取 ip
        proxies = get_local_proxy()
        print('获取到了代理ip： {}'.format(str(proxies)))

        r = requests.get(url, headers=headers, timeout=timeout, proxies=proxies, allow_redirects=True)
        if binary:
            html = r.content
        else:
            encoding = cchardet.detect(r.content)['encoding']
            html = r.content.decode(encoding)
        status = r.status_code
        redirected_url = r.url
    except:
        print("爬取指定url出错: {}".format(url))
        # if debug:
        #     traceback.print_exc()
        msg = 'failed download: {}'.format(url)
        print(msg)
        if binary:
            html = b''
        else:
            html = ''
        status = 0
    return status, html, redirected_url


def get_local_proxy():
    # 读取本地
    with open('代理池.txt', mode='r', encoding='utf-8') as f:
        res_str = f.read()
    res_str = res_str.replace("'", "&")
    res_str = res_str.replace('&', '"')
    proxies_list = json.loads(res_str)

    proxies = random.choice(proxies_list)
    proxy = {"https": proxies['https']}
    return proxy


if __name__ == '__main__':
    redis_obj = RedisClass('new_products', 15)
    # redis_obj = RedisClass('WeeklyRetry', 9)
    mysql_pro_info = redis_obj.read_redis()
    print(mysql_pro_info)

    # 创建生产者线程
    producer_thread = ProducerThread(mysql_pro_info)
    producer_thread.start()

    # 创建消费者线程
    consumer_threads = []
    for i in range(100):  # 创建100个消费者线程
        consumer_thread = ConsumerThread()
        consumer_threads.append(consumer_thread)
        consumer_thread.start()

    # 等待所有任务处理完成
    task_queue.join()

    # 终止所有线程
    producer_thread.join()

    for thread in consumer_threads:
        thread.join()

总结：

以上3个案例是实际工作中需要的问题，其实只要有这种思维，生产者消费者模型就不会忘记。
如果一个知识点经常忘记，说明还是没有实际项目支撑。找多几个项目练习练习，再也不用担心会忘记生产者消费者模型了。

你可能感兴趣的:(爬虫,python,自我提升,爬虫,python,pandas,ip)

基于web在线餐饮网站的设计与实现——蛋糕甜品店铺(HTML+CSS+JavaScript) html网页制作网页设计前端 javascript html dreamweaver网页设计 web网页设计期末课程大作业
‍静态网站的编写主要是用HTMLDIV+CSSJS等来完成页面的排版设计‍,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode、Webstorm、Animate等等，用的最多的还是DW，当然不同软件写出的前端Html5代码都是一致的，本网页适合修改成为各种类型的产品展示网页，比如美食、旅游、摄影、电影、音乐等等多种主题，希望对大家有所帮助。精彩专栏推荐❤
python 推荐算法库_[译] 详解个性化推荐五大最常用算法 weixin_39612733 python 推荐算法库
允中若朴编译自Stats&Bots量子位出品|公众号QbitAI推荐系统，是当今互联网背后的无名英雄。我们在某宝首页看见的商品，某条上读到的新闻，甚至在各种地方看见的广告，都有赖于它。昨天，一个名为Stats&Bots的博客详解了构建推荐系统的五种方法。量子位编译如下：现在，许多公司都在用大数据来向用户进行相关推荐，驱动收入增长。推荐算法有很多种，数据科学家需要根据业务的限制和要求选择最好的算法。
如何从Slack导出文件中提取数据：一步步指导 stjklkjhgffxw 前端服务器 python
引言Slack已经成为许多团队用于即时通讯和协作的关键工具。随着时间的推移，在Slack中积累了大量的信息和数据，这些数据可能对分析和归档系统非常有价值。为此，Slack提供了数据导出功能，允许用户导出工作区的消息和文件。本篇文章将详细介绍如何使用Python读取Slack的导出文件，并展示如何使用SlackDirectoryLoader进行数据的加载和处理。主要内容1.导出Slack数据首先，你
如何在简历中巧妙展现你的兴趣爱好贵州数擎科技有限公司面试跳槽
大家好！我是[数擎AI]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术开源项目：智简未来、晓智元宇宙、数字孪生引擎在简历中展
Python智能推荐系统与个性化电商 master_chenchengg python python 办公效率 python开发 IT
Python智能推荐系统与个性化电商探索宝藏：揭开推荐系统的神秘面纱数据炼金术：挖掘用户行为背后的黄金智能导购员：为每位顾客定制专属购物体验实时响应大师：打造即时反馈的动态推荐社交网络效应：借助朋友的力量扩大影响力反馈循环艺术家：持续改进与优化用户体验未来展望：迎接智能化零售的新时代探索宝藏：揭开推荐系统的神秘面纱在电子商务的世界里，推荐系统就像是一个藏宝图，它帮助商家找到那些隐藏在海量商品中的“
Python实现个性化推荐二 Ninina1992 python 人工智能开发工具
基于内容的推荐引擎是怎么工作的基于内容的推荐系统，正如你的朋友和同事预期的那样，会考虑商品的实际属性，比如商品描述，商品名，价格等等。如果你以前从没接触过推荐系统，然后现在有人拿枪指着你的头，强迫你在三十秒之内描述出来，你可能会描述这样一个基于内容的系统：呃，呃，我可能会给你看一大堆来自同一个厂家，并且拥有类似的说明的产品。你正在利用商品本身的属性来推荐类似的商品。这样做非常合理，因为这就是我们在
【股票数据API接口46】如何获取股票指历史分时BOLL数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据 Athena二哈 python java 开发语言股票数据接口 api
如今，量化分析在股市领域风靡一时，其核心要素在于数据，获取股票数据，是踏上量化分析之路的第一步。你可以选择亲手编写爬虫来抓取，但更便捷的方式，莫过于利用专业的股票数据API接口。自编爬虫虽零成本，却伴随着时间与精力的巨大消耗，且常因目标页面变动而失效。大家可以依据自己的实际情况来决定数据获取方式。接下来，我将分享200多个实测可用且免费的专业股票数据接口，并通过Python、JavaScript（
【股票数据API接口45】如何获取股票指历史分时MACD数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据 Athena二哈 python java 开发语言 api 股票数据接口
如今，量化分析在股市领域风靡一时，其核心要素在于数据，获取股票数据，是踏上量化分析之路的第一步。你可以选择亲手编写爬虫来抓取，但更便捷的方式，莫过于利用专业的股票数据API接口。自编爬虫虽零成本，却伴随着时间与精力的巨大消耗，且常因目标页面变动而失效。大家可以依据自己的实际情况来决定数据获取方式。接下来，我将分享200多个实测可用且免费的专业股票数据接口，并通过Python、JavaScript（
Python酷库之旅-第三方库Pandas(011) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习与成长
目录一、用法精讲25、pandas.HDFStore.get函数25-1、语法25-2、参数25-3、功能25-4、返回值25-5、说明25-6、用法25-6-1、数据准备25-6-2、代码示例25-6-3、结果输出26、pandas.HDFStore.select函数26-1、语法26-2、参数26-3、功能26-4、返回值26-5、说明26-6、用法26-6-1、数据准备26-6-2、代码示例
使用 Three.js 转换 GLSL 粒子效果着色器贵州数擎科技有限公司 javascript 着色器开发语言
大家好！我是[数擎AI]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术开源项目：AI简历、元宇宙、数字孪生在这篇博客中，我们
STM32--SPI通信讲解回不去的bug 单片机嵌入式硬件 stm32 笔记
前言嘿，小伙伴们！今天咱们来聊聊STM32的SPI通信。SPI（SerialPeripheralInterface）是一种超常用的串行通信协议，特别适合微控制器和各种外设（比如传感器、存储器、显示屏）之间的通信。如果你是新手，可能会觉得有点儿懵，别担心！我这就带你一步步搞懂SPI通信，保证让你轻松上手，快速搞定项目需求！准备好了吗？Let'sgo！1.SPI通信基础1.1SPI是什么？SPI是一种
实战：基于Pandas的房价数据分析全流程深度解析（附高阶技巧与数学推导）（十二） WHCIS Pandas pandas 数据分析 python
一、项目深度解析框架1.1分析维度全景图数据加载元数据分析数据清洗特征工程多维分析模型准备自动化报告1.2高阶分析工具链数据清洗：Missingno高级可视化、Optuna自动超参优化特征工程：TsFresh时序特征生成、FeatureTools自动化特征衍生可视化：Plotly动态交互、Altair声明式语法报告：JupyterNotebook魔法命令、Voila仪表板二、数据加载的工程级优化2
Python 与 C++ 混合编程云淡丶风轻 Python python c++开发语言
目录概述实现混合编程的方式ctypes的使用方法pythran的使用方法概述Python是解释型语言，在进行数学运算场景下，性能是瓶颈。C++性能卓越，但学习门槛高且开发效率比Python低。C++可以用于密集型计算并用Python进行调用。实现混合编程的方式将影响性能的核心代码用C++来写，而逻辑开发由Python完成。方法一：使用ctypes库加载C++编写的动态链接库。ctypes是Pyth
pyenv+virtualenv+virtualenvwrapper+VSCode+Jupyter notebook+Spyder的安装（python版本管理+环境管理+编译器解释器设置） norah2 python virtualenv vscode
关于Python的思考流程和一些废话（可以略过）最近想要再次开始学习关于python之类的东西，但是之前电脑因为硬盘坏了所以重装了系统，导致之前用的python环境都没有了，因此现在需要重新安装。用了这么久的pyhton，很明显可以知道很多项目会依赖不同的python版本，要么是代码语法格式略有差异，要么是依赖的第三方库兼容的python版本不同，这就会经常出现在上一个项目运行的好好的包，在下一个
MySQL × 向量数据库：大模型时代的黄金组合实战指南 mysql人工智能
一、大模型时代的数据存储革命1.1传统架构的局限性--传统商品表结构CREATETABLEproducts(idINTPRIMARYKEY,titleVARCHAR(255),descriptionTEXT,category_idINT);--典型关键词搜索SELECT*FROMproductsWHEREtitleLIKE'%智能手机%'ORdescriptionLIKE'%旗舰机型%';痛点分析
centos 安装Nodejs v20.11.1 warton88 Nodejs node.js centos 服务器
centos方法curl直接安装[root]curl-fsSLhttps://github.com/Schniz/fnm/raw/master/.ci/install.sh|bashCheckingdependenciesfortheinstallationscript...Checkingavailabilityofcurl...OK!Checkingavailabilityofunzip...
Python与C进行混合编程程序员AlbertTu Python Python开发者 Python的C++扩展
目录写在前面在vs中建立一个工程设置调整step1选择输出目录step2改变目标文件拓展名step3添加附加目录step4添加附加库目录step5添加附加依赖项知识储备条件编译简单例程程序测试补充说明写在前面阅读这篇文章需要一定的C/C++和Python基础，阅读完这篇文章，你将能够开发简单的Python的库。笔者所使用的C++编译器是vs2017，所使用的Python版本是Python3
计算机网络 - HTTP 协议和万维网 Loop Lee java 网络协议 tomcat servlet
基本概念万维网(WorldWideWeb,WWW)定义：一个大规模的分布式信息系统，由全球范围内无数个网络站点和网页组成特点：基于超文本技术，支持多媒体内容的展示和交互URL(UniformResourceLocator)定义：统一资源定位符，用于标识和定位互联网上的资源，不区分大小写基本格式：://[:]/协议：如http、https、ftp等主机：域名或IP地址端口号：（可选）默认HTTP为8
安装skimage库经验 PeterClerk python 深度学习人工智能
方法一：使用pip安装1.在安装scikit-image之前，确保系统已经安装了Python和pip（Python的包管理工具）。在命令行中输入以下命令来检查：python--versionpip--version2.使用pip来安装scikit-image。在命令行中输入以下命令：pipinstallscikit-image3.安装完成后，通过以下Python代码来验证scikit-image是
python编写liunx服务器登陆自动巡检脚本运维_攻城狮 liunx linux 服务器运维人工智能
前言：用户需要一份用Python编写的Linux系统巡检脚本，检查内存、磁盘、CPU使用率，还有网络连通性。首先，我得确定用户的使用场景。可能用户是系统管理员，需要定期监控服务器状态，确保系统正常运行。或者是开发人员，想自动化巡检流程，减少手动检查的工作量。接下来，用户提到的具体指标有内存、磁盘、CPU和网络。我需要考虑如何用Python获取这些信息。对于Linux系统，通常可以通过读取/proc
如何在CentOS使用Docker搭建MinIO容器并实现无公网ip远程访问本地服务秋说内网穿透 centos docker tcp/ip
文章目录前言1.Docker部署MinIO2.本地访问MinIO3.Linux安装Cpolar4.配置MinIO公网地址5.远程访问MinIO管理界面6.固定MinIO公网地址前言MinIO是一个开源的对象存储服务器，可以在各种环境中运行，例如本地、Docker容器、Kubernetes集群等。它兼容AmazonS3API，因此可以与现有的S3工具和库无缝集成。MinIO的设计目标是高性能、高可用
项目经验之LZO压缩？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
LZO（LightweightZip/Unzip）是一种高效的压缩算法，它以快速解压缩著称，适用于需要频繁读取和处理的数据。在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。项目经验之LZO压缩LZO的优势快速解压：LZO算法设计时优先考虑了解压速度，
华为数通 HCIP-Datacom H12-831 新题 IT考试认证华为考试认证网络华为 HCIP 数通 831
2024年HCIP-Datacom（H12-831）变题后的新题，完整题库请扫描上方二维码，新题在持续更新中。某台IS-IS路由器自己生成的LSP信息如图所示，从LSP信息中不能推断出以下哪一结论?A：该路由器某一个接口的IPv6地址为2000:24::2B：该路由器所属的区域号为49.0001C：该路由器引入了4个外部网段D：该路由器的SystemID为0000.0000.0002答案：C如图所
软件工程精选习题集(全答案) 刘明皓00 软件工程低代码课程设计笔记经验分享考研面试
目录1.名词解释极限编程(Extremeprogramming)状态转换图(StateTransformDiagram)问题域(ProblemDomain)功能点技术(FunctionPoint)PAD问题分析图(ProblemAnalysisDiagram)实体-关联图(EntityRelationshipDiagram)。软件危机(SoftwareCrisis)软件质量保证（SoftwareQ
面试之《前端开发者如何优化页面的加载时间？》只会写Bug的程序员面试面试前端
前端开发者可以从多个方面入手优化页面的加载时间，以下是一些常见且有效的方法：优化资源加载压缩资源文件：对HTML、CSS、JavaScript文件进行压缩，去除不必要的空格、注释等，减小文件体积，加快下载速度。例如使用uglify-js压缩JavaScript文件，cssnano压缩CSS文件。优化图片：对图片进行压缩处理，降低图片的分辨率、色彩深度或采用更高效的图片格式（如WebP）。同时，根据
docker和k8s 人才瘾大 java面试八股 docker kubernetes
1.docker的几种网络模式1.1.bridge模式（默认）container有自己的ip，它的ip映射到主机的docker0这个虚拟网卡上，它们能访问外网，外网不能访问它们（外网要访问，可以加通过端口映射，将容器端口映射到主机端口上）。原理：当Docker守护进程启动时，会在主机上创建一个名为docker0的虚拟网桥。容器在使用bridge模式时，会创建一对虚拟网卡，一端在容器内，通常命名为e
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统程序媛9688 课程设计
作者：程序媛9688开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕业设计——jspssm507Springboot的论坛管理系统JSPSSM507SpringBoot论坛管理系统功
Hutool - Script：脚本执行封装，以 JavaScript 为例五行星辰业务系统应用技术 javascript 开发语言 java 后端
一、简介在Java开发中，有时需要动态执行脚本代码，比如JavaScript脚本，来实现一些灵活的业务逻辑，如动态规则计算、数据处理等。Java本身提供了javax.script包来支持脚本执行，但使用起来较为繁琐。Hutool-Script模块对Java的脚本执行功能进行了封装，提供了更简洁易用的API，让开发者可以方便地执行各种脚本，这里主要介绍JavaScript脚本的执行。二、引入依赖如果
《2025 年最新！5 步实现群晖 NAS 远程访问全攻略》 u010905359 公网助手网络
本文将以‌神卓NAS公网助手‌为核心工具，结合2025年最新技术，手把手教你5步完成远程访问配置！‌第一步：检查NAS系统与网络环境‌确保群晖DSM系统已升级至‌DSM7.3及以上版本‌（2025年最新兼容性优化）。登录NAS后台，进入「控制面板」→「网络」→「连接性」，确认设备已接入互联网。记录NAS的局域网IP地址（如192.168.1.100），后续步骤需使用。‌注意‌：若使用企业级路由器，
VUE + iView table render渲染i-switch LEON劉先森 javascript 前端 html
{title:"显示/隐藏",tooltip:true,align:'center',minWidth:120,render:(h,params)=>{returnh("div",{},[h("i-switch",{props:{value:params.row.show,size:"large",trueColor:"#FF5C58",},scopedSlots:{open:()=>h("spa
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

web爬虫第四弹 - 生产者与消费者模型（python）

前言

案例一

0- 分析

1- 程序v1： 单机器单进程

2- 程序v2： 多机器多线程

3- 程序v3： 生产者消费者

案例二

0- 分析

我们直接上代码

案例三

0- 分析

1- 直接上代码

更新下完整代码

总结：

你可能感兴趣的:(爬虫,python,自我提升,爬虫,python,pandas,ip)

1- 程序v1：单机器单进程

2- 程序v2：多机器多线程

3- 程序v3：生产者消费者