运筹OR帷幄

交通 | python网络爬虫：“多线程并行 + 多线程异步协程

推文作者：Amiee

编者按：

常规爬虫都是爬完一个网页接着爬下一个网页，不适应数据量大的网页，本文介绍了多线程处理同时爬取多个网页的内容，提升爬虫效率。

1.引言

一般而言，常规爬虫都是爬完一个网页接着爬下一个网页。如果当爬取的数据量非常庞大时，爬虫程序的时间开销往往很大，这个时候可以通过多线程或者多进程处理即可完成多个网页内容同时爬取的效果，数据获取速度大大提升。

2.基础知识

简单来说，CPU是进程的父级单位，一个CPU可以控制多个进程；进程是线程的父级单位，一个进程可以控制多个线程，那么到底什么是进程，什么是线程呢？

对于操作系统来说，一个任务就是一个进程（Process），比如打开一个浏览器就是启动一个浏览器进程；打开一个QQ就启动一个QQ进程；打开一个Word就启动了一个Word进程，打开两个Word就启动两个Word进程。

那什么叫作线程呢？在一个进程内部往往不止同时干一件事，比如浏览器，它可以同时浏览网页、听音乐、看视频、下载文件等。在一个进程内部这同时运行的多个“子任务”，便称之称为线程（Thread），线程是程序工作的最小单元。

此外有个注意点，对于单个CPU而言，某一个时点只能执行一个任务，那么如果这样是怎么在现实中同时执行多个任务（进程）的呢？比如一边用浏览器听歌，一边用QQ和好友聊天是如何实现的呢？

答案是操作系统会通过调度算法，轮流让各个任务（进程）交替执行。以时间片轮转算法为例：有5个正在运行的程序(即5个进程) : QQ、微信、谷歌浏览器、网易云音乐、腾讯会议，操作系统会让CPU轮流来调度运行这些进程，一个进程每次运行0.1ms，因为CPU执行的速度非常快，这样看起来就像多个进程同时在运行。同理，对于多个线程，例如通过谷歌浏览器（进程）可以同时访问网页（线程1）、听在线音乐（线程2）和下载网络文件（线程3）等操作，也是通过类似的时间片轮转算法使得各个子任务（线程）近似同时执行。

2.1 Thread()版本案例

from threading import Thread
def func():
    for i in range(10):
        print('func', i)
if name == '__main__':
    t = Thread(target=func) # 创建线程
    t.start() # 多线程状态，可以开始工作了，具体时间有CPU决定
    for i in range(10):
        print('main', i)
执行结果如下：
 func 0
 func 1
 func 2
 func 3
 func 4
 main 0
 main 1
 main 2
 main 3
 main 4
 mainfunc 5 5
 func 
 main 66
 func 7
 main
 func 8
 func 9
  7
 main 8
 main 9

2.2 MyTread() 版本案例

大佬是这个写法

from threading import Thread
class MyThread(Thread):
    def run(self):
        for i in range(10):
            print('MyThread', i)
if name == '__main__':
    t = MyThread()
    # t.run() # 调用run就是单线程
    t.start() # 开启线程
    for i in range(10):
        print('main', i)
执行结果：
MyThread 0
MyThread 1
MyThread 2
MyThread 3
MyThread 4
MyThread 5main 0
main 1
main 2
main 3
main 4
MyThread 
main 5
6
main MyThread 67
mainMyThread  78
mainMyThread  89
main 9

2.3 带参数的多线程版本

from threading import Thread
def func(name):
    for i in range(10):
        print(name, i)
if name == '__main__':
    t1 = Thread(target=func, args=('子线程1',)) # 创建线程
    t1.start() # 多线程状态，可以开始工作了，具体时间又CPU决定
    t2 = Thread(target=func, args=('子线程2',))  # 创建线程
    t2.start()  # 多线程状态，可以开始工作了，具体时间又CPU决定
    for i in range(10):
        print('main', i)

2.4 多进程

一般不建议使用，因为开进程比较费资源

from multiprocessing import Process
def func():
    for i in range(1000000):
        print('func', i)
if name == '__main__':
    p = Process(target=func)
    p.start() # 开启线程
    for i in range(100000):
        print('mainn process', i)

3. 线程池和进程池

线程池：一次性开辟一些线程，我们用户直接给线程池提交任务，线程任务的调度由线程池来完成

from concurrent.futures import ThreadPoolExecutor
def func(name):
    for i in range(10):
        print(name, i)
if name == '__main__':
    # 创建线程池
    with ThreadPoolExecutor(50) as t:
        for i in range(100):
            t.submit(func, name=f'Thread{i}=')
    # 等待线程池中的人物全部执行完成，才继续执行；也称守护进程
print('执行守护线程')

进程池

from concurrent.futures import ProcessPoolExecutor
def func(name):
    for i in range(10):
        print(name, i)
if name == '__main__':
    # 创建线程池
    with ProcessPoolExecutor(50) as t:
        for i in range(100):
            t.submit(func, name=f'Thread{i}=')
    # 等待线程池中的人物全部执行完成，才继续执行；也称守护进程
    print('执行守护进程')

4. 爬虫实战-爬取新发地菜价

单个线程怎么办；上线程池，多个页面同时爬取

import requests
from lxml import etree
import csv
from concurrent.futures import ThreadPoolExecutor
 
f = open('xifadi.csv', mode='w', newline='')
csv_writer = csv.writer(f)
def download_one_page(url):
    resp = requests.get(url)
    resp.encoding = 'utf-8'
    html = etree.HTML(resp.text)
    table = html.xpath(r'/html/body/div[2]/div[4]/div[1]/table')[0]
    # trs = table.xpath(r'./tr')[1:] # 跳过表头
    trs = table.xpath(r'./tr[position()>1]')
    for tr in trs:
        td = tr.xpath('./td/text()')
        # 处理数据中的 \\ 或 /
        txt = (item.replace('\\','').replace('/','') for item in td)
        csv_writer.writerow(txt)
    resp.close()
    print(url, '提取完毕')
 
if name == '__main__':
    with ThreadPoolExecutor(50) as t:
        for i in range(1, 200):
            t.submit(download_one_page,f'http://www.xinfadi.com.cn/marketanalysis/0/list/{i}.shtml')
    print('全部下载完毕')

5. python网络爬虫：多线程异步协程与实验案例

5.1 基础理论

程序处于阻塞状态的情形包含以下几个方面：
•input()：等待用户输入
•requests.get()：网络请求返回数据之前
•当程序处理IO操作时，线程都处于阻塞状态
•time.sleep()：处于阻塞状态

协程的逻辑是当程序遇见IO操作时，可以选择性的切换到其他任务上；协程在微观上任务的切换，切换条件一般就是IO操作；在宏观上，我们看到的是多个任务都是一起执行的；上方的一切都是在在单线程的条件下，充分的利用单线程的资源。

要点梳理：
•函数被asyn修饰，函数被调用时，它不会被立即执行；该函数被调用后会返回一个协程对象。
•创建一个协程对象：构建一个asyn修饰的函数，然后调用该函数返回的就是一个协程对象
•任务对象是一个高级的协程对象，

import  asyncio
import time
async def func1():
    print('你好呀11')
if name == '__main__':
    g1 = func1() # 此时的函数是异步协程函数，此时函数执行得到的是一个协程对象
    asyncio.run(g1) # 协程城西执行需要asyncio模块的支持

5.2 同步/异步睡眠

普通的time.sleep()是同步操作，会导致异步操作中断

import  asyncio
import time
async def func1():
    print('你好呀11')
    time.sleep(3) # 当程序中除了同步操作时，异步就中端了
    print('你好呀12')
async def func2():
    print('你好呀21')
    time.sleep(2)
    print('你好呀22')
async def func3():
    print('你好呀31')
    time.sleep(4)
    print('你好呀32')
if name == '__main__':
    g1 = func1() # 此时的函数是异步协程函数，此时函数执行得到的是一个协程对象
    g2 = func2()
    g3 = func3()
    tasks = [g1, g2, g3]
    t1 = time.time()
    asyncio.run(asyncio.wait(tasks)) # 协程城西执行需要asyncio模块的支持
    t2 = time.time()
print(t2 - t1)
 
 
 
你好呀21
 你好呀22
 你好呀11
 你好呀12
 你好呀31
 你好呀32
 9.003259658813477

使用异步睡眠函数，遇到睡眠时，挂起；

import  asyncio
import time
async def func1():
    print('你好呀11')
    await asyncio.sleep(3) # 异步模块的sleep
    print('你好呀12')
async def func2():
    print('你好呀21'))
    await asyncio.sleep(4)  # 异步模块的sleep
    print('你好呀22')
async def func3():
    print('你好呀31')
    await asyncio.sleep(4)  # 异步模块的sleep
    print('你好呀32')
if name == '__main__':
    g1 = func1() # 此时的函数是异步协程函数，此时函数执行得到的是一个协程对象
    g2 = func2()
    g3 = func3()
    tasks = [g1, g2, g3]
    t1 = time.time()
    asyncio.run(asyncio.wait(tasks)) # 协程城西执行需要asyncio模块的支持
    t2 = time.time()
print(t2 - t1)
 
 
你好呀21
 你好呀11
 你好呀31
 你好呀12
 你好呀22
 你好呀32
 4.0028839111328125

整体耗时为最长时间 + 切换时间

5.3 官方推荐多线程异步协程写法

import  asyncio
import time
async def func1():
    print('你好呀11')
    # time.sleep(3) # 当程序中除了同步操作时，异步就中端了
    await asyncio.sleep(3) # 异步模块的sleep
    print('你好呀12')
async def func2():
    print('你好呀21')
    # time.sleep(2)
    await asyncio.sleep(4)  # 异步模块的sleep
    print('你好呀22')
async def func3():
    print('你好呀31')
    # time.sleep(4)
    await asyncio.sleep(4)  # 异步模块的sleep
    print('你好呀32')
async def main():
    # 写法1：不推荐
    # f1 = func1()
    # await f1 # await挂起操作，一般放在协程对象前边
    # 写法2：推荐,但是在3.8废止，3.11会被移除
    # tasks = [func1(), func2(), func3()]
    # await asyncio.wait(tasks)
    # 写法3：python3.8以后使用
    tasks = [asyncio.create_task(func1()), 
             asyncio.create_task(func2()),
             asyncio.create_task(func3())]
    await asyncio.wait(tasks))
 
if name == '__main__':
    t1 = time.time()
    asyncio.run(main())
    t2 = time.time()
print(t2 - t1)
 
你好呀21
 你好呀31
 你好呀11
 你好呀12
 你好呀32
 你好呀22
 4.001523017883301

6. 异步协程爬虫实战

安装包：

pip install aiohttp

pip install aiofiles

基本框架：
•获取所有的url
•编写每个url的爬取函数
•每个url建立一个线程任务，爬取数据

6.1 爬取图片实战代码

import asyncio
import aiohttp
import aiofiles
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Mobile Safari/537.36 Edg/91.0.864.41'}
urls = {
    r'http://kr.shanghai-jiuxin.com/file/mm/20210503/xy2edb1kuds.jpg',
    r'http://kr.shanghai-jiuxin.com/file/mm/20210503/g4ok0hh2utm.jpg',
    r'http://kr.shanghai-jiuxin.com/file/mm/20210503/sqla2defug0.jpg',
    r'http://d.zdqx.com/aaneiyi_20190927/001.jpg'
    }
async def aio_download(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers) as resp:
            async with aiofiles.open('img/' + url.split('/')[-1],mode='wb') as f:
                await f.write(await resp.content.read())
                await f.close() # 异步代码需要关闭文件，否则会输出0字节的空文件
            # with open(url.split('/')[-1],mode='wb') as f: # 使用with代码不用关闭文件
            #      f.write(await resp.content.read()) # 等价于resp.content, resp.json(), resp.text()
async def main():
    tasks = []
    for url in urls:
        tasks.append(asyncio.create_task(aio_download(url)))
    await asyncio.wait(tasks)
 
if name == '__main__':
    # asyncio.run(main()) # 可能会报错 Event loop is closed 使用下面的代码可以避免
    asyncio.get_event_loop().run_until_complete(main())
print('over')

知识点总结：
•在python 3.8以后，建议使用asyncio.create_task()创建人物
•aiofiles写文件，需要关闭文件，否则会生成0字节空文件
•aiohttp中生成图片、视频等文件时，使用resp.content.read()，而requests库时，并不需要read()
•报错 Event loop is closed时，将 asyncio.run(main()) 更改为 asyncio.get_event_loop().run_until_complete(main())
•使用with打开文件时，不用手动关闭

6.2 爬取百度小说

注意：以下代码可能会因为百度阅读页面改版而无法使用

主题思想：

分析那些请求需要异步，那些不需要异步；在这个案例中，获取目录只需要请求一次，所以不需要异步
下载每个章节的内容，则需要使用异步操作

import requests
import asyncio
import aiohttp
import json
import aiofiles

https://dushu.baidu.com/pc/detail?gid=4306063500

http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"} 获取章节的名称，cid；只请求1次，不需要异步

http://dushu.baidu.com/api/pc/getChapterContent # 涉及多个任务分发，需要异步请求，拿到所有的文章内容

headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Mobile Safari/537.36 Edg/91.0.864.41'}
async def aio_download(cid, book_id,title):
    data = {
        'book_id': book_id,
        'cid' : f'{book_id}|{cid}',
        'need_bookinfo': 1
    }
    data = json.dump(data)
    url = f'http://dushu.baidu.com/api/pc/getChapterContent?data={data}'
    async with aiohttp.ClientSession as session:
        async with session.get(url) as resp:
            dic = await resp.json()
            async with aiofiles.open('img/'+title+'.txt',mode='w') as f:
                await f.write(dic['data']['novel']['content'])
                await f.close()
async def getCatalog(url):
    resp = requests.get(url, headers=headers)
    dic = resp.json()
    tasks = []
    for item in dic['data']['novel']['items']:
        title = item['title']
        cid = item['cid']
        tasks.append(asyncio.create_task(aio_download((cid, book_id,title))))
    await asyncio.wait(tasks)
 
 
if name == '__main__':
    book_id = '4306063500'
    url = r'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"'+book_id+'"}'
    asyncio.run(getCatalog(url))

Click Event Simulation：无需浏览器触发动态数据加载亿牛云爬虫专家 python 代理IP 爬虫代理浏览器动态数据 Click Event 模拟点击 python 爬虫代理代理IP
一、明确目标与前置知识目标使用Python模拟点击事件，直接发送HTTP请求采集拼多多上商品价格和优惠信息。采用爬虫代理（代理IP）的技术，设置好Cookie和User-Agent，以防止被目标网站屏蔽。利用多线程技术加速数据采集，提高效率。前置知识基本的Python编程知识HTTP协议与请求头、Cookie的概念多线程编程基础（如线程、队列的使用）代理IP的使用原理二、按步骤拆解操作1.环境准备
【Python爬虫实战】从多类型网页数据到结构化JSON数据的高效提取策略易辰君 python爬虫 python 爬虫开发语言
个人主页：https://blog.csdn.net/2401_86688088?type=blog系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、数据类型及其对应的提取策略（一）文本数据（二）数值数据（三）链接（四）图像数据（五）表格数据（六）JSON数据（七）动态数据（八）元数据（九）总结二、结构化数据提
正向代理、反向代理龙卷风hu~ 日常开发学习总结代理模式正向代理反向代理
区别正向代理：代表客户端（如浏览器、爬虫）发送请求。需要在客户端主动配置代理地址。反向代理：代表服务端（如Web服务器）接收请求。客户端无感知，请求直接发到反向代理。正向代理应用场景正向代理常被用于：隐藏客户端身份：保护客户端真实IP或网络信息。也可以用来解决跨域问题。绕过访问限制：突破IP封锁、地域限制等（如访问某些地区的API）。集中管控与审计：企业可通过代理监控和过滤员工的网络请求。例子：企
《Python实战进阶》No20: 网络爬虫开发：Scrapy框架详解带娃的IT创业者 Python实战进阶 python 爬虫 scrapy
No20:网络爬虫开发：Scrapy框架详解摘要本文深入解析Scrapy核心架构，通过中间件链式处理、布隆过滤器增量爬取、Splash动态渲染、分布式指纹策略四大核心技术，结合政府数据爬取与动态API逆向工程实战案例，构建企业级爬虫系统。提供完整代码与运行结果，包含法律合规设计与反爬对抗方案。Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中
python代码文件方式_关于.py文件的详细介绍 weixin_39923806 python代码文件方式
这篇文章主要给大家介绍了在Python中.py文件打包成exe可执行文件的相关资料，文中介绍的非常详细，相信对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。前言最近做了几个简单的爬虫python程序，于是就想做个窗口看看效果。首先是，窗口的话，以前没怎么接触过，就先考虑用Qt制作简单的ui。这里用前面sinanews的爬虫脚本为例，制作一个获取当天sina头条新闻的窗口。生成py文件后，运
python爬取房源数据_python爬取安居客二手房网站数据（转） weixin_39897758 python爬取房源数据
之前没课的时候写过安居客的爬虫，但那也是小打小闹，那这次呢，还是小打小闹哈哈，现在开始正式进行爬虫书写首先，需要分析一下要爬取的网站的结构：作为一名河南的学生，那就看看郑州的二手房信息吧！在上面这个页面中，我们可以看到一条条的房源信息，从中我们发现了什么，发现了连郑州的二手房都是这么的贵，作为即将毕业的学生狗惹不起啊惹不起还是正文吧！！！由上可以看到网页一条条的房源信息，点击进去后就会发现：房源的
python爬虫项目（十二）：爬取各大音乐平台排行榜并分析音乐类型趋势人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫开发语言 python爬虫项目 python爬虫
目录1.项目简介2.工具与技术3.爬取音乐平台排行榜数据3.1使用requests和BeautifulSoup爬取网易云音乐排行榜3.2爬取QQ音乐排行榜4.数据处理4.1合并数据5.分析音乐类型趋势5.1使用关键词匹配类型6.数据可视化6.1绘制音乐类型分布图6.2绘制时间趋势图7.总结爬取各大音乐平台排行榜并分析音乐类型趋势是一个有趣且有意义的项目。我们可以通过以下步骤来实现：1.项目简介本项
【python爬虫】免费爬取网易云音乐完整教程（附带源码）景天科技苑爬虫副业实战零基础进阶教学 python 爬虫开发语言 js逆向
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~所属专栏：爬虫实战，零基础、进阶教学景天的主页：景天科技苑文章目录网易云逆向网易云逆向https://music.163.com/下载云音乐胡广生等，可以选择自己喜欢的歌曲首先，我们可以先根据抓包找到的m4a文件，下载试试在这个请求
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
【源代码】python爬虫，爬取足球赛制比分码农之家★资源共享 python 爬虫开发语言
完整代码！fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimporttimefrombs4importBeautifulSoupimportselectimportsocketimpor
Python爬虫–爬取酷狗音乐 2024亲测可用！！！ LinHZ2012 爬虫 python
相信很多小伙伴都有听歌的习惯~今天我们就来学习怎么用Python来爬取音乐吧~~~首先打开音乐网站，找到想听的歌，打开播放页面在网页上右键点击检查，调出开发者工具，找到网络（Network）选项。然后刷新网页以上是其他多数博主的做法然后，你在右边一顿翻找，却根本找不到mp3......不要慌！教程来喽！首先在右下角的歌单里面随便找一首其他的歌播放~然后再重新点回来——————你就会惊喜的发现——m
可狱可囚的爬虫系列课程 19：静态页面和动态页面之分 HerrFu@灵思智行科技爬虫 python 爬虫
在爬虫开发中，静态页面和动态页面的核心区别在于数据的生成和加载方式，理解两者的差异直接影响爬虫技术选型和数据抓取策略；掌握静态/动态页面的区别，可显著提升爬虫效率和成功率。一、静态页面（StaticPage）静态页面的内容（1）在服务器预先生成，以.html文件形式存储，用户每次访问时返回相同的HTML代码。（2）数据直接嵌入在HTML中（如文本、表格、链接等）。（3）纯HTML+CSS，无复杂交
2024年Python最新Pytorch--3，面试高分实战 m0_60666452 程序员 python 学习面试
（1）Python所有方向的学习路线（新版）这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。（2）Python学习视频包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门
Selenium 库的爬虫实现叱咤少帅（少帅） Python从入门到高手 selenium
Selenium是什么？Selenium是一个用于自动化Web应用程序测试的工具。它提供了一个用于测试网站的框架，可以模拟用户在浏览器中的操作，如点击链接、填写表单、提交数据等。Selenium可以在多种浏览器和操作系统上运行，并且支持多种编程语言，如Python、Java、JavaScript等。通过编写测试脚本，开发人员可以使用Selenium来自动化执行各种Web应用程序的测试，以确保它们在
电商业务数据测试用例参考 SuperCreators 大数据测试大数据 hive 数据仓库
1.数据采集层测试用例编号测试目标测试场景预期结果TC-001验证用户行为日志采集完整性模拟用户浏览、点击、加购行为KafkaTopic中日志记录数与模拟量一致TC-002验证无效数据过滤规则发送爬虫请求（高频IP）清洗后数据中无该IP的日志记录2.数据处理层测试用例编号测试目标测试场景预期结果TC-003验证用户兴趣标签计算逻辑用户连续浏览3次“运动鞋”类目用户画像中“运动鞋”兴趣权重≥0.8T
SpringBoot与Sentinel整合，解决异常爬虫请求问题奔向理想的星辰大海 Java研发实用技巧云原生 spring boot sentinel 爬虫
Sentinel是阿里巴巴开源的一款面向分布式服务架构的轻量级高可用流量控制组件，主要用于流量控制、熔断降级和系统负载保护。虽然Sentinel主要用于微服务场景下的流量管理和故障隔离，但也可以通过一些策略和配置来辅助防御DDoS攻击和异常爬虫请求。DDoS攻击DDoS（DistributedDenialofService）是一种恶意攻击手段，攻击者通过控制大量计算机设备（如僵尸网络），向目标服务
Python3 爬虫 Scrapy 与 Redis 大秦重工爬虫 scrapy redis
Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来。因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。一、Scrapy_redis的安装和使用Scrapy自带的待爬队列是deque，而现在需要使用Redis来作为队列，所以就需要将原来操作deque的方法替换为操作R
python爬虫系列课程7：ajax wp_tao Python副业接单实战项目 python 爬虫 ajax
python爬虫系列课程7：ajax一、ajax的介绍二、ajax的使用一、ajax的介绍ajax是AsynchronousJavaScriptandXML的简写，ajax是一个前后端配合的技术，它可以让JavaScript发送异步的http请求，与后台通信进行数据的获取，ajax最大的优点是实现局部刷新，ajax可以发送http请求，当获取到后台数据的时候更新页面显示数据实现局部刷新，在这里大家
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
Python多进程，多线程和异步实例汤米先生 Python学习多线程 python 多进程
文章目录前言一、多进程1.进程间通信使用Queue队列2.多进程中的通信【一个往Queue里写，一个从Queue里读】3.进程池中的通信【只需要就上述的Queue()转换成Manager().Queue()】4.多进程拷贝文件【多个文件的拷贝】二、多线程1.加入互斥锁2.不加入互斥锁3.在屏幕上连续打印10次ABC4.死锁的产生5.针对死锁的处理方法6.生产者消费者模型【常用】—>比如爬虫：爬取数
Python爬虫实战——如何自动爬取百度搜索结果页面 Python爬虫项目 2025年爬虫实战项目 python 爬虫百度开发语言信息可视化
1.引言随着互联网技术的飞速发展，信息的获取变得越来越方便。百度作为中国最主要的搜索引擎之一，每天都会处理大量的搜索请求。对于研究人员和开发者来说，爬取百度的搜索结果可以帮助他们获取大量的网络数据，用于分析和研究。然而，百度的反爬虫措施使得这一过程变得复杂，如何绕过这些限制并高效地抓取搜索结果，是很多开发者面临的问题。本文将详细介绍如何编写Python爬虫，自动抓取百度搜索结果页面中的所有内容，包
【爬虫工具】小红书评论高级采集软件 python死忠3016 小红书爬取软件爬虫
用python开发的爬虫采集工具【爬小红书搜索评论软件】，支持根据关键词采集评论。思路：笔记关键词->笔记链接->评论·软件界面：·完整文章、详细了解：https://mp.weixin.qq.com/s/C_TuChFwh8Vw76hTGX679Q好用的软件一起分享！
使用Python爬取小红书笔记与评论（仅供学习交流）_python爬取小红书关键词所有笔记评论(1) 2401_83817171 程序员 python 笔记学习
2.分析加密入口3.使用JS注入4.爬虫工程化【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！包括但不限
初学者瞎写的一个爬虫小程序一大块腹肌呀爬虫小程序 python
学习python三个月，渐渐的的也开始了爬虫之旅，根据某本书的指导，开始想写一个通用的爬虫小程序，希望有大神能指点一下。importdatetimeimporttimefromseleniumimportwebdriverimportreclassMyCommonSpider:def__init__(self):pass使用了selenium进行模拟鼠键操作，目标是爬取51job上的职位信息def
Python学生信息管理系统：详细教程 Python_trys python 数据库开发语言管理系统 Python教程 Python基础编程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取】引言学生信息管理系统是学校和教育机构中常用的工具，用于管理学生的基本信息、成绩、课程等。本文将详细介绍如何使用Python编写一个简单的学生信息管理系统。我们将从需求分析、系统设计、代码实现到最终测试，一步步带你完成这个项目。需求分析在开始编写代码之前，我们需要明确系统的功能需求。一个基本的学生信息管理系统应具备以下功能：添加学生信息：
第七课：Python反爬攻防战：Headers/IP代理与验证码 deming_su python tcp/ip 开发语言 ocr proxy模式 beautifulsoup
在爬虫开发过程中，反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制，并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码，帮助读者更好地理解和应用这些技术。一、常见反爬机制解析1.1基于Headers的反爬许多网站通过检查请求头（Headers）中的User-Agent字段来判断请求是否来自爬虫。
Python从入门到精通系列专栏文章导航站 hacker707 Python从入门到精通 python 开发语言
Python从入门到精通系列专栏文章导航站专栏导读Part1✨零基础入门篇专栏导读本文是Python从入门到精通的文章导航站。专栏分为零基础入门篇、模块篇、网络爬虫篇、Web开发篇、办公自动化篇、数据分析篇…为了方便专栏订阅者更方便的阅读专栏文章，点击链接即可跳转到具体文章，欢迎订阅持续更新…专栏限时一个月(5.8~6.8)重磅福利专栏订阅者再邀请10人订阅即可获得清华大学出版社书单图书任选一本(
利用Python爬虫按图搜索1688商品（拍立淘）：实战指南小爬虫程序猿 python 爬虫图搜索算法
在电商领域，按图搜索商品（类似“拍立淘”功能）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Python爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、技术背景按图搜索功能通常依赖于图像识别技术和搜索引擎。1688的“拍立淘”功能允许用户上传图片，系统会通过图像
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1