*Demons

【爬虫】6. 异步爬虫

异步爬虫

文章目录

异步爬虫
- 1. 基本原理
- 2. 协程的用法
- - 2.1. 基本用法
  - 2.2. 多任务协程
- 3. 一个错误的示例：
- - 3.1. 案例网站
  - 3.2. 错误处理-1
- 4. 简单使用aiohttp
- 5. aiohttp的使用
- - 5.1. URL参数的设置
  - 5.2. 其他请求类型
  - 5.3. 响应
  - 5.4. 超时设置
  - 5.5. 并发限制
  - 5.6. 一个简单的并发
- 6. aiohttp异步爬取实战

想象一下你正在一家餐厅吃饭，你想要点几道菜，但是你不想等一道菜吃完后才能点下一道菜。你希望在等待第一道菜的时候，可以继续点下一道菜，饭菜会按照你点的顺序陆续上来，不会因为你等待而被耽误。

异步爬虫的概念有点像这种情况。在普通的爬虫中，当我们发送请求获取网页内容时，程序会等待直到获取到内容后才继续执行下一步。但在异步爬虫中，我们可以同时发送多个请求，然后不需要等待所有的请求都完成，就可以开始处理那些已经收到的响应。这就好像在餐厅里，你点了几道菜后，不需要等待一道菜吃完才能点下一道，而是可以随时点其他的菜。

在异步爬虫中，我们可以发送多个请求，然后处理那些已经返回的数据，而不必一个接一个地等待每个请求的响应。这可以显著提高爬取数据的速度，因为我们可以最大程度地利用网络传输和处理数据的时间，而不是浪费时间在等待每个请求的响应上。总之，异步爬虫就是一种可以同时处理多个请求和响应的方法，让爬虫更加高效地从网页中抓取数据，就像在餐厅里同时点多道菜并且能够随时享受到它们一样。

1. 基本原理

要实现异步机制的爬虫，那自然和协程脱不了关系。了解协程之前需要先了解一些基础概念，如阻塞和非阻塞、同步和异步、多进程和协程。

阻塞：

阻塞状态指的是程序未得到所需的计算资源时被挂起的状态。程序在等待某个操作完成期间，自身无法继续干别的事情，则称该程序在该操作中是阻塞的。常见的阻塞有：网络I/O阻塞、磁盘I/O阻塞、用户输入阻塞等。

非阻塞：

程序在等待某个操作的过程中，自身不被阻塞，可以继续干别的事情，则称该程序在该操作上非阻塞的。非阻塞并不是在任何程序级别、任何情况下都存在的。仅当程序封装的级别可以囊括独立的子程序单元时，程序才可能存在非阻塞状态。

同步：

不同程序单元为了共同完成某个任务，在执行过程中需要靠某种通信方式保持协调一致，此时这些程序单元是同步执行的。简而言之，同步意味着有序。

异步：

异步编程是一种编程范式，用于处理那些可以独立运行，互不影响的任务，而无需等待其它任务完成。这种情况下，不同的任务可以并行执行，无需等待每个任务完成后再开始下一个任务。

假设您要从不同的网页上爬取数据。每个网页是一个独立的任务。使用异步编程，您可以同时开始爬取多个网页，而无需等待每个网页的爬取完成，然后再爬取下一个。这样，您可以充分利用计算资源，同时进行多个任务。

在这个过程中，不同网页的下载、保存等操作是独立的，它们不需要相互通信或协调。您只需告诉程序启动每个任务，并且程序会自动在适当的时候切换任务，让每个任务有机会执行。因为这些任务是无序的，它们的完成时刻并不确定，取决于网络延迟、服务器响应速度等因素。

综上所述，异步编程允许独立的任务并行执行，而无需等待彼此完成。每个任务在需要等待某些操作完成时可以暂停，让其他任务有机会执行。这样可以提高效率，特别是在处理需要等待的 I/O 操作（例如网络请求）时。

多进程：

多进程就是利用CPU的多核优势，在同一时间并行执行多个任务。

协程：

协程，英文叫做coroutine，又称微线程、纤程，是一种运行在用户态的轻量级线程。协程拥有自己的寄存器和栈。协程在调度切换时，将寄存器上下文和栈保存到其他地方，等切回来的时，再恢复之前保存的寄存器上下文和栈。因此，协程能保留上一次调度时的状态，即所有布局状态的一个特定组合，每一次过程重入，就相当于进入了上一次调用的状态。

2. 协程的用法

2.1. 基本用法

Python中使用协程最常用的库莫过于asyncio，接下来以它为基础讲解协程的用法，首先先来了解一下下面几个概念：

event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足发生条件的时候，就调用对应的处理方法。
coroutine：协程，在python中常常代指协程对象类型，我们可以将协程对象注册到事件循环中，它会被事件循环调用。我们可以用async关键字来定义一个方法，这个方法在调用时候不会立即被执行，而是返回一个协程对象。
task：任务，这是对协程对象的进一步封装，包含协程对象的各个状态。
future：代表将来执行或者没有执行的任务的结果，实际上和task没有本质区别。

我们来定义一个协程，体验一下它和普通进程的不同之处：

import asyncio

async def execute(x):
    print('Number:', x)

coroutine = execute(1)  #1
print('Coroutine:', coroutine)
print('After calling execute')

loop = asyncio.get_event_loop()  #1.5
loop.run_until_complete(coroutine)  #2
print('After calling loop')

Coroutine: 
After calling execute
Number: 1
After calling loop

可见，async定义的方法会变成一个无法直接执行的协程对象，必须将此对象注册到事件循环中才可以执行。

前面我们还提到task，它是对协程对象的进一步封装，比协程对象多了运行状态，例如running、finished等，我们可以通过这些状态来获取对象的执行情况。在上面例子中，将协程对象coroutine传递给run_until_complete方法时候已经把coroutine封装成task，对此，我们可以显式地声明：

import asyncio

async def execute(x):
    print('Number:', x)
    return x

coroutine = execute(1)
print('Coroutine:', coroutine)
print('After calling execute')

loop = asyncio.get_event_loop()
task = loop.create_task(coroutine)
print('Task:', task)
loop.run_until_complete(task)
print('Task:', task)
print('After calling loop')

Coroutine: 
After calling execute
Task: >
Number: 1
Task:  result=1>
After calling loop

定义task对象还有另外一种方式，就是直接调用asyncio包的ensure_future方法，返回结果也是task对象。

import asyncio

async def execute(x):
    print('Number:', x)
    return x

coroutine = execute(1)
print('Coroutine:', coroutine)
print('After calling execute')

task = asyncio.ensure_future(coroutine)
print('Task:', task)
loop = asyncio.get_event_loop()
loop.run_until_complete(task)
print('Task:', task)
print('After calling loop')

Coroutine: 
After calling execute
Task: >
Number: 1
Task:  result=1>
After calling loop

我们亦可以为某个task对象绑定一个回调方法，来看下面这个例子：

import asyncio
import requests

async def request():
    url = 'https://www.baidu.com'
    status = requests.get(url)
    return status

def callback(task):
    print('Status:', task.result())

coroutine = request()
task = asyncio.ensure_future(coroutine)
task.add_done_callback(callback)
# add_done_callback()内部会将完成的任务作为参数调用这个回调函数
print('Task:', task)

loop = asyncio.get_event_loop()
loop.run_until_complete(task)
print('Task:', task)

Task:  cb=[callback() at C:\Users\85710\Desktop\insect\study1.py:11]>
Status: 
Task:  result=>

实际上，即使不使用回调方法，在task运行完毕之后，也可以直接调用result方法获取结果。

2.2. 多任务协程

在上面的例子中，我们都只进行了一次循环，我们可以定义一个task列表，然后使用asyncio包中的wait方法执行：

import asyncio
import requests

async def request():
    url = 'https://www.baidu.com'
    status = requests.get(url)
    return status

tasks = [asyncio.ensure_future(request()) for _ in range(5)]
print('Tasks:', tasks)

loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

for task in tasks:
    print('Task Result:', task.result())

3. 一个错误的示例：

根据我现在看的这本书——python3网络爬虫开发与实战（第二版）我觉得有必要将错误的样例总结一遍。

3.1. 案例网站

我们先来看一个案例网站，url= https://www.httpbin.org/delay/5，访问这个链接需要先等待五秒才能够获得结果，因为这是服务器强制的。下面我们来试一下，用requests写一个遍历程序，直接遍历50次样例网站：

import requests
import logging
import time

logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s: %(message)s')

TOTAL_NUMBER = 10
url = 'https://www.httpbin.org/delay/5'

start_time = time.time()
for _ in range(1, TOTAL_NUMBER + 1):
    logging.info('scraping %s', url)
    response = requests.get(url)
end_time = time.time()
logging.info('total time %s seconds', end_time - start_time)

结果就不放出来了，等太久了。

3.2. 错误处理-1

import asyncio
import requests
import time

start = time.time()

async def request():
    url = 'https://httpbin.org/delay/5'
    print('Waiting for', url)
    response = requests.get(url)
    print('Get response from', url, 'response', response)

tasks = [asyncio.ensure_future(request()) for _ in range(10)]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print('Cost time:', end - start)

结果也不放了。这和正常请求没有什么区别，各个任务依然是顺次执行的，这并不是异步处理。

其实要实现异步处理，先要有挂起操作，当一个任务需要等待IO结果时候，可以挂起当前任务转而执行其他任务，这样才能充分应用好资源。

要实现异步我们再来了解一下await关键字的用法，它可以将耗时等待的操作挂起，让出控制权。如果协程在执行时候遇到await，事件循环就会将本协程挂起，转而去执行别的协程，直到其他协程挂起或执行完毕。根据官方文档说明，await后面的对象必须是如下格式之一：

一个原生协程对象。
一个由types.coroutine修饰的生成器，这个生成器可以返回协程对象。
由一个包含_ await _方法的对象返回的一个迭代器。

于是代码可以改写成这个样子：

import asyncio
import requests
import time

start = time.time()

async def get(url):
    return requests.get(url)

async def request():
    url = 'https://www.httpbin.org/delay/5'
    print('Waiting for', url)
    response = await get(url)
    print('Get response from', url, 'response', response)

tasks = [asyncio.ensure_future(request()) for _ in range(10)]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print('Cost time:', end - start)

这还是错的，也就是说我们仅仅将涉及到IO操作的代码封装到async修饰的方法里是不可行的。只有使用支持异步操作的请求方式才可以实现真正的异步操作，所以接下来就介绍一下aiohttp。

4. 简单使用aiohttp

aiohttp是一个支持异步请求的库，它和asyncio配合使用，可以是我们非常方便地实现异步请求操作。aiohttp的官方文档链接为： https://aiohttp.readthedocs.io/

下面将aiohttp投入使用，将代码改写成这个样子：

import asyncio
import aiohttp
import time

start = time.time()

async def get(url):
    session = aiohttp.ClientSession()
    response = await session.get(url)
    await response.text()
    await session.close()
    return response

async def request():
    url = 'https://www.httpbin.org/delay/5'
    print('Waiting for', url)
    response = await get(url)
    print('Get response from', url, 'response')

tasks = [asyncio.ensure_future(request()) for _ in range(100)]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

end = time.time()
print('Cost time:', end - start)

Waiting for https://www.httpbin.org/delay/5
Waiting for https://www.httpbin.org/delay/5
......
Waiting for https://www.httpbin.org/delay/5
Waiting for https://www.httpbin.org/delay/5
Get response from https://www.httpbin.org/delay/5 response
Get response from https://www.httpbin.org/delay/5 response
......
Get response from https://www.httpbin.org/delay/5 response
Get response from https://www.httpbin.org/delay/5 response
Cost time: 68.26689767837524

开始运行时，事件循环会运行第一个 task。对于第一个 task 来说，当执行到第一个 await 跟着的 get 方法时，它会被挂起，但这个get 方法第一步的执行是非阻塞的，挂起之后会立马被唤醒立即又进人执行，并创建了ClientSession 对象。接着遇到第二个await，调用session.get 请求方法，然后就被挂起了。由于请求需要耗时很久，所以一直没有被唤醒，好在第一个 task 被挂起了，那么接下来该怎么办呢?事件循环会寻找当前未被挂起的协程继续执行，于是转而去执行第二个task，流程操作和第一个 task 也是一样的，以此类推，直到执行第十个 task 的 session.get 方法之后，全部的 task 都被挂起了。所有 task 都已经处于挂起状态，那怎么办?只好等待了。5 秒之后，几个请求几乎同时有了响应，然后几个 task 也被唤醒接着执行，并输出请求结果，最后总耗时是 6秒! 在前面提到：它们的完成时刻并不确定，取决于网络延迟、服务器响应速度等因素。你可以加上标号试试。

5. aiohttp的使用

前面介绍的asyncio模块，其内部实现了对TCP、UDP、SSL协议的异步操作，但是对于HTTP请求来说就要用aiohttp实现了。

aiohttp是一个基于asyncio的异步HTTP网络模块，它即提供了服务，又提供了客户端。客户端可以用来发起请求，类似于使用requests发起一个HTTP请求然后获得响应，但是requests发起的是同步的网络请求，aiohttp则是异步的。我们先来看一个简单的请求案例：

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text(), response.status

async def main():
    async with aiohttp.ClientSession() as session:
        html, status = await fetch(session, 'https://baidu.com')
        print(f'html: {html[:100]}...')
        print(f'status: {status}')

if __name__ == '__main__':
    asyncio.run(main())

html: ...parmas = {字典}
...session.get(url, params= params)

5.2. 其他请求类型

和requests类似，session.get（post）（delete）等

5.3. 响应

对于响应，我们可以用如下方法来获取其中的状态码、响应头、响应体、响应体二进制内容、响应体json结果：

状态码：response.status
响应头：response.headers
响应体：await response.text()
响应体二进制：await response.read()
响应体json：await response.json()

5.4. 超时设置

我们可以借助ClientTimeout对象设置超时，单位为秒

async def main():
    timeout = aiohttp.ClientTimeout(total=1)
    async with aiohttp.ClientSession(timeout=timeout) as session:  # ！！！
        async with session.get('https://httpbin.org/get') as response:
            print('status:', response.status)

5.5. 并发限制

由于aiohttp可以支持非常高的并发量，如几万、十万、百万都是可以做到的，理论上使用aiohttp并发是可以实现DDoS攻击。面对如此高的并发量，目标网站可能无法在短时间内回应，而且有瞬间将目标网站爬挂掉的风险，这提示我们需要控制一下爬取的并发量。

一般情况下，我们可以借助asyncio的Semaphore来控制并发量，代码如下：

import asyncio
import aiohttp

CONCURRENCY = 50
URL = "https://spa3.scrape.center/"

semaphore = asyncio.Semaphore(CONCURRENCY)

async def scrape_api():
    async with semaphore:
        print("scraping", URL)
        async with aiohttp.ClientSession() as session:
            async with session.get(URL) as response:
                return await response.text()

async def main():
    scrape_index_tasks = [asyncio.ensure_future(scrape_api()) for _ in range(1000)]
    await asyncio.gather(*scrape_index_tasks)

if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

更多aiohttp的基本用法，请查阅官方文档： https://docs.aiohttp.org/

5.6. 一个简单的并发

import asyncio
import aiohttp

URL = "https://spa3.scrape.center/"

semaphore = asyncio.Semaphore(CONCURRENCY)

async def scrape_api():
       print("scraping", URL)
        async with aiohttp.ClientSession() as session:
            async with session.get(URL) as response:
                return await response.text()

async def main():
    scrape_index_tasks = [asyncio.ensure_future(scrape_api()) for _ in range(1000)]
    await asyncio.gather(*scrape_index_tasks)

if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

6. aiohttp异步爬取实战

import asyncio
import aiohttp
import logging
import time
import json
from os import makedirs
from os.path import exists
import re

# 第一次异步请求时间计算
requests_time_start = 0
requests_time_end = 0

scrape_index_url = "https://spa5.scrape.center/api/book/?limit={limit}&offset={offset}"
scrape_book_url = "https://spa5.scrape.center/api/book/{ID}"

# 并发限制，报错调小
concurrency = 30
semaphore = asyncio.Semaphore(concurrency)

# 目录设置
RESULTS_DIR = 'results'
exists(RESULTS_DIR) or makedirs(RESULTS_DIR)

logging.basicConfig(level=logging.INFO)
error_id = list()

# 自定义异常
class ScraperError(Exception):
    pass

# 得到书本的id编号
async def scrape_books_id(url):
    books_page_id = []
    async with semaphore:
        logging.info("scraping books\'id, %s", url)
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as aio_response:
                try:
                    json_content = await aio_response.text()
                    json_data = json.loads(json_content)
                    for item in json_data.get("results"):
                        books_page_id.append(item.get("id"))
                    return books_page_id
                except json.JSONDecodeError as e:
                    logging.error("JSON decoding error: %s", e)
                    logging.error("connecting error")
                except Exception as e:
                    logging.info("Error:", e)
                    logging.info("connecting error")
                    logging.info(aio_response.text())
                    raise ScraperError("Unexpected error")  # 自定义异常

# 爬取json文件
async def scrape_detail(url):
    async with semaphore:
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as aio_response:
                try:
                    json_content = await aio_response.text()
                    json_data = json.loads(json_content)
                    await save_data(json_data, url)
                except json.JSONDecodeError as e:
                    logging.info("JSON decoding error:", e)
                    logging.info("detail connecting error")
                    error_id.append(str(url.split('/')[-1]) + "_scrape")
                    print(aio_response.text())
                except Exception as e:
                    error_id.append(str(url.split('/')[-1]) + "_scrape")
                    raise ScraperError("Unexpected error")  # 自定义异常


# 书本信息异步
async def scrape_detail_tasks(books_id):
    scrape_tasks = [asyncio.ensure_future(scrape_detail(scrape_book_url.format(ID= ID))) for ID in books_id]
    await asyncio.gather(*scrape_tasks)

# 保存数据
async def save_data(json_data, url):
    try:
        name = json_data.get('name')

        # 使用正则表达式清理书本名称中的特殊字符
        cleaned_name = re.sub(r'[\/:*?"<>|]', '_', name)  # 替换特殊字符为下划线

        data_path = f'{RESULTS_DIR}/{cleaned_name}.json'
        logging.info("Saving Book %s...", cleaned_name)
        json.dump(json_data, open(data_path, 'w', encoding='utf-8'),
                  ensure_ascii=False, indent=2)
        logging.info("Saving Book %s over", cleaned_name)
    except Exception as e:
        logging.error("Error occurred: %s", e)
        error_id.append(str(url.split('/')[-1]) + "_scrape")
    except Exception as e:
        error_id.append(str(url.split('/')[-1]) + "_json")
        raise ScraperError("Unexpected error")  # 自定义异常


# 主函数
async def main():
    scrape_tasks = [asyncio.ensure_future(scrape_books_id(scrape_index_url.format(limit= 18, offset= 18 * (index - 1)))) for index in range(1, 504)]
    global requests_time_start
    requests_time_start = time.time()
    result = await asyncio.gather(*scrape_tasks)
    global requests_time_end
    requests_time_end = time.time()
    logging.info("Spend time for %s", requests_time_end - requests_time_start)

    # 异步爬取json，Ajax接口
    books_id = [item for sublist in result for item in sublist]
    logging.info(f"Save {len(books_id)} projects")
    await scrape_detail_tasks(books_id)

if __name__ == "__main__":
    loop = asyncio.get_event_loop()
    coroutine = main()
    task = loop.create_task(coroutine)
    logging.info("Main task created: %s", task)
    loop.run_until_complete(task)
    logging.info("Main task completed: %s", task)
    print(error_id)

你可能感兴趣的:(爬虫,php,前端)

前后端分离与不分离解析，很全面！涔溪前端
从多个维度对前后端分离与不分离进行更加深入、系统的分析，包括技术架构、开发流程、部署维护、性能优化、团队协作、适用场景等方面全面理解两者的区别和优劣。一、概念定义1.前后端不分离（传统服务端渲染）前端页面由服务器端生成并返回给浏览器，如PHP、JSP、ASP.NET等。前端逻辑和后端业务耦合在一起，通常一个请求对应一个完整的HTML页面。2.前后端分离（现代Web开发模式）前端独立开发为一个完整的
关于uniapp+vue2 升级 Vue3 后无法获取 query的问题代码简单说 2025开发必备(限时特惠)uni-app vue2迁移到vue3 获取不到query 小程序获取不到query mp获取不到路由路由参数获取 url参数获取
关于uniapp+vue2升级Vue3后无法获取query的问题tag：vue3迁移、uniapp兼容性、$mp变更、vue2升级、前端坑点记录在升级公司项目的时候，从uniapp+Vue2迁移到uniapp+Vue3，想着应该是个平滑过渡，没成想，一个小小的$mp把我绊了一脚。事情是这样的项目中有这么一段代码，用于判断当前页面的路由参数：onLoad(){constscene=this.
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
移动端iOS调试与问题解决：WebView调试多工具协作游戏开发爱好者8 http udp https websocket 网络安全网络协议 tcp/ip
在开发过程中，调试工作不仅仅是前端开发者的职责。当出现复杂的线上问题，调试往往需要涉及到多个团队的协作：前端、后端、测试和运营等。尤其是在移动端WebView页面和原生页面混合开发中，调试工作通常是多部门之间的互动与配合。这篇文章分享了我们在一个社交平台项目中的调试实践，重点讲解了跨团队合作调试中的问题解决策略，并介绍了我们如何通过工具协同与有效沟通，解决了上线后部分用户出现的问题。背景：移动端W
平台再升级！接入DeepSeek AI，三大能力一键生成橙武科技低代码 AI deepseek 人工智能
在数字化项目落地过程中，很多企业都会面临相同的问题：数据库建模要写SQL表结构；业务流程需要画LogicFlow流程图；前端页面还要写AMISJSON配置。从想法到实现，中间至少要经历产品经理、架构师、后端、前端多轮沟通。每个环节都耗时，改起来还要推翻重来。demo地址：https://admin.cwcode.top✨我们的平台，现在直接整合了DeepSeekAI大模型只要输入一句需求，就能：✅
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
前端用MQTT协议通信的场景和好处 CreatorRay 前端网络面试前端 MQTT 网络协议物联网
上家公司中前端项目有用MQTT协议和硬件通信的场景，虽然很早就听说过MQTT协议，但是这是第一次在前端项目里基于MQTT协议做网络通信。当时没了解太多，工作中只做好了代码层面的工作，并没有深入了解MQTT协议的好处和适合的应用场景。在前端项目中，应该99%的情况都会基于HTTP和WebSocket来进行网络通信，使用MQTT在前端里确实比较小众。目前可能只会在物联网项目中，需要跟硬件通信的前提下，
HTML页面设计——动态照片环
#前端开发##html超文本标记语言结构学习他的标签##css美化页面其实一部分的网站首页应用了照片环的原理，使得页面看起来更加美观，这里为大家分享一个简单的照片环编写。一、准备好以下素材：二、新建一个HTML文件，这里就取名“01-照片环”好了。三、现在开始编写具体内容，照片环说白了就是几个照片构成的所以body只要写就可以了，编写的时候注意图片的格式是.jpg、.png还是.gif(动态图)。
深入理解reeze/tipi项目中的词法分析与语法分析技术焦习娜Samantha
深入理解reeze/tipi项目中的词法分析与语法分析技术tipiThinkingInPHPInternals,AnopenbookonPHPInternals项目地址:https://gitcode.com/gh_mirrors/ti/tipi引言在编程语言实现领域，词法分析和语法分析是构建编译器或解释器的关键环节。本文将基于reeze/tipi项目中的相关内容，深入浅出地讲解这些核心技术原理。
vue-cron: Cron表达式UI组件开发指南刘通双Elsie
vue-cron:Cron表达式UI组件开发指南项目地址:https://gitcode.com/gh_mirrors/vu/vue-cron项目介绍vue-cron是一个基于Vue框架设计的cron表达式UI组件库.该项目特别适用于那些需要在前端界面中提供cron表达式编辑功能的应用场景。通过简洁直观的接口，开发者可以轻松地将此组件集成到他们的Vue应用程序中，以实现对定时任务计划的精确控制。该
vue el-date-picker 直接赋值时控件失效梓暮 IT vue.js 前端 elementui
项目场景：前端vueel-date-picker控件无故失效问题描述本人是主打后端，新进的公司要求前后端全干，然后又因为前端做得少，所以经常碰到一些奇怪的问题，比如以下操作，是给vue前端el-date-picker这个时间控件赋值，但是发现，数据是赋值上去了，但是控件失效了，怎么点都没用if(resData.batchEntity.manage_scene_start_time!=null&&r
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
宝塔服务器调优工具 1.1（Opcache优化）拍客圈服务器运维
第一步：宝塔服务器调优工具1.1（按照下面的参数填写）第二步：路径/www/server/php/80/etc/php.ini搜索jit=jit=1235其中1235根据服务器情况修改第三步：路径/www/server/php/80/etc/php-cli.ini搜索jit=1235其中1235必须和宝塔服务器调优工具jit里面填写的数字一样注意：必须临时关掉宝塔系统加固和企业防篡改（不然修改不成
PHP ADODB 1.99版手册中文翻译
PHPADODB1.99版手册中文翻译(Tripc)感谢记事PHPADODB1.99版手册中文翻译翻译作者：Tripc------------------ADODBPHP在资料库的支援上是很令人称道的，几乎所有的知名资料库系统都有对应的函数群支援，而且支援的很完整。但很不幸的，每一群资料库支援函数无论在名称或叁数结构上，都有很大的差异，这使得PHP的系统开发者在面临更换资料库时，总会觉得痛苦万分。
python中使用grpc方法示例_Python中使用grpc与consul weixin_39719077
gRPC客户端和服务端可以在多种环境中运行和交互，并且可以用任何gRPC支持的语言来编写。gRPC支持C++JavaPythonGoRubyC#Node.jsPHPDart等语言gRPC默认使用protocolbuffers，这是Google开源的一种轻便高效的结构化数据存储格式，可以用于结构化数据串行化，或者说序列化。它很适合做数据存储或RPC数据交换格式。安装GoogleProtocolBuf
生僻字处理工具类兮动人 JavaSE 实用工具 java 生僻字处理工具类生僻字
对于生僻字的处理可以用到下面相关编码查询汉字对应的编码：https://www.qqxiuzi.cn/bianma/zifuji.php文章目录生僻字处理概述功能介绍快速开始判断是否是生僻字utf8字符串转gbk伪码gb18030字符串转gbk伪码gbk伪码转utf8gbk伪码转gb18030生僻字处理概述在系统存储、跨系统报文或文件传输过程中，保证生僻字信息的完整性。功能介绍通过生僻字工具类，判
前端編譯 : Babel 基礎入門林cc 前端 babel 前端
前端編譯:Babel基礎入門前言正文什麼是Babel?Babel模塊介紹babel-cli從項目中運行BabelCLIbabel-registerbabel-nodebabel-core配置Babel.babelrcbabel-preset-es2015babel-preset-react執行Babel生成的代碼babel-polyfillbabel-runtimepresetsvsplugins
前端跨域解决方案（10）：document.domain 骆驼Lara 前端跨域解决方案汇总前端 javascript
1document.domain核心同源策略要求两个页面的协议、域名、端口完全一致，否则视为跨域。例如：主域名site.com与子域名a.site.com因域名不同，属于跨域；http://a.site.com:8080与http://a.site.com:80因端口不同，属于跨域。document.domain允许将子域的域名设置为共同的主域名（如site.com），使浏览器认为不同子域“同源”
前端跨域解决方案（8）：window.name
1window.name核心window.name是浏览器窗口的一个属性，它有两个关键特性：跨域共享：无论窗口的URL如何变化，window.name的值始终保持不变；容量大：可存储最大约2MB的数据（不同浏览器略有差异）。这使得window.name成为跨域通信的一种特殊方式：通过iframe加载跨域页面，利用window.name传递数据。window.name跨域的核心流程如下：主页面创建指
前端跨域解决方案（9）：location.hash 骆驼Lara 前端跨域解决方案汇总前端 javascript
1location.hash核心location.hash是URL中的锚点（如#section），它有两个关键特性：跨域可见：在A域名页面中，可通过iframe加载B域名页面，并修改其location.hash；不影响页面：修改hash不会触发页面刷新，也不会将数据发送到服务器。这使得location.hash成为跨域通信的一种轻量级方式：通过iframe加载跨域页面，利用location.has
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
前端开发者必看：Node.js实战技巧大揭秘大厂前端小白菜前端开发实战 node.js vim 编辑器 ai
前端开发者必看：Node.js实战技巧大揭秘关键词：前端开发者、Node.js、实战技巧、模块化开发、性能优化、Express框架、Webpack摘要：本文专为前端开发者打造，旨在深入揭秘Node.js的实战技巧。首先介绍了Node.js的背景和对前端开发的重要性，接着详细阐述了Node.js的核心概念与联系、核心算法原理及具体操作步骤，通过数学模型和公式进一步加深理解。然后结合实际案例，从开发环
前端跨域解决方案（7）：Node中间件骆驼Lara 前端跨域解决方案汇总前端中间件 javascript
1Node中间件核心1.1为什么开发环境需要Node代理？在前端开发中，我们常遇到：前端运行在localhost:3000，后端API在localhost:4000，跨域导致请求失败。而传统解决方案有以下局限性：修改后端CORS配置：需后端开发配合，增加沟通成本；生产环境与开发环境配置不一致。配置Nginx反向代理：修改配置后需重启服务，打断开发流程；配置文件管理复杂。Node中间件代理（如htt
ios15及以上webview、Safari使用Websocket断连，1006无清晰错误码
文章目录问题表现：定位疑似原因：解决方式：定位问题思路过程记录：1、对比前端代码运行环境问题2、写纯请求前端代码连接，确认是否接口部署服务问题；3、IOS连接是否有对TSL安全协议版本有要求（使用的wss协议）4、验证iOS网络是否稳定&查阅信息是否iOS会出现频繁断连又迅速重连情况5、自己搞个nodedemo验证纯连接问题：6、IOS自身多运行环境对比：QQ频道应用、QQ聊天框、safari、c
Gitee 持续集成与交付（CI/CD）篇
Gitee持续集成与交付（CI/CD）篇文章目录Gitee持续集成与交付（CI/CD）篇什么是CI/CD？GiteeGo介绍✨核心特性支持的技术栈提交项目进行CI/CD第一步：创建.gitee-ci.yml文件第二步：配置项目设置第三步：提交代码触发构建制品库配置Maven制品库配置Docker制品库配置npm制品库配置⚙️流水线配置示例与实践JavaSpringBoot项目示例Vue.js前端项
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D