python 基于aiohttp的异步爬虫实战详解

引言

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。

之前我们使用requests库爬取某个站点的时候，每发出一个请求，程序必须等待网站返回响应才能接着运行，而在整个爬虫过程中，整个爬虫程序是一直在等待的，实际上没有做任何事情。

像这种占用磁盘/内存IO、网络IO的任务，大部分时间是CPU在等待的操作，就叫IO密集型任务。对于这种情况有没有优化方案呢，当然有，那就是使用aiohttp库实现异步爬虫。

aiohttp是什么

我们在使用requests请求时，只能等一个请求先出去再回来，才会发送下一个请求。明显效率不高阿，这时候如果换成异步请求的方式，就不会有这个等待。一个请求发出去，不管这个请求什么时间响应，程序通过await挂起协程对象后直接进行下一个请求。

解决方法就是通过 aiohttp + asyncio，什么是aiohttp？一个基于 asyncio 的异步 HTTP 网络模块，可用于实现异步爬虫，速度明显快于 requests 的同步爬虫。

requests和aiohttp区别

区别就是一个同步一个是异步。话不多说直接上代码看效果。

安装aiohttp

pip install aiohttp

requests同步示例：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# author: 钢铁知识库
import time
import requests
# 同步请求
def main():
    start = time.time()
    for i in range(5):
        res = requests.get('http://httpbin.org/delay/2')
        print(f'当前时间：{datetime.datetime.now()}, status_code = {res.status_code}')
    print(f'requests同步耗时：{time.time() - start}')
if __name__ == '__main__':
    main()
'''
当前时间：2022-09-05 15:44:51.991685, status_code = 200
当前时间：2022-09-05 15:44:54.528918, status_code = 200
当前时间：2022-09-05 15:44:57.057373, status_code = 200
当前时间：2022-09-05 15:44:59.643119, status_code = 200
当前时间：2022-09-05 15:45:02.167362, status_code = 200
requests同步耗时：12.785893440246582
'''

可以看到5次请求总共用12.7秒，再来看同样的请求异步多少时间。

aiohttp异步示例：

#!/usr/bin/env python
# file: day6-9同步和异步.py
# author: 钢铁知识库
import asyncio
import time
import aiohttp
async def async_http():
    # 声明一个支持异步的上下文管理器
    async with aiohttp.ClientSession() as session:
        res = await session.get('http://httpbin.org/delay/2')
        print(f'当前时间：{datetime.datetime.now()}, status_code = {res.status}')
tasks = [async_http() for _ in range(5)]
start = time.time()
# Python 3.7 及以后,不需要显式声明事件循环,可以使用 asyncio.run()来代替最后的启动操作
asyncio.run(asyncio.wait(tasks))
print(f'aiohttp异步耗时：{time.time() - start}')
'''
当前时间：2022-09-05 15:42:32.363966, status_code = 200
当前时间：2022-09-05 15:42:32.366957, status_code = 200
当前时间：2022-09-05 15:42:32.374973, status_code = 200
当前时间：2022-09-05 15:42:32.384909, status_code = 200
当前时间：2022-09-05 15:42:32.390318, status_code = 200
aiohttp异步耗时：2.5826876163482666
'''

两次对比可以看到执行过程，时间一个是顺序执行，一个是同时执行。这就是同步和异步的区别。

aiohttp使用介绍

接下来我们会详细介绍aiohttp库的用法和爬取实战。aiohttp 是一个支持异步请求的库，它和 asyncio 配合使用，可以使我们非常方便地实现异步请求操作。asyncio模块，其内部实现了对TCP、UDP、SSL协议的异步操作，但是对于HTTP请求，就需要aiohttp实现了。

aiohttp分为两部分，一部分是Client，一部分是Server。下面来说说aiohttp客户端部分的用法。

基本实例

先写一个简单的案例

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : 钢铁知识库
import asyncio
import aiohttp
async def get_api(session, url):
    # 声明一个支持异步的上下文管理器
    async with session.get(url) as response:
        return await response.text(), response.status
async def main():
    async with aiohttp.ClientSession() as session:
        html, status = await get_api(session, 'http://httpbin.org/delay/2')
        print(f'html: {html[:50]}')
        print(f'status : {status}')
if __name__ == '__main__':
    #  Python 3.7 及以后,不需要显式声明事件循环,可以使用 asyncio.run(main())来代替最后的启动操作
    asyncio.get_event_loop().run_until_complete(main())
'''
html: {
  "args": {}, 
  "data": "", 
  "files": {}, 
status : 200
Process finished with exit code 0
'''

aiohttp请求的方法和之前有明显区别，主要包括如下几点：

除了导入aiohttp库，还必须引入asyncio库，因为要实现异步，需要启动协程。
异步的方法定义不同，前面都要统一加async来修饰。
with as用于声明上下文管理器，帮我们自动分配和释放资源，加上async代码支持异步。
对于返回协程对象的操作，前面需要加await来修饰。response.text()返回的是协程对象。
最后运行启用循环事件

注意：Python3.7及以后的版本中，可以使用asyncio.run(main())代替最后的启动操作。

URL参数设置

对于URL参数的设置，我们可以借助params设置，传入一个字典即可，实例如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : 钢铁知识库
import aiohttp
import asyncio
async def main():
    params = {'name': '钢铁知识库', 'age': 23}
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.httpbin.org/get', params=params) as res:
            print(await res.json())
if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())
'''
{'args': {'age': '23', 'name': '钢铁知识库'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'www.httpbin.org', 'User-Agent': 'Python/3.8 aiohttp/3.8.1', 'X-Amzn-Trace-Id': 'Root=1-63162e34-1acf7bde7a6d801368494c72'}, 'origin': '122.55.11.188', 'url': 'https://www.httpbin.org/get?name=钢铁知识库&age=23'}
'''

可以看到实际请求的URL后面带了后缀，这就是params的内容。

请求类型

除了get请求，aiohttp还支持其它请求类型，如POST、PUT、DELETE等，和requests使用方式类似。

session.post('http://httpbin.org/post', data=b'data')
session.put('http://httpbin.org/put', data=b'data')
session.delete('http://httpbin.org/delete')
session.head('http://httpbin.org/get')
session.options('http://httpbin.org/get')
session.patch('http://httpbin.org/patch', data=b'data')

要使用这些方法，只需要把对应的方法和参数替换一下。用法和get类似就不再举例。

响应的几个方法

对于响应来说，我们可以用如下方法分别获取其中的响应情况。状态码、响应头、响应体、响应体二进制内容、响应体JSON结果，实例如下：

#!/usr/bin/env python
# @Author  : 钢铁知识库
import aiohttp
import asyncio
async def main():
    data = {'name': '钢铁知识库', 'age': 23}
    async with aiohttp.ClientSession() as session:
        async with session.post('https://www.httpbin.org/post', data=data) as response:
            print('status:', response.status)  # 状态码
            print('headers:', response.headers)  # 响应头
            print('body:', await response.text())  # 响应体
            print('bytes:', await response.read())  # 响应体二进制内容
            print('json:', await response.json())  # 响应体json数据
if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

'''
status: 200
headers: <CIMultiDictProxy('Date': 'Tue, 06 Sep 2022 00:18:36 GMT', 'Content-Type': 'application/json', 'Content-Length': '534', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true')>
body: {
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "23", 
    "name": "\u94a2\u94c1\u77e5\u8bc6\u5e93"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "57", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "www.httpbin.org", 
    "User-Agent": "Python/3.8 aiohttp/3.8.1", 
    "X-Amzn-Trace-Id": "Root=1-631691dc-6aa1b2b85045a1a0481d06e1"
  }, 
  "json": null, 
  "origin": "122.55.11.188", 
  "url": "https://www.httpbin.org/post"
}
bytes: b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "age": "23", \n    "name": "\\u94a2\\u94c1\\u77e5\\u8bc6\\u5e93"\n  }, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate", \n    "Content-Length": "57", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "www.httpbin.org", \n    "User-Agent": "Python/3.8 aiohttp/3.8.1", \n    "X-Amzn-Trace-Id": "Root=1-631691dc-6aa1b2b85045a1a0481d06e1"\n  }, \n  "json": null, \n  "origin": "122.5.132.196", \n  "url": "https://www.httpbin.org/post"\n}\n'
json: {'args': {}, 'data': '', 'files': {}, 'form': {'age': '23', 'name': '钢铁知识库'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '57', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'www.httpbin.org', 'User-Agent': 'Python/3.8 aiohttp/3.8.1', 'X-Amzn-Trace-Id': 'Root=1-631691dc-6aa1b2b85045a1a0481d06e1'}, 'json': None, 'origin': '122.55.11.188', 'url': 'https://www.httpbin.org/post'}
'''

可以看到有些字段前面需要加await，因为其返回的是一个协程对象(如async修饰的方法)，那么前面就要加await。

超时设置

我们可以借助ClientTimeout对象设置超时，例如要设置1秒的超时时间，可以这么实现：

#!/usr/bin/env python
# @Author  : 钢铁知识库
import aiohttp
import asyncio
async def main():
    # 设置 1 秒的超时 
    timeout = aiohttp.ClientTimeout(total=1)
    data = {'name': '钢铁知识库', 'age': 23}
    async with aiohttp.ClientSession(timeout=timeout) as session:
        async with session.get('https://www.httpbin.org/delay/2', data=data) as response:
            print('status:', response.status)  # 状态码
if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())
'''
Traceback (most recent call last):
####中间省略####
    raise asyncio.TimeoutError from None
asyncio.exceptions.TimeoutError
'''

这里设置了超时1秒请求延时2秒，发现抛出异常asyncio.TimeoutError，如果正常则响应200。

并发限制

aiohttp可以支持非常高的并发量，但面对高并发网站可能会承受不住，随时有挂掉的危险，这时需要对并发进行一些控制。现在我们借助asyncio 的Semaphore来控制并发量，实例如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : 钢铁知识库
import asyncio
from datetime import datetime
import aiohttp
# 声明最大并发量
semaphore = asyncio.Semaphore(2)
async def get_api():
    async with semaphore:
        print(f'scrapting...{datetime.now()}')
        async with session.get('https://www.baidu.com') as response:
            await asyncio.sleep(2)
            # print(f'当前时间：{datetime.now()}, {response.status}')
async def main():
    global session
    session = aiohttp.ClientSession()
    tasks = [asyncio.ensure_future(get_api()) for _ in range(1000)]
    await asyncio.gather(*tasks)
    await session.close()
if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())
'''
scrapting...2022-09-07 08:11:14.190000
scrapting...2022-09-07 08:11:14.292000
scrapting...2022-09-07 08:11:16.482000
scrapting...2022-09-07 08:11:16.504000
scrapting...2022-09-07 08:11:18.520000
scrapting...2022-09-07 08:11:18.521000
'''

在main方法里，我们声明了1000个task，如果没有通过Semaphore进行并发限制，那这1000放到gather方法后会被同时执行，并发量相当大。有了信号量的控制之后，同时运行的task数量就会被控制，这样就能给aiohttp限制速度了。

aiohttp异步爬取实战

接下来我们通过异步方式练手一个小说爬虫，需求如下：

需求页面：https://dushu.baidu.com/pc/detail?gid=4308080950

目录接口：https://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4308080950"}

详情接口：

https://dushu.baidu.com/api/pc/getChapterContent?data={"book_id":"4295122774","cid":"4295122774|116332"}

关键参数：book_id：小说ID、cid：章节id

采集要求：使用协程方式写入，数据存放进mongo

需求分析：点开需求页面，通过F12抓包可以发现两个接口。一个目录接口，一个详情接口。
首先第一步先请求目录接口拿到cid章节id，然后将cid传递给详情接口拿到小说数据，最后存入mongo即可。

话不多说，直接上代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : 钢铁知识库
# 不合适就是不合适，真正合适的，你不会有半点犹豫。
import asyncio
import json,re
import logging
import aiohttp
import requests
from utils.conn_db import ConnDb
# 日志格式
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 章节目录api
b_id = '4308080950'
url = 'https://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"'+b_id+'"}'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/104.0.0.0 Safari/537.36"
}
# 并发声明
semaphore = asyncio.Semaphore(5)
async def download(title,b_id, cid):
    data = {
        "book_id": b_id,
        "cid": f'{b_id}|{cid}',
    }
    data = json.dumps(data)
    detail_url = 'https://dushu.baidu.com/api/pc/getChapterContent?data={}'.format(data)
    async with semaphore:
        async with aiohttp.ClientSession(headers=headers) as session:
            async with session.get(detail_url) as response:
                res = await response.json()
                content = {
                    'title': title,
                    'content': res['data']['novel']['content']
                }
                # print(title)
                await save_data(content)
async def save_data(data):
    if data:
        client = ConnDb().conn_motor_mongo()
        db = client.baidu_novel
        collection = db.novel
        logging.info('saving data %s', data)
        await collection.update_one(
            {'title': data.get('title')},
            {'$set': data},
            upsert=True
        )
async def main():
    res = requests.get(url, headers=headers)
    tasks = []
    for re in res.json()['data']['novel']['items']:     # 拿到某小说目录cid
        title = re['title']
        cid = re['cid']
        tasks.append(download(title, b_id, cid))    # 将请求放到列表里，再通过gather执行并发
    await asyncio.gather(*tasks)
if __name__ == '__main__':
    asyncio.run(main())

至此，我们就使用aiohttp完成了对小说章节的爬取。

要实现异步处理，得先要有挂起操作，当一个任务需要等待 IO 结果的时候，可以挂起当前任务，转而去执行其他任务，这样才能充分利用好资源，要实现异步，需要了解 await 的用法，使用 await 可以将耗时等待的操作挂起，让出控制权。当协程执行的时候遇到 await，时间循环就会将本协程挂起，转而去执行别的协程，直到其他的协程挂起或执行完毕。

await 后面的对象必须是如下格式之一：

A native coroutine object returned from a native coroutine function，一个原生 coroutine 对象。
A generator-based coroutine object returned from a function decorated with types.coroutine，一个由 types.coroutine 修饰的生成器，这个生成器可以返回 coroutine 对象。
An object with an await method returning an iterator，一个包含 await 方法的对象返回的一个迭代器。

总结

以上就是借助协程async和异步aiohttp两个主要模块完成异步爬虫的内容，
aiohttp 以异步方式爬取网站的耗时远小于 requests 同步方式，以上列举的例子希望对你有帮助。

注意，线程和协程是两个概念，后面找机会我们再聊聊进程和线程、线程和协程的关系

更多关于python aiohttp异步爬虫的资料请关注脚本之家其它相关文章！

加速产品开发，赢得市场先机：AI写代码工具ScriptEcho助您一臂之力前端
在当今快节奏的市场环境下，产品开发速度已成为企业竞争力的关键因素。产品开发周期过长，不仅会错失最佳市场时机，更会让企业在激烈的竞争中处于被动地位。如何才能打破传统开发模式的束缚，加速产品迭代，抢占市场先机呢？答案或许就在于高效的AI写代码工具，例如ScriptEcho。它能够显著提升开发效率，缩短产品上市时间，帮助企业在竞争中脱颖而出。加速产品迭代：快速原型开发与用户反馈快速原型开发是敏捷开发的核
2025年奇点临近：ASI的潜在影响与人类应对策略前端
引言近年来，“奇点临近”的预测引发了广泛的社会担忧。一些专家预测，在不久的将来，人工智能（AI）将超越人类智能，进入人工超级智能（ASI）时代。这将对人类社会产生深远的影响，甚至可能导致人类文明的彻底改变。本文将探讨ASI的潜在影响，并分析人类如何应对这一前所未有的挑战。ASI的冲击：两种极端命运与全方位的变革一些预测认为，ASI可能在2025年甚至更早出现。这种突破性进展将可能带来两种极端命运：
AI前端技术赋能智慧交通：从实时路况到智能导航前端
在现代社会，日益严重的交通拥堵和出行效率低下已成为许多城市面临的重大挑战。传统的交通管理模式难以应对海量交通数据和复杂的交通状况，而AI写代码工具的出现为解决这些问题提供了新的途径。特别是AI前端技术，它在处理和可视化交通数据，构建智能交通应用方面扮演着至关重要的角色，为建设智慧交通系统提供了强有力的支撑。AI前端在交通管理中的应用：数据驱动，智能决策AI前端技术在交通管理中的应用主要体现在以下几
Q1营收稳健增长，云从科技如何在“百模大战”的险中求稳？ huaxinjiayou java
找实习伙伴有没有51后入职或者已经在职的在北京字节实习的牛友啊，找个搭子[牛泪][牛泪]神仙外企英伟达值得一试优点是提供了丰厚的薪资待遇和福利保障，月薪20k-70k，而且员工可以享受到补充商业保险、年度体检、题解|#自动售卖机#`timescale1ns/1nsmodulesale(input题解|#进制转换##includeusingnamespacestd;i求职经历分享本人双非本，24届，
python（类和对象之类函数和静态函数） huo_1214
类函数和静态函数#-*-coding:utf-8-*-#类函数和静态函数classPeople(object):#类变量total=0def__init__(self,name,age):#调用父类的初始化函数super(People,self).__init__()#初始化当前类对象的一些属性self.name=nameself.age=age#对象函数，只能由对象调用defeat(self):
ASP.NET Core--环境搭建和命令行CLI入门 sufengmarket NET CORE asp.net core 安装 cli 命令行
文章目录.NETCore安装命令行dotnetrestoredotnetbuilddotnetrundotnetpackdotnetpublishdotnettest.NETCore.NETCore是开放源代码的通用开发平台（是一个“平台”），基于这个开放平台我们可以开发像ASP.NETCore应用程序，Windows10通用Windows平台(UWP),Tizen等等,而我们系列教程就是用.NE
百万架构师第六课：设计模式：策略模式及模板模式后端
策略模式举例：比较器旅行路线固定算法策略（封装）买东西结算支付场景：根据用户的需求处理数据时候需要对算法做出选择，固定的一些算法（不再发生变化的算法），扩展。（算法会变的时候，不建议用策略模式）客户本身就知道要采用什么样的算法去计算。（有选择的权利）==assets/支付的策略模式.png==策略模式代码：Order.classpublicclassOrder{privateStringuId;p
探索Qwen-VL：一个全栈式的视觉语言模型开发框架钟洁祺
探索Qwen-VL：一个全栈式的视觉语言模型开发框架Qwen-VLTheofficialrepoofQwen-VL(通义千问-VL)chat&pretrainedlargevisionlanguagemodelproposedbyAlibabaCloud.项目地址:https://gitcode.com/gh_mirrors/qw/Qwen-VL项目简介是一款由QwenLM开发的全栈式视觉语言（V
构建长期客户关系：CRM全周期销售管理指南程序员算法机器学习
在现代商业环境中，销售不再是一次性的交易，而是与客户建立长期关系的开始。CRM（客户关系管理）系统作为企业销售和市场营销的核心工具，其全周期管理体系对于构建持久的客户关系至关重要。本文将探讨CRM销售全周期管理体系的重要性、关键组成部分以及如何通过这一体系提升销售绩效。销售全周期管理体系的重要性销售全周期管理体系是指从潜在客户识别、需求挖掘、销售转化到客户维护和再销售的全过程管理。这一体系帮助企业
荣耀CEO赵明：端侧AI使能硬件普惠大众是责无旁贷的使命 ggtdfgfdg 人工智能
荣耀100图片6月26日，在上海世界移动通信大会(以下简称“MWC上海”)上，荣耀终端有限公司CEO赵明发表《AI共生时代，智能终端终将以人为中心赋能》主题演讲，首次向外界展示了两大突破性端侧AI创新：AI离焦护眼技术和AI换脸检测技术，对智能终端厂商如何用AI赋能个人给出最新思路。同时，赵明宣布荣耀MagicV3是集强大和轻薄于一身的里程碑意义产品，将再次挑战折叠轻薄新高度。“通过端侧AI使能硬
springmvc的获取请求数据代码代码快快显灵 springmvc java 开发语言 springMVC 后端
在使用SpringMVC开发web应用时，我们经常需要从用户的请求中获取数据。不管是表单提交、查询参数，还是路径上的数据，SpringMVC都为我们提供了简单而强大的方式来获取这些数据。1.使用@RequestParam获取查询参数基本使用：RequestParam注解作用：将请求参数与方法上的形参映射。最常见的情况就是获取请求路径中的查询参数，比如?name=Grace&age=25。在Spri
shell 脚本中 wait 和 sleep 的区别 shell
在shell脚本世界中，理解各种命令之间的细微差别对于编写高效的脚本至关重要。两个经常引起混淆的命令是wait和sleep。虽然它们看上去很相似，但在脚本执行中每个都有其独特的用途。ThesleepCommandsleep命令用于在脚本执行过程中延迟一个固定的时间。用于暂停执行一段指定的时间。Syntax:sleepNUMBER[SUFFIX]...NUMBER可以是整数或浮点数。SUFFIX可以
Linux内核源码剖析之TCP保活机制（KeepAlive）
TCP保活机制（KeepAlive）详解在网络通信中，TCP保活机制（KeepAlive）是一种用于检测空闲连接状态的重要技术。它通过定期发送探测报文，确保连接的双方仍处于活跃状态，从而提高连接的可靠性并节省系统资源。本文将深入解析TCP保活机制的实现原理及其在Linux内核中的具体实现方式。1.TCP保活机制概述TCP保活机制旨在通过周期性地发送探测报文，检测长期空闲的TCP连接是否仍然有效。当
MySQL之show profile相关总结
MySQL中的SHOWPROFILE性能分析详解在数据库优化过程中，SHOWPROFILE是MySQL提供的一个强大工具，用于分析查询的执行性能。通过展示查询在不同阶段的执行时间和资源消耗，开发人员可以精准定位性能瓶颈，从而进行有效优化。本文将详细介绍如何使用SHOWPROFILE进行性能分析，并结合实例解释其应用方法。1.SHOWPROFILE概述SHOWPROFILE用于分析单条查询语句的执行
百万架构师第五课：设计模式：深度分析代理模式后端
代理模式作用：AOP实现拦截器中介黄牛媒婆解耦专人做专事自己不想做，又不得不做的事增强代理：静态代理动态代理角色代理角色被代理的角色（目标对象）由被代理的角色来做最终的决定代理角色通常来说会持有被代理角色对象引用（以便于代理角色完成工作之前或者之后能够找到被代理的对象，能够通知被代理对象）静态代理动态代理的区别：静态代理：在代理之前所有的东西都是已知的（人工）动态代理：在代理之前，所有的东西都是未
不科学上网使用Hugging Face的Transformers库 109702008 人工智能 #深度学习 #python 人工智能 AIGC
参考ProgramSynthesiswithCodeGen—ROCmBlogs(amd.com)HF-Mirror-Huggingface镜像站https://huggingface.co/docs/transformers/v4.40.1/zh/installation#%E7%A6%BB%E7%BA%BF%E6%A8%A1%E5%BC%8F准备aptshowrocm-libs-apipinst
知乎高赞！BAT大牛的大数据学习之路！数据工程师金牛大数据大数据人工智能机器学习数据挖掘数据分析
前几天，网易云音乐公布了一份年度音乐总结。让我惊叹的是在这个大数据时代底下，比起我们自己，大数据似乎更懂得我们。如果科技更进一步，就像《奇葩说》中一集辩题里所说的，它有可能可以帮我们匹配到那个灵魂相契的人。有人觉得这个现象很恐怖，但在我看来，人的恐惧是源自于未知。如果能顺应着时代的步伐，一起向前，对它了解再加深一点，也许我们就会爱上它。在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙
数据库：mysqldump用法详解
mysqldump用法详解：MySQL数据库备份工具mysqldump是MySQL提供的一款用于备份和恢复数据库的命令行工具，能够将数据库的数据和结构导出为SQL文件，便于后续的数据迁移、恢复或灾难恢复等操作。通过合理使用mysqldump，可以灵活地备份数据库的不同部分，并保证数据的安全性。下面将对mysqldump的常用命令进行详细说明。1.备份整个数据库备份整个数据库时，只需使用以下命令：m
python程序设计期末大作业,python大作业代码100行 chatgpt001 人工智能
大家好，小编来为大家解答以下问题，python期末大作业代码200行带批注，python程序设计期末大作业，今天让我们一起来看看吧！#题目：利用Python实现一个计算器，可以计算小数复数等importredefcalculator(string):#去除括号函数defget_grouping(string):flag=Falseret=re.findall('$([^()]+)$',stri
手把手教会你相册备份到电脑前端后端android数据库
老铁们，是不是总担心手机相册里的珍贵照片会丢失呀？今天就来手把手教大家用节点小宝把相册备份到电脑上，完全不用考虑数据线的事情，超简单哦下载安装先到节点小宝官网下载并安装对应的客户端到电脑和手机上，然后用手机号等注册登录账号，完成设备绑定，这可是基础步骤呀，让电脑和手机建立联系才能进行后续操作。选择设备在手机端的节点小宝应用中，在“目标设备”中选之前绑定的电脑，设置好备份的存储路径，比如电脑的某个硬
ubuntu18.04下配置muduoC++11环境
在Ubuntu18.04上配置MuduoC++11环境的详细步骤Muduo是一款高性能的C++网络库，广泛用于高并发、高性能的网络应用程序开发。本文将详细介绍如何在Ubuntu18.04上配置Muduo并启用C++11特性。1.安装必要的依赖在开始配置之前，我们需要确保安装了构建工具和必要的依赖库。这包括了CMake（用于构建系统）和g++（C++编译器）。步骤：打开终端并执行以下命令：sudoa
解决uniapp安卓打包targetSdkVersion报错
解决GooglePlay版本检查问题的实用方案。Error:GooglePlayrequiresthatappstargetAPIlevel33orhigher.[ExpiredTargetSdkVersion]问题描述打包时遇到以下错误：Error:GooglePlayrequiresthatappstargetAPIlevel33orhigher.[ExpiredTargetSdkVersio
nodejs创建ws服务器，前端浏览器用websocket接收信息和发送信息给服务端 cdcdhj nodejs 服务器前端 websocket
首页是用nodejs建立服务器端//wsserver.jsconstWebSocket=require('ws');constwss=newWebSocket.Server({port:8080});wss.on('connection',functionconnection(ws){ws.on('error',console.error);//接收客户端发送过来的信息ws.on('message
解决MySQL与Redis缓存一致性的问题
解决MySQL与Redis缓存一致性问题的策略在分布式系统中，MySQL数据库与Redis缓存的配合是常见的设计模式，尤其在高并发场景下，通过缓存来减轻数据库压力。然而，缓存和数据库的同步问题常常成为瓶颈，主要体现在缓存数据与数据库数据的一致性问题。为了有效解决这一问题，我们可以采取以下几种策略：1.缓存穿透缓存穿透是指查询的数据在缓存和数据库中都不存在的情况。为了避免恶意请求导致数据库压力过大，
PolarDB分布式版V2.0：安全可靠的集中分布式一体化数据库管理软件 mysql数据库sql
阿里云PolarDB数据库管理软件（分布式版）V2.0（简称PolarDB分布式版V2.0）采用Shared-nothing架构，兼容MySQL开源生态构建产品竞争力，支持集中式和分布式一体化形态，具备金融级数据高可用、高可靠和分布式水平扩展能力。目前有以下产品方案供用户选择：PolarDB分布式版V2.0（公有云版本）立即查看方案PolarDB分布式版V2.0（混合云版本）立即咨询PolarDB
HarmonyOS Next V2 状态管理 AppStorageV2 和 PersistenceV2 harmonyos
HarmonyOSNextV2状态管理AppStorageV2和PersistenceV2前言在HarmonyOS应用开发过程中，我们已经学习过了不少关于状态管理相关的技术，如@ObservedV2装饰器和@Trace装饰器：类属性变化观测@ComponentV2装饰器：自定义组件@Local装饰器：组件内部状态@Param：组件外部输入@Once：初始化同步一次@Event装饰器：组件输出@Mo
华为OD机试E卷 - 单词接龙（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++C
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述单词接龙的规则是：可用于接龙的单词首字母必须要前一个单词的尾字母相同；当存在多个首字母相同的单词时，取长度最长的单词，如果长度也相等，则取字典序最小的单词；已经参与接龙的单词不能重复使用。现给定一组全部由小写字母组成单词数组，并指定其中的一个单词作为起始单词，进行单词接龙，请输出最长的单词串，单词串是单词拼接而成，中间
HarmonyOS Next V2 @Monitor 和@Computed harmonyos
HarmonyOSNextV2@Monitor和@Computed@Monitor介绍@Monitor是状态把管理V2版本中的用于监听状态变量修改的技术。它可以直接用在@ComponentV2装饰的自定义组件中，用于被@Local、@Param、@Provider、@Comsumer、@Computed修饰的状态变量中对于深层次的数据，如深层次对象、对象数组等，需要搭配@ObservedV2、@T
HarmonyOS Next V2 @Event harmonyos
HarmonyOSNextV2@Event背景在上一节中，我们针对父子组件，讲了关于传递数据的知识。我们了解到@Local是管理自己内部的数据的，@Param是负责接收父组件的数据的，而且子自己内部不能直接修改按照一个组件最基本的功能，既能接收外部传入的数据，也要向外部传递数据。那么@Event修饰符就是来解决这个问题的了。介绍@Event是子组件向父组件传递数据的技术，它只能用在@Compone
debian12 安装docker以及docker-compose bali16 Linux debian docker
最快的方法请确保你的下载源已经是使用了国内镜像源,否则请你先修改apt镜像源为国内源再进行下载!设置国内镜像源安装dockeraptinstalldocker.io安装docker-composeaptinstalldocker-compose以前的方法现在镜像站，跟docker都访问不了，不能用这个了。更新软件包列表确保您的系统软件包列表是最新的。您可以通过运行以下命令来更新软件包列表：sudo
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他