数据知道

aiohttp的详细使用和异步爬虫实战

文章目录

- 1. 基本概念
- 2. 安装 aiohttp
- 3. 一个简单的异步爬虫
- 4. 示例代码及解析
- 5. 并发控制
- 6. 错误处理
- 7. 数据解析与存储
- 8. 高级用法
- - 8.1 限速
  - 8.2 处理 JavaScript 渲染的页面
  - 8.3 异步文件写入
  - 8.4 POST 请求
  - 8.5 使用代理
  - 8.6 超时设置
- 9. 总结

aiohttp 是一个基于 asyncio 的异步 HTTP 客户端/服务器框架，非常适合用于编写高效的异步爬虫。下面我们将详细讲解如何使用 aiohttp 编写异步爬虫。

1. 基本概念

异步编程：异步编程是一种编程范式，允许程序在等待某些操作（如 I/O 操作）完成时，继续执行其他任务。与同步编程不同，异步编程不会阻塞程序的执行，从而提高了程序的效率和响应速度。

协程（Coroutine）：Python 中通过 async def 定义的函数称为协程，它们需要在事件循环中运行，并且可以暂停和恢复执行。

任务（Task）：任务是对协程的封装，用于调度和执行协程。asyncio.create_task() 用于创建任务。

事件循环：这是异步程序的核心，负责管理所有异步任务的调度和执行。

并发与并行：并发是指同时处理多个任务，而并行是指同时执行多个任务。异步编程通常用于实现并发。

aiohttp ：是一个基于 asyncio 的异步 HTTP 客户端/服务器框架，具有以下优点：

高效：利用异步 I/O，能够处理大量并发请求。
易用：API 设计简洁，易于上手。
功能强大：支持 WebSocket、Session 管理、代理等功能。

一个基本的 aiohttp 异步爬虫通常包括以下几个部分：

异步函数：用于发送 HTTP 请求并处理响应。
事件循环：用于调度异步任务。

2. 安装 aiohttp

首先，确保你已经安装了 aiohttp 库。如果没有安装，可以使用以下命令进行安装：pip install aiohttp

3. 一个简单的异步爬虫

以下是一个使用 aiohttp 进行简单网页抓取的例子：

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    urls = ['http://example.com', 'http://example.org', 'http://example.net']
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        pages = await asyncio.gather(*tasks)
        print(pages)

if __name__ == '__main__':
    asyncio.run(main())

这段代码展示了如何定义一个异步函数 fetch 来获取网页内容，并使用 ClientSession 创建一个会话来发起多个请求。asyncio.gather 允许同时并发地运行多个协程。

4. 示例代码及解析

下面是另一个一个简单的 aiohttp 异步爬虫示例，用于抓取多个网页的内容。

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main(urls):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        results = await asyncio.gather(*tasks)
        return results

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
    ]
    
    loop = asyncio.get_event_loop()
    results = loop.run_until_complete(main(urls))
    
    for result in results:
        print(result[:200])  # 打印每个页面的前200个字符

fetch 函数：这是一个异步函数，用于发送 HTTP GET 请求并返回响应的文本内容。async with session.get(url) 用于发送请求，await response.text() 用于获取响应的文本内容。

main 函数：这是主函数，负责创建 aiohttp.ClientSession 对象，并调度多个 fetch 任务。asyncio.gather 用于并发执行多个异步任务，并等待它们全部完成。

事件循环：asyncio.get_event_loop() 获取当前的事件循环，loop.run_until_complete(main(urls)) 用于运行 main 函数直到完成。

5. 并发控制

在实际应用中，可能需要控制并发请求的数量，以避免对服务器造成过大压力。可以使用 asyncio.Semaphore 来实现并发控制。

import aiohttp
import asyncio

async def fetch(session, url, semaphore):
    async with semaphore:
        async with session.get(url) as response:
            return await response.text()

async def main(urls, concurrency=5):
    semaphore = asyncio.Semaphore(concurrency)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, semaphore) for url in urls]
        results = await asyncio.gather(*tasks)
        return results

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
        # 更多URL...
    ]
    
    loop = asyncio.get_event_loop()
    results = loop.run_until_complete(main(urls, concurrency=5))
    
    for result in results:
        print(result[:200])  # 打印每个页面的前200个字符

6. 错误处理

在实际应用中，网络请求可能会失败，因此需要添加错误处理机制。例如，可以捕获 aiohttp.ClientError 处理连接错误等。

import aiohttp
import asyncio

async def fetch(session, url, semaphore):
    async with semaphore:
        try:
            async with session.get(url) as response:
                response.raise_for_status()  # 如果响应状态码不是200，抛出异常
                return await response.text()
        except aiohttp.ClientError as e:
            print(f"Request failed for {url}: {e}")
            return None

async def main(urls, concurrency=5):
    semaphore = asyncio.Semaphore(concurrency)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, semaphore) for url in urls]
        results = await asyncio.gather(*tasks)
        return results

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
        # 更多URL...
    ]
    
    loop = asyncio.get_event_loop()
    results = loop.run_until_complete(main(urls, concurrency=5))
    
    for result in results:
        if result:
            print(result[:200])  # 打印每个页面的前200个字符

7. 数据解析与存储

使用 BeautifulSoup 解析 HTML，并将数据存储到文件或数据库中。

from bs4 import BeautifulSoup
import aiohttp
import asyncio

async def fetch(session, url, semaphore):
    async with semaphore:
        async with session.get(url) as response:
            return await response.text()

async def parse(html):
    soup = BeautifulSoup(html, 'html.parser')
    return soup.title.string

async def main(urls, concurrency=5):
    semaphore = asyncio.Semaphore(concurrency)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, semaphore) for url in urls]
        htmls = await asyncio.gather(*tasks)
        titles = [parse(html) for html in htmls]
        return titles

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
    ]
    
    titles = asyncio.run(main(urls, concurrency=5))
    for title in titles:
        print(title)

8. 高级用法

8.1 限速

为了避免对目标网站造成过大的负担，你可能希望限制请求的速度。可以通过 asyncio.sleep() 或者第三方库如 aiothrottle 实现。

import aiohttp
import asyncio

async def fetch(session, url, semaphore):
    async with semaphore:
        async with session.get(url) as response:
            await asyncio.sleep(1)  # 限速
            return await response.text()

async def main(urls, concurrency=5):
    semaphore = asyncio.Semaphore(concurrency)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, semaphore) for url in urls]
        results = await asyncio.gather(*tasks)
        return results

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
    ]
    
    results = asyncio.run(main(urls, concurrency=5))
    for result in results:
        print(result[:200])

8.2 处理 JavaScript 渲染的页面

使用 pyppeteer 或 playwright 处理 JavaScript 渲染的页面。

from pyppeteer import launch
import asyncio

async def fetch(url):
    browser = await launch()
    page = await browser.newPage()
    await page.goto(url)
    content = await page.content()
    await browser.close()
    return content

async def main(urls):
    tasks = [fetch(url) for url in urls]
    results = await asyncio.gather(*tasks)
    return results

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
    ]
    
    results = asyncio.run(main(urls))
    for result in results:
        print(result[:200])

8.3 异步文件写入

使用 aiofiles 进行异步文件写入。首先需要安装：pip install aiofiles

import aiohttp
import asyncio
import aiofiles

async def fetch(session, url, semaphore):
    async with semaphore:
        async with session.get(url) as response:
            return await response.text()

async def save(content, filename):
    async with aiofiles.open(filename, 'w') as f:
        await f.write(content)

async def main(urls, concurrency=5):
    semaphore = asyncio.Semaphore(concurrency)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, semaphore) for url in urls]
        results = await asyncio.gather(*tasks)
        for i, result in enumerate(results):
            await save(result, f'page_{i}.html')

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
    ]
    
    asyncio.run(main(urls, concurrency=5))

8.4 POST 请求

除了 GET 请求外，aiohttp 还支持其他类型的请求，例如 POST 请求：

async def post_data(session, url, data):
    async with session.post(url, data=data) as response:
        return await response.json()

8.5 使用代理

为了防止被封 IP，有时需要使用代理。aiohttp 支持通过设置 proxy 参数来使用 HTTP/HTTPS 代理。

import aiohttp
import asyncio

async def fetch(session, url, proxy):
    async with session.get(url, proxy=proxy) as response:
        return await response.text()

async def main(urls, proxy):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, proxy) for url in urls]
        results = await asyncio.gather(*tasks)
        return results

if __name__ == "__main__":
    urls = [
        'https://www.example.com',
        'https://www.example.org',
        'https://www.example.net',
    ]
    proxy = 'http://your-proxy-server:port'
    
    results = asyncio.run(main(urls, proxy))
    for result in results:
        print(result[:200])

8.6 超时设置

为了避免某些请求长时间挂起，可以为请求设置超时时间：

timeout = aiohttp.ClientTimeout(total=60)  # 设置总超时时间为60秒
async with aiohttp.ClientSession(timeout=timeout) as session:
    # 使用会话发送请求

最后，请确认正确关闭 ClientSession 和释放资源。防止内存泄漏问题。

9. 总结

aiohttp 是一个强大的异步 HTTP 客户端库，非常适合用于编写高效的异步爬虫。通过合理使用 asyncio 和 aiohttp，可以轻松实现并发请求、错误处理等功能，从而提升爬虫的性能和稳定性。

你可能感兴趣的:(2025年爬虫和逆向教程,爬虫,python,aiohttp,asyncio,异步爬虫)

中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
深入理解 Linux 中的 stat 函数与文件属性操作
在Linux系统编程中，获取和操作文件属性是一项基础且重要的任务。stat函数作为获取文件状态信息的核心接口，为我们提供了丰富的文件元数据。本文将详细解析stat函数的用法、结构体成员含义，以及与文件时间戳、权限相关的实用操作。一、stat函数：文件信息的"万能查询器"stat函数的原型非常简洁：intstat(constchar*pathname,structstat*statbuf)功能：通过
UDP服务器的优缺点都包含哪些？ wanhengidc udp 服务器网络协议
UDP协议不需要像TCP协议那样进行复杂的连接建立与拆除过程，在进行传输数据信息的过程中，应用层将数据交给UDP层，UDP层直接加上首部就发往网络层，极大地减少了处理时间和资源消耗。例如在一些简单的网络监控程序中，只是定期发送一些状态信息，对数据准确性的要求不高时，企业可以选择使用UDP服务器，能够实现快速传输数据的功能。由于UDP服务器不需要连接建立过程和重传机制的束缚，UDP数据能够快速地从发
家庭网络中的服务器怎么对外提供服务？行而不知服务器运维内网穿透 DDNS
家庭网络中的服务器怎么对外提供服务？方案1DDNS（家庭网络需要有公网ip）方案2内网穿透（需要有一台公网ip的服务器）方案1DDNS（家庭网络需要有公网ip）怎么判断是否有公网ip？大致的流程就是光猫改桥接，由光猫拨号改为路由器拨号，在路由器管理页面查看拨号获取的ip，用这个ip去ip查询网站验证，具体的操作可自行搜索，这里不进行赘述了。我们都知道，ip有两种，ipv4和ipv6 网络
如何查看自己本地的公网IP地址？内网环境网络如何开通服务器公网ip提供互联网访问？搬码临时工网络 tcp/ip 服务器
查看公网IP和开启公网地址提供互联网服务是作为网络管理员的必修课。代替路由映射的端口映射应用使用最广泛的就是nat123。内网发布网站或其他应用到外网访问,且本地无公网IP，或80和443端口被屏蔽，对于这些环境，就需要利用端口映射应用网络辅助来实现。一、如何查看自己本地的公网IP?登录你的路由器，看拨号状态那的WAN口的IP地址；如果你是光纤猫拨号，就需要登录光纤猫，看拨号状态那WAN口的IP地
2025年网络安全人员薪酬趋势程序员肉肉 web安全安全网络安全计算机信息安全程序员
2025年网络安全人员薪酬趋势一、网络安全行业为何成“香饽饽”？最近和几个朋友聊起职业规划，发现一个有趣的现象：不管原来是程序员、运维还是产品经理，都想往网络安全领域跳槽。问原因，答案出奇一致——“听说这行工资高”。确实，从2025年的数据来看，网络安全行业的薪资水平不仅跑赢了大多数IT岗位，甚至成了“技术岗里的天花板”。但高薪背后到底有哪些门道？哪些职位最赚钱？城市和经验如何影响收入？今天我们就
搜广推校招面经九十三 Y1nhl 搜广推面经机器学习人工智能 python 算法推荐算法 pytorch 搜索算法
字节懂车帝一面一、NDCG（NormalizedDiscountedCumulativeGain）的计算NDCG是信息检索和排序任务中常用的评价指标，用于衡量模型预测的排序质量与真实相关性排序的一致程度。1.1.DCG@k（DiscountedCumulativeGain）DCG@k=∑i=1krelilog⁡2(i+1)\text{DCG@k}=\sum_{i=1}^{k}\frac{rel_i
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
mit6.s081lab
临近毕业季，回想自己本科四年学到了哪些东西，想到自己专业课都是为了卷绩点、应付考试，去背书、被概念，并没有十分深刻的理解和动手实践。现在想重新温习一下这部分知识，同时也加深一下对这部分内容的动手实践。那么就从大名鼎鼎的os课6.s081开始吧~~~lab1：Unixutilitieslab2：Systemcalls
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
Unity物理系统由浅入深第二节：物理系统高级特性与优化吉良吉影NeKoSuKi unity 游戏引擎架构 c#开发语言
本次我们将简单讲解Unity物理系统的一些高级特性，例如物理层、各种关节、布料系统和车辆物理等，这些能够帮助我们理解复杂的物理模拟原理。同时，我们也会探讨物理系统的性能开销，并提供优化策略，确保我们的游戏在拥有丰富物理效果的同时，也能保持良好的帧率。1.物理层（PhysicsLayers）：精细控制碰撞行为在大型或复杂的场景中，你可能不希望所有物体都相互碰撞。例如，玩家的子弹应该能击中敌人，但不应
《手机摄影从实战到精通》——多个技能多条路，手机拍摄技巧，着实过分实用了 Ann2015 智能手机程序人生学习生活风景
用小小的一部手机，就能拍大片？是的，手机摄影已不容小觑。近年来，一些手机厂商邀请知名导演使用手机拍大片，以彰显手机性能的强大，这也重新定义了我们对手机摄影的认知。相较于传统摄影设备，智能手机自带的“计算摄影”性能也降低了拍摄门槛，它可以将原本需要手动调节的各项参数指标进行自动调整和优化，使我们能轻松获得最佳拍摄效果。这也大大降低了拍摄的难度和门槛，让我们将重点放在内容创作上。手机与视频平台也密不可
Spring 如何干预 Bean 的生命周期？冰糖心书房 Spring IOC Ioc spring Bean 生命周期
Spring提供了多种机制让我们能够在Bean生命周期的不同节点“插入”自己的逻辑，这些机制可以分为两大类：针对单个Bean的干预和针对所有/多个Bean的全局干预。一、针对单个Bean的干预（最常用）这些方法让你为一个特定的Bean类定义其初始化和销毁逻辑。1.使用JSR-250注解（推荐方式）这是现在最优雅、也是Spring官方推荐的方式。它使用Java的标准注解，与Spring框架解耦。@P
Mysql字段没有索引，通过where x = 3 for update是使用什么级别的锁
没有索引时，FORUPDATE会锁住整个表现在，你正在一本一本地翻看所有书，寻找“维修中”的书，并且你对管理员说：“在我清点和修改完之前，别人不能动这些书，也不能往这个范围里加新书！”问题1：如何锁住你找到的“维修中”的书？你每找到一本“维修中”的书，就给它贴上一个“正在处理，请勿触碰”的标签（行级排他锁）。问题2：如何防止别人“往这个范围里加新书”？这是最关键的。因为你没有“状态”的目录卡片（没
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
在拉卡拉分账功能中实现实时更新，需结合异步回调通知和数据库事务来确保数据一致性。以下是具体实现方案肥仔全栈开发拉卡拉支付 php 拉卡拉支付三方支付
一、实时更新的核心逻辑依赖拉卡拉分账回调拉卡拉分账完成后会主动推送回调通知（类似支付回调），需监听该回调并更新订单分账状态。数据库事务保障分账金额更新、状态变更等操作需放在事务中，避免部分失败导致数据不一致。二、代码实现1.分账回调处理接口（监听拉卡拉分账结果推送，实时更新数据库）//文件：application/api/controller/Notify.phppublicfunctionlak
Likeshop单商户高级版对接拉卡拉支付收银台接入全流程详解肥仔全栈开发拉卡拉支付拉卡拉支付小程序
一、前期准备（1-3个工作日）商户认证在拉卡拉官网注册企业商户账号，提交营业执照、法人身份证等材料，完成实名认证并获取商户号（MCHID）和API密钥。在拉卡拉开发者后台下载API文档（含接口参数说明）和SDK工具包（支持Java/PHP等语言）。配置参数在Likeshop后台设置拉卡拉支付参数：商户号、API密钥、异步通知地址（如https://yourdomain.com/notify）。将拉
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
【Modern C++ Part7】_创建对象时使用()和{}的区别莫彩 Modern C++C++c++开发语言
在C++11中，你可以有多种语法选择用以对象的初始化，这样的语法显得混乱不堪并让人无所适从，()，=，{}均可以用来进行初始化：intx(0);//使用()进行初始化inty=0;//使用=进行初始化intz{0};//使用{}进行初始化在很多情况下，可以同时使用=和{}intz={0};//使用{}和=进行初始化对于这一条，我通常的会忽略“等于-{}”这种语法，因为C通常认为它只有{}。认为这种
2025年的RAG技术发展趋势与演进码农Q！云计算人工智能 ai agi 自然语言处理语言模型
本文将分享作为大模型应用创业者的经历与观察，讨论RAG技术和市场环境在2024年的变化。一、RAG技术的演进RAG（检索增强生成）由“检索”和“大模型生成”两部分组成，而检索之前的索引创建（如chunking、embedding等）是核心基础。我们早在2021年便通过Java技术栈实现了RAG的“RA”部分。2023年中，RAG概念突然走红，并迅速在企业应用中显示出更强的实用性。1.主流架构的变化
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Android开发中RxJava的使用与原理你过来啊你 android rxjava
RxJava是ReactiveExtensions在JVM上的实现，专为处理异步事件流和基于观察者模式的编程而设计。在Android开发中，它极大地简化了异步操作（如网络请求、数据库访问、UI事件处理）的管理、组合和线程调度，有效解决了回调地狱问题。一、RxJava核心概念Observable(可观察者)：数据源或事件源。它负责发出数据项(onNext)或事件（成功完成onComplete/发生错
Linux信号处理完全指南：程序员必知的10个关键点操作系统内核探秘 linux 信号处理网络 ai
Linux信号处理完全指南：程序员必知的10个关键点关键词：Linux信号、信号处理、进程通信、sigaction、可重入函数、信号掩码、信号生命周期、优雅退出、竞态条件、coredump摘要：本文以“生活中的紧急通知”为类比，用通俗易懂的语言拆解Linux信号处理的核心机制。通过10个程序员必须掌握的关键点，结合代码示例和生活案例，帮你彻底理解信号的生成、传递、处理全流程，掌握编写健壮信号处理逻
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他