无水先生

PyTorch 模型性能分析和优化 — 第 1 部分

一、说明

这篇文章的重点将是GPU上的PyTorch培训。更具体地说，我们将专注于 PyTorch 的内置性能分析器 PyTorch Profiler，以及查看其结果的方法之一，即 PyTorch Profiler TensorBoard 插件。

二、深度框架

训练深度学习模型，尤其是大型模型，可能是一项昂贵的支出。我们可以使用的用于管理这些成本的主要方法之一是性能优化。性能优化是一个迭代过程，在这个过程中，我们不断寻找提高应用程序性能的机会，然后利用这些机会。在以前的帖子中（例如，这里我们强调了拥有进行这种分析的适当工具的重要性。选择的工具可能取决于许多因素，包括训练加速器的类型（例如，GPU、HPU 或其他）和训练框架。

性能优化流程（作者）

这篇文章并不是要替代PyTorch Profiler上的官方PyTorch文档，也不是使用TensorBoard插件来分析分析器结果。我们的目的是展示如何在一个人的日常发展过程中使用这些工具。事实上，如果您还没有，我们建议您在阅读这篇文章之前先查看官方文档。

一段时间以来，我一直对TensorBoard插件教程的一部分特别感兴趣。本教程介绍了一个分类模型（基于 Resnet 架构），该模型在流行的 Cifar10 数据集上进行训练。它继续演示如何使用PyTorch Profiler和TensorBoard插件来识别和修复数据加载器中的瓶颈。输入数据管道中的性能瓶颈并不少见，我们在之前的一些文章中（例如，在这里）已经详细讨论了它们。本教程令人惊讶的是（截至撰写本文时）呈现的最终（优化后）结果，我们将其粘贴到下面：

性能跟踪优化（来自 PyTorch 网站)

如果仔细观察，您会发现优化后的 GPU 利用率为 40.46%。现在没有办法粉饰这一点：这些结果绝对是糟糕的，应该让你夜不能寐。正如我们过去所扩展的那样（例如，在这里），GPU 是我们训练机器中最昂贵的资源，我们的目标应该是最大限度地提高其利用率。40.46% 的利用率结果通常代表培训加速和成本节约的重要机会。当然，我们可以做得更好！在这篇博文中，我们将努力做得更好。我们将首先尝试重现官方教程中提供的结果，看看我们是否可以使用相同的工具来进一步提高训练性能。

三、玩具示例

下面的代码块包含由 TensorBoard 插件教程定义的训练循环，进行了两个小的修改：

我们使用与本教程中使用的CIFAR10数据集具有相同属性和行为的假数据集。这种变化的动机可以在这里找到。
我们初始化torch.profiler.schedule，预热标志设置为3，重复标志设置为1。我们发现，预热步骤数量的略微增加提高了分析结果的稳定性。

import numpy as np
import torch
import torch.nn
import torch.optim
import torch.profiler
import torch.utils.data
import torchvision.datasets
import torchvision.models
import torchvision.transforms as T
from torchvision.datasets.vision import VisionDataset
from PIL import Image

class FakeCIFAR(VisionDataset):
    def __init__(self, transform):
        super().__init__(root=None, transform=transform)
        self.data = np.random.randint(low=0,high=256,size=(10000,32,32,3),dtype=np.uint8)
        self.targets = np.random.randint(low=0,high=10,size=(10000),dtype=np.uint8).tolist()

    def __getitem__(self, index):
        img, target = self.data[index], self.targets[index]
        img = Image.fromarray(img)
        if self.transform is not None:
            img = self.transform(img)
        return img, target

    def __len__(self) -> int:
        return len(self.data)

transform = T.Compose(
    [T.Resize(224),
     T.ToTensor(),
     T.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

train_set = FakeCIFAR(transform=transform)
train_loader = torch.utils.data.DataLoader(train_set, batch_size=32, 
                                           shuffle=True)

device = torch.device("cuda:0")
model = torchvision.models.resnet18(weights='IMAGENET1K_V1').cuda(device)
criterion = torch.nn.CrossEntropyLoss().cuda(device)
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
model.train()

# train step
def train(data):
    inputs, labels = data[0].to(device=device), data[1].to(device=device)
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

# training loop wrapped with profiler object
with torch.profiler.profile(
        schedule=torch.profiler.schedule(wait=1, warmup=4, active=3, repeat=1),
        on_trace_ready=torch.profiler.tensorboard_trace_handler('./log/resnet18'),
        record_shapes=True,
        profile_memory=True,
        with_stack=True
) as prof:
    for step, batch_data in enumerate(train_loader):
        if step >= (1 + 4 + 3) * 1:
            break
        train(batch_data)
        prof.step()  # Need to call this at the end of each step

本教程中使用的GPU是Tesla V100-DGXS-32GB。在这篇文章中，我们尝试使用包含Tesla V2-SXM3–2GB GPU的Amazon EC100 p2.16xlarge实例重现并改进本教程的性能结果。尽管它们共享相同的架构，但您可以在此处了解两个 GPU 之间存在一些差异。我们使用 AWS PyTorch 2.0 Docker 映像运行训练脚本。下图捕获了 TensorBoard 查看器概述页面中显示的训练脚本的性能结果：

TensorBoard Profiler 概述选项卡中显示的基线性能结果（由作者捕获）

我们首先注意到，与本教程相反，我们实验中的概述页面（torch-tb-profiler 版本 0.4.1）将三个分析步骤合并为一个。因此，平均总步长时间为 80 毫秒，而不是报告的 240 毫秒。这可以在“跟踪”选项卡（根据我们的经验，几乎总是提供更准确的报告）中清楚地看到，其中每个步骤需要 ~80 毫秒。

TensorBoard Profiler 跟踪视图选项卡中显示的基线性能结果（由作者捕获）

请注意，我们的起点 31.65% GPU 利用率和 80 毫秒的步进时间与教程中分别提供的 23.54% 和 132 毫秒的起点不同。这可能是训练环境差异的结果，包括 GPU 类型和 PyTorch 版本。我们还注意到，虽然教程基线结果清楚地将性能问题诊断为 DataLoader 中的瓶颈，但我们的结果却没有。我们经常发现，数据加载瓶颈会在“概述”选项卡中伪装成“CPU Exec”或“其他”的高比例。

3.1 优化#1：多进程数据加载

让我们从应用多进程数据加载开始，如教程中所述。由于 Amazon EC2 p3.2xlarge 实例有 8 个 vCPU，因此我们将 DataLoader 辅助角色的数量设置为 8 个，以获得最佳性能：

train_loader = torch.utils.data.DataLoader(train_set, batch_size=32, 
                               shuffle=True, num_workers=8)

此优化的结果如下所示：

TensorBoard Profiler 概述选项卡中多进程数据加载的结果（由作者捕获）

对单行代码的更改使 GPU 利用率提高了 200% 以上（从 31.65% 提高到 72.81%），并将我们的训练步骤时间减少了一半以上（从 80 毫秒减少到 37 毫秒）。

本教程中的优化过程到此结束。尽管我们的GPU利用率（72.81%）比教程中的结果（40.46%）高得多，但我毫不怀疑，像我们一样，您会发现这些结果仍然不令人满意。

您应该随意跳过的个人评论：想象一下，如果在 GPU 上训练时，如果 PyTorch 默认应用多进程数据加载，可以节省多少全球资金！诚然，使用多处理可能会有一些不必要的副作用。但是，必须运行某种形式的自动检测算法，以排除潜在问题场景的存在并相应地应用此优化。

3.2 优化#2：内存固定

如果我们分析上一个实验的跟踪视图，我们可以看到大量时间（10 毫秒中的 37 毫秒）仍然花费在将训练数据加载到 GPU 上。

“跟踪视图”选项卡中多进程数据加载的结果（由作者捕获）

为了解决这个问题，我们将应用另一个 PyTorch 推荐的优化来简化数据输入流，即内存固定。使用固定内存可以提高主机到 GPU 数据复制的速度，更重要的是，允许我们使它们异步。这意味着我们可以在 GPU 中准备下一个训练批次，同时在当前批次上运行训练步骤。请务必注意，尽管异步执行通常会提高性能，但它也会降低时间测量的准确性。出于我们的博客文章的目的，我们将继续使用 PyTorch Profiler 报告的测量值。有关如何获得精确测量的说明，请参阅此处。有关内存固定及其副作用的其他详细信息，请参阅 PyTorch 文档。

此内存固定优化需要更改两行代码。首先，我们将 DataLoader 的 pin_memory 标志设置为 True。

train_loader = torch.utils.data.DataLoader(train_set, batch_size=32, 
                          shuffle=True, num_workers=8, pin_memory=True)

然后我们将主机到设备的内存传输（在训练函数中）修改为非阻塞：

inputs, labels = data[0].to(device=device, non_blocking=True), \
                 data[1].to(device=device, non_blocking=True)

内存固定优化的结果如下所示：

TensorBoard 探查器概述选项卡中的内存固定结果（由作者捕获）

我们的 GPU 利用率现在保持在可观的 92.37%，我们的步进时间进一步减少。但我们仍然可以做得更好。请注意，尽管进行了此优化，但性能报告继续表明我们花费了大量时间将数据复制到 GPU 中。我们将在下面的步骤 4 中回到这个问题。

3.3 优化#3：增加批量大小

对于下一个优化，我们将注意力吸引到上一个实验的内存视图：

TensorBoard Profiler 中的内存视图（由作者捕获）

图表显示，在 16 GB 的 GPU 内存中，我们的利用率峰值不到 1 GB。这是资源利用不足的一个极端示例，通常（尽管并非总是）表示有机会提高性能。控制内存利用率的一种方法是增加批大小。在下图中，我们显示了将批大小增加到 512（内存利用率增加到 11.3 GB）时的性能结果。

在 TensorBoard 分析器概述选项卡中增加批大小的结果（由作者捕获）

尽管 GPU 利用率测量值变化不大，但我们的训练速度已大幅提高，从每秒 1200 个样本（批大小 46 为 32 毫秒）提高到每秒 1584 个样本（批大小 324 为 512 毫秒）。

警告：与我们之前的优化相反，增加批大小可能会影响训练应用程序的行为。不同的模型对批量大小的变化表现出不同程度的敏感度。有些可能只需要对优化器设置进行一些调整。对于其他人来说，适应大批量可能更困难甚至不可能。请参阅上一篇文章，了解大批量培训所涉及的一些挑战。

3.4 优化#4：减少主机到设备的复制

您可能注意到了我们之前结果中饼图中代表主机到设备数据副本的大红色眼球。尝试解决这种瓶颈的最直接方法是看看我们是否可以减少每批中的数据量。请注意，在我们的图像输入的情况下，我们将数据类型从 8 位无符号整数转换为 32 位浮点数，并在执行数据复制之前应用规范化。在下面的代码块中，我们提出了对输入数据流的更改，其中我们延迟数据类型转换和规范化，直到数据在 GPU 上：

# maintain the image input as an 8-bit uint8 tensor
transform = T.Compose(
    [T.Resize(224),
     T.PILToTensor()
     ])
train_set = FakeCIFAR(transform=transform)
train_loader = torch.utils.data.DataLoader(train_set, batch_size=1024, shuffle=True, num_workers=8, pin_memory=True)

device = torch.device("cuda:0")
model = torch.compile(torchvision.models.resnet18(weights='IMAGENET1K_V1').cuda(device), fullgraph=True)
criterion = torch.nn.CrossEntropyLoss().cuda(device)
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
model.train()

# train step
def train(data):
    inputs, labels = data[0].to(device=device, non_blocking=True), \
                     data[1].to(device=device, non_blocking=True)
    # convert to float32 and normalize
    inputs = (inputs.to(torch.float32) / 255. - 0.5) / 0.5
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

由于这一变化，从 CPU 复制到 GPU 的数据量减少了 4 倍，红色的眼睛几乎消失了：

在 TensorBoard 探查器概述选项卡中将 CPU 复制到 GPU 的结果（由作者捕获）

我们现在站在97.51%（！！）的新高GPU 利用率和每秒 1670 个样本的训练速度！让我们看看我们还能做什么。

3.5 优化#5：将梯度设置为无

在这个阶段，我们似乎正在充分利用GPU，但这并不意味着我们不能更有效地利用它。据说可以减少 GPU 中内存操作的一种流行优化是在每个训练步骤中将模型参数梯度设置为 None 而不是零。有关此优化的更多详细信息，请参阅 PyTorch 文档。实现此优化所需的只是将optimizer.zero_grad调用的set_to_none设置为 True：

optimizer.zero_grad(set_to_none=True)

在我们的案例中，这种优化并没有以任何有意义的方式提高我们的性能。

3.6 优化#6：自动混合精度

GPU 内核视图显示 GPU 内核处于活动状态的时间量，可以作为提高 GPU 利用率的有用资源：

TensorBoard Profiler 中的内核视图（由作者捕获）

本报告中最明显的细节之一是缺乏使用 GPU 张量核心。张量核心可用于相对较新的 GPU 架构，是用于矩阵乘法的专用处理单元，可以显着提高 AI 应用程序的性能。它们的缺乏使用可能代表优化的重要机会。

由于张量核是专门为混合精度计算而设计的，因此提高其利用率的一种直接方法是修改我们的模型以使用自动混合精度（AMP）。在 AMP 模式下，模型的某些部分会自动转换为精度较低的 16 位浮点数，并在 GPU 张量核心上运行。

重要的是，请注意，AMP 的完整实现可能需要梯度缩放，我们未包含在演示中。在调整之前，请务必查看有关混合精度训练的文档。

下面的代码块演示了启用 AMP 所需的训练步骤的修改。

def train(data):
    inputs, labels = data[0].to(device=device, non_blocking=True), \
                     data[1].to(device=device, non_blocking=True)
    inputs = (inputs.to(torch.float32) / 255. - 0.5) / 0.5
    with torch.autocast(device_type='cuda', dtype=torch.float16):
        outputs = model(inputs)
        loss = criterion(outputs, labels)
    # Note - torch.cuda.amp.GradScaler() may be required  
    optimizer.zero_grad(set_to_none=True)
    loss.backward()
    optimizer.step()

下图显示了对张量核心利用率的影响。尽管它继续表明有进一步改进的机会，但仅使用一行代码，利用率就从 0% 跃升至 26.3%。

张量核心利用率与 AMP 优化从 TensorBoard 分析器中的内核视图（由作者捕获）

除了增加张量核心利用率外，使用 AMP 还可以降低 GPU 内存利用率，从而释放更多空间来增加批量大小。下图捕获了 AMP 优化和批量大小设置为 1024 后的训练性能结果：

TensorBoard 分析器概述选项卡中的 AMP 优化结果（由作者捕获）

尽管 GPU 利用率略有下降，但我们的主要吞吐量指标进一步增加了近 50%，从每秒 1670 个样本增加到 2477 个。我们正在滚动！

警告：降低模型各部分的精度可能会对其收敛产生有意义的影响。与增加批大小（见上文）的情况一样，使用混合精度的影响将因模型而异。在某些情况下，AMP 几乎不会费力地工作。其他时候，可能需要更加努力地调整自动缩放程序。还有一些时候，您可能需要显式设置模型不同部分的精度类型（即手动混合精度）。

有关使用混合精度作为内存优化方法的更多详细信息，请参阅我们之前关于该主题的博客文章。

3.7 优化#7：在图形模式下训练

我们将应用的最终优化是模型编译。与默认的 PyTorch 渴望执行模式相反，在这种模式下，每个 PyTorch 操作都“急切”运行，编译 API 将您的模型转换为中间计算图，然后以最适合底层训练加速器的方式编译为低级计算内核。有关 PyTorch 2 中模型编译的更多信息，请查看我们之前关于该主题的文章。

以下代码块演示了应用模型编译所需的更改：

model = torchvision.models.resnet18(weights='IMAGENET1K_V1').cuda(device)
model = torch.compile(model)

模型编译优化的结果如下所示：

TensorBoard Profiler 概述选项卡中的图形编译结果（由作者捕获）

与上一次实验中的 3268 个样本相比，模型编译进一步将我们的通量提高到每秒 2477 个样本，性能又提高了 32% （！！）。

图编译改变训练步骤的方式在 TensorBoard 插件的不同视图中非常明显。例如，内核视图指示使用新的（融合的）GPU 内核，而跟踪视图（如下所示）显示的模式与我们之前看到的完全不同。

Results of Graph Compilation in the TensorBoard Profiler Trace View Tab (Captured by Author)

四、Interim Results

In the table below we summarize the results of the successive optimizations we have applied.

Performance Results Summary (By Author)

通过使用 PyTorch Profiler 和 TensorBoard 插件应用我们的迭代分析和优化方法，我们能够将性能提高 817%！！

我们的工作完成了吗？绝对不行！我们实施的每项优化都会发现新的潜在性能改进机会。这些机会以释放资源的形式呈现（例如，转向混合精度使我们能够增加批量大小的方式）或新发现的性能瓶颈的形式（例如，我们的最终优化发现主机到设备数据传输中的瓶颈的方式）。此外，还有许多其他众所周知的优化形式，我们在这篇文章中没有尝试（例如，见这里和这里）。最后，新的库优化（例如，我们在步骤 7 中演示的模型编译功能）一直在发布，进一步实现了我们的性能改进目标。正如我们在简介中强调的那样，要充分利用这些机会，性能优化必须是开发工作流程中迭代且一致的部分。

五、总结

在这篇文章中，我们展示了玩具分类模型性能优化的巨大潜力。尽管您可以使用其他性能分析器，每种分析器都有其优点和缺点，但我们选择了PyTorch Profiler和TensorBoard插件，因为它们易于集成。

我们应该强调的是，成功优化的路径会因训练项目的细节而有很大差异，包括模型架构和训练环境。在实践中，实现目标可能比我们在此处介绍的示例更困难。我们描述的一些技术可能对您的表现几乎没有影响，甚至可能使情况变得更糟。我们还注意到，我们选择的精确优化以及我们选择应用它们的顺序有些武断。我们强烈建议您开发自己的工具和技术，以根据项目的具体细节实现优化目标。

机器学习工作负载的性能优化有时被视为次要的、非关键的和可恶的。我希望我们已经成功地说服您，节省开发时间和成本的潜力值得在性能分析和优化方面进行有意义的投资。而且，嘿，你甚至可能会发现它很有趣:)。

接下来呢？

这只是冰山一角。性能优化的内容比我们在这里介绍的要多得多。在这篇文章的续集中，我们将深入探讨一个在 PyTorch 模型中很常见的性能问题，其中部分计算在 CPU 而不是 GPU 上运行，通常是以开发人员不知道的方式运行的。我们还鼓励您查看我们在 medium 上的其他帖子，其中许多文章涵盖了机器学习工作负载性能优化的不同元素。

豆包教你如何用Python向女生表白 51reboot
一年一度的考试大会又拉开了帷幕其中的一个重头戏就是python了不知道正处于手机前的你为python又掉了多少头发呢but！！！python绝不只是你脱发的工具善于使用你将收获多多比如你知道如何利用python向女生表白吗如果不知道少年，你可要当心啦考试很危险的呢后记：某年月日，某许愿池推文：震惊！某旦python考试题新鲜出炉，考题震惊十几亿中国人！原因竟是。。。待豆包点开推文：一看考试题，嘿哈
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
python ffmpeg pipe_如何使用python从ffmpeg输出管道？ weixin_39611725 python ffmpeg pipe
我正在尝试将FFmpeg的输出用管道输送到Python中。我正在从一个视频采集卡读取图像，我成功地使用dshow从命令行将其读入输出文件。我正在尝试从卡抓取图像到我的OpenCv代码，以便能够进一步处理数据。不幸的是，当我通过管道输出图像时，我只得到视频的显示，如链接所示：link:s000.tinyupload.com/?file_id=15940665795196022618.我使用的代码如下
python ffmpeg pipe,管道的ffmpeg的输入和输出在python 呼呼啦啦就瘸了 python ffmpeg pipe
I'musingffmpegtocreateavideo,fromalistofbase64encodedimagesthatIpipeintoffmpeg.Outputtingtoafile(usingtheattachedcodebelow)worksperfectly,butwhatIwouldliketoachieveistogettheoutputtoaPythonvariableins
Linux+Python实战课堂：笔记、练习与应用
本文还有配套的精品资源，点击获取简介：本压缩包提供全面的Linux学习资源和Python编程练习，旨在帮助初学者和IT从业者深入理解Linux系统及其技能，并通过Python编程练习巩固相关技能。涵盖Linux基础概念、文件系统、命令行操作、文本编辑器使用、用户和组管理、软件管理、进程监控、网络配置以及系统性能监控等多个方面。同时，包含Python基础语法、函数与模块、面向对象编程、文件操作、异常
Python脚本批量修复文件时间戳，根据文件名或拍摄日期 3D_DLW 储存服务器 python 图片整理修改时间批处理脚本拍摄时间
实现以下功能更正文件的修改时间批量修改指定文件夹中的特定后缀的文件根据文件名中的日期修改（优先）根据jpg文件属性中的拍摄日期修改根据mp4文件属性中的创建媒体日期修改模拟运行（DryRun）模式依赖若需要基于jpg文件属性中的拍摄日期修改，需要python的piexif包pipinstallpiexif若需要基于mp4文件属性中的创建媒体日期修改，需要ffmpegsudoaptinstallff
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
深入Python闭包内存泄漏：从原理到实战修复指南清水白石008 Python题库 python python 开发语言
深入Python闭包内存泄漏：从原理到实战修复指南引言：闭包与内存管理的双重挑战在Python编程中，闭包（Closure）作为函数式编程的重要特性，被广泛应用于装饰器、回调函数等场景。然而，当闭包与类实例结合使用时，若处理不当极易引发内存泄漏问题。本文将通过一个典型案例，深入剖析闭包导致内存泄漏的机理，并演示从检测到修复的完整流程，最终提炼出防御性编程的最佳实践。一、内存泄漏闭包案例实录1.1典
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
Python装饰器与闭包：实战应用与深入理解
背景简介本章深入探讨了Python装饰器与闭包的核心概念，展示了它们在实际编程中的灵活应用和强大功能。装饰器的魔力：保持元数据与链式应用在Python中，装饰器是一种修改或增强函数行为的强大工具，它能够让我们在不改变原始函数代码的情况下，为其添加新功能。保持函数的元数据是装饰器的一个重要特性，它确保了装饰后的函数保持其身份和文档字符串信息。这对于代码的可读性和维护性至关重要。当需要将多个装饰器应用
python闭包的应用场景_简单谈谈Python中的闭包 weixin_39587113 python闭包的应用场景
Python中的闭包前几天又有人留言，关于其中一个闭包和re.sub的使用不太清楚。我在脚本之家搜索了下，发现没有写过闭包相关的东西，所以决定总结一下，完善Python的内容。1.闭包的概念首先还得从基本概念说起，什么是闭包呢？来看下维基上的解释:在计算机科学中，闭包(Closure)是词法闭包(LexicalClosure)的简称，是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在
网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
Python 中的深拷贝、浅拷贝与等号赋值：理解对象复制的本质小羊苏八 python 开发语言
目录1.等号赋值（=）2.浅拷贝（copy.copy()）3.深拷贝（copy.deepcopy()）4.不可变对象与可变对象5.性能对比6.实际应用场景7.总结前言在Python中，对象的复制是一个常见的操作，但很多人对深拷贝、浅拷贝和等号赋值之间的区别感到困惑。本文将通过详细的示例和解释，帮助你深入理解这三种操作的本质和应用场景。1.等号赋值（=）在Python中，等号赋值是最基本的对象操作之
Python中的分支结构小羊苏八 #python python 开发语言
文章目录前言一、Python分支结构概述二、if语句详解三、if-else语句详解四、if-elif-else语句详解五、嵌套分支结构六、分支结构的注意事项七、实际应用场景八、总结前言在Python编程的世界里，分支结构如同现实中的道路岔口，根据不同的条件引导程序流向不同的执行路径。它是构建复杂逻辑、实现智能决策的关键所在。本文将带你全面了解Python的分支结构，从基础语法到实际应用，让你轻松掌
标题 “Python 网络爬虫 —— selenium库驱动浏览器 WeiJingYu. python 爬虫 selenium
一、Selenium库核心认知Selenium库是Web应用程序测试与自动化操作的利器，能驱动浏览器（如Edge、Firefox等）执行点击、输入、打开、验证等操作。与Requests库差异显著：Requests库仅能获取网页原始代码，而Selenium基于浏览器驱动程序工作，浏览器可渲染网页源代码，借此能轻松拿到渲染后的数据信息（如JS动态加载内容），完美解决Requests库无法处理的动态页面
Python网络爬虫实现selenium对百度识图二次开发以及批量保存Excel WeiJingYu. python 爬虫 selenium
一.百度识图自动上传图片fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.byimportByedge_options=Options()edge_options.binary_location=r"C:\ProgramFiles(x86)
Python关于操作文件夹的讲解——Python 操作文件和文件夹 WeiJingYu. python 开发语言
借助os库，可完成文件大小查询、文件/文件夹删除、重命名等操作，满足多样化文件管理需求。（一）查询文件大小os库path模块的getsize(path)方法，能获取指定路径文件占用内存大小，单位为字节。字节是计算机存储基本单位，常见存储单位换算关系如下：单位换算关系说明字节（Byte）1字节=8位（bit）存储基本单元千字节（KB）1KB=1024Byte日常文件大小常用表述兆字节（MB）1MB=
Python 网络爬虫 —— 代理服务器 WeiJingYu. 爬虫服务器前端
一、会话（Session）（一）核心逻辑HTTP本身无记忆，每次请求独立。会话（Session）就是为解决这问题，让客户端（浏览器）和服务器“记住”交互状态（比如登录态），常用Cookie实现：服务器发Cookie给客户端存着，下次请求带着，服务器就知道“是同一用户”。（二）创建会话（requests实现）用requests库的Session类，自动维持会话、管理Cookie，代码形式：impor
Python 中的闭包：原理、应用与实践小羊苏八 python 开发语言
目录前言1.什么是闭包？2.闭包的基本结构3.闭包的应用场景4.闭包的高级特性5.闭包的性能与内存管理6.闭包的实践案例7.总结前言在Python编程中，闭包是一个非常强大且灵活的特性。闭包允许嵌套函数访问外部函数的变量，即使外部函数已经返回。这种特性使得闭包在函数式编程、装饰器、回调函数等场景中非常有用。本文将通过详细的示例和解释，深入探讨Python中的闭包。1.什么是闭包？闭包（Closur
python-第五课-绘线段、正方形布口袋_天晴了
1.绘制第一个海龟图形A.课程内容：通过绘制线段和正方形来学习导入海归模块、创建画笔、移动和旋转画笔。通过绘制图形来学习python编程的基本方法。B.知识点(1)导入海龟绘图模块(2)创建画笔(3)向前移动(4)画笔旋转C.用到的基本指令(1)import(2)turtle.Pen()(3)forward()(4)right()海龟绘图(turle)是python内置的一个比较有趣味的模块。使用
python爬虫技术——基础知识、实战南瓜AI python 爬虫 scrapy
参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简
分享两个爬虫练习网站高质量海王哦爬虫爬虫 python
Python爬虫案例|ScrapeCenterSpiderbuf|Python爬虫练习靶场
Python之print打印追捕的风 Python之数据处理 python 开发语言爬虫
python是一门脚本语言，少不了使用各种print打印调试，本文总结一下pythonprint打印的几种方法。1单独打印变量1.1只打印变量：方法：print(variable)示例：name="Mike"age=21print(name)print(age)输出：Mike211.2带其他信息：示例：name="Mike"age=21print('mynameis',name)print('my
python3——print使用 weixin_30404405
print的初步认识：对于科班出身的或有相关经验的人来说，学习python是相当有趣的事,因为可以做日常任务，比如自动备份你的MP3；可以做网站，如YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的；可以爬数据，得到你想要的内容。总之就是能干很多很多事啦。而对于非科班的我来说，学习python是非常辛苦的，从一行行print打印,到一个个关键字，从思
DAY2——Python 基础变量类型之字符串和数字类型 .venn PYTHON学习 python 开发语言算法
字符串类型（str）字符串是Python中最常用的数据类型之一，用于表示文本信息。字符串可以用单引号（''）、双引号（""）或三引号（''''''或""""""）定义。三引号通常用于多行字符串。字符串是不可变序列，支持索引和切片操作。以下是一些常见操作：#定义字符串s1='hello's2="world"s3='''Thisisamulti-linestring'''#字符串拼接combined=
DAY4——Python 推导式及常见语句和内置函数个人总结
Python推导式Python推导式是一种简洁的语法结构，用于快速生成列表、字典、集合或生成器。推导式通常比传统的循环更高效且更易读。常见的推导式包括列表推导式、字典推导式、集合推导式和生成器推导式。列表推导式语法：[expressionforiteminiterableifcondition]示例：#生成平方数列表squares=[x**2forxinrange(10)]print(square
对象的本质：OOP编程核心揭秘止观止计算机科学 OOP 面对对象编程
引言面向对象编程（OOP）革命性地重塑了软件开发，其核心在于“对象”——一种模拟现实实体的计算模型。对象不仅是数据容器，更是封装了状态和行为的自治单元，使程序从指令序列转变为交互网络。通过本解析，我们将层层递进，揭示对象在OOP中的根本角色：从定义延伸到设计实践，帮助读者跨越语言差异（如Java、Python或C++），掌握这一范式的精髓。章节构建遵循技术演进：先解剖对象本质，再关联OOP支柱，最
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。