hanscal

PyTorch-1.10(十四)--torch.utils.data基本用法

数据加载器

数据集类型

映射类型数据集

迭代类型数据集

数据加载顺序和采样器

加载批处理和非批处理数据

自动批次化（默认）

禁用自动批次化

使用collate_fn

单进程和多进程数据加载

单进程数据加载（默认）

多进程数据加载

内存固定

DataLoader综合应用

数据集抽象类

Dataset

IterableDataset

TensorDataset

ConcatDataset

ChainDataset

Subset

采样器抽象类

SequentialSampler

RandomSampler

SubsetRandomSampler

WeightedRandomSampler

BatchSampler

DistributedSampler

数据加载器

torch.utils.data.DataLoader 类是Pytorch数据加载的核心. 它表示数据集上的Python iterable，并支持下面这些功能，这些选项由 DataLoader进行设置：

map-style and iterable-style datasets,
customizing data loading order,
automatic batching,
single- and multi-process data loading,
automatic memory pinning.

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
           batch_sampler=None, num_workers=0, collate_fn=None,
           pin_memory=False, drop_last=False, timeout=0,
           worker_init_fn=None, *, prefetch_factor=2,
           persistent_workers=False)

以下各节详细描述了这些选项的效果和用法。

数据集类型

DataLoader构造函数最重要的参数是dataset，它指示要从中加载数据的dataset对象。PyTorch支持两种不同类型的数据集：

map-style datasets,
iterable-style datasets.

映射类型数据集

映射样式的数据集实现了__getitem__()和__len__()方法，并表示从（可能是非整数的）索引/键到数据样本的映射。

使用dataset[idx]访问数据集时，可以从磁盘上的文件夹中读取第idx个样本及其相应的标签。

迭代类型数据集

iterable样式数据集是IterableDataset子类的实例，该子类实现了__iter__()方法，并表示数据样本上的iterable。这种类型的数据集特别适合于随机读取代价高昂甚至不太可能的情况，以及批量大小取决于获取的数据的情况。

这种数据集(调用iter(dataset))以返回从数据库、远程服务器甚至实时生成的日志读取的数据流。

NOTE

使用具有多进程数据加载的IterableDataset时。在每个工作进程上复制相同的dataset对象，因此必须对副本进行不同的配置，以避免重复数据. 详情见 IterableDataset

数据加载顺序和采样器

对于iterable样式的数据集，数据加载顺序完全由用户定义的iterable控制。这使得区块读取和动态批量大小的实现更加容易（例如，通过每次生成一个批量样本）。

对于 map-style datasets. torch.utils.data.Sampler 类用于指定数据加载中使用的索引/键的顺序。它们表示数据集索引上的可迭代对象。如在随机梯度下降（SGD）的常见情况下，采样器可以随机排列一系列索引，并一次生成每个索引，或者为小批量SGD生成少量索引。

将根据数据加载器的shuffle参数自动构造顺序或无序取样器。或者，用户可以使用sampler参数指定一个自定义的sampler对象，该对象每次生成下一个要获取的索引/键。

一次生成批次索引列表的自定义采样器可以作为batch_sampler参数传递。还可以通过batch_size和drop_last参数启用自动批处理。sampler和batch_sampler都与iterable样式的数据集不兼容，因为此类数据集没有键或索引的概念。

加载批处理和非批处理数据

DataLoader 支持通过参数batch_size, drop_last, batch_sampler自动将各个提取的数据样本整理成批次。

自动批次化（默认）

这是最常见的情况，对应于获取一小批数据并将其整理成批样本，即包含一个维度为批维度（通常是第一个维度）的张量。当batch_size（默认值1）不是None时，数据加载器将生成批处理的样本，而不是单个样本。batch_size和drop_last参数用于指定数据加载器如何获取数据集的批次。对于map样式的数据集，用户也可以指定batch_sampler，它一次生成一个键列表。

NOTE

batch_size和drop_last参数基本上用于从sampler构造batch_sampler。对于map样式的数据集，采样器要么由用户提供，要么基于shuffle参数构造。对于iterable样式的数据集，采样器是一个虚拟的无限采样器。

NOTE

从具有多线程处理的iterable样式的数据集提取时，drop_last参数会删除每个worker数据集副本的最后一批非完整数据。

从采样器中使用索引获取样本列表后，作为collate_fn参数传递的函数用于将样本列表整理成批。

在这种情况下，从map样式数据集加载大致相当于：

for indices in batch_sampler:
    yield collate_fn([dataset[i] for i in indices])

从iterable样式数据集加载大致相当于：

dataset_iter = iter(dataset)
for indices in batch_sampler:
    yield collate_fn([next(dataset_iter) for _ in indices])

自定义collate_fn可用于自定义排序，例如，将序列数据填充到批次的最大长度。

禁用自动批次化

在某些情况下，用户可能希望在数据集代码中手动处理批处理，或者只需加载单个样本。例如，直接加载批处理数据（例如，从数据库进行批量读取或读取连续的内存块）可能更方便，或者批处理大小取决于数据，或者程序设计用于处理单个样本。在这些情况下，最好不要使用自动批处理（其中collate_fn用于整理样本），而是让数据加载器直接返回dataset对象的每个成员。

当batch_size和batch_sampler均为None（batch_sampler的默认值已为None）时，将禁用自动批处理。从数据集中获取的每个样本都将使用作为collate_fn参数传递的函数进行处理。

禁用自动批处理时，默认的collate_fn只是将NumPy数组转换为PyTorch张量，并保持其他所有内容不变。

在这种情况下，从map样式数据集加载大致相当于：

for index in sampler:
    yield collate_fn(dataset[index])

从iterable样式数据集加载大致相当于：

for data in iter(dataset):
    yield collate_fn(data)

使用collate_fn

启用或禁用自动批次化时，collate_fn的使用略有不同。

禁用自动批处理时，将使用每个单独的数据样本调用collate_fn，并从数据加载程序迭代器生成输出。在这种情况下，默认的collate_fn只是转换PyTorch张量中的NumPy数组。

启用自动批处理时，每次调用collate_fn时都会显示数据样本列表。它希望将输入样本整理成一个批，以便从数据加载器迭代器中生成。

单进程和多进程数据加载

在Python进程中，全局解释器锁（GIL）阻止跨线程真正完全并行化Python代码。为了避免在数据加载时阻塞计算代码，PyTorch提供了一个简单的切换来执行多进程数据加载，只需将参数num_workers设置为正整数。

单进程数据加载（默认）

在这种模式下，数据提取是在初始化数据加载器的同一过程中完成的。因此，数据加载可能会阻塞计算。然而，当用于在进程之间共享数据的资源（例如，共享内存、文件描述符）有限时，或者当整个数据集很小并且可以完全加载到内存中时，可以首选此模式。此外，单进程加载通常显示更可读的错误跟踪，因此对于调试很有用。

多进程数据加载

将参数num_workers设置为正整数将启用具有指定数量的加载器工作进程的多进程数据加载。

在多次迭代之后，对于从工作进程访问的父进程中的所有Python对象，加载程序工作进程将消耗与父进程相同的CPU内存量。如果数据集包含大量数据（例如，在数据集构建时加载了一个非常大的文件名列表）和/或使用了大量工作线程（总体内存使用量是工作线程数*父进程大小），则这可能会有问题。最简单的解决方法是将Python对象替换为非引用表示，如Pandas、Numpy或PyArrow对象，详情查看参考手册。

内存固定

当主机到GPU的拷贝来自固定（页面锁定）内存时，它们的速度要快得多。

对于数据加载，将pin_memory=True传递给数据加载程序将自动将获取的数据张量放入固定内存中，从而能够更快地将数据传输到支持CUDA的GPU。
默认内存固定逻辑仅识别张量、映射和包含张量的可重用项。默认情况下，如果固定逻辑看到的批是自定义类型（如果有一个collate_fn返回自定义批类型，则会发生这种情况），或者如果批的每个元素都是自定义类型，则固定逻辑将无法识别它们，并且它将返回该批（或这些元素），而不固定内存。要为自定义批处理或数据类型启用内存固定，在自定义类型上定义pin_memory()方法。

请参见下面的示例。

class SimpleCustomBatch:
    def __init__(self, data):
        transposed_data = list(zip(*data))
        self.inp = torch.stack(transposed_data[0], 0)
        self.tgt = torch.stack(transposed_data[1], 0)

    # custom memory pinning method on custom type
    def pin_memory(self):
        self.inp = self.inp.pin_memory()
        self.tgt = self.tgt.pin_memory()
        return self

def collate_wrapper(batch):
    return SimpleCustomBatch(batch)

inps = torch.arange(10 * 5, dtype=torch.float32).view(10, 5)
tgts = torch.arange(10 * 5, dtype=torch.float32).view(10, 5)
dataset = TensorDataset(inps, tgts)

loader = DataLoader(dataset, batch_size=2, collate_fn=collate_wrapper,
                    pin_memory=True)

for batch_ndx, sample in enumerate(loader):
    print(sample.inp.is_pinned())
    print(sample.tgt.is_pinned())

DataLoader综合应用

其组合数据集和采样器，并在给定数据集上提供iterable， DataLoader支持映射样式和iterable样式的数据集，支持单进程或多进程加载、自定义加载顺序以及可选的自动批处理（排序）和内存固定。参数用法如下：

CLASStorch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, *, prefetch_factor=2, persistent_workers=False)[SOURCE]

参数：

dataset (Dataset) – 从中加载数据的数据集.
batch_size (int, optional) – 每个批次要加载的样本数（默认值：1）。
shuffle (bool, optional) – 设置为True可在每个epoch重新排列数据（默认值：False）。
sampler (Sampler or Iterable, optional) – 定义从数据集提取样本的策略。
batch_sampler (Sampler or Iterable, optional) – 与sampler类似，但一次返回一批索引。与batch_size、shuffle、sampler和drop_last互斥。
num_workers (int, optional) –要用于数据加载的子进程数。0表示将在主进程中加载数据。（默认值：0）
collate_fn (callable, optional) – 合并样本列表以形成一小批张量。使用从map样式数据集批量加载时使用。
pin_memory (bool, optional) – 如果为True，数据加载器将在返回张量之前将其复制到CUDA固定内存中。如果数据元素是自定义类型，或者collate_fn返回的批次是自定义类型，请参见使用手册。
drop_last (bool, optional) – 如果数据集大小不能被批大小整除，则设置为True以删除最后一个不完整的批。如果为False，并且数据集的大小不能被批大小整除，则最后一批将变小。（默认值：False）
timeout (numeric, optional) –如果为正，则为从workers收集批次的超时值。应始终为非负。（默认值：0）
worker_init_fn (callable, optional) – 如果不是None，则在种子设定之后和数据加载之前，将对每个工作子进程调用此函数，并将worker id作为输入。（默认值：无）
generator (torch.Generator, optional) – 如果不是None，RandomSampler将使用此RNG生成随机索引，并通过多处理为工作人员生成base_seed。（默认值：无）
prefetch_factor (int, optional, keyword-only arg) – 每个worker提前装载的数据样本大小。2表示将在所有工人中预取总共2*num_workers样本。（默认值：2）
persistent_workers (bool, optional) – 如果为True，则数据集使用一次后，数据加载器不会关闭工作进程。这允许保持workers数据集实例处于活动状态。（默认值：False）

数据集抽象类

Dataset

CLASStorch.utils.data.Dataset(*args, **kwds)[SOURCE]

表示数据集的抽象类。所有表示从键到数据样本的映射的数据集都应该对其进行继承。所有子类都应该重写__getitem__()方法，支持获取给定键的数据样本。子类还可以选择性地覆盖__len__()，许多采样器实现和DataLoader的默认选项都会返回数据集的大小。

NOTE

DataLoader 默认情况下，构造生成整数索引的索引采样器。要使其与具有非整数索引/键的map样式数据集一起工作，必须提供自定义采样器。

IterableDataset

CLASStorch.utils.data.IterableDataset(*args, **kwds)[SOURCE]

iterable数据集。所有表示数据样本iterable的数据集都应该对其进行继承。当数据来自流时，这种形式的数据集特别有用。所有子类都应覆盖__iter__()，这将返回此数据集中样本的迭代器。

Example 1: splitting workload across all workers in __iter__():

>>> class MyIterableDataset(torch.utils.data.IterableDataset):
...     def __init__(self, start, end):
...         super(MyIterableDataset).__init__()
...         assert end > start, "this example code only works with end >= start"
...         self.start = start
...         self.end = end
...
...     def __iter__(self):
...         worker_info = torch.utils.data.get_worker_info()
...         if worker_info is None:  # single-process data loading, return the full iterator
...             iter_start = self.start
...             iter_end = self.end
...         else:  # in a worker process
...             # split workload
...             per_worker = int(math.ceil((self.end - self.start) / float(worker_info.num_workers)))
...             worker_id = worker_info.id
...             iter_start = self.start + worker_id * per_worker
...             iter_end = min(iter_start + per_worker, self.end)
...         return iter(range(iter_start, iter_end))
...
>>> # should give same set of data as range(3, 7), i.e., [3, 4, 5, 6].
>>> ds = MyIterableDataset(start=3, end=7)

>>> # Single-process loading
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=0)))
[3, 4, 5, 6]

>>> # Mult-process loading with two worker processes
>>> # Worker 0 fetched [3, 4].  Worker 1 fetched [5, 6].
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=2)))
[3, 5, 4, 6]

>>> # With even more workers
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=20)))
[3, 4, 5, 6]
Example 2: splitting workload across all workers using worker_init_fn:

>>> class MyIterableDataset(torch.utils.data.IterableDataset):
...     def __init__(self, start, end):
...         super(MyIterableDataset).__init__()
...         assert end > start, "this example code only works with end >= start"
...         self.start = start
...         self.end = end
...
...     def __iter__(self):
...         return iter(range(self.start, self.end))
...
>>> # should give same set of data as range(3, 7), i.e., [3, 4, 5, 6].
>>> ds = MyIterableDataset(start=3, end=7)

>>> # Single-process loading
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=0)))
[3, 4, 5, 6]
>>>
>>> # Directly doing multi-process loading yields duplicate data
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=2)))
[3, 3, 4, 4, 5, 5, 6, 6]

>>> # Define a `worker_init_fn` that configures each dataset copy differently
>>> def worker_init_fn(worker_id):
...     worker_info = torch.utils.data.get_worker_info()
...     dataset = worker_info.dataset  # the dataset copy in this worker process
...     overall_start = dataset.start
...     overall_end = dataset.end
...     # configure the dataset to only process the split workload
...     per_worker = int(math.ceil((overall_end - overall_start) / float(worker_info.num_workers)))
...     worker_id = worker_info.id
...     dataset.start = overall_start + worker_id * per_worker
...     dataset.end = min(dataset.start + per_worker, overall_end)
...

>>> # Mult-process loading with the custom `worker_init_fn`
>>> # Worker 0 fetched [3, 4].  Worker 1 fetched [5, 6].
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=2, worker_init_fn=worker_init_fn)))
[3, 5, 4, 6]

>>> # With even more workers
>>> print(list(torch.utils.data.DataLoader(ds, num_workers=20, worker_init_fn=worker_init_fn)))
[3, 4, 5, 6]

TensorDataset

CLASStorch.utils.data.TensorDataset(*tensors)[SOURCE]

数据集包装张量。每个样本将通过沿第一维度索引张量来检索。

*tensors (Tensor)参数是与第一维度大小相同的张量。

ConcatDataset

CLASStorch.utils.data.ConcatDataset(datasets)[SOURCE]

数据集作为多个数据集的串联。此类用于组装不同的现有数据集。

datasets (sequence)参数为要连接的数据集列表

ChainDataset

CLASStorch.utils.data.ChainDataset(datasets)[SOURCE]

用于链接多个 IterableDataset 数据集.

此类可用于组装不同的现有数据集流。链接操作是动态完成的，因此将大规模数据集与此类连接起来将非常有效。

datasets (iterable of IterableDataset) 参数是要链接在一起的数据集

Subset

CLASStorch.utils.data.Subset(dataset, indices)[SOURCE]

指定索引处的数据集子集。

参数

dataset (Dataset) – 整个数据集
indices (sequence) – 为子集选择的全集索引

采样器抽象类

CLASStorch.utils.data.Sampler(data_source)[SOURCE]

所有采样器的基类。每个采样器子类都必须提供一个__iter__()方法，提供一种遍历数据集元素索引的方法，以及一个__len__()方法，该方法返回返回的迭代器的长度。

NOTE

DataLoader并不严格要求使用__len__()方法，但在涉及DataLoader长度的任何计算中都需要使用该方法。

SequentialSampler

CLASStorch.utils.data.SequentialSampler(data_source)[SOURCE]

按顺序对元素进行采样，始终以相同的顺序进行。

data_source (Dataset) 参数是要从中采样的数据集

RandomSampler

CLASStorch.utils.data.RandomSampler(data_source, replacement=False, num_samples=None, generator=None)[SOURCE]

随机采样元素。

参数

data_source (Dataset) –要从中采样的数据集
replacement (bool) – 样本按需抽取，如果为True，则用户可以指定要抽取的样本，如果为False，则从无序数据集中采样。默认值=`` False``
num_samples (int) – 要抽取的样本数，默认值=`len(dataset)`。仅当replacement为True时才应指定此参数。
generator (Generator) – 取样用生成器.

SubsetRandomSampler

CLASStorch.utils.data.SubsetRandomSampler(indices, generator=None)[SOURCE]

从给定的索引列表中随机抽取元素，不进行替换。

参数

indices (sequence) – 一系列索引
generator (Generator) – 采样中的生成器.

WeightedRandomSampler

CLASStorch.utils.data.WeightedRandomSampler(weights, num_samples, replacement=True, generator=None)[SOURCE]

使用给定的概率(权重)对[0，…，len(权重)-1]中的元素进行采样。

参数

weights (sequence) – 权重序列，不必求和为一
num_samples (int) – 要抽取的样本数
replacement (bool) –如果为True，则有放回抽取样本。否则，将无放回的抽取样本，这意味着当为一行绘制样本索引时，将无法为该行再次抽取该索引。
generator (Generator) – 采样中的生成器

Example

>>> list(WeightedRandomSampler([0.1, 0.9, 0.4, 0.7, 3.0, 0.6], 5, replacement=True))
[4, 4, 1, 4, 5]
>>> list(WeightedRandomSampler([0.9, 0.4, 0.05, 0.2, 0.3, 0.1], 5, replacement=False))
[0, 1, 4, 3, 2]

BatchSampler

CLASStorch.utils.data.BatchSampler(sampler, batch_size, drop_last)[SOURCE]

封装另一个采样器以生成一小批索引。

参数

sampler (Sampler or Iterable) – 基础采样器。可以是任何iterable对象
batch_size (int) – 小批量的大小。
drop_last (bool) – 如果为True，则如果最后一批的大小小于batch_size，采样器将丢弃最后一批

Example

>>> list(BatchSampler(SequentialSampler(range(10)), batch_size=3, drop_last=False))
[[0, 1, 2], [3, 4, 5], [6, 7, 8], [9]]
>>> list(BatchSampler(SequentialSampler(range(10)), batch_size=3, drop_last=True))
[[0, 1, 2], [3, 4, 5], [6, 7, 8]]

DistributedSampler

CLASStorch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None, shuffle=True, seed=0, drop_last=False)[SOURCE]

将数据加载限制到数据集子集的采样器。在torch.nn.parallel.DistributedDataParallel有用，在这种情况下，每个进程都可以将DistributedSampler实例作为DataLoader采样器传递，并加载其专用的原始数据集的子集。

参数

dataset – 用于采样的数据集。
num_replicas (int, optional) – 参与分布式训练的进程数。默认情况下，从当前分布式组检索world_size。
rank (int, optional) – num_replicas中当前进程的排名。默认情况下，从当前分布式组检索等级。
shuffle (bool, optional) – 如果为True（默认），sampler将重排索引。
seed (int, optional) – 如果shuffle=True，则使用andom种子来洗牌采样器。此数字在分布式组中的所有进程中都应相同。默认值：0。
drop_last (bool, optional) –如果为True，则如果最后一批的大小小于batch_size，采样器将丢弃最后一批，默认False

WARNING

在分布式模式下，在创建DataLoader迭代器之前，需要在每个epoch的开头调用set_epoch()方法，以使重排序在多个epoch之间正常工作。否则，将始终使用相同的顺序。

Example:

>>> sampler = DistributedSampler(dataset) if is_distributed else None
>>> loader = DataLoader(dataset, shuffle=(sampler is None),
...                     sampler=sampler)
>>> for epoch in range(start_epoch, n_epochs):
...     if is_distributed:
...         sampler.set_epoch(epoch)
...     train(loader)

你可能感兴趣的:(深度学习框架,pytorch,人工智能,python)

基于纵横交叉算法优化的最小交叉熵图像多阈值分割 python 图像算法打怪图像分割算法 python 开发语言
基于纵横交叉算法优化的最小交叉熵图像多阈值分割python文章目录基于纵横交叉算法优化的最小交叉熵图像多阈值分割python1.最小交叉熵阈值分割原理2.基于纵横交叉优化的多阈值分割3.算法结果：4.参考文献：5.Python代码摘要：本文介绍基于最小交叉熵的图像分割，并且应用纵横交叉算法进行阈值寻优。1.最小交叉熵阈值分割原理1993年，Li等人将交叉熵的概念引入到图像处理领域，提出了基于一维灰
Python--WinError 2 的常见解决方案 Ambition_LAO python
报错信息：FileNotFoundError:[WinError2]系统找不到指定的文件。这个错误提示FileNotFoundError:[WinError2]系统找不到指定的文件说明在调用subprocess.Popen时，系统找不到指定的文件或可执行程序。在代码中，这个问题主要是因为找不到JavaJAR文件meteor-1.5.jar，也就是用于计算METEOR分数的评估工具。可能的原因和解决
论文阅读笔记：AI+RPA 几道之旅人工智能
文章目录论文题目下载地址论文摘要论文题目Challengesandopportunities:ImplementingRPAandAIinfrauddetectioninthebankingsector下载地址点击这里下载论文摘要在银行业中，将机器人流程自动化（RPA）和人工智能（AI）集成用于欺诈检测是一项重大变革，既带来了挑战，也带来了机遇。随着金融机构面临日益复杂的欺诈企图，RPA和AI成为
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
Python 数据类型之数字型梅子大魔王 python全栈学习笔记 python
Python数据类型之数字型1.整型int1）整型的介绍2）整型的运算3）int()函数2.浮点型float1）浮点型的介绍2）浮点型的运算3）float()函数3.复数型complex1）复数的介绍2）复数的运算3）complex()函数4.布尔型1)布尔型的介绍2）布尔值的运算3）bool()函数数字类型在Pyhton中非常常见，经常用于数字之间的运算、大小比较、条件判断等等。数字类型包括：整
【2025】拥抱未来砥砺前行摔跤猫子其他年终总结拥抱未来砥砺前行深度思考
2024是怎样的一年2024在历史画卷上是波澜壮阔的一年，人工智能的浪潮来临，涌现出无数国产大模型。22年11月ChatGPT发布，它的出现如同在平静湖面上投下一颗巨石，激起了层层波澜，短短五天用户数就达到了100万，让整个世界为之侧目的同时也掀起了一场AI技术竞赛的浪潮。面对大模型这一蓝海，各方力量都试图搭上这趟时代的列车，争先恐后的相继开启布局。公司大模型名称发布时间澜舟科技孟子GPTV120
python实现冒泡排序完整算法_利用python实现冒泡排序算法实例代码 weixin_39610759
利用python实现冒泡排序算法实例代码冒泡排序冒泡排序（英语：BubbleSort）是一种简单的排序算法。它重复地遍历要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下：1、比较相邻的元素。如果第一个比第二个大（升序
通过Amazon Bedrock API调用Anthropic Claude模型的实战指南 qwd41564qwd python
在AI技术的飞速发展中，AmazonBedrockAPI为开发者提供了一种稳定可靠的方式来访问Anthropic的Claude模型。无论是启动新的项目还是集成AI解决方案，通过Bedrock调用Claude模型都提供了更广泛的应用场景和便利性。本文将指导您如何在Python中通过AmazonBedrock向Claude模型发起API调用。技术背景介绍Bedrock是Amazon推出的一个集成平台，
BP神经网络概述及其预测的Python和MATLAB实现追蜻蜓追累了神经网络回归算法深度学习机器学习启发式算法 lstm gru
##一、背景###1.1人工神经网络的起源人工神经网络（ArtificialNeuralNetwork,ANN）受生物神经网络的启发，模拟大脑神经元之间的连接和信息处理方式。尽管早在1943年就有学者如McCulloch和Pitts提出了数学模型，但人工神经网络真正被广泛研究是在20世纪80年代。###1.2BP神经网络的兴起反向传播（BackPropagation，简称BP）算法是20世纪80年
python转转商超书籍信息爬虫 Python数据分析与机器学习爬虫 python 网络爬虫爬虫
1基本理论1.1概念体系网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以按照我们设置的规则自动化爬取网络上的信息，这些规则被称为爬虫算法。是一种自动化程序，用于从互联网上抓取数据。爬虫通过模拟浏览器的行为，访问网页并提取信息。这些信息可以是结构化的数据（如表格数据），也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。1.2技术体系1请求库:
Python中的数字类型不爱敲代码的小李0812 python二级通关宝典 python 开发语言后端
目录一、概述二、整数类型三、浮点数四、复数类型一、概述1）Python语言提供三种数字类型：整数类型，浮点数类型和复数类型，分别对应数学中的整数，实数和复数2）1010是整数类型，10.10是一个浮点数类型，10+10j是一个复数类型二、整数类型1）与数学中的整数概念一致，没有取值范围限制。2）整数类型有4种进制表示：十进制，二进制，八进制和十六进制。默认情况，整数采用十进制，其他进制需要增加引导
收藏！Python常用的第三方模块,你知道几个呢？ Python子木_ Python入门 Python学习 Python零基础 python pandas python教程 python基础 python学习 python入门青少年编程
作为一种流行的编程语言,拥有丰富的第三方模块,这些模块极大地扩展了的功能,使得各种开发任务变得更加高效和便捷.本文将介绍几种常用的第三方模块,提供示例展示,并对它们进行分类,以帮助读者更好地理解和使用这些工具.这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python学习资料和学习路线规划（免费分享，记得关注）1.
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
【Python】Python中对复杂对象列表根据对象属性进行排序花无凋零之时 Python python 开发语言数据结构
对于Python中对象列表进行排序时，我们往往需要根据对象中的属性进行特定的排序。首先我们假设一个类为：classStudent:def__init__(self,name,score,age):self.name=nameself.score=scoreself.age=agedef__str__(self):returnself.name+""+str
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
YOLOv8/YOLOv11使用web界面推理自己的模型，Gradio框架快速搭建挂科边缘 YOLOv8改进 YOLO 前端计算机视觉目标检测人工智能 python
前言Gradio是一个开源Python库，用于快速构建和共享机器学习模型的Web界面。开发者可以通过简单的Python代码将机器学习模型封装成交互式应用，无需复杂的设置即可在浏览器中使用自己训练好模型。接下来教你使用Gradio框架构建一个简单Web界面推理YOLOv8/YOLOv11模型。话不多说上检测结果：一、YOLOv8/YOLOv11源码下载YOLOv8源码下载：官网打不开的话，从我的网盘
Python二进制模式打开文件open() 牧文山 Python python
我们看到了在文件打开模式中有以下模式：rb、wb……有这种带b的。什么意思呢？就是用二进制的方式打开文件。#1.只读模式打开文件f1=open('d:\\infile.txt')#2.写模式打开文件f2=open('output.txt','w')#3.以二进制写模式打开文件f3=open('record.dat','wb',0)open()函数-modeModeFunctionr以读模式打开w以
python tornado websocket ping_tornado WebSocket详解 weixin_39978276 python tornado websocket ping
1.什么是WebSocketwebsocket和长轮询的区别是客户端和服务器之间是持久连接的双向通信。协议使用ws://URL格式，但它在是在标准HTTP上实现的。2.tornado的WebSocket模块tornado在websocket模块中提供了一个WebSocketHandler类，这个类提供了和已连接的客户端通信的WebSocket事件和方法的钩子。open方法，新的WebSocket连
python读二进制文件字节长度_使用Python进行二进制文件读写的简单方法(推荐) weixin_39574388
总的感觉，python本身并没有对二进制进行支持，不过提供了一个模块来弥补，就是struct模块。python没有二进制类型，但可以存储二进制类型的数据，就是用string字符串类型来存储二进制数据，这也没关系，因为string是以1个字节为单位的。importstructa=12.34#将a变为二进制bytes=struct.pack('i',a)此时bytes就是一个string字符串，字符串
python pipeline库_Easy Pipeline，一种轻量级的Python Pipeline库周不宅 python pipeline库
嗯，很久没有写博客了，最近的工作都是偏开发性质的，以至于没有时间对自己感兴趣的领域进行探索，感觉个人的成长停滞了一些。如何在枯燥的工作中，提取出有助于自己成长的养分，对于每个人来说都是不小的考验。这次，带来的是之前编写的一下挺简单的库，用来简化流水线作业的小框架。起因是这样的，组内有一个需求，需要挖掘视频中的检测难样本，这样可以极大地减少标注的量，从而降低成本。难样本挖掘的策略，简单来说就是如果视
python input 文件路径_python基础 — 文件操作童雅洋梨 python input 文件路径
读取键盘输入Python提供了两个内置函数从标准输入读入一行文本，默认的标准输入是键盘。如下：raw_inputinputraw_input函数raw_input([prompt])函数从标准输入读取一个行，并返回一个字符串(去掉结尾的换行符)。input函数input([prompt])函数和raw_input([prompt])函数基本类似，但是input可以接收一个Python表达式作为输入
Python打包工具pyinstaller和Nuitka比较 w315427783 python
.1使用需求这次也是由于项目需要，要将python的代码转成exe的程序，在找了许久后，发现了2个都能对python项目打包的工具——pyintaller和nuitka。这2个工具同时都能满足项目的需要：隐藏源码。这里的pyinstaller是通过设置key来对源码进行加密的；而nuitka则是将python源码转成C++（这里得到的是二进制的pyd文件，防止了反编译），然后再编译成可执行文件。方
调用asyncio.to_thread后上下文依然一致吗 socratescli python asyncio
使用Python的asyncio时，可以把一个同步的函数放到线程池中执行从而避免这个函数阻塞asyncio自身的事件循环。比如可以把requests库的请求放进去asyncdefto_thread_do_request(url):returnawaitasyncio.to_thread(requests.get,url)这个to_thread_do_request方法就不会造成asyncio的阻塞
【数据集】全球预报系统GFS概述：数据下载及处理 WW、forever 数据集 GFS
【数据集】全球预报系统GFS概述：数据下载及处理GFSweatherdata数据下载NOAANOMADSNOAA数据处理基于Python完成数据重命名参考GFSweatherdata全球预报系统GFS（GlobalForecastSystem）是美国国家海洋和大气管理局（NOAA）开发和运行的数值天气预报模型。它是一个全球性的大气模式，提供中长期天气预报。以下是一些关键点：全球覆盖：GFS提供全球
自学 python 中的异步编程 asyncio (五)：asyncio 与线程thread Eaton5959 python
自学python中的异步编程asyncio(一)：学习基本概念自学python中的异步编程asyncio(二)：asyncio模块与核心组件自学python中的异步编程asyncio(三)：asyncio实现基本异步编程自学python中的异步编程asyncio(四)：基本的异步IO编程自学python中的异步编程asyncio(五)：asyncio与线程thread自学python中的异步编程a
在 Python 异步协程中使用同步队列土谷祠房客 python 协程阻塞
在Python异步协程中使用同步队列使用Pythonasyncio进行异步编程时，可以使用异步队列asyncio.Queue在并发的协程间进行数据交互。不过，asyncio.Queue不是线程安全的，如果需要在不同线程的异步程序之间或者不同线程的异步程序和同步程序间交换数据，就需要使用queue模块中的Queue这个队列，因为它是线程安全的。在asyncio异步协程中使用queue.Queue
2024华为OD机试E卷-数大雁-（C++/Java/Python） 2024剑指offer python 华为od c++java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2用例3用例4考点题目解析代码c++python题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的：大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。大雁会
华为OD机试 - 数大雁（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 c++java 华为OD 华为od机试 python 华为od javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的:1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。2.大雁会依次完整发出”quack”，即字符串中’q’,‘u’,‘a’,‘c’,‘k’这5个字母按顺序完整
【Python】Tkinter电器销售有限公司销售数据分析（源码）【独一无二】不争不抢不显不露 python 数据分析开发语言
一、设计要求该项目创建一个数据分析软件，利用Tkinter和Matplotlib构建图形用户界面（GUI），读取和分析美迪电器销售有限公司销售数据。用户可以通过界面选择月份查看数据详情、生成销量图表并计算月总销量和年总销量。二、设计思路2.模块引入首先引入了所需的模块，包括Tkinter（用于GUI创建和管理）、ttk（Tkinter主题化控件）、messagebox（用于弹出消息框）、panda
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

PyTorch-1.10(十四)--torch.utils.data基本用法

数据加载器

数据集类型

映射类型数据集

迭代类型数据集

​数据加载顺序和采样器​

加载批处理和非批处理数据

自动批次化（默认）

禁用自动批次化

使用collate_fn

单进程和多进程数据加载

单进程数据加载（默认）

多进程数据加载

内存固定

DataLoader综合应用

数据集抽象类

Dataset

IterableDataset

TensorDataset

ConcatDataset

ChainDataset

Subset

采样器抽象类

SequentialSampler

RandomSampler

SubsetRandomSampler

WeightedRandomSampler

BatchSampler

DistributedSampler

你可能感兴趣的:(深度学习框架,pytorch,人工智能,python)

数据加载顺序和采样器