CVplayer111

关于pytorch里DataLoader的理解

一、python迭代器生成器基础讲解

1.1可迭代对象Iterable

1.2迭代器Iterator

1.3for in 的本质流程

1.4 getitem

1.5 yield 生成器

二、DataLoader的基础实现

三、整体框架的讲解

一、python迭代器生成器基础讲解

1.1可迭代对象Iterable

表示该对象可迭代，并不一定是一个数据类型，如字典，字符串，列表等，它也可以是一个实现了__iter__方法的类。

from collections.abc import Iterable, Iterator

class A(object):
    def __init__(self):
        self.a = [1, 2, 3]

    def __iter__(self):
        # 此处返回啥无所谓
        return self.a

cls_a = A()
#  True
print(isinstance(cls_a, Iterable))

如果对象是Iterable，依然无法用for循环遍历，因为Iterable仅仅是提供了一种抽象规范接口。

1.2迭代器Iterator

如果一个对象是迭代器，那么它肯定是可迭代的，但是如果一个对象是可迭代的，它不一定是迭代器。实现了 __next__ 和 __iter__ 方法的类才能称为迭代器，就可以被 for 遍历了。

class A(object):
    def __init__(self):
        self.index = -1
        self.a = [1, 2, 3]

    # 必须要返回一个实现了 __next__ 方法的对象，否则后面无法 for 遍历
    # 因为本类自身实现了 __next__，所以通常都是返回 self 对象即可
    def __iter__(self):
        return self

    def __next__(self):
        self.index += 1
        if self.index < len(self.a):
            return self.a[self.index]
        else:
            # 抛异常，for 内部会自动捕获，表示迭代完成
            raise StopIteration("遍历完了")

cls_a = A()
print(isinstance(cls_a, Iterable)) # True
print(isinstance(cls_a, Iterator)) # True
print(isinstance(iter(cls_a), Iterator)) # True

for a in cls_a:
    print(a)
# 打印 1 2 3

1.3for in 的本质流程

for.....in...被python编译器编译后，如下

# 实际调用了 __iter__ 方法返回自身，包括了 __next__ 方法的对象
cls_a = iter(cls_a)
while True:
    try:
        # 然后调用对象的 __next__ 方法，不断返回元素
        value = next(cls_a)
        print(value)
    # 如果迭代完成，则捕获异常即可
    except StopIteration:
        break

可见，任何一个对象要能被for遍历，必须实现__iter__和__next__两个方法。

list是可迭代对象，但是没next方法，为什么可以实现for循环遍历。list内部的iter方法的内部实现了next方法。

所以得到：一个对象要能够被 for .. in .. 迭代，那么不管你是直接实现 __iter__ 和 __next__ 方法(对象必然是 Iterator)，还是只实现 __iter__(不是 Iterator)，但是内部间接返回了具备 __next__ 对象的类，都是可行的。

1.4 getitem

上面说过for in本质就是调用__iter__和__next__方法，实际上还有一种更简单的方法，__getitem__方法就可以让对象实现迭代功能。实际上任何一个类，只要实现了__getitem__方法，那么当调用iter(类实例)时候会自动具备__iter__和__next__方法。__getitem__ 实际上是属于 iter和next方法的高级封装，也就是我们常说的语法糖，只不过这个转化是通过编译器完成，内部自动转化，非常方便。

class A(object):
    def __init__(self):
        self.a = [1, 2, 3]

    def __getitem__(self, item):
        return self.a[item]

cls_a = A()
print(isinstance(cls_a, Iterable))  # False
print(isinstance(cls_a, Iterator))  # False
print(dir(cls_a))  # 仅仅具备 __getitem__ 方法

cls_a = iter(cls_a)
print(dir(cls_a))  # 具备 __iter__ 和 __next__ 方法

print(isinstance(cls_a, Iterable))  # True
print(isinstance(cls_a, Iterator))  # True

# 等价于 for .. in ..
while True:
    try:
        # 然后调用对象的 __next__ 方法，不断返回元素
        value = next(cls_a)
        print(value)
    # 如果迭代完成，则捕获异常即可
    except StopIteration:
        break

# 输出： 1 2 3

如果你想该对象具备 list 等对象一样的长度属性，则只需要实现 __len__ 方法即可。

此时我们已经知道了第一种高级语法糖实现迭代器功能，下面分析另一个更简单的可以直接作用于函数的语法糖。

1.5 yield 生成器

生成器是一个在行为上和迭代器非常类似的对象，两者功能差不多，但生成器更优雅，只需要用关键字yield来返回。作用于函数上叫生成器函数，调用函数返回一个生成器。

def func():
    for a in [1, 2, 3]:
        yield a

cls_g = func()
print(isinstance(cls_g, Iterator))  # True
print(dir(cls_g))  # 自动具备 __iter__ 和 __next__ 方法

for a in cls_g:
    print(a)

# 输出: 1 2 3

# 一种更简单的写法是用 ()
cls_g = (i for i in [1,2,3])

使用 yield 函数与使用 return 函数，在执行时差别在于：包含 yield 的方法一般用于迭代，每次执行时遇到 yield 就返回 yield 后的结果，但内部会保留上次执行的状态，下次继续迭代时，会继续执行 yield 之后的代码，直到再次遇到 yield 后返回。生成器是懒加载模式，特别适合解决内存占用大的集合问题。

总结：在迭代对象基础上，如果实现了 __next__ 方法则是迭代器对象，该对象在调用 next() 的时候返回下一个值，如果容器中没有更多元素了，则抛出 StopIteration 异常。

对于采用语法糖 __getitem__ 实现的迭代器对象，其本身实例既不是可迭代对象，更不是迭代器，但是其可以被 for in 迭代，原因是对该对象采用 iter(类实例) 操作后就会自动变成迭代器。

生成器是一种特殊迭代器，但是不需要像迭代器一样实现__iter__和__next__方法，只需要使用关键字 yield 就可以，生成器的构造可以通过生成器表达式 ()，或者对函数返回值加入 yield 关键字实现。

对于在类的 __iter__ 方法中采用语法糖 yield 实现的迭代器对象，其本身实例是可迭代对象，但不是迭代器，但是其可以被 for .. in .. 迭代，原因是对该对象采用 iter(类实例) 操作后就会自动变成迭代器。

二、DataLoader的基础实现

首先介绍5个基本的对象：

Dataset提供整个数据集的随机访问功能，每次访问都返回单个对象，例如一个对象和一个target。

Sampler提供整个数据集随机访问的索引列表，每次调用都返回所有列表中的单个索引。常用的子类是SequentialSampler 用于提供顺序输出的索引和 RandomSampler 用于提供随机输出的索引

BatchSampler内部调用Sampler实列，输出指定batch_size个索引，然后将索引作用于Dataset上从而输出batch_size个数据对象，例如batch_size个数据和索引。

Collate_fn用于将batch_size个数据对象在batch维度进行聚合，生成（batch，.....）格式的数据输出。如果待聚合对象是numpy，则自动转化为tensor，此时就可以输入到网络中了。

迭代一次伪代码如下(非迭代器版本)

class DataLoader(object):
    def __init__(self):
        #假设数据长度为100，batch_size是4
        self.dataset=[[img0,target0],[img1,target1],.....[img99,target99]]
        self.sampler=[0,1,2,.....,99]
        self.batch_size=4
        self.index=0

    def collate_fn(self,data):
        #在batch维度聚合数据
        batch_img=torch.Stack(data[0],0)
        batch_target=torch.stack(data[1],0)
        return batch_img,batch_target

    def __next__(self):
        i=0
        batch_index=[]
        while i

 
  以上就是最抽象的 DataLoader 运行流程以及和 Dataset、Sampler、BatchSampler、collate_fn 的关系。 
  首先需要强调的是 Dataset、Sampler、BatchSampler 和 DataLoader 都直接或间接实现了迭代器。 
  Dataset通过__getitem__方法使其可迭代 
  Sample对象是一个可迭代的基类对象，其常用子类 SequentialSampler 在 __iter__ 内部返回迭代器，RandomSampler 在 __iter__ 内部通过 yield 关键字返回迭代器 
  Batchsampler也是在__iter__内部通过yield关键字返回迭代器 
  DataLoader通过__iter__和__next__直接实现迭代器 
  除了DataLoader本身是迭代器外，其余对象本身都不是迭代器，但可以for in迭代 
  由于 DataLoader 类写的非常通用，故 Dataset、Sampler、BatchSampler 都可以外部传入，除了 Dataset 必须输入外，其余两个类都有默认实现，最典型的 Sampler 就是 SequentialSampler 和 RandomSampler。 
  需要注意的是 Sampler 对象其实在大部分时候都不需要传入 Dataset 实例对象，因为其功能仅仅是返回索引而已，并没有直接接触数据。 
  三、整体框架的讲解 
  核心运行逻辑： 
  def __next__(self):
    #返回batch个索引
    index=next(self.batch_sampler)
    #利用索引去取数据
    data=[self.dataset[idx] for idx in index]
    #batch维度聚合
    data=self.collate_fn(data)
    return data 
  整体流程： 
  1.self.batch_sampler=iter(batch_sampler)。在DataLoader的类初始化，需要得到BatchSampler的迭代器对象。 
  2.index=next(self.batch_sampler)。对于每次迭代，DataLoader对象首先会调用BatchSampler的迭代器进行下一次迭代，具体是调用BatchSampler对象的__iter__方法 
  3.而BatchSampler对象的__iter__方法实际上是需要依靠Sampler对象进行迭代输出索引，Sampler对象也是一个迭代器，当迭代batch_size次后就可以得到batch_size个数据索引。 
  4.data=[self.dataset[idx] for idx in index]。有了batch个索引就可以通过不断调用dataset的__getitem__方法返回数据对象，此时data就包含了batch个对象。 
  5.data=self.collate_fn(data)。将batch个对象输入给聚合函数，在第0个维度也就是batch维度进行聚合，得到类似（batch，....）的对象。 
  6.重复上面的操作，就可以不断输出一个一个的batch数据 
  class Dataset(object):
    #只要实现了__getitem__方法就可以变成迭代器
    def __getitem__(self,index):
        raise NotImplementedError
    def __len__(self):
        raise NotImplementedError 
  class Sampler(object):
    def __init__(self,data_source):
        pass
    def __iter__(self):
        raise NotImplementedError
    def __len__(self):
        raise NotImplementedError
#一般出现raise NotImplementedError这个错误，就是子类没有重写父类中的成员函数，然后子类对象调用此函数会报这个错误

class SequentialSampler(sampler):
    def __init__(self,data_source):
        super(SequentialSampler,self).__init__(data_source)
        self.data_source=data_source
    def __iter__(self):
        #返回迭代器，不然无法for  in
        return iter(range(len(self.data_source))
    def __len__(self):
        return len(self.data_source)

class BatchSampler(Sampler):
    def __init__(self,sampler,batch_size,drop_last):
        self.sampler=sampler
        self.batch_size=batch_size
        self.dorp_last=drop_last

    def __iter__(self):
        batch=[]
        for idx in self.sampler:
            batch.append(idx)
            #如果得到了batch个索引，则可以通过yield关键字生成生成器返回，得到迭代器对象
            if len(batch)==self.batch_size:
                yield batch
                batch=[]
        if len(batch)>0 and not self.drop_last:
            yield batch
    def __len__(self):
        if self.drop_last:
            #如果最后的索引数不等于一个batch，抛弃
            return len(self.sampler)//self.batch_size
        else:
            return (len(self.sampler)+self.batch_size-1)//self.batch_size 
  class DataLoader(object):
    def __init__(self,dataset,batch_size=1,shuffle=False,sample=None,batch_sampler=None,
                    collate_fn=None,drop_last=False):
        self.dataset=dataset
        #因为这两个功能是冲突的
        if sampler is not None and shuffle:
            raise ValueError('sampler option is ..')
        if batch_sampler is not None:
            # 一旦设置了 batch_sampler，那么 batch_size、shuffle、sampler
            # 和 drop_last 四个参数就不能传入
            # 因为这4个参数功能和 batch_sampler 功能冲突了
            if batch_size != 1 or shuffle or sampler is not None or drop_last:
                raise ValueError('batch_sampler option is mutually exclusive '
                                 'with batch_size, shuffle, sampler, and '
                                 'drop_last')
            batch_size = None
            drop_last = False
        if sampler is None:
            if shuffle:
                sampler = RandomSampler(dataset)
            else:
                sampler = SequentialSampler(dataset)
        # 也就是说 batch_sampler 必须要存在，你如果没有设置，那么采用默认类
        if batch_sampler is None:
            batch_sampler = BatchSampler(sampler, batch_size, drop_last)

        self.batch_size = batch_size
        self.drop_last = drop_last
        self.sampler = sampler
        self.batch_sampler = iter(batch_sampler)
        
        if collate_fn is None:
            collate_fn = default_collate
        self.collate_fn = collate_fn

    #核心代码
    def __next__(self):
        index=next(self.batch_sampler)
        data=[self.dataset[idx] for idx in index]
        data=self.collate_fn(data)
        return data
    #返回自身，因为自身实现了next
    def __iter__(self):
        return self
         
  def default_collate(batch):
    elem=batch[0]
    elem_type=type(elem)
    if isinstance(elem,torch.Tensor):
        return torch.stack(batch,0)
    elif elem_type.__module__=='numpy':
        return default_collate([torch.as_tensor(b) for b in batch])
    else:
        raise NotImplementedError 
  完整调用例子 
  class Simplev1Dataset(Dataset):
    def __init__(self):
        #伪造数据
        self.imgs=np.arange(0,16).reshape(8,2)

    def __getitem__(self,index):
        return self.imgs[index]

    def __len__(self):
        return self.imgs.shape[0]

from simplev1_dataset import Simplev1Dataset
simple_dataset=Simplev1Dataset()
dataloader=DataLoader(simple_dataset,batch_size=2,collate_fn=default_collate)
for data in dataloader:
    print(data) 
  四、Reference 
  https://zhuanlan.zhihu.com/p/340465632

Python爬虫实战：高效提取与解析JSON格式数据 Python爬虫项目 python 爬虫宽度优先数据库 json 深度优先开发语言
1.JSON数据爬取概述在当今互联网时代，JSON(JavaScriptObjectNotation)已成为最流行的数据交换格式之一。相比传统的HTML页面，JSON格式数据具有结构清晰、体积小、解析方便等优势，使得它成为API接口的首选数据格式。1.1为什么选择JSON数据爬取数据结构化：JSON数据本身就是结构化的，不需要像HTML那样进行复杂的解析传输高效：JSON通常比HTML体积小，传输
手绘电路图的节点和端点检测一个简化版的算法实现框架 zhangfeng1133 算法
于论文描述，我将提供一个简化版的算法实现框架，用于手绘电路图的节点和端点检测，并整合生成电路原理图。以下代码结合了YOLOv5目标检测和传统图像处理技术，符合论文中提到的98.2%mAP和92%节点识别准确率的关键指标。核心算法实现（Python+OpenCV+YOLOv5）importcv2importnumpyasnpimporttorchfromyolov5importYOLOv5#需要安装
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
使用LangChain构建多代理系统实现复杂任务自动化 LCG元工具 langchain 自动化运维
目录一、系统架构设计模块说明：二、核心工作流程（双流程图对比）横向对比：单代理vs多代理纵向核心流程三、企业级实现方案1.Python核心代码（LangChain0.1.8+）2.TypeScript前端集成代码四、性能对比测试五、生产级部署方案安全审计要点：高可用部署拓扑：六、技术前瞻性分析附录：完整技术图谱摘要：本文深度解析如何基于LangChain框架构建企业级多代理系统，通过模块化架构设计
时序数据库选型避坑全攻略：IoTDB性能与成本双杀的秘密！ LCG元数据库时序数据库 iotdb java
文章目录一、架构设计深度解析1.1IoTDB架构图谱1.2核心流程对比二、企业级实战代码2.1Python数据写入示例2.2TypeScript客户端实现2.3集群配置YAML三、性能对比分析四、生产部署方案4.1安全加固配置4.2安全策略实施五、技术前瞻分析5.1云原生演进路径5.2新型存储引擎预测六、技术图谱附录一、架构设计深度解析1.1IoTDB架构图谱数据写入协议适配层内存表管理持久化引擎
大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案 LCG元系统服务架构负载均衡网络运维
目录一、系统架构设计与核心流程1.1原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五、生产级部署方案5.1Kubernetes部署配置（YAML）5.2安全审计配置六、技术前瞻与演进附录：完整技术图谱一、系统架构设计与核心流程1.1原创
用Python实现神经网络(四)
使用多层神经网络我们展示如何用TensorFlow构建多层神经网络###低出生率数据LowBirthratedata:#Columns Variable Abbreviation#---------------------------------------------------------------------#Lo
自平衡摩托车控制系统设计：Python实现方案神经网络15044 仿真模型算法机器学习 python 开发语言
自平衡摩托车控制系统设计：Python实现方案摘要本文针对5CCE2MCT机电一体化补考项目要求，提出了一种基于Python的自平衡摩托车控制系统完整实现方案。该系统结合PID控制、状态空间方法和数字信号处理技术，实现了稳定的平衡与运动控制。我们从数学模型建立到硬件测试进行了完整展示，提供了可替代MATLAB/Simulink方案的可行解决方案。该实现方案在保持与参考Arduino工程套件相当性能
python基础语法9，用os库实现系统操作并用sys库实现文件操作（简单易上手的python语法教学） AI 嗯啦 python 开发语言
一、os库os.system()是Pythonos库中用于执行操作系统命令的重要方法，它允许在Python程序中直接调用系统shell命令（如Linux的bash命令或Windows的cmd命令）。基本语法importosos.system(command)command：要执行的系统命令字符串（与在终端/命令提示符中输入的命令格式一致）返回值：命令执行的退出状态码（0表示成功，非0表示执行出错）
Python教程：你一定要知道的26个Python魔术方法（快记下来）旦莫 Python进阶 python 开发语言
Python中的魔术方法是指以双下划线__开头和结尾的特殊方法，也被称为特殊方法或魔术方法。这些方法在类中具有特殊的用途，它们可以让你自定义类的行为，使得你的对象可以像内置类型一样工作。这些方法由解释器调用，而不是你直接调用它们。例如，当你使用+运算符时，实际上是调用了对象的__add__方法。这些方法允许你重载运算符、改变对象的构造和初始化行为、自定义属性访问等等。使用魔术方法可以使你的代码更具
快捷删除python中pip安装的所有外部库 m0_74366096 python pip 开发语言
windows环境首先，列出所有安装的第三方库并导出到一个文件：pipfreeze>requirements.txt然后，批量卸载这些库：pipuninstall-y-rrequirements.txt最后，用del命令删除requirements.txt文件：delrequirements.txt这样就能在Windows系统上完成卸载并清理文件的操作。
Python与Java互操作性的桌面应用开发 master_chenchengg python python Python python开发 IT
Python与Java互操作性的桌面应用开发跨语言协作的魅力：Python遇上Java为什么选择Python和Java进行桌面应用开发？两种语言的优势互补：Python的简洁与Java的强大实际案例分享：当Python遇见Java，会发生什么奇妙的化学反应？搭建桥梁：Jython与JPype介绍Jython：用Python编写Java程序安装与配置：轻松几步让你上手调用Java类库：如何在Pyth
Python常见的魔术方法和魔术属性景天科技苑 python轻松入门基础语法到高阶实战教学 python 开发语言魔术方法魔术属性
文章目录魔术方法1、`__new__`魔术方法(1)基本使用(2)`__new__`触发时机要快于`__init__`(3)`__new__`的参数要和`__init__`参数一一对应。参数个数一致就行(4)`__new__`和`__init__`之间的注意点2、单态模式:同一个类,无论实例化多少次,都有且只有一个对象3、`__del__`魔术方法(析构方法)(1)基本语法(2)模拟文件操作4、`
Docker 基本操作 dufufd other
https://zhuanlan.zhihu.com/p/23599229Docker是什么？Docker是一个虚拟环境容器，可以将你的开发环境、代码、配置文件等一并打包到这个容器中，并发布和应用到任意平台中。比如，你在本地用Python开发网站后台，开发测试完成后，就可以将Python3及其依赖包、Flask及其各种插件、Mysql、Nginx等打包到一个容器中，然后部署到任意你想部署到的环境。
python调用java的方法月下老葫 python自动化测试 python java
最近自己开发的一套测试平台，因为上游系统经常修改主数据，导致其中一个功能经常失败，要频繁找上游测试帮忙修改数据。基于此种原因，对于这种过于依赖上游系统的接口，决定放弃直接调上游系统的http请求下发数据，改成调本地系统的java接口，直接构造数据。而这有两个难点，一个python怎么调用java方法，一个是我不会java编程。。。经常不懈的努力，终于解决了这2个问题，这里做个简单的记录。这里有同学
北京-4年功能测试2年空窗-报培训班学测开-第四十五天
今天自习，在教室白天都在复习python的面向对象之所以先复习以前的课而不是复习昨天的，一是因为这块还没复习，二是因为，新学的unittest框架，用到封装继承的部分太多了，面向对象学的都忘了，所以昨天很多部分都不理解面向对象三大特征，封装，继承，多态封装是把属性和方法封装到一个类里方便复用，继承是类之间的从属关系，子类可以继承父类的所有属性和方法在类里，类对象用cls表示，实例对象用self表示
在python程序中调用java代码 Meryoufdd java jvm 开发语言
在python程序中调用java代码Python是一门“胶水”语言，非常灵活多变，但是在一些特殊的时候，也需要调用其它语言来协助实现更多的功能；在公司使用python进行接口测试的时候，会遇到有些接口数据是由公司的开发人员进行自定义的加密算法进行加密的，此时，要开发告诉加密代码是不太可能的。跟开发小哥沟通时，很多时候都是由他给一个jar包，然后剩下的就由测试人员来发挥了。那python该如何使用这
学习日志14 python im_AMBER 学习 python 开发语言
1divmod(a,b)divmod(a,b)是Python内置函数,用于返回两个数相除的商和余数,返回值是一个元组(tuple)。divmod(a,b)是Python的内置函数，用于同时计算两个数值的商和余数，返回一个包含这两个结果的元组(商,余数)。该函数在处理需要同时获取整除结果和余数的场景（如时间单位转换、分页计算）时非常高效。基本用法python运行result=divmod(a,b)#
离线部署视觉模型Qwen2.5-VL方案【企业应用级】 LensonYuan 机器视觉自然语言处理 qwenvl 视觉模型大模型部署 qwen2.5 qwen2.5环境 qwen2.5-vl镜像包
离线多卡部署视觉模型Qwen2.5-VL企业级服务方案一、背景公司网络是有严格限制，所有涉及境外服务器的网站都无法访问，包括docker等镜像源。本教程，是在提前下载或构建好资源，通过上传到服务器后，做离线部署。二、参考环境大模型服务发布工具：VLLM=0.7.2。大模型版本：qwen2.5-vl-7b，其他版本也可。python版本：python==3.12。环境可选：docker或直接pyth
小白学Python，压缩和解压文件
目录前言一、判断文件是否为Zip文件二、打开压缩文件三、解压文件四、获取Zip文件中文件的属性信息前言Python标准库中的zipfile库可用于处理压缩文件，.zip是一种常用的压缩文件格式。zipfile库中包含用于查看Zip文件、解压Zip文件、将文件压缩为Zip文件等的方法。需要注意的是，在使用zipfile库前需要使用import导入zipfile库。一、判断文件是否为Zip文件zipf
Python 魔术方法坚定的小辣鸡在努力 Python python 开发语言
Python魔术方法Python中的魔术方法（MagicMethods），又叫“双下方法（dundermethods）”，像__init__、__str__、__eq__这样的名字，是Python面向对象非常强大的特性。阅读原文https://www.xiaozaoshu.top/articles/python/maigc-method常用魔术方法详解最常见也最有用的几个魔术方法：1.__init
《Python Web 框架深度剖析：Django、Flask 与 FastAPI 的选择之道》清水白石008 课程教程学习笔记开发语言 python 前端 django
《PythonWeb框架深度剖析：Django、Flask与FastAPI的选择之道》开篇引入：从“胶水语言”到Web架构核心Python，自1991年由GuidovanRossum发布以来，凭借其简洁优雅的语法和强大的生态系统，逐渐成为全球最受欢迎的编程语言之一。它不仅在数据科学、人工智能、自动化脚本等领域大放异彩，更在Web开发领域构建起一套成熟的技术体系。作为一位长期从事Python开发与教
binwalk 白天的我最菜错题本开发语言
windows使用这个命令时候发现要shift一直按住,右击打开cmd管理员运行才行pythonsetup.pyinstall否则没有作用自己安装python目录的Scripts文件夹里,参考如下https://www.cnblogs.com/0yst3r-2046/p/12218770.html
Python-Zstandard 使用教程
Python-Zstandard使用教程项目介绍Python-Zstandard是一个为Zstandard（zstd）压缩库提供Python绑定的开源项目。Zstandard是一种由Facebook开发的高性能数据压缩算法，旨在提供高压缩比和快速压缩解压速度。Python-Zstandard项目的目标是通过一个Pythonic的接口，提供对底层CAPI的丰富访问，同时不牺牲性能。项目地址：GitH
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
Py-spy：优秀的 Python 程序性能监控、分析器
py-spy是用于Python程序的性能监控、分析器。它使你可以直观地看到Python程序花费的时间，而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低：为了最大化提高速度，它是用Rust编写的，并且与配置的Python程序不在同一进程中运行。这意味着py-spy可以安全地用于生产环境的Python程序。py-spy可在Linux，OSX，Windows和FreeBSD上运行，并支持
python软件代码运行解析器出错是怎么问题_Py-Spy - Python程序的抽样分析器 weixin_39714307
Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。Py-Spy是Python程序的抽样分析器。它允许您可视化Python程序正花费时间在哪部分，而无需重新启动程序或以任何方式修改代码。Py-Spy的开销极低：它使用Rust语言编写，速度快，不会在与配置的Python程序相同的进程中运行，也不会以任何方式中断正在运行的程序。这意味着Py-Spy可以安全地用于
Python 包管理工具pip
pip是Python的包管理工具，用于安装和管理Python包（库或模块）。它是Python生态系统中最重要的工具之一，几乎所有第三方库都可以通过pip安装。以下是关于pip的详细讲解：1.pip是什么？pip是PythonPackageInstaller的缩写。它是一个命令行工具，用于从PythonPackageIndex(PyPI)下载和安装Python包。pip可以管理Python包的安装、
pip和conda 李星星BruceL pip conda
目录1使用Conda？你可能不需要Docker1.1Docker在开发环境中的应用1.2Python和Conda：跨平台逻辑，跨平台依赖1.3Conda作为生产环境中Docker的替代方案1.4避免使用Docker的一些限制2PipvsConda：深入比较Python的两种包管理系统2.1起点：哪种依赖？2.1.1Pip：仅限Python库2.1.2Conda：任何依赖都可以是Conda包（几乎）
探索Python性能优化的新里程：py-spy 施刚爽
探索Python性能优化的新里程：py-spy项目介绍py-spy是一个为Python程序设计的轻量级采样剖析器，它无需重启或修改你的代码就能让你看到程序运行时的时间分配情况。由于其采用Rust编写，因此在不影响目标程序运行的情况下，py-spy能安全地对生产环境中的Python代码进行剖析。该项目支持Linux、macOS、Windows和FreeBSD上的所有现代CPython解释器版本（从2
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

关于pytorch里DataLoader的理解

一、python迭代器生成器基础讲解

1.1可迭代对象Iterable

1.2迭代器Iterator

1.3for in 的本质流程

1.4 getitem

1.5 yield 生成器

二、DataLoader的基础实现

三、整体框架的讲解

四、Reference

你可能感兴趣的:(python,开发语言)