熟褐丶

动手学CV-Pytorch（二）数据集及读取方法

放在最前：本文参考DataWhale教程动手学CV-Pytorch ←超好的学习教程！

在pytorch中已经包含了部分常用数据集的定义，可以直接使用，但在实际工程应用中仅仅使用pytorch自带的数据集远远不够，有时还需要自定义数据集来满足需求。

1. pytorch自带数据集及读取方法

pytorch中所有的数据集均继承自torch.utils.data.Dataset，它们都需要实现了 __ getitem__ 和 __ len__ 两个接口，因此，实现一个数据集的核心也就是实现这两个接口。

Pytorch的torchvision中已经包含了很多常用数据集以供我们使用，如Imagenet，MNIST，CIFAR10、VOC等，利用torchvision可以很方便地读取。对于pytorch自带的图像数据集，它们都已经实现好了上述的两个核心接口。因此这里先忽略这部分细节，先介绍用法，关于 __ getitem__ 和 __ len__ 两个方法，我们将在后面的自定义数据集读取方法中详细介绍。
pytorch支持哪些常用数据加载呢？可以参见：torchvision.datasets

CIFAR10数据集的定义方法如下：

dataset_dir = '../../../dataset/'
torchvision.datasets.CIFAR10(dataset_dir, train=True, transform=None, target_transform=None, download=False)

参数：

dataset_dir：存放数据集的路径。
train（bool，可选）–如果为True，则构建训练集，否则构建测试集。
transform：定义数据预处理，数据增强方案都是在这里指定。
target_transform：标注的预处理，分类任务不常用。
download：是否下载，若为True则从互联网下载，如果已经在dataset_dir下存在，就不会再次下载

在使用API读取数据时，API中的transform参数指定了导入数据集时需要对图像进行何种变换操作。对于图像进行各种变换来增加数据的丰富性称为数据增强，是一种常用操作，在下一小节将有更详细的说明。

一般的，我们使用torchvision.transforms中的函数来实现数据增强，并用transforms.Compose将所要进行的变换操作都组合在一起，其变换操作的顺序按照在transforms.Compose中出现的先后顺序排列。在transforms中有很多实现好的数据增强方法，在这里我们尝试使用缩放，随机颜色变换、随机旋转、图像像素归一化等组合变换。

from PIL import Image
import torch
import torchvision 
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms        

# 读取训练集
custom_transform=transforms.Compose([
              transforms.Resize((64, 64)),    # 缩放到指定大小 64*64
              transforms.ColorJitter(0.2, 0.2, 0.2),    # 随机颜色变换
              transforms.RandomRotation(5),    # 随机旋转
              transforms.Normalize([0.485,0.456,0.406],    # 对图像像素进行归一化
                                   [0.229,0.224,0.225])])
train_data=torchvision.datasets.CIFAR10('../../../dataset', 
                                        train=True,                                       
                                        transform=custom_transforms,
                                        target_transform=None, 
                                        download=False)

数据集定义完成后，我们还需要进行数据加载。Pytorch提供DataLoader来完成对于数据集的加载，并且支持多进程并行读取。

from PIL import Image
import torch
import torchvision 
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms     

# 读取数据集
train_data=torchvision.datasets.CIFAR10('../../../dataset', train=True, 
                                                      transform=None,  
                                                      target_transform=None, 
                                                      download=True)          
# 实现数据批量读取
train_loader = torch.utils.data.DataLoader(train_data,
                                           batch_size=2,
                                           shuffle=True,
                                           num_workers=4)

这里batch_size设置了批量大小，shuffle设置为True在装载过程中为随机乱序，num_workers>=1表示多进程读取数据，在Win下num_workers只能设置为0，否则会报错。

2 自定义数据集及读取方法

除了pytorch自带的数据集外，在实际应用中，我们可能还需要从其他各种不同的数据集或自己构建的数据集（将其统称为自定义数据集）中读取图像，这些图像可能来自于开源数据集网站，也可能是我们自己整理得到的。对于这样的图像数据：首先，我们要确定是否包含标签文件，如果没有就要自己先创建标签文件；然后，我们就可以使用pytorch来读取数据集了。道理是不是很简单？接下来，该小节我们将着重讲解pytorch自定义数据集的制作和读取方法。

在上一节中，我们已经能够使用Dataset和DataLoader两个类实现pytorch自带数据集的读写。其实，我们完全可以将上节的内容看作是pytorch读取数据“通用解”中的一种特殊情况，只不过它满足了一些特殊的条件——pytorch帮你下载好了数据并制作了数据标签，然后通过使用Dataset和DataLoader两个类完成了数据集的构建和读取。简单的对pytorch读取数据一般化pipeline的描述，就是下面的这个流程：

图像数据 ➡ 图像索引文件 ➡ 使用Dataset构建数据集 ➡ 使用DataLoader读取数据

2.1 图像索引文件制作

图像索引文件只要能够合理记录标注信息即可，内容可以简单也可以复杂，但有一条要注意：**内容是待读取图像的名称（或路径）及标签，并且读取后能够方便实现索引。**该文件可以是txt文件，csv文件等多种形式，甚至是一个list都可以，只要是能够被Dataset类索引到即可。

我们以读取MNIST数据为例，构建分类任务的图像索引文件，对于其他任务的索引文件，我相信你在学过分类任务的索引文件制作后将会无师自通。

通过 http://yann.lecun.com/exdb/mnist/ 我们下载MNIST的图像和标签数据到Dive-into-CV-PyTorch/dataset/MNIST/目录下，得到下面的压缩文件并解压暂存，以用来充当自己的图像数据集。

train-images-idx3-ubyte.gz: training set images (9912422 bytes) ➡ train-images-idx3-ubyte（解压后）
train-labels-idx1-ubyte.gz: training set labels (28881 bytes) ➡ train-labels-idx1-ubyte（解压后）
t10k-images-idx3-ubyte.gz:  test set images (1648877 bytes) ➡ t10k-images-idx3-ubyte（解压后）
t10k-labels-idx1-ubyte.gz:  test set labels (4542 bytes) ➡ t10k-labels-idx1-ubyte（解压后）

我们运行如下代码，实现图像数据的本地存储和索引文件的制作，我们将图像按照训练集和测试集分别存放，并且分别制作训练集和测试集的索引文件，在索引文件中将记录图像的文件名和标签信息。

import os
from skimage import io
import torchvision.datasets.mnist as mnist

# 数据文件读取
root = r'./MNIST/'  # MNIST解压文件根目录
train_set = (
    mnist.read_image_file(os.path.join(root, 'train-images.idx3-ubyte')),
    mnist.read_label_file(os.path.join(root, 'train-labels.idx1-ubyte'))
)
test_set = (
    mnist.read_image_file(os.path.join(root, 't10k-images.idx3-ubyte')),
    mnist.read_label_file(os.path.join(root, 't10k-labels.idx1-ubyte'))
)

# 数据量展示
print('train set:', train_set[0].size())
print('test set:', test_set[0].size())


def convert_to_img(save_path, train=True):
    '''
    将图片存储在本地，并制作索引文件
    @para: save_path  图像保存路径，将在路径下创建train、test文件夹分别存储训练集和测试集
    @para: train      默认True，本地存储训练集图像，否则本地存储测试集图像 
    '''
    if train:
        f = open(save_path + 'train.txt', 'w')
        data_path = save_path + '/train/'
        if (not os.path.exists(data_path)):
            os.makedirs(data_path)
        for i, (img, label) in enumerate(zip(train_set[0], train_set[1])):
            img_path = data_path + str(i) + '.jpg'
            io.imsave(img_path, img.numpy())
            int_label = str(label).replace('tensor(', '')
            int_label = int_label.replace(')', '')
            f.write(str(i)+'.jpg' + ',' + str(int_label) + '\n')
        f.close()
    else:
        f = open(save_path + 'test.txt', 'w')
        data_path = save_path + '/test/'
        if (not os.path.exists(data_path)):
            os.makedirs(data_path)
        for i, (img, label) in enumerate(zip(test_set[0], test_set[1])):
            img_path = data_path + str(i) + '.jpg'
            io.imsave(img_path, img.numpy())
            int_label = str(label).replace('tensor(', '')
            int_label = int_label.replace(')', '')
            f.write(str(i)+'.jpg' + ',' + str(int_label) + '\n')
        f.close()


# 根据需求本地存储训练集或测试集
save_path = r'./MNIST/mnist_data/'
convert_to_img(save_path, True)
convert_to_img(save_path, False)

上面的代码虽然笨重，但是能够清晰的展示图像和我们索引文件内容的对应关系，也实现图像本地存储和索引文件构建。我们在索引文件中记录了每张图像的文件名和标签，并且每一行对应一张图像的信息，这也是为了方便数据的索引。其实我们在索引文件中可以直接记录每一张图像的路径和标签信息，但考虑数据的可移植性，便只记录了图像的名称。

2.2 构建自己的Dataset
想要读取我们自己数据集中的数据，就需要写一个Dataset的子类来定义我们的数据集，并必须对 __ init__、__ getitem__ 和 __ len__ 方法进行重载。下面我们看一下构建Dataset类的基本结构：

from torch.utils.data.dataset import Dataset

class MyDataset(Dataset):  # 继承Dataset类
   def __init__(self):
       # 初始化图像文件路径或图像文件名列表等
       pass

   def __getitem__(self, index):
        # 1.根据索引index从文件中读取一个数据（例如，使用numpy.fromfile，PIL.Image.open，cv2.imread）
        # 2.预处理数据（例如torchvision.Transform）
        # 3.返回数据对（例如图像和标签）
       pass

   def __len__(self):
       return count  # 返回数据量

__init__() : 初始化模块，初始化该类的一些基本参数
__getitem__() : 接收一个index，这个index通常指的是一个list的index，这个list的每个元素就包含了图片数据的路径和标签信息,返回数据对（图像和标签）
__len__() : 返回所有数据的数量

重点说明一下 __ getitem__() 函数，该函数接收一个index，也就是索引值。只要是具有索引的数据类型都能够被读取，如list，Series，Dataframe等形式。为了方便，我们一般采用list形式将文件代入函数中，该list中的每一个元素包含了图片的路径或标签等信息，以方便index用来逐一读取单一样本数据。在__ getitem__() 函数内部，我们可以选择性的对图像和标签进行预处理等操作，最后返回图像数据和标签。

我们延续上一小节自制MNIST索引文件，构建自己的Dataset类，以便通过该类读取特定图像数据。

import pandas as pd
import numpy as np
from PIL import Image
import torch
from torch.utils.data import Dataset
from torchvision import transforms

class MnistDataset(Dataset):

    def __init__(self, image_path, image_label, transform=None):
        super(MnistDataset, self).__init__()
        self.image_path = image_path  # 初始化图像路径列表
        self.image_label = image_label  # 初始化图像标签列表
        self.transform = transform  # 初始化数据增强方法

    def __getitem__(self, index):
        """
        获取对应index的图像，并视情况进行数据增强
        """
        image = Image.open(self.image_path[index])
        image = np.array(image)
        label = float(self.image_label[index])

        if self.transform is not None:
            image = self.transform(image)

        return image, torch.tensor(label)

    def __len__(self):
        return len(self.image_path)


def get_path_label(img_root, label_file_path):
    """
    获取数字图像的路径和标签并返回对应列表
    @para: img_root: 保存图像的根目录
    @para:label_file_path: 保存图像标签数据的文件路径 .csv 或 .txt 分隔符为','
    @return: 图像的路径列表和对应标签列表
    """
    data = pd.read_csv(label_file_path, names=['img', 'label'])
    data['img'] = data['img'].apply(lambda x: img_root + x)
    return data['img'].tolist(), data['label'].tolist()


# 获取训练集路径列表和标签列表
train_data_root = './dataset/MNIST/mnist_data/train/'
train_label = './dataset/MNIST/mnist_data/train.txt'
train_img_list, train_label_list = get_path_label(train_data_root, train_label)  
# 训练集dataset
train_dataset = MnistDataset(train_img_list,
                             train_label_list,
                             transform=transforms.Compose([transforms.ToTensor()]))

# 获取测试集路径列表和标签列表
test_data_root = './dataset/MNIST/mnist_data/test/'
test_label = './dataset/MNIST/mnist_data/test.txt'
test_img_list, test_label_list = get_path_label(test_data_root, test_label)
# 测试集sdataset
test_dataset = MnistDataset(test_img_list,
                            test_label_list,
                            transform=transforms.Compose([transforms.ToTensor()]))

上面的代码通过构建 MnistDataset 类，完成了数据集的定义。

首先通过 get_path_label() 函数获得图像的路径和标签列表，并通过 MnistDataset 类中 init() 的 self.image_path 和 self.image_label 进行存储，我们能够看到此处的图像列表中的数据和标签列表中的数据是一一对应的关系，同时我们在初始化中还初始化了 transform ，以实现后续中图像增强操作。

MnistDataset 类的 __ getitem__() 函数完成了图像读取和增强。该函数的前三行，我们通过 index 读取了 self.image_path 和 self.image_label （两个list，也是前文中提到的list）中的图像和标签。第四、五行，对图像进行处理，在 transform 中可以实现旋转、裁剪、仿射变换、标准化等等一系列操作。最后返回处理好的图像数据和标签。

通过 MnistDataset 类的定义，pytorch就知道了如何获取一张图片并完成相应的预处理工作。这里我们尝试从数据集中读取一些数据，打印下输出结果进行观察：

每一张图像及标签都被封装成了一个二元元组，第一个元素为图像矩阵，第二个元素为图像标签。下面我们尝试打印每张图片的尺寸和标签信息来看下结果：

需要注意的是，当 Dataset 创建好后并没有将数据生产出来，我们只是定义了数据及标签生产的流水线，只有在真正使用时，如手动调用 next(iter(train_dataset))，或被 DataLoader调用，才会触发数据集内部的 __ getitem__() 函数来读取数据，通常CV入门者对于这一块会存在困惑。

2.3 使用DataLoader批量读取数据
在构建好自己的 Dataset 之后，就可以使用 DataLoader 批量的读取数据，相当于帮我们完成一个batch的数据组装工作。Dataloader 为一个迭代器，最基本的使用方法就是传入一个 Dataset 对象，在Dataloader中，会触发Dataset对象中的 __ gititem__() 函数，逐次读取数据，并根据 batch_size 产生一个 batch 的数据，实现批量化的数据读取。

Dataloader 内部参数如下：

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=default_collate, pin_memory=False, drop_last=False)

dataset：加载的数据集(Dataset对象)
batch_size：一个批量数目大小
shuffle:：是否打乱数据顺序
sampler： 样本抽样方式
num_workers：使用多进程加载的进程数，0代表不使用多进程
collate_fn： 将多个样本数据组成一个batch的方式，一般使用默认的拼接方式，可以通过自定义这个函数来完成一些特殊的读取逻辑。
pin_memory：是否将数据保存在pin memory区，pin memory中的数据转到GPU会快一些
drop_last：为True时，dataset中的数据个数不是batch_size整数倍时，将多出来不足一个batch的数据丢弃

承接上一节中的 train_dataset 和 test_dataset，使用 DataLoader 进行批量化读取，此处仅使用了常用的几个参数。

from torch.utils.data import DataLoader

# 训练数据加载
train_loader = DataLoader(dataset=train_dataset,  # 加载的数据集（Dataset对象）
                         batch_size=3,  # 一个批量大小
                         shuffle=True,  # 是否打乱数据顺序
                         num_workers=0)  # 使用多进程加载的进程数，0代表不使用多进程（win系统建议改成0）
# 测试数据加载
test_loader = DataLoader(dataset=test_dataset,
                        batch_size=3,
                        shuffle=False,
                        num_workers=0)

如上面的代码，为方便展示加载后的结果，我们定义了一个批量大小为 3 的 DataLoader 来加载训练集，并且打乱了数据顺序，在测试集的加载中，我们并没有打乱顺序，这都可以根据自己的需求进行调整。现在，train_loader 已经将原来训练集中的60000张图像重新“洗牌”后按照每3张一个batch划分完成（test_loader同理），进一步查看划分后的数据格式。

经过DataLoader的封装，每3（一个batch_size数量）张图像数据及对应的标签被封装为一个二元元组，第一个元素为四维的tensor形式，第二个元素为对应的图像标签数据。按照如下方式将所有train_loader中的数据进行展示。

我们将DataLoader与Dataset分别处理后的数据比较可以发现出两者的不同：Dataset是对本地数据读取逻辑的定义；而DataLoader是对Dataset对象的封装，执行调度，将一个batch size的图像数据组装在一起，实现批量读取数据。

3 分类任务通用的ImageFolder读取形式

我们已经学会了通过构建自己的Dataset类来读取数据，这是具有一般性的数据读取方式，无论是分类、检测等等都能够通过这种方式读取图像及标签。但对于图像分类问题，torchvision还提供了一种文件目录组织形式可供调用，即ImageFolder，因为利用了分类任务的特性，此时就不用再另行创建一份标签文件了。这种文件目录组织形式，要求数据集已经自觉按照待分配的类别分成了不同的文件夹，一种类别的文件夹下面只存放同一种类别的图片。

我们以具有cat、dog、duck、horse四类图像的数据为例进行说明，数据结构形式如下。

.
└── sample      # 根目录
    ├── train   # 训练集
    │     ├── cat  # 猫类
    │     │     ├── 00001.jpg  # 具体所属类别图片
    |     |     └── ...
    │     ├── dog  # 狗类
    │     │     ├── 00001.jpg 
    |     |     └── ...
    │     ├── duck  # 鸭类
    │     │     ├── 00001.jpg 
    |     |     └── ...
    │     └── horse  # 马类
    │           ├── 00001.jpg 
    |           └── ...
    └── test    # 测试集
          ├── cat
          │     ├── 00001.jpg 
          |     └── ...
          ├── dog
          │     ├── 00001.jpg 
          |     └── ...
          ├── duck
          │     ├── 00001.jpg 
          |     └── ...
          └── horse
                ├── 00001.jpg 
                └── ...

我们可以清楚看出在训练集和测试集中分别包含有cat、dog、duck、horse四类图像的子文件夹，在子文件夹中就是所属类别的具体图像。在笔者电脑中，数据集的图片路径如下图所示。
使用torchvision包中的ImageFolder类针对上述的文件目录组织形式快速创建dataset

from torchvision.datasets import ImageFolder
import torchvision.transforms as transforms
from torch.utils.data import DataLoade

# train & test root
train_root = r'./sample/train/'
test_root = './sample/test/'

# transform
train_transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])
test_transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])

# train dataset
train_dataset = torchvision.datasets.ImageFolder(root=train_root,
                                                 transform=train_transform)
train_loader = DataLoader(train_dataset, batch_size=1, shuffle=True, num_workers=0)

# test dataset
test_dataset = torchvision.datasets.ImageFolder(root=test_root,
                                               transform=test_transform)
test_loader = DataLoader(test_dataset, batch_size=1, shuffle=False, num_workers=0)

10篇R1相关的研究全面汇总，万字思考！ datawhale
原创长琴DatawhaleDatawhale干货作者：长琴，Datawhale成员本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。本文中的相关阅读，可以在主页找到对应文章：主页地址：https://yam.gift/基本框架首先是整体的框架，如下所示。•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
吴恩达的翻译Agent项目，复现教程来了！ datawhale
原创郭才高DatawhaleDatawhale教程作者：郭才高，Datawhale创作者1.TranslationAgent复现效果展示#执行任务#调用编译后的工作流，传入初始状态字典result=app.invoke({ "source_lang": "English", #源语言为英语 "target_lang": "中文", #目标语言为中文 "source_text": ""
周报 | 25.3.3-25.3.9文章汇总双木的木大模型专栏深度学习拓展阅读人工智能 linux 服务器 deepseek llama YOLO transformer
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.2.24-25.3.2文章汇总-CSDN博客Datawhale|最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）--建议收藏！-CSDN博客AI生成未来|CVPR2025|多模态六边形战士Magma：会点按钮会搬砖，标注竟让AI长出“时空大脑“_magma-8b-CSDN博客机
Datawhale AI夏令营第四期 AIGC方向 task02学习笔记流火_授衣 AI 人工智能 AIGC 学习
探探前沿：了解一下AI生图技术的能力&局限今天我们的任务是对baseline的代码有一个更加细致的理解，然后我们会学习如何借助AI来提升我们的自学习能力，从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔，你可以从中学大模型的提问技巧来实现快速学习，学会如何制作一个话剧连环画。‘自其不变者而观之，则物与我皆无尽也’，拥抱AI、学习AI、运用AI解决各种变化的问题，一起加油！！
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
王坚院士谈算力革命，“对年轻人要足够地致敬” datawhale
DatawhaleDatawhale分享央视新闻，面对面：王坚院士来源：央视新闻，仅用于学术分享。**Datawhale整理了采访全文，供大家阅读。主持人：作为政协委员，今年您的提案里面会侧重于什么问题？王坚院士：我想我们今天讲的这个技术变革也好，特别是讲到人工智能也好，确实是一个时代的变革，是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+，我们怎么能有一些机制上的创新。王坚，全国
我没有大模型经验，可以给个机会吗？ datawhale
QuokkaDatawhaleDatawhale分享作者：Quokka，编辑：Datawhale版权声明：版权属于原作者，仅用于学术分享，如有侵权，联系删文。**作者|Quokka原文链接：https://zhuanlan.zhihu.com/p/...做大模型一年半，经历了无数场面试。经验我最常听到的候选人（尤其是学生）的说辞是：我没有大模型经验，可以给个机会吗？答案是，我们并不看重候选人的大模
DeepMind首席科学家最新万字访谈：模型「慢思考」，能力大幅提升！ datawhale
DatawhaleDatawhale分享访谈：JackRae，编译：数字开物2月25日，谷歌DeepMind首席科学家JackRae接受访谈，就谷歌思维模型的发展进行深入讨论。JackRae指出，推理模型是AI发展的新范式，推理模型并非追求即时响应，而是通过增加推理时的思考时间来提升答案质量，这导致了一种新的ScalingLaw，“慢思考”模式是提升AI性能的有效途径。JackRae认为长语境对于
Datawhale 数学建模导论国赛B学习笔记瓜瓜蛋数学建模学习笔记
贪心算法贪心算法(Greedyalgorithm)（贪婪算法）基本思想：多机调度问题是一个多项式复杂程度的非确定性问题(Non-deterministicPolynomial)，具有一定的复杂程度，当前没有有效的解决方法。相较于其它算法，贪心算法求解不从整体最优上加以考虑,。而是寻求某种意义上的局部最优解，从而做出当下最好的选择。因此，在求解并行机调度问题上，贪心算法容易获得近似最优解的答案，更有
分享一个学习Ollama的开源项目，轻松上手大模型部署可可南木机器学习人工智能
最近deepseek火得不行，很多人都想在家里部署一个来玩一下，所以到处找资源学习。机缘巧合下搜到了这个项目，内容相当给力，不敢私藏，分享出来给需要的同学。项目地址：https://github.com/datawhalechina/handy-ollamalink在线阅读：https://datawhalechina.github.io/handy-ollama/link效果预览：感谢所有对该项
免费无限次！671B满血版DeepSeek R1隐藏入口，优秀平台推荐！ datawhale
DatawhaleDatawhale推荐平台：AskManyAI**DeepSeek官网挤爆了，各种前几天大火的第三方平台也接连崩溃。我整理了一下问题，可以分成3类：回答卡顿，慢的要死，半天出不来结果，得反复重试服务器崩了，不知道啥时候能修复挂羊头卖狗肉，用8B蒸馏小模型冒充DeepSeekR1满血版，回答效果很差不能联网搜索不能支持图片对话不能支持文档对话这两天找遍各个渠道，深度体验了市面上接近
核心团队来自百度，大模型AI Agents创业团队招聘啦！ datawhale
DatawhaleDatawhale分享初创公司：浮点奇迹，方向：AIAgents**团队简介我们是浮点奇迹团队，一个AIAgents赛道初创公司，创始团队主要来自百度的AI、搜索核心算法部门，有业界领先的大模型自研能力和十亿规模平台型C端产品研发能力；我们专注打造AIAgents原生的互联网内容平台，我们的长期愿景是重新定义互联网的信息生产和分发，加速高价值长尾信息的流动和传播。目前，我们正在寻
【LLM】大模型基础--大规模预训练语言模型的开源教程笔记 Langchain 笔记人工智能 langchain llama 大模型产品经理大模型基础
1.引言本文以DataWhale大模型开源教程为学习路线，进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列（token）的概率分布，可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看，LM（languagemodle）可以简单的分为：自回归模型非自回归模型特点逐字生成文本，每个词的生成都依赖于上文，关联性好一次性生成整个文本序列，不捕捉上文信息优点内容质量高生成速度快
DataWhale 组队学习 wow-agent task2 体验总结归纳菜鸟码农01 学习 datawhale
一、Llama-index知识体验1.ReActAgent与业务自动化ReActAgent：通过ReActAgent，业务逻辑可以自动转换为代码，只要有相应的API，模型就可以调用。这种自动化能力使得许多业务场景变得更加高效和智能化。LlamaIndex开源工具：LlamaIndex提供了一些开源工具，帮助开发者实现这些功能。通过访问官网，开发者可以获取这些工具并应用到自己的项目中。2.Agent
DataWhale组队学习 LeetCode task4 菜鸟码农01 学习 leetcode 算法
目录1.二分查找算法介绍1.1二分查找算法简介1.2二分查找算法步骤1.3二分查找算法思想2.简单二分查找2.1题目：704.二分查找2.2解题思路3.二分查找细节3.1区间的开闭问题3.2mid的取值问题3.3出界条件的判断3.4搜索区间范围的选择4.二分查找的两种思路4.1直接法4.2排除法5.总结1.二分查找算法介绍1.1二分查找算法简介二分查找算法（BinarySearchAlgorith
DataWhale组队 LeetCode task1 菜鸟码农01 leetcode 算法
目录1.数据结构2.算法3.程序设计总结1.算法复杂度的评估方法2.问题规模n3.时间复杂度4.空间复杂度的定义5.空间复杂度的组成6.空间复杂度的计算总结一、什么是算法？算法的用处是什么？算法+数据结构=程序这一公式简洁地表达了程序设计的核心要素。算法是解决问题的步骤或方法，而数据结构则是数据的组织、存储和管理方式。程序则是算法和数据结构的具体实现。1.数据结构数据结构是带有结构特性的数据元素的
DataWhale 数学建模导论学习笔记（第一章） ryanYu_127 学习笔记
要点：利用Python作为计算工具帮助解决数学模型。一、前期准备工作1.AnacondaNavigator帮助安装了NumPy所需的功能包。2.通过Jupyter_Lab,可以直接测试代码运行的结果。3.通过vscode可以修改文本并即时看到预览结果，解决一些符号、公式、表格显示不正常的问题。4.这也是我第一次使用CSDN记录自己的学习笔记。二、进入第一章正题解析方法与几何建模：1.前面的向量和矩
Datawhale数学建模导论课程第八章学习心得(I)一时间序列与投资模型星.惜尘数学建模
学习链接：Datawhale数学建模教程Descriptionhttps://datawhalechina.github.io/intro-mathmodel/#/CH8/%E7%AC%AC8%E7%AB%A0-%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97?id=_811-%e6%97%b6%e9%97%b4%e5%ba%8f%e5%88%97%e7%9a%84%e5%
李沐：读博这五年总结 datawhale
李沐DatawhaleDatawhale干货作者：李沐，卡内基梅隆大学前言12年8月提着一个行李箱降落在匹兹堡机场。没找住的地方，也不知道CMU应该怎么去。对未来一片迷茫，但充满乐观。现在，刚完成了博士期间最后的一场报告，在同样的机场，不过是在等待离开的航班。回想过去的五年，是折腾的五年，也是自我感悟和提升的五年。这里我尝试记录这五年主要做过的事情和其中的感想，希望对大家有所启发。第0年：3/11
获得清华博士学位的条件之一：不辱师门 datawhale
贾庆山老师DatawhaleDatawhale干货分享：贾庆山老师，编辑：哈哈镜V一个群体PermanentheadDamage的博士生群体PermanentheadDamage=Ph.D博士生一年级的同学们，不要担忧或高兴得太早，抱歉你们还没有经历Qualification——预备考试，你们暂且不能被称为博士，只能称自己是要努力成为博士预备生的学生。等过了一年到了博二，你们会疑惑，自己读的是工学
完整的671B R1塞进本地，详尽教程来了！ datawhale
李锡涵DatawhaleDatawhale干货作者：李锡涵，编译：机器之心本文作者：李锡涵（XihanLi）作者简介：伦敦大学学院（UCL）计算机系博士研究生，谷歌开发者专家，主要研究方向为学习优化，在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文，CircuitTransformer作者，图书《简明的TensorFlow2》（https://tf.wiki）作者过年这几天，D
DeepSeek实习感受与大模型择业思考！ datawhale
郑思泽DatawhaleDatawhale经验作者：郑思泽，北京大学博士、字节TopSeed知乎：郑思泽，已获作者授权地址：https://zhuanlan.zhihu.com/p/...转眼距离博士毕业已经六个月了，过去的一年时光可谓心路坎坷，时常陷于纠结犹豫之中，前一阵还收到邀请分享就业心得。因为行程安排没有能参加，趁着今天放假，就直接记录一段这段时间的心情和事情，记录的内容里，我的选择有对有
组队学习首次开放许愿啦！下个月想学什么，听你的 datawhale
原创DatawhaleDatawhaleDatawhale学习开源贡献：Datawhale团队许愿你想学习的课程组队学习新增许愿环节，每个人都可以在留言区写下你想学习的内容。许愿规则▶许愿的内容不能太广。举个栗子，不推荐大家直接许愿：「机器学习」，而是许愿：「机器学习入门概念讲解」，或者具体到某个算法：「线性回归的公式推导+代码实战」，这样便于我们在1个月内完成制作。▶不限制课程难度，只要是刚需就
DataWhale wow-agent task 2: llama-index搭建电商数据库查询&课本问答agent Meteora1024875 数据库 llama
创建demoagentllama-index默认调用OpenAI大模型，调用其他模型需要继承CustomLLM类自定义一个类。教程中还实现了一个流式输出的功能，即各大ai聊天平台上的打字机效果。这节课构建的agent暂且不需要记忆对话历史。llama-index库之于openai库的优势方便连接外部数据SQL数据库操作配置对话模型创建数据库对话引擎llama中的NLSQLTableQueryEng
周报 | 25.1.27-25.2.2文章汇总双木的木深度学习拓展阅读 python拓展学习人工智能 transformer 算法深度学习 YOLO chatgpt llama
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.1.20-25.1.26文章汇总-CSDN博客机器学习AI算法工程|DeepSeekV3两周使用总结-CSDN博客Datawhale|一文详尽之SFT（监督微调，建议收藏）！-CSDN博客arXiv每日学术速递|强强联合：CNN与Transformer融合创新提升模型性能！！-CSDN博客AI生成未来|字节提出VideoWo
Stable Diffusion创始人：DeepSeek没有抄袭！ Datawhale stable diffusion 人工智能
Datawhale分享观点：EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物，而且从模型的角度来看，没有办法完全阻止这种情况的发生。Butifyouactuallylookatwhatthepapersays
【AI Agent系列】【MetaGPT多智能体学习】1. 再理解 AI Agent - 经典案例和热门框架综述同学小张大模型人工智能学习 gpt 笔记 MetaGPT agi 智能体
本系列文章跟随《MetaGPT多智能体课程》（https://github.com/datawhalechina/hugging-multi-agent），深入理解并实践多智能体系统的开发。本文为该课程的第二章（智能体综述及多智能体框架介绍)笔记）。文章目录0.温故而知新-再看AIAgent是什么1.一个AIAgent实例介绍-BabyAGI2.多智能体框架比较3.警告？0.温故而知新-再看AIA
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析视觉萌新、深度强化学习深度Q网络 DQN
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放（PER）噪声网络（noisy）本文图片与源码均来自《EasyRL》：https://github.com/datawhalechina/easy-rl介绍核心思想：训练动作价值函数Q
DataWhale Pandas数据分析 Task01：预备知识 Shawnxs_ DataWhale Pandas数据分类 python pandas
文章目录练习Ex1：利用列表推导式写矩阵乘法Ex2：更新矩阵Ex3：卡方统计量Ex4：改进矩阵计算的性能Ex5：连续整数的最大长度心得体会练习Ex1：利用列表推导式写矩阵乘法一般的矩阵乘法根据公式，可以由三重循环写出：In[138]:M1=np.random.rand(2,3)In[139]:M2=np.random.rand(3,4)In[140]:res=np.empty((M1.shape[
Day04-线性代数-特征值和特征向量(DataWhale) liying_tt 数学基础线性代数
七、特征值和特征向量AAA是n阶方阵，数λ\lambdaλ，若存在非零列向量α⃗\vec{\alpha}α，使得Aα⃗=λα⃗A\vec{\alpha}=\lambda\vec{\alpha}Aα=λα，则λ\lambdaλ是特征值，α⃗\vec{\alpha}α是对应于λ\lambdaλ的特征向量λ\lambdaλ可以为0α⃗\vec{\alpha}α不能为0⃗\vec{0}0，且为列向量Aα⃗
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

动手学CV-Pytorch（二）数据集及读取方法

1. pytorch自带数据集及读取方法

2 自定义数据集及读取方法

3 分类任务通用的ImageFolder读取形式

你可能感兴趣的:(Datawhale)