读取数据涉及到的两个类: Dataset & DataLoader
Dataset | DataLoader |
提供一种方式去获取数据及其label并编号 | 为网络提供不同的数据形式(数据打包) |
如何获取每一个数据及其label 告诉我们总共有多少个数据(get训练迭代的次数) |
Dataset实战
import os.path
from torch.utils.data import Dataset
from PIL import Image #读取图片
# 初始化类:根据这一个类创建一个特例实例的时候 要运行的一个函数
# 里面内容: 为整个class提供一个全局变量 为后面的函数提供所需的变量
class MyData(Dataset):
def __init__(self, root_dir, label_dir):
# 获取所有图片的地址,需要创建存放所有地址的一个地址列表 用idx获取图片, 先获取文件夹,再获取文件夹下所有图片
self.root_dir = root_dir
self.label_dir = label_dir
self.path = os.path.join(self.root_dir, self.label_dir)
self.img_path = os.listdir(self.path) # 获取图片地址
# idx作为编号 图片地址通过编号获取
def __getitem__(self, idx):
img_name = self.img_path[idx]
img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
img = Image.open(img_item_path)
label = self.label_dir
return img, label
# 数据的长度
def __len__(self):
return len(self.img_path)
root_dir = "dataset/hymenoptera_data/train"
ants_label_dir = "ants"
bees_label_dir = "bees"
ants_dataset = MyData(root_dir, ants_label_dir)
bees_dataset = MyData(root_dir, bees_label_dir)
train_dataset = ants_dataset + bees_dataset
写label文件,提前新建好文件名哟~
import os
# root_dir = "\\绝对路径"
root_dir = "D:\\新建文件夹\\Learn_pytoch\\dataset\\hymenoptera_data\\train"
target_dir = "bees_image"
img_path = os.listdir(os.path.join(root_dir, target_dir))
label = target_dir.split('_')[0]
out_dir = "bees_label"
for i in img_path:
file_name = i.split('.jpg')[0]
with open(os.path.join(root_dir, out_dir, "{}.txt".format(file_name)), 'w') as f:
f.write(label)
将条目直接写入 log_dir 中的事件文件可以被TensorBoard 解析。
`SummaryWriter` 类提供了一个高级 API,用于在给定目录中创建事件文件并向其中添加摘要和事件。 该类异步更新文件内容。 这允许训练程序调用方法以直接从训练循环将数据添加到文件中,而不会减慢训练速度。
log_dir:文件夹名称,不输入也可默认在runs/**CURRENT_DATETIME_HOSTNAME**
打开tensorboard方式: 终端输入 tensorboard --logdir=logs
也可以指定端口 tensorboard --logdir=logs --port=6007
logdir = 事件文件所在文件夹名
SummaryWriter的两个方法
writer.add_scalar()
def add_scalar(
self,
tag,
scalar_value,
global_step=None,
walltime=None,
new_style=False,
double_precision=False,
):
Add scalar data to summary. 添加一个标量数据到summary
Args:
tag (string): Data identifier 图表的title
scalar_value (float or string/blobname): Value to save 需要保存的数值 y轴
global_step (int): Global step value to record 步数 x轴
walltime (float): Optional override default walltime (time.time())
with seconds after epoch of event
new_style (boolean): Whether to use new style (tensor field) or old
style (simple_value field). New style could lead to faster data loading.
writer.add_image()
from torch.utils.tensorboard import SummaryWriter
import numpy as np
from PIL import Image
writer = SummaryWriter("logs") # ">>>"对应的文件存储到的文件夹名
image_path = "dataset/hymenoptera_data/train/bees_image/16838648_415acd9e3f.jpg" #获取图片地址
img_PIL = Image.open(image_path) #根据图片地址获取图片
img_array = np.array(img_PIL) #将PIL格式的图片转化为numpy.array格式
print(type(img_array))
#从PIL到numpy,需要在add_image()中指定shape中每一个数字/维表示的含义
writer.add_image("test", img_array, 2, dataformats='HWC')
"""
def add_image(self, tag, img_tensor, global_step=None, walltime=None, dataformats='CHW'):
Add image data to summary.
Note that this requires the ``pillow`` package.
Args:
tag (string): Data identifier
img_tensor (torch.Tensor, numpy.array, or string/blobname): Image data
global_step (int): Global step value to record 步骤
walltime (float): Optional override default walltime (time.time())
seconds after epoch of event
Shape:
img_tensor: Default is :math:`(3, H, W)`默认通道 高度 宽度. You can use ``torchvision.utils.make_grid()`` to
convert a batch of tensor into 3xHxW format or call ``add_images`` and let us do the job.
Tensor with :math:`(1, H, W)`, :math:`(H, W)`, :math:`(H, W, 3)` is also suitable as long as
corresponding ``dataformats`` argument is passed, e.g. ``CHW``, ``HWC``, ``HW``.
"""
writer.close()