fastai深度学习官方教程代码笔记Lesson3-2

第三课的第二部分,介绍了如何用cnn来进行回归预测的方法,其中采用了一个头部姿势的数据集。回归问题的处理和分类有一些不同,主要体现在预测的结果是一个连续的坐标值。下面对代码进行解读:

数据集简介可以参考:https://blog.csdn.net/LEE18254290736/article/details/89371932
课程内容:https://www.kaggle.com/hortonhearsafoo/fast-ai-v3-lesson-3-head-pose

%reload_ext autoreload
%autoreload 2
%matplotlib inline
from fastai.vision import *
#下载并且解压BiWi数据集
path = untar_data(URLs.BIWI_HEAD_POSE, './data/biwi_head_pose.tgz', './data')
#从文件中读取数据并且处理缺失值,并且忽略最后的6行数据
#注意这里读取的是校准rgb摄像头的文件,包含了平移和旋转的矩阵
#由于同时采集了深度信息和rgb图像,两个摄像头的位置不同,因此需要校准两张图片的坐标,使得坐标对齐
cal = np.genfromtxt(path/'01'/'rgb.cal', skip_footer=6); cal
array([[517.679,   0.   , 320.   ],
       [  0.   , 517.679, 240.5  ],
       [  0.   ,   0.   ,   1.   ]])
#图片路径
fname = path/'09/frame_00667_rgb.jpg'
#定义函数,根据图片路径返回对应的标记文件路径
#这里做了一些修改,因为下面获取数据集的时候,处理的文件路径的相对路径已经包含了path,因此不需要在加上path
def img2txt_name(f): return f'{str(f)[:-7]}pose.txt'
#打开图片文件并显示
img = open_image(fname)
img.show()
fastai深度学习官方教程代码笔记Lesson3-2_第1张图片
output_3_0.png
#通过上面的函数获取图片标记文件,并且读取标记的坐标,坐标为三维
ctr = np.genfromtxt(img2txt_name(fname), skip_header=3); ctr
array([187.332 ,  40.3892, 893.135 ])
#坐标偏移校准,将深度信息的坐标校准到rgb图片(由于两台相机的坐标信息不同导致需要相互转换)
def convert_biwi(coords):
    c1 = coords[0] * cal[0][0]/coords[2] + cal[0][2]
    c2 = coords[1] * cal[1][1]/coords[2] + cal[1][2]
    return tensor([c2,c1])
#获取图片的标记点,并且对坐标校准
def get_ctr(f):
    ctr = np.genfromtxt(img2txt_name(f), skip_header=3)
    return convert_biwi(ctr)
#根据图片坐标生成光流,并转换成ImagePoints对象
#ImagePoints包含了一系列的点,坐标都是从-1到1,表示的是点在图像范围内的位置比例,以中心点为0点
def get_ip(img,pts): return ImagePoints(FlowField(img.size, pts), scale=True)
#获取上述图片的标记点
get_ctr(fname)
tensor([263.9104, 428.5814])
#获取标记点
ctr = get_ctr(fname)
#将标记点转换为ImagePoints对象并在原始图像中显示
img.show(y=get_ip(img, ctr), figsize=(6, 6))
fastai深度学习官方教程代码笔记Lesson3-2_第2张图片
output_6_0.png
#创建数据集
data = (PointsItemList.from_folder(path)
        #根据函数结果将数据集分成测试和验证集,如果条件为true,则分到验证集,
        #这里是把文件夹13的数据分到了验证集
        .split_by_valid_func(lambda o: o.parent.name=='13')
        #使用函数对数据集进行标记,对输入的每个数据使用函数,将获得的结果作为这个数据的标签,
        #这里获得的标签是一个tensor,内容是对应的坐标点
        .label_from_func(get_ctr)
        #变换图片扩充训练集,同时对标签坐标变换,尺度则变换为120*160
        .transform(get_transforms(), tfm_y=True, size=(120,160))
        #生成数据集,并归一化
        .databunch(num_workers=0).normalize(imagenet_stats)
       )
#显示数据集中的图片
data.show_batch(3, figsize=(9,6))
fastai深度学习官方教程代码笔记Lesson3-2_第3张图片
output_7_0.png
# 训练模型,创建resnet34模型
learn = create_cnn(data, models.resnet34)
#寻找合适的学习率
learn.lr_find()
learn.recorder.plot()
#采用合适的学习率学习5轮
lr = 2e-2
learn.fit_one_cycle(5, slice(lr))
#保存模型,并且读取后展示预测结果
learn.save('stage-1')
learn.load('stage-1');
learn.show_results()
#这里展示的get_transforms的各种参数,包括选择角度,缩放尺度,明度,对称变化系数,仿射变换概率系数,照明变化概率系数
tfms = get_transforms(max_rotate=20, max_zoom=1.5, max_lighting=0.5, max_warp=0.4, p_affine=1., p_lighting=1.)
#这里重新设置了数据集,猜测其中的get_transforms应该用tfms来替换
data = (PointsItemList.from_folder(path)
        .split_by_valid_func(lambda o: o.parent.name=='13')
        .label_from_func(get_ctr)
        .transform(get_transforms(), tfm_y=True, size=(120,160))
        .databunch(num_workers=0).normalize(imagenet_stats)
       )
#定向展示单条训练集预测数据的方法
def _plot(i,j,ax):
    x,y = data.train_ds[0]
    x.show(ax, y=y)
#用于显示多条带预测标记的训练集数据
plot_multi(_plot, 3, 3, figsize=(8,6))
fastai深度学习官方教程代码笔记Lesson3-2_第4张图片
output_13_0.png

你可能感兴趣的:(fastai深度学习官方教程代码笔记Lesson3-2)