Python notebook using data from Airbus Ship Detection Challenge Baseline U-Net on PyTorch

 

代码及解析地址https://www.kaggle.com/windsurfer/baseline-u-net-on-pytorch/notebook

运行中出现的问题

1.image file is truncated (XX bytes not processed)

解决方法

from skimage.io import imread
后面增加如下代码行
from PIL import ImageFile
ImageFile.LOAD_TRUNCATED_IMAGES = True

2.显存溢出

BATCH_SIZE 设定可以小一些

3.Validation routine
验证集测试出错
invalid index of a 0-dim tensor

loss.data[0]改为loss.item()
jaccard += [get_jaccard(targets, (outputs > 0).float()).data[0]]

改为

jaccard += [get_jaccard(targets, (outputs > 0).float()).item()]

4 test出错,CUDA error: out of memory

增加with torch.no_grad():,修改后如下

with torch.no_grad():

        outputs = model(inputs)

5 修改训练集

airbus-ship-detection数据集的图像数据过多,其中显示过小的图像可以移除,选择显示较为明显的船只图像和背景图像作为训练集,采用以下代码船只区域较大的图像

    cnts, hierarchy=cv2.findContours(all_masks,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)
    #寻找面积最大的区域并计算出其面积
    c = sorted(cnts, key=cv2.contourArea, reverse=True)[0]
    area=cv2.contourArea(c)

对于新的数据集,需要对包含船只位置信息的train_ship_segmentations_v2.csv文件内容作出筛选

masks = pd.read_csv(os.path.join(ship_dir,
                                 'train_ship_segmentations_v2.csv'))

在读取csv文件后增加如下代码行

train_names = [f for f in os.listdir(train_image_dir)]
masks = masks[masks['ImageId'].isin(train_names)]
print(masks.shape[0],'train masks found')

无船只的背景图像过多,为平衡有船与无船样本个数,删去14w张背景图像

masks = masks.drop(masks[masks.EncodedPixels.isnull()].sample(140000,random_state=42).index)

10次训练后在验证集的loss值降到11.74

在测试集上的效果一般,特别对于陆地图像,会误识别房屋堤岸为船只,对于船只图像会有识别域不连通的问题

Python notebook using data from Airbus Ship Detection Challenge Baseline U-Net on PyTorch_第1张图片

你可能感兴趣的:(人工智能)