(1) 自然图像数据集里面的每幅图像包含的目标很少,但在遥感影像中每幅影像中包含的目标很多;同类目标排列密集,同类目标尺寸变化范围很大、颜色纹理差异较大,且大多数目标都很小;
Poscal Voc数据 GID数据集
(2)遥感图像由于其独特的特性与自然图像有很大的不同,如在同一场景中具有较大的变动性,不同场景之间的相似性(类间方差小,类内方差大)。
(3)目前的语义分割模型大多基于FCN结构改善,FCN结构中存在池化层,尽管池化层可以增加感受野,但是会降低分辨率,分辨率对于解决小目标是很重要的,因为现在的语义分割模型在处理小目标(即小尺寸物体)时效果不太理想;
(4)自然图像RGB 3个通道,目前模型的输入都是3通道的图像,但高分辨率的多光谱遥感影像包含更多通道,这些通道包含更多地物特征。
珠海一号高光谱卫星(256个波段)
①图像中每个像素都具有语义意义;
②除了传统的感兴趣的对象,如建筑物和桥梁,遥感图像还包含有语义意义的背景,如水体、道路和开阔的田野;
③ 物体在HSR(High Spatial Resolution)遥感图像中总是有更大尺度的变化
【注】像素级的空间精度,尤其是不同地物边界的精度是遥感图像语义分割的最大目标
遥感影像前景比例比在自然场景影像中小得多,导致了前景背景的不平衡。
除了传统的三通道栅格图像外,点云和大量通道的数据(如高光谱图像)是常见的遥感数据模式。
与风景图像不同的是,遥感图像通常需要经过大量培训的专业人员对各种物体的圈定(即标记)达到令人满意的准确性。
看了点论文,感觉遥感影像语义分割和传统自然场景影像语义分割评价指标没有太大差别,基本都是以下面几个为基础吧。
(1)基本概念
TP(True Positive):分类准确的正类,意思是预测结果为正类,实际上是正类。
FP(False Positive):被错分类为正类的负类,意思是实际为负类,但是却被预测为正类。
TN(True Negative):分类准确的负类,意思是预测结果为负类,实际上是负类。
FN(False Negative):被错分类为负类的正类,意思是实际为正类,但是却被预测为负类。
(2)评价指标
① 像素准确率 PA =(TP+TN)/(TP+TN+FP+FN)
② 类别像素准确率 CPA = TP / (TP+FP)
③ 类别平均像素准确率 MPA = (CPA1+...+CPAn)/ n
④ 交并比 IoU = TP / (TP+FP+FN)
⑤ 平均交并比 MIoU = (IoU1+...+IoUn) / n
⑥ 频权交并比 FWIoU = [ (TP+FN) / (TP+FP+TN+FN) ] * [ TP / (TP + FP + FN) ]
⑦ 召回率:Recall=TP/(TP+FP)
⑧ F1分数:F1=2*(CPA*Recall)/(CPA+Recall)