样本库再次修改

2006.11.6     168个样本,提取27个特征
2006.11.10   样本数604;
                       增加灰度共生矩阵特征及形态学特征
                      使用逐步求精的思路来搜索最优的弱分类器

2006.11.22  样本增加至3600多个
                      修改灰度共生矩阵提取特征的方向
                      增加灰度差分统计特征
                      加入gabor特征
2006.12.5  样本库修正
                        1003个手工切割的病斑样本,425个从程序中获取的较大的非病斑样本

2007.3月左右
            这是到目前为止实现的最稳定的样本库。
            1000个手工剪切的正样本,1000个负样本,其中手工剪切500个左右,程序剪切500个左右
            从2007.3月至2007.9月的所有实验均是基于这个样本库
            所做过的正规实验包括八种特征提取方法、七种特征选择方式、HMax模型以及ColorHMax模型、三种识别方案等等
          张师姐发表的四五篇论文,已经自己的论文的实验数据,均是基于这个样本库

2007.10
            样本库再次扩充
            正样本没有改变,只是对负样本库进行扩充。
          病斑负样本通过三个方式获得:从289幅柑橘叶片上用程序截取非病斑区域(叶片边缘与叶片区域)共计约3000余个;从柑橘叶片图像上手工剪切不同颜色的背景区域约600个;从互联网上用爬虫程序搜索获得2600幅大小为140X140的叶片图像。三种方式获得的负样本数量共计6150枚。在1000枚病斑正样本上截取10X10窗口10个,共计10000个窗口级的正样本;在每个病斑负样本上截取10X10窗口10个,共计60000余个窗口级的负样本。

2007.11.27日起弃用该样本库
原因在于:
1、负样本过于复杂
   从web上搜索获得的图片其特征多样、形式多样,导致负样本库本身差异非常大
   将近7万个样本训练一个500轮的分类器,训练错误率仍然在5%以上

2、实验耗时非常巨大
   将近7万个样本训练一个500轮的分类器,耗时36小时以上,这是无法仍受的

3、重复样本数量巨大
   尤其是负样本,存在大量相似的样本。

基于以上三个原因,我们在11.27以后对负样本库进行了精简

将从web上表现差异非常大的负样本删除
将从叶片上通过程序剪切获取的相似负样本大量删除

精简后,病斑负样本由6000减至2000
窗口负样本由60000以上减少至10000左右

 
 

你可能感兴趣的:(Web,互联网)