UFLDL 09 自我学习 Self-Taught Learning Unsupervised Feature Learning

  • 1总体思路
  • 2获取特征
  • 3利用特征
  • 其他

本文主要是说自我学习和无监督的特征学习,并不是我们之前说的无监督学习的聚类等内容。

1总体思路

这里的自我学习是特征的学习,是通过自编码和稀疏矩阵得到特征。基本思路如下:
1. 大量的无标签数据导入自编码器(autoencoder),得到其更加本质的特征;
2. 有标签数据导入同一个编码器,用得到的特征和标签进行训练,(使用普通的训练方法比如svm等)得到模型;
3. 利用模型进行预测。
补充点细节

2获取特征

这里的说的特征,是利用自编码网络学到的特征,也就是隐含层输出的特征,一般更加本质,如果输入图像一般第一层隐含层学到的是边缘特征,如果是数字一般是笔画特征。
UFLDL 09 自我学习 Self-Taught Learning Unsupervised Feature Learning_第1张图片
就是这个feature。

3利用特征

上面获取特征的自编码器已经搭建好了,我们现在要做的就是利用他取特征进行训练。
要知道无标签特征可能输入量很大,所以一般可以使用它们比较准确的去得到更加本质的特征。
这里我们将已经标签的数据代入自编码器,得到Features层输出的 a1,a2 ,之后我们有两种利用方式:
1. 直接用新特征来训练模型
2. 用新特征加老特征一起训练模型
其中第二种信息量比较大,一般训练效果要好,但是需要更大的计算能力
然后利用训练的模型进行分类就好了。

4 其他

  1. 要注意的是无标签数据不一定是和有标签数据是一样的,可以看到这一节的配套练习中,其无标签数据用的是数字5-9,而有标签的是0-4,一样可以学得到比较好的特征。
  2. 数据的预处理要求要相同,比如如果用pca,在输入无标签和有标签数据时左乘的矩阵U都必须相同哈。

你可能感兴趣的:(UFLDL)