提出了一个半监督回归框架 CoBCReg, 其既不需要冗余独立视图, 也不需要不同的基础学习算法. 现实数据并不总是能被划分为两个冗余的视图, 因此, 与传统的 Co-Training 相比, CoBCReg 基于单视图 .
Co-Training: 是一种流行的 SSL 范式, 其中两个分类器在两个充分且独立的视图上迭代训练. 分别使用两个视图训练两个分类器, 然后在每次迭代中, 每个分类器标记并选择一些未标记的示例来增加另一个分类器的训练集. 尽管多视图协同训练适用于某些领域, 但它的多视图要求在许多实际应用中是不切实际的.
Statistical Co-learning: 使用两种不同的监督学习算法将输入空间划分为一组等价类, 并应用 k k k 折交叉验证:
Tri-Training: 原始训练集通过引导采样生成新的数据集, 将这个数据集作为三个分类器的初始训练集, 进行训练. 然后在 Tri-Training 过程中细化这些分类器, 并通过多数投票产生最终假设.
CoBCReg(Co-training by Committee for Regression): 基于单视图委员会的半监督回归算法, 它扩展了标准的 Co-Training 算法.
为了 CoBCReg 的有效性, 委员会成员之间必须存在一定的多样性, 并且 CoBCReg 应在 SSL 过程中保持这种多样性. 可以通过使用不同的训练子集训练回归器来实现, 也可以通过使用不同的距离度量和随机初始化的回归器参数来实现.
Co-Training 风格的算法存在两个问题:
为了缓解前一个问题, CoBCReg 中使用了一个预测器委员会来预测未标记的示例. 对于后一个问题, 每个回归器为自己选择信息量最大的示例.
符号系统如下:
其中 SelectRelevantExamples 算法如下:
回归器的组合只有在它们具有多样化的情况下才有效. 显然, 如果它们相同, 那么对于每个回归器, 其他回归器估计的输出将与回归器自身估计的输出相同.
在 CoBCReg 中, 创建多样性有三个来源, RBF 网络回归器的训练使用:
两个 D D D 维特征向量 x 1 x_1 x1 和 x 2 x_2 x2 之间的 Minkowski 距离定义如下:
∥ x 1 − x 2 ∥ p = ( ∑ i = 1 D ∣ x 1 i − x 2 i ∣ p ) 1 p \lVert x_1-x_2 \rVert_p=(\sum_{i=1}^D\vert x_{1i}-x_{2i}\vert^p)^{\frac{1}{p}} ∥x1−x2∥p=(i=1∑D∣x1i−x2i∣p)p1
用于以不同的距离阶 p p p 训练不同的 RBF 网络回归器. 一般来说, 阶数越小, 得到的距离度量对数据变化的鲁棒性越强. 这种设置的另一个好处是, 由于很难预先找到给定任务的最佳 p p p 值, 因此基于不同 p p p 值的回归器可能会表现出互补的行为.
CoBCReg 不会损害回归器之间的多样性, 因为回归器选择的示例已从 U U U 中删除. 因此, 其他回归器无法进一步选择它们, 这使得回归器的训练集不相似. 即使训练集变得相似, 回归器仍然可能是多样化的, 因为它们使用不同的距离度量进行实例化.
影响任何 CoTraining 算法性能的最重要因素之一是如何衡量给定未标记示例的置信度. 不准确的置信度估计可能导致选择错误标记的示例并将其添加到标记的训练集中, 因此可能会对 SSL 算法的性能产生负面影响.
对于分类, 这是一项简单的任务, 因为许多分类器可以估计类后验概率, 例如朴素贝叶斯分类器, 或者返回可以转换为类概率估计的实值输出, 例如神经网络和决策树. 假设分类器估计实例 x 1 x_1 x1 属于类 w 1 w_1 w1 和 w 2 w_2 w2 的概率分别为 0.9 和 0.1, 而实例 x 2 x_2 x2 的概率分别为 0.6 和 0.4, 那么分类器对 x 1 x_1 x1 属于类 w 1 w_1 w1 的置信度比 x 2 x_2 x2 高. 因此, 可以使用每个未标记示例的类概率分布为每个未标记示例分配一个标记置信度.
而回归中可能预测的数量是未知的. 在 CoBCReg 中, 提供另一种置信度度量, 称为选择置信度(参见算法 2). 最相关选择的示例应该是最小化验证集上的回归误差的示例.
RBF 网络的两阶段学习算法用于训练以多元高斯径向基函数(g)作为激活函数的回归器. 在第一阶段, RBF 中心通过使用 Minkowski 距离执行 k k k-means 聚类来确定. 使用从 L L L 中随机选择的训练示例初始化高斯中心集. 第 j j j 个 RBF 神经元的宽度( σ j \sigma_j σj)设置为: 中心 c j c_j cj 和两个最近的高斯中心之间的平均 Minkowski 距离乘以 α \alpha α. 在第二阶段, 最接近有限标记示例的输出层权重 W W W 直接通过矩阵伪逆技术确定: W = H + T W = H+T W=H+T, 其中 T T T 是训练示例的目标输出, H H H 是激活矩阵:
H i j = g ( x i ; c j ; σ j , p ) = g ( ∥ x − c j ∥ p / σ j ) = exp ( − ∥ x − c j ∥ p 2 2 σ j 2 ) H_{ij}=g(x_i;c_j;\sigma_j,p)=g(\lVert x-c_j \rVert_p/\sigma_j)=\exp(-\frac{\lVert x-c_j\rVert_p^2}{2\sigma^2_j}) Hij=g(xi;cj;σj,p)=g(∥x−cj∥p/σj)=exp(−2σj2∥x−cj∥p2)