《A brief introduction to weakly supervised learning》的阅读笔记

笔记内容

    • ABSTRACT
    • 不完全监督
    • 不精确监督
    • 不准确监督
    • 文章下载地址

ABSTRACT

三种典型的弱监督:
不完全监督 incomplete supervision:只有少部分训练数据集有标签
不精确的监督 inexact supervision:训练数据只有粗粒度标签
不准确的监督 inaccurate supervision:给定的标签并不总是真实的

不完全监督

(一)主动学习——with human intervention
目的:训练一个标记成本最小化的良好模型
方法:选择最有价值的未标记样本进行标记
选择标准:信息性&代表性
① 信息性:不确定性抽样&委员会查询
② 代表性:聚类
(二)半监督学习——without human intervention
分类:纯半监督学习(开放)&直推学习(封闭)
分布假设:聚类假设(固有的集群结构)&流形假设(同一流形附近预测相同)
四类方法
generative methods
graph-based methods
low-density separation methods
disagreement-based methods

不精确监督

多实例学习multi-instance learning
将图像分割,每个分割区域为一个实例,一个图像为一个多实例包(bag),正类多实例包的包中至少一个正实例;负类多实例包的包中全是负实例。

不准确监督

(一)相对邻域
节点为一个训练实例,连接两个不同标签的节点的边叫切边。
(二)可疑点
与许多切边相关联的节点。需要删除标记或重新标记。
(三)高维特征空间不可靠
数据稀疏,邻域识别通常不可靠。
(四)特殊例子
众包 中出现的错误标签问题,一个工人有多项任务。
多数投票策略工人质量和任务难度建模。
最低限度的足够数量: 需要的最低数量的人群标签上限。
平衡准确性和标签成本,许多研究涉及任务分配和预算分配。

文章下载地址

A brief introduction to weakly supervised learning

你可能感兴趣的:(机器学习之半监督学习,机器学习)