多示例学习(Multi Instance Learning)的概念

多示例学习(Multi Instance Learning)的概念

            根据训练数据歧义性大小,大致可以把在该领域进行的研究划分为三种学习框架:监督学习、非监督学习和强化学习。监督学习的样本示例带有标记;非监督学习的样本示例没有标记,因而该学习模型的歧义性较大。多示例学习可以认为是与三种传统学习框架并列的第四种学习框架。由Dietterich等人于1997年提出,提出的背景是通过一项对分子活性的研究,文章是"Solving the Multiple-Instance Problem with Axis Parallel Rectangles" ,下面就对多示例问题做一个概念性的介绍。
    多示例学习可以被描述为:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。(这里说包中的示例没有标记,而后面又说包中至少存在一个正标记的示例时包为正标记包,是相对训练而言的,也就是说训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别)。通过定义可以看出,与监督学习相比,多示例学习数据集中的样本示例的标记是未知的,而监督学习的训练样本集中,每个示例都有一个一已知的标记;与非监督学习相比,多示例学习仅仅只有包的标记是已知的,而非监督学习样本所有示例均没有标记。但是多示例学习有个特点就是它广泛存在真实的世界中,潜在的应用前景非常大。
    下面讲到的内容是Dietterich在97年的那篇文章中的一些理解,感兴趣的可以接着看,知道在什么背景下得出的多示例学习问题,是怎样通过分子活性得出的。分子活性判断可以用来制药,即判断哪些分子活性高,哪些分子活性低,但是有个问题就是同一个分子会有不同形状(化学上学过),而生物化学家目前只知道哪些分子适于制药,并不知道具体分子的哪一种形状起到了决定性作用。如果直接使用监督学习框架,将适于制药的分子的所有形状都作为正例,那么正例中的噪声会很高,因为适于制药的分子的一些形状是不适于制药的,所以简单认为适于制药的分子所有形状都是适合制药的,会导致训练数据集中存在大量假正例(false positive),使学习过程受到严重的干扰,      为了解决这些困难,Dietterich等人采用基于射线的分子外形表示方法。具体的可以参考论文,一个简单的例子就是下图所示:
                           多示例学习(Multi Instance Learning)的概念_第1张图片
依次记录由远点发出的8条射线与曲线的交点与原点之间的距离,得到一个8维的向量(x1,x2,....x8),论文中对分子的每个形状都表示成了166维的特征向量,即包中的每个示例是一个166维的特征向量。
    国内对多示例学习研究的大牛就是南大的周志华教授了,他发了很多这方面的文章, 而且周老师的文章都非常自然,非常容易读懂,写的非常好,不愧是大牛,已经深入浅出到了炉火纯青的地步了,大家可以去主页好好膜拜下,想细致了解的就好好读他的文章就行了。


[1] 杨志武,《多示例学习算法研究》,硕士论文
[2] T.G. Dietterich, R.H. Lathrop, and L.T. Perez, “Solving the Multiple-Instance Problem with Axis       Parallel Rectangles,”Artificial Intelligence,vol. 89, pp. 31-71, 1997.
     

你可能感兴趣的:(机器学习,多示例学习,MIL,机器学习)