作为完全的新手,推荐先去维基百度等看看多示例的简介,再去CSDN等地方阅读一些多示例的综述博客。
总体认知:多示例学习是一种处理称之为包的学习范式,每个包由多个对象组成,一个包对应一个标签,实例通常不含标签,如下图 (b)。
一般而言,从泛读综述性论文或者书籍开始了解一个方向,是不错的选择; 然后锁定1-2个方向,精读两篇代表性论文。
推荐1:Multiple instance learning foundations and algorithms,其囊括了16年以前关于多示例学习的发展历程、应用领域、前沿算法、实验手段等,其封面如下:
小提示:这本书的原版是收费滴,请自行找资源下载。
推荐2:本人小团队大师兄的综述(团队各位持续更新)。
我的弟子可以联系我要以上综述。
使用建议:主要当作手册之类的,当然你如果能在一个月内快速翻阅,对你的帮助无疑是巨大的。
简单地将多示例算法分为两类,则:
1)传统的MIL算法:分析数据的结构,设计一套优化方法之类的,包括:基于实例、基于包、基于嵌入等分析方法。本小组目前的研究重点在此,但后续准备向其他方向延展。
2)基于网络的MIL算法:利用神经网络开展深度学习
基于以上两类算法,都可以拓展到:多视图多示例、多示例多标签等场景。
看学习伙伴那本书,说的很清楚。
入门文章:Multi-instance learning by treating instances as non-I.I.D. samples
小提示:读原文、记笔记。
进阶文章:Isolation set-kernel and its application to multi-instance learning
这一篇提了一个距离度量,后续的处理方法仍是基于嵌入。该文难度较大,读不懂可以先跳过。
开山之作:Multi-instance clustering with applications to multi-instance prediction
进阶文章:Multi-instance learning with discriminative bag mapping
建议,初入门者先具有传统多示例的一点基础后(复现过1-2篇传统多示例算法的代码后),再看网络的处理方法,理解更透一些。
在此且推荐两篇:
注意力机制:Attention-based deep multiple instance learning
损失注意力:Loss-based attention for deep multiple instance learning
如:周志华老师:http://129.211.169.156/publication/index.html?authors=Zhi-Hua%20Zhou
https://blog.csdn.net/minfanphd?type=blog
小提示:入门的同学,除我推荐的数学基础、论文撰写、日撸java代码300行系列外,其他的要根据自己的基础来,不是所有的东西都一下能看懂。
1)西瓜书——《机器学习》作者周志华
2)机器学习实战
3)Pytorch中文教程。
当然这些的前提是你对python有一定的基础,而学基础,就自己找资料吧!
另外,以上书籍都不适合拿着从第一页慢慢看到最后一页,然后一年过去了。建议是:翻阅并做快速了解,然后着重查看自己需要用的部分。
而自己需要用的部分,通常是前面在精度论文、复现论文、实验的时候可能用碰上的,到时候再倒回来精度。
1)google学术:怎么用问问师兄师姐们
2)文献阅读建议:读完3.1 和3.2提到的文献之外,需要在你研究的方向查阅更多文献,再阅读,不要什么都想去下,结果一样不想看就不好了。
3)在自己的研究方向的文献中,建议先读顶刊、顶会和高被引,再逐层下去,毕竟通常情况下:级别越高、被引越多的文献,除了创新性等以外,在论文本身的严谨性、描述方式、句子描述等方面,还是有质量排序的,对你后续自己写论文的导向更正更红。
小提示:顶刊顶会的级别查阅主要有两个
1)微信公众号:中科院文献情报分区表。 SCI-1区~4区就是这个分出来的
2)CCF分类目录。 即CCF-A/B/C会、A/B/C类期刊是中国计算机学会分出来的,自己可以下,我们团队群里也有;找不到问师兄或者我要一个吧;
3)在google学术等查文献,也是可以设置年份、被引等检索域的,这个请教下咋们团队的师兄师姐即可。
1)前面1-3点提到的,建议先采用泛读;
2)泛读完成后,选择1-2个方向的论文文献来精读;
3)无论是泛读或精度,都养成定期写进展报告(或者叫笔记吧)的好习惯;
4)先读摘要,记录下别人的要点,如背景、拟解决问题、手段等。
5)引入和相关工作,是致敬大佬的,除了前期了解的时候和写论文的时候,大部分时间可以直接跳过。
6) 算法部分是文章的精华,所包含的一些技术甚至可以转换为自己学习的武器。尤其在准备复现这篇文章时,需要细致研读。
小提示:别人画的图需要学习下,方便以后自己画的时候用。
7)实验:重点看并记录别人的实验手段、实验数据、对比算法。
对于泛读的笔记,着重于记录文献的基本信息(即Bib,方便以后引用能快速找到)、摘要(这篇文献做了什么)、文中的开局一张图且能够根据图说明这篇文献的技术路线、实验所使用的数据集、实验手段和对比的算法。
对于精度的笔记,除4.1中提到的外,还应着清晰重复述原文献的算法部分;研究其源码;比对算法和源码,彻底理解算法;复现其算法,测试程序、比对试验结果。
小提示:笔记均尽量写清楚一个算法的why 、 what、 how。 只是泛读和精度笔记的how简单或详细的问题。
按照图1的分类、可以根据时间先后顺序排列后阅读,同时把每篇文章记录下来(泛读or精读的选择,此时的你最了解你自己了,自定即可),建议一周至少一篇。
大师兄的博客:https://blog.csdn.net/weixin_44575152/article/details/104769348
暂时用大师兄的Github:https://github.com/InkiInki
需持续整理。
你前期有任何的代码基础,都是你的资本,毕竟程序思想、不同语言是相通的。
不过,在机器学习领域,你需要精通的是:
1)精通Python: 实验快;
2)精通:java或C++之一,真正学习和理解算法思想
特别鸣谢:@「因吉」大师兄的贡献.
本文也是在CSDN博主「因吉」的原创文章:https://blog.csdn.net/weixin_44575152/article/details/123296800基础上,做的进一步修改和完善。