六月四号是正式开始科研的第一天,刚开始科研,脑袋一片空白,老师也没有跟我交代太多,就让我看了一篇multimodal的综述文章,然后写一篇report交给他。由于疫情的原因,这篇综述看了几个月,然而也并没有看出什么有价值东西。科研的起步阶段是很枯燥的,而且很可能花了不少时间却义务所获,所以学会正确的方式是很重要的。
之后在知乎上看到了一篇经验贴,是曼大的一位计算机专业在读博士的经验分享贴(https://www.zhihu.com/question/21278186/answer/724440797?utm_source=wechat_session&utm_medium=social&utm_oi=761357108913405952)。文章比较全面的介绍了如何顺利的进入一个全新的科研课题,对于刚开始科研的新人帮助很大,建议可以看一看原文。文章从如何做文献调研开始,详细介绍了如何找领域相关的核心文章,利用Web of Science, Histcite等工具挑选出领域的经典必读文献,帮助我们更快的接触到课题的核心技术,这些工具的使用方法在文章中都有详细的攻略,有需要自取。文中还介绍了文献管理神器Mendeley,亲测很好用。
除了阅读课题的经典文献,紧跟当下技术的步法也很重要,阅读一些新的paper是很有必要的,因为有可能之前的一些技术已经过时了。所以如何能够及时获得领域最新的讯息呢?给大家介绍几个我平时在用的方法。首先当然是Google Scholar,输入你研究的课题关键词,可以找到该领域所有的学者,你可以订阅相关学者,这样在他们发表相关文章,甚至是他们关注的领域的新文章,谷歌就会给你发邮件。其次就是Stork文献鸟(https://www.storkapp.me/?logout=1),可以输入你想要关注的关键词,包括课题相关的关键词,或者人名,只要有与你订阅的关键词相关的文章,它就会按关键词分类以后发邮件给你,你是可以设置定时发送的时间的,可以是每天一次,也可以是一周一次。当然还有一些其他的订阅工具,也就不详细展开了。最后还说一个大家应该都在使用的方法,但可能你都没有发现,那就是社交媒体软件, 其中就包括微信公众号、微博、Twitter以及Bilibili等。推荐几个可以关注的up主和订阅号吧,我目前关注的微信公众号有机器之心、量子位、AI科技评论等,每天都会推送相关的资讯,有时候也会有很火的论文解读。微博可以关注一下“爱可可-爱生活”,这是北邮的一个老师,每天更新很多论文和最新的资讯,当然社交媒体关注一些行业大佬是必须的,虽然Lecun已经被网民喷的退网了,但还有诸如Hinton, Jure等人啊,只要是你领域里面厉害的就都关注一下吧。最后的最后,我要猛吹一波B站,想要学习的话,就去B站吧,真的是什么资源都能找到,“爱可可-爱生活”一样也是B站up主,推荐关注一下,只要业界有啥好的资源了,老师都会第一时间为我们搬运过来,比如最新的斯坦福GNN课程,大家快去享用吧。
接下来跟大家分享一下我最近的科研进展吧。之前有说过,老师想让我了解一下Multimodal,多模态学习是现在机器学习的方向,以往模型处理的一般都是单模态问题,比如单一的图像分类、语音识别、机器翻译等,但现在就想怎么利用多种模态的信息帮助模型做出更好的判断。文献调研以后发现,单纯做多模态机器学习的学者并不是很多,只有CMU和NUS两个实验室,在做基于多模态的情绪识别工作,大家有兴趣可以自行前往,他们的实验室主页分别是:
http://multicomp.cs.cmu.edu/,Louis-Philippe Morency
https://sentic.net/about/,ERIK CAMBRIA
目前多模态学习常用的一个框架就是想办法将多个模态的信息对齐、融合在一起,然后再用融合后的embedding来做下游的任务,比如分类任务。在这样的框架之下,多模态的混合表示学习(representation learning)是一个很重要的课题,同时也包括模态信息之间的对齐等问题。
在学习多模态的表示的时候,我发现最近的很多篇文章都用到基于注意力机制的方法,Transformer是目前用的最多的,原本的Transformer是在NLP中用来寻找序列数据之间的关系的,研究者把它扩展到多模态学习中,用来寻找不同模态之间的关系,进而将不同的模态融合在一起,这种方法是比以往的方法(例如:把不同模态的embedding简单相加或者串联)效果提升了很多,但是还是没办法得到一个我们想要的视频的表示,所以video representation的研究还有不少工作可以做。贴几张Transformer的结构图供大家参考:
在看了大量的关于多模态学习的文章以后(其实关于multimodal的文章本来也不多,在https://github.com/pliang279/awesome-multimodal-ml#missing-or-imperfect-modalities上有所有的相关文章的总结),发现单纯的multimodal里面能做的工作确实不多,像representation learning,还是需要找到一个适合的网络来学习。而最近很火热的GNN(Graph Neural Networks)也对多模态的表示学习有一定的需求,比如现在基于知识图谱的推荐系统(这是阿里巴巴正在做的项目),由于抖音等视频社交软件的兴起,使得我们的整个社交网络里面不再只是文字和图片,而是包含了视频等更多的模态信息,这也说明了以往的同质图神经网络的方法已经不能解决当下的多模态问题了,于是就有人提出了异质图结构,然后我呢,也被graph这个神奇的东西给吸引了。
说到这里要推荐大家去看一下今年刚举办的北京智源大会,我在B站把相关的录像都看了一遍,收获很大。认识了很多业界大佬,比如Jure,简直就是我的男神,node2vec和GraphSAGE的作者,现在也是GNN的领头羊了吧,除此之外还有很多优秀的华人学者,比如唐健教授、孙逸舟教授等。他们做的工作基本是GNN相关最前沿的工作了,紧跟他们的步伐是没错的。
伯克利的一位老教授在大会上指出,过去的十年机器学习的关注点在于pattern recognition,重心在感知,但接下来的十年会是在decision-making,认知学习上,如何让机器帮助我们更好的做决策将是接下来要做的事情。所以我就对knowledge graph的推理产生了浓厚的兴趣,幻想一下,当我们能够基于世界上大量的知识来做重大的决策,会不会让我们的世界更美好呢?比如知识图谱推理出去年年底的疫情会在全世界范围内流行,可以帮助我们提前做好防范措施,抑或是基于图神经网络发现了新的可以抗癌的药物,这些都是可以加速人类发展的技术,会对我们产生巨大的利益。
接下来我会更详细的了解知识图谱和图神经网络,多读一些相关的文献,然后挖掘一下以后可以做的一些工作。同时了,在张老师的指点之下,我会将meta-learning的方法和multimodal learning fusion相结合,想办法提出一个更好的融合多模态信息的方法,这是接下来要做的工作,希望对GNN和Multimodal感兴趣的小伙伴一起交流学习。
最后附一些最近阅读的质量比较高的paper,和大家分享。
[1] Y. H. H. Tsai, S. Bai, P. P. Liang, J. Zico Kolter, L. P. Morency, and R. Salakhutdinov, “Multimodal transformer for unaligned multimodal language sequences,” ACL 2019 - 57th Annu. Meet. Assoc. Comput. Linguist. Proc. Conf., pp. 6558–6569, 2020, doi: 10.18653/v1/p19-1656.
[2] H.-Y. Tseng, “Cross-Domain Few-Shot Classification,” Iclr, pp. 1–24, 2020.
[3] A. Cvpr and P. Id, “Multi-Modality Cross Attention Network for Image and Sentence Matching,” pp. 10941–10950, 2020.
[4] Q. Zhang, Z. Lei, Z. Zhang, and S. Z. Li, “Context-Aware Attention Network for Image-Text Retrieval,” pp. 3536–3545.
[5] L. Zhu and Y. Yang, “ActBERT : Learning Global-Local Video-Text Representations,” pp. 8746–8755.
[6] S. Yun, M. Jeong, R. Kim, J. Kang, and H. J. Kim, “Graph Transformer Networks,” no. NeurIPS, 2019, [Online]. Available: http://arxiv.org/abs/1911.06455.
[7] C. Bai, H. Chen, S. Kumar, J. Leskovec, and V. S. Subrahmanian, “M2P2: Multimodal Persuasion Prediction using Adaptive Fusion,” 2020, [Online]. Available: http://arxiv.org/abs/2006.11405.
[8] J. Lu, V. Goswami, M. Rohrbach, D. Parikh, and S. Lee, “12-in-1: Multi-Task Vision and Language Representation Learning,” 2019, [Online]. Available: http://arxiv.org/abs/1912.02315.
[9] H. Ren, W. Hu, and J. Leskovec, “Query2Box: Reasoning Over Knowledge Graphs In Vector Space Using Box Embedding,” pp. 1–17, 2020.