合肥 VALSE 2019 笔记 workshop:基于视觉和常识的深度推理

对于做PPT的借鉴
(1)观察别人怎样讲自己工作的难点
(2)视觉推理任务的扩展:朱文武老师的小样本分类,张含望老师的X visual reasoning, 史建波老师的first person view
(3)结合沈春华老师CVPR19的工作,regard VQA as reading comprehension, 做多任务学习,结合caption进来
(4)推理更多的是提供一个program,layout,它应该具体到为什么东西服务,即输出,无论是目标检测或者VQA等任务,目前推理还是非常基础的,情景是无穷无尽的,若要结合外部知识,需要一个强大的视觉知识库做支撑。视觉推理,以前是没有视觉推理这样一个方向与课题的,因为近年来vision-language任务的兴起,视觉推理更加火热。视觉更侧重于感知,而VQA具体有哪些应用,梅涛老师认为暂时没看到可以直接大规模应用的场景,而吴琦老师举的例子依旧是盲人辅助,但是可能我们目光不能太过于短浅,未来对于多Agent交互肯定有所裨益。
(5)吴飞老师,最浅层的推理是关联学习,比如公鸡鸣叫与太阳升起的关系,数据驱动的方式是一种演绎推理。
(6)结合scene graph来做,关注一个GQA。
(7)张含望老师提到的一个推理偏差概念,他的PPT会放出来,他认为下一步推理应该关注常识。
(8)推理模块化,多次被提到,modular network值得关注
(9)史建波老师认为机器应该理解人的想法,无论是打篮球判断运动轨迹和采取的行动还是街景行走轨迹预测(那个街角下一步预测,可以作为自己视觉推理的一个任务例子),史建波老师是这样看待常识的:知道什么是可能的,什么是不可能的。
(10)下午视觉推理workshop,刘偲老师提的几个问题:(1)视觉推理与传统推理的区别,视觉起到的作用
《1》视觉推理近年来很火,一方面是visual-language任务的兴起,比如VQA等代表性任务
《2》对于low-level的视觉任务,比如检测等已经解决得比较好了,因此可以开始关注更高层的推理,视觉很多任务可用,比如检测,分割,识别等,因此可以进行更加复杂的任务,这使得视觉推理成为了需要和可能。
《3》推理更像是人类思考的一个过程,我们的左脑更加注重符号,数学,语言,我们的右脑更加注重视觉,视觉起到的是一个感知的作用,观察世界的作用,视觉信号后连接推理模块。
《4》如果认为比如detection任务已经做得很好,转化为scene graph,那么visual reasoning里面视觉的元素已经很少了。
《5》为什么reasoning,希望机器像人一样工作和思考,很多工作都可以归于reasoning,比如问答,图灵测试。
《6》感知和认知的不同 --王鹏老师
《7》应该明白视觉的边界是什么,即什么是该描述的,什么是外在的?
《8》learn to read 1-4年级,reading to learn更大年纪,以读书为例,reasoning,我们不仅要书之间寻找关系,还要学会问问题而不是回答问题,另一个更加重要的方面我们需要想象。
(10)学commonsense,我们从哪儿获得knowledge?
大量文章训练mining,bias也可能是一种knowledge,常识知识库:DPedia, freebase
(11)常识是什么,直觉的物理的,心理学上的,从数据中来(归纳推理),演绎推理,像人一样。
(12)常识怎样表达,目前都是以knowledge graph,怎样更合适地表达是个问题。
(13)常识怎么用,目前是embedding和regularization,还可以怎样用呢?
(14)对于常识与视觉的关系而言,认为其中是断然离不开文本的,以小时候认狗为例,我们会被告知这是狗,是离不开文本的。
(15)刘偲问:开门与关门怎样通过图像来问答?这可能需要的是video qa,不仅是一个时序关联的问题,还需要结合因果推理。
(16)visual reasoning与modular network,后者通过分解为子模块,为推理提供了一种解题思路,modular是砖,model是框架。
我问的两个问题:
(1)怎样理解视觉推理,VQA可能的应用场景? --吴琦
(2)怎样看待VCR这个工作? --张含望
(3)怎样看待常识,认知和推理 --梁小丹

你可能感兴趣的:(参会学习)