点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
哔哩哔哩直播通道
扫码关注AI TIME哔哩哔哩官方账号预约直播
10月26日15:00-17:30
讲者简介
卢浩宇:
中国人民大学高瓴人工智能学院二年级直博生,研究兴趣包括多模态预训练模型,视频表示学习等。
报告题目
用于视频文本建模的语义监督去噪网络
报告简介
随着网络视频的快速增长,视频文本建模引起学术界与工业界广泛的关注。大多数现有的方法都假设视频帧和文本描述在语义上是相关联的,并专注于视频层面的视频语言建模。然而这种假设在现实场景里往往是失效的:(1)视频内容语义丰富,单一的视频级描述很难覆盖所有帧的语义信息;(2)原始视频通常具有噪声/无意义的信息(例如,风景镜头、过渡或预告)。尽管最近的一些工作使用注意力机制来缓解这个问题,但不相关/噪声的信息仍然使其难以解决。为了解决这个问题,我们提出了一个高效的模型(LGDN,Language-Guided Denoising Network)用于视频文本建模。与大多数使用所有视频帧的方法不同,LGDN利用文本监督来动态过滤噪声或冗余帧,并提取2-4个关键帧用于token级别的细粒度对齐。LGDN在5个标准数据集上显著超越最新的结果。我们同时提供详细的消融实验来揭示噪声问题的重要性,希望对未来的视频文本工作有所启发。
讲者简介
孙宇冲:
中国人民大学高瓴人工智能学院直博三年级,研究兴趣包括自然语言多模态理解、多模态交互等。
报告题目
基于多模态时序对比学习的长视频-语言预训练
报告简介
大规模的视频-语言预训练在视频-语言理解任务中带来显著的性能提升。以往对视频-语言预训练的研究主要集中在短视频(即30秒内的视频)和句子上,对长视频-语言预训练的研究很少。直接从长视频和语言中学习表示可以帮助许多长视频-语言理解下游任务。然而,由于远程关系建模的难度和多帧引起的计算负担,这是具有挑战性的。在本文中,我们介绍了一个Long-Form VIdeo-LAnguage预训练模型(LF-VILA),并在构建的大规模长视频和段落数据集上进行训练。为了有效地捕捉丰富的时间动态,并以有效的端到端方式更好地对齐视频和语言,我们在LF-VILA模型中引入了两种新设计。我们首先提出了一种多模态时序对比学习(MTC)损失,通过鼓励长视频和段落之间的细粒度对齐来学习不同模态之间的时序关系。其次,我们提出了一种分层时间窗口注意力(HTWA)机制,以有效捕获长期依赖关系,同时降低Transformer的计算开销。我们在7个下游长视频语言理解任务(包括段落到视频检索和长视频问答)上对预训练的LF-VILA模型进行了测试,取得了最好的性能。具体而言,我们的模型在ActivityNet段落到视频检索任务上取得了16.1%的相对改进,在How2QA任务上取得了2.4%的相对改进。我们在https://github.com/microsoft/XPretrain发布我们的代码、数据集和预训练的模型。
讲者简介
雷润林:
中国人民大学高瓴人工智能学院直博一年级,研究兴趣包括图神经网络、图谱理论等。
报告题目
一种基于谱域的鲁棒图神经网络设计
报告简介
图谱神经网络(GNN)因其在图谱机器学习中的良好表现而受到广泛的研究关注。尽管它们具有非凡的预测精度,但现有的方法在面对测试图上的同配性变化时并不鲁棒,使这些模型容易受到图结构的攻击,在应用到同配性不同的图上时作用有限。目前已有许多方法来提高GNN模型的鲁棒性,但这些技术大多局限于空域,并采用了复杂的防御机制,如学习新的图结构或计算边注意力。对此,我们期望研究在谱域中设计简单而鲁棒的GNN模型的问题。我们提出了EvenNet,一个对应于偶数阶图滤波器的谱域GNN。基于我们在空域和谱域的理论分析,我们证明了EvenNet在不同异配性上的图的泛化能力优于全阶数模型,这意味着忽略奇数跳邻居可以提高谱域GNN的鲁棒性。我们在合成和真实数据集上进行了实验,证明了EvenNet在同异配泛化的有效性。值得注意的是,EvenNet在不引入额外计算成本的情况下,对非目标性结构攻击的表现优于现有的防御模型,在节点分类任务中同样保持竞争力。
讲者简介
高一钊:
中国人民大学高瓴人工智能学院直博三年级,研究兴趣包括对比学习、元学习、多模态预训练、连续学习等。
报告题目
基于双向动量更新的跨模态视频-文本连续学习
报告简介
视频-文本模型在用流数据训练时,会出现灾难性遗忘问题。在这项工作中,我们提出了一个连续视频-文本预训练(CVLM)设置:模型依次在五个被广泛使用的、具有不同数据分布的视频-文本数据集上进行训练。尽管大多数现有的连续学习方法通过利用额外的信息(例如,过去任务的记忆数据)或动态扩展的网络取得了成功,但这些方法在我们的CVLM设置下会造成巨大的资源消耗。为了克服CVLM中的问题(即灾难性遗忘和严重的资源消耗),我们提出了一种新的基于MoCo的多模态模型BMU-MoCo,该模型带有双向动量更新机制(BMU)。具体而言,我们的BMU-MoCo有两个核心设计:(1)与传统的MoCo不同,我们在每个训练步骤中不仅对动量编码器进行动量更新,还对编码器进行动量更新(即双向更新),这使得模型能够回顾保留在动量编码器中的知识。(2) 为了通过利用早期的知识进一步加强我们的BMU-MoCo,我们另外维护了一对具有相同BMU策略的全局动量编码器(只在最开始时初始化)。大量的实验结果表明,即使不使用任何额外的数据或动态网络,我们的BMU-MoCo在视频-文本检索的性能和遗忘率方面明显优于最近的连续学习方法。
讲者简介
何明国:
中国人民大学高瓴人工智能学院直博三年级,研究兴趣包括谱图神经网络和可扩展图神经网络
报告题目
重新审视基于切比雪夫近似的图卷积神经网络
报告简介
设计图卷积网络是图学习中的一个具有挑战性的问题。ChebNet是早期著名的工作之一,它使用切比雪夫多项式展开来近似图卷积。GCN仅使用一阶切比雪夫多项式来简化ChebNet,但却在实际数据集上优于ChebNet。GPR-GNN 和 BernNet 通过实验证明了Monomial和 Bernstein 多项式基在近似图卷积时优于切比雪夫多项式基,但是这样的结论在近似理论中是违反直觉的,因为切比雪夫多项式实现了逼近函数的最佳收敛率。在本文中,我们重新审视了利用切比雪夫多项式近似图卷积的问题。我们发现,ChebNet 的较差性能主要是由于ChebNet 在近似解析的滤波器函数时会学习到不合理的系数,从而导致了过拟合现象。然后我们提出了一种基于切比雪夫插值的GNN模型,ChebNetII,它增强了原始切比雪夫多项式近似,同时避免了龙格现象。实验表明ChebNetII 可以学习任意的图卷积并在全监督和半监督图节点分类任务中取得了优异的性能。
讲者简介
管界超:
中国人民大学信息学院五年级直博生,研究兴趣包括机器学习理论和多臂老虎机问题。博士期间专注于为元学习模型提供泛化误差界分析。
报告题目
关于现代元学习算法稳定性和泛化性的细粒度分析
报告简介
近年来,基于“支撑/查询集”划分的训练策略已经被广泛用于现代元学习算法中。当假定 n个训练任务和新来的测试任务都是从同一个环境当中采样出来时,已有的工作已经利用算法稳定性分析为光滑非凸函数提供了一个量级为 O(n^(-1/2)) 的元学习泛化误差上界。在本文中,我们将通过考虑更为一般的情形,来为现代元学习算法的稳定性和泛化性提供细粒度的分析。首先,我们将为两类损失函数提供相匹配的稳定性上界和稳定性下界:(1) 非光滑且带有 α-Hölder连续次梯度的凸函数 (α ∈ [0,1));(2) 光滑 (包含凸与非凸)函数。我们的紧稳定性界表明,在非光滑凸函数情况下,元学习算法将会比在光滑函数的情况下更加不稳定。对于光滑的非凸函数,我们的稳定性界会比已有的稳定性界更紧。其次,我们将为基于上述两种损失函数的元学习算法提供以高概率成立的改进泛化误差界。具体地,我们首先证明了,在独立任务环境的假设下, 通过算法稳定性分析得到的量级为 O(n^(-1/2)) 的元学习泛化误差界是几乎最优的。基于这个理论结果,我们给出了2个比较深刻的洞见:(1)在“任务采样于环境”统计假设下,元学习泛化误差界的收敛速率不会快于 O(n^(-1/2)),由此说明了任务环境假设的局限性;(2)在任务环境的统计假设下,当任务数量多于每个任务当中的训练样本数量时,基于“支撑/查询集”划分的元学习训练策略能够比在所有训练样本上进行经验损失最小化的元学习训练策略取得更紧的误差界,由此严格证明了“支撑/查询集”训练策略的优越性。为了获得更快的收敛速率,我们接下来展示了如何利用额外的关于损失函数的曲率性质来得到量级为 O(ln(n)/n) 的元学习泛化误差界。最后,我们将为非独立任务的元学习建立泛化误差界,其中不同任务之间的相关关系能够被相关图来刻画。在回归问题上的实验进一步证明了我们的元学习泛化误差界在独立任务环境和非独立任务环境下的收敛表现。
讲者简介
孙宏达:
中国人民大学高瓴人工智能学院直博三年级,研究兴趣包括药物设计、机器学习、自然语言处理等。
报告题目
基于因果推理的多轮药物推荐模型
报告简介
人工智能赋能的药物推荐已成为医疗保健研究领域的一项重要任务,它为帮助人类医生提供更准确、更高效的药物处方提供了额外的视角。通常,药物推荐是基于患者在电子健康记录中的诊断结果。我们假设在药物推荐中需要解决三个关键因素:(1)消除由于可观察信息的限制导致的推荐偏倚;(2)更好地利用历史健康状况;(3)协调多种药物以控制安全性。为此,我们提出了 DrugRec,一种基于因果推断的药物推荐模型。该因果图模型可以通过前门调整来识别和消除推荐偏差。同时,我们在因果图中对多次就诊进行建模,以表征患者的历史健康状况。最后,我们将药物-药物相互作用 (DDI) 建模为可满足性 (SAT) 问题,解决该 SAT 问题有助于更好地协调推荐。实验结果表明,我们提出的模型在广泛使用的电子病历数据集 MIMIC-III 和 MIMIC-IV 上实现了最优的性能,证明了我们方法的有效性和安全性。
大家可以在群内进行提问,请添加“AI TIME小助手(微信号:AITIME_HY)”,回复“NIPS”,将拉您进“AI TIME NeurIPS交流群”!
AI TIME微信小助手
主 办:AI TIME
合作媒体:AI 数据派
合作伙伴:中国工程院知领直播、学堂在线、蔻享学术、AMiner、 Ever链动、科研云
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。
我知道你
在看
哦
~
点击 阅读原文 预约直播!