点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
2021 年 7 月 13 日,「AI TIME 走进浙大」论坛在浙江大学公共管理学院隆重举行。
此次活动得到了浙江大学计算机学院人工智能研究研究所、浙江大学计算社会科学研究中心、浙江大学工程师学院、阿里巴巴集团、中软国际教育集团等机构的大力支持。
在本次论坛中,AI TIME 负责人何芸老师首先对 AI TIME 的起源、定位、使命、系列活动进行了介绍。
接着,中软国际教育集团“未来杯”大赛事业部总经理张喆先生发布了 2021“未来杯”高校 AI 挑战赛。
随后,浙江大学计算机学院人工智能系主任杨洋副教授、浙江大学计算机系况琨副教授、阿里巴巴集团资深算法总监杨红霞博士、浙江大学公共管理学院研究员吴超分别带来了时序图数据挖掘、因果推理与因果学习、大规模多模态预训练模型、群体智能与数据资产四个方向的学术报告。
最后,本次论坛的嘉宾与现场观众就「大规模预训练模型如何改变 AI 研究」这一话题展开了精彩的讨论。
主题报告
杨洋:Time2Graph
浙江大学计算机学院人工智能系主任杨洋介绍了其团队在融合时间序列和图数据,进行时间序列建模方面的研究进展——Time2Graph。杨洋教授团队的团队主要从事基于图数据的异常检测、图表示学习、计算社会学等方面的研究,相关成果被应用于国家电网、中国电信、海康威视、阿里巴巴等企业。
时序数据大量存在于我们的日常生活和业务场景下,股票价格波动、交通流量变化、癫痫患者的脑电数据都属于时序数据。为了对时序数据的模式进行识别和分析,我们往往需要具备一些领域的先验知识。为此,杨洋教授团队提出考虑构造时序数据波形的「基因」,将某些行为与特定的时序数据中的模式关联起来。
具体而言,时序数据中具有代表性的子序列被称为 Shapelets,该片段具有很强的可解释性。我们需要找出一些 Shaplets 能够将正负样本的空间距离拉开。
杨洋教授团队利用该技术成功地帮助国家电网识别出了用户的窃电行为。由于 Shapelets 在不同的时间段代表的物理意义有所差别,杨洋教授团队提出了「Time-aware Shapelets」。当我们挖掘出每个片段波形对应的 Shapelets 后,就可以将原始数据转化为 Sharpelets 的索引序列,从而将原始时间序列转化为更低维空间中的离散表征。
为了在计算复杂度可接受的情况下表示出 Time-aware Shapelets,杨洋教授团队构造了 Shapelet 演化图,其中节点代表 Shapelets,有向边的权重代表 Shapelets 共现的概率。根据 Shapelets 的物理意义和演化图中边的情况,我们就可以识别出异常的窃电行为。
在杨洋教授课题组被 TKDE 录取的最新论文中,他们提出了 Time2Graph+,试图自动地学出 Shapelets 演化图的结构,该方法取得了一定的性能提升。
此外,图结构也可能随着时间而发生变化。因此,杨洋教授课题组在论文「EvoNet」中提出了一种动态图神经网络,从而量化地表征图结构的变化过程。
主题报告
况琨:因果推理与因果学习
浙江大学计算机学院况琨副教授在本次论坛中概述了因果推理与因果学习的概念,并简要介绍了其团队在这个方面取得的一些研究进展。
目前,数据驱动的深度学习技术在诸多领域取得了成功。然而,目前的深度学习模型大多只利用了数据之间的「关联」关系,并没有考虑其因果关系,这导致这些模型的稳定性、可解释性仍然存在一定的瓶颈。
况琨教授团队致力于通过因果推断技术,从大数据中挖掘出因果关联(因果推断),以及利用因果关联帮助提升机器学习模型的可解释性、稳定性、公平性。
01
因果推断
为了研究变量之间的因果关系,我们需要在保证无关变量不变的情况下,通过改变原因变量,考虑其对结果的影响。然而,实际情况下,我们很难保证数据集中样本的无关变量分布一致,因此我们需要平衡混淆因子的分布。
在平衡特征分布的过程中,为了在连续和高维的情况下匹配特征相近的样本,我们可以采用倾向得分匹配技术,将高维特征转化为以为概率,从而利用历史数据估计因果效应。
况琨教授指出,在大数据背景下利用因果推理技术主要面临两大挑战:
(1)如何通过数据驱动的机器学习技术找出混淆因子
(2)解决非二值化的因果推理问题。
为此,况琨教授团队提出了数据驱动的变量分解算法,他们够早了一种新的因果结构图,根据观测变量与输出变量和干预之间的关系,将其分成了两类。从而在无偏估计的情况下,得到了比传统经济学方法方差更小的结果。
此外,在一些经济学和社会学应用场景下,有些工具变量也与 T 相关。为了找出这些工具变量,况琨教授团队利用深度学习的方法进一步对混淆因子进行解耦,通过表征学习生成工具变量。
02
因果学习
目前数据驱动的深度学习模型普遍难以解释,且预测结果十分不稳定。这是由于现在的神经网络大多数利用的是数据之间的关联关系,并且这些关联大多存在混淆偏差、选择偏差,存在一些虚假的关联。
为此,况琨教授团队提出通过因果特征选择技术,构建识别模式的因果特征,从而消除虚假关联,提升模型的鲁棒性、稳定性。况琨教授团队还利用因果去偏技术,构建了多模态数据表征学习的因果干预模型,从而减少了多模态学习场景下的虚假关联。
此外,况琨教授团队基于因果反事实推理技术,赋能智能司法,实现了公平的法律文本的生成。
主题报告
杨红霞:大规模多模态预训练模型 M6 研发实践与落地应用
多模态预训练模型是下一代人工智能的重要基础。在本次论坛中,阿里巴巴集团资深算法总监杨红霞博士从超大规模多模态预训练模型发展、M6 模型的高效模型架构、M6 的文到图生成能力突破、M6 的下游任务和商业化这四个角度介绍了其团队在大规模多模态预训练模型 M6 的研发实践与落地应用方面的相关工作。
01
超大规模预训练模型发展和商业化
谷歌 BERT 模型的出现为这一轮大规模预训练模型的发展奠定了基础。去年 11 月前后,谷歌宣称其英文搜索引擎和多语言翻译等功能如今已经完全替换为基于 BERT 开发的后台模型,该模型主要使用了 Transformer 的编码模块,其搜索引擎的整体性能提升了 10%。我们通常认为,训练数据量越大时,模型的可训练能力就越强。
随后,OpenAI 也不甘示弱,推出了 GPT 系列模型。其近期发布的 GPT-3 模型的参数规模达到了 1750 亿,效果十分惊艳。该模型使用了 Masked 注意力机制,并且具有零样本/小样本学习能力。近期,微软发表了 ZeRO-Infinity,该方法巧妙地将参数迁移到 CPU 中,能够应对 3D 并行性的飞跃,大大提升了训练效率。由于 GPT-3 主要面向生成任务,所以该模型应用到了 Transformer 的解码器模块。
今年年初,谷歌发布了具有 1.6 万亿参数的超大规模预训练模型 Switch Transformer,采用了混合专家系统(MoE)、稀疏激活、混合精度等技术提升了模型的效率。此外,他们还提出了多任务统一建模模型(MUM),这种多模态模型可以同时处理网页、图像等多种数据,其性能比 BERT 强大 1000 倍。
2020 年 1 月,阿里巴巴集团正式启动了 M6 大规模多模态预训练模型项目。对于电子商务公司来说,推荐系统是最核心的应用之一,而该任务中最大的挑战是冷启动问题。目前,许多推荐系统算法使用的是深度用户序列模型,该模型要求用户活跃、数据充足。而每天新增的用户并不满足这一条件,从而造成推荐系统存在「马太效应」,牺牲了处于分布中长尾的用户的推荐结果的公平性。
为此,杨红霞博士团队设计了一种「teacher-student」的知识蒸馏架构,其教师模型为深度用户序列模型,基于多模态预训练模型构造了学生模型,可以学习商品之间的泛内容的相似性,从而在一定程度上解决了冷启动该问题。
02
M6 模型的高效模型架构
目前,阿里巴巴的万亿参数模型已经成功落地,该模型只需要 480 张 GPU 就可以运行万亿参数模型,只需 32 张 GPU 就可以运行千亿参数模型,从而降低了使用的门槛。此外,我们发现 M6 模型具备一定的创造能力,可以推动传统服饰制造业数字化变革,并为阿里巴巴集团的各类下游应用提供能力支持。
具体而言,杨红霞博士团队对 MoE 应用了一种新的门控机制,在模型并行、数据并行、流水线并行之外,实现了 Expert 之间的并行计算。
M6 模型的输入为图片-文本对,采用 masked 语言模型、masked 图像描述模型、masked 文本去噪等任务做预训练,从而赋予模型生成文本的能力。
03
M6 的文到图生成能力突破
为了赋予 M6 模型利用文本生成图像的能力,我们采用了一种二阶段策略。其中,阶段二与上文中文本生成模型相类似,而阶段一则使用VQGAN学习到了图像的离散表示编码。当该模型被训练好之后,我们可以根据描述文本反推出图片。
OpenAI 提出的 DALL-E 模型采用基于 Transformer 自回归的生成方式,其运行速度特别慢,而且它是一种单向前馈网络,在生成序列时,无法考虑未来的信息。此外,该模型也无法做到 Preservation Control,无法在生成图片时保留某些细节。
为此,杨红霞博士团队提出了 UFC-BERT 模型,同时考虑了文本、视觉、Preservation Control 的信号,从而进行统一的学习。
随后,杨红霞博士展示了 M6 模型在根据文本描述生成服饰、推荐系统中搜索长尾词、生成商品推荐理由和广告文案等场景下的应用。
主题报告
吴超:群体智能与数据资产化
在本次论坛中,浙江大学公共管理学院研究员吴超对群体智能、数据资产化的概念进行了概述。
近年来,群体智能的研究逐渐得到了研究人员的重视,它具有分布式、自组织、个异性、交互性、动态性等特点。
在群体智能场景下,我们的优化目标不再针对个体,而是希望优化群体的行为。我们不仅需要考虑单个个体的智能,还需要优化个体与个体、个体与环境之间的交互行为。
此外,群体智能是个异性的,每个个体的优化目标不一定相同。群体中,个体之间的连接是动态变化的,整个群体可能会出现一些新的行为。
我们之所以需要研究群体智能,主要有以下几点考虑:
首先,目前对大模型的研究往往依赖于雄厚的计算资源,而小公司和普通的高效并不具备这种算力。
第二,集中化的建模方式存在计算中心的性能瓶颈。
第三,如果计算中心遭到攻击,则会导致整个系统的鲁棒性下降。
此外,联邦学习等群体智能技术可以保护用户、企业、国家的数据隐私。我们还需要从群体智能的角度出发,思考AI技术为用户、数据提供者带来收益的公平性,避免加剧贫富不均。
吴超教授指出,集中式的建模无法处理复杂系统,无法处理不同层次、行为各异的个体,以及它们之间的相互依赖关系。我们目前的深度学习模型实际上将具有交互的真实世界的复杂系统抽象为了一种聚合形式,从而识别出相应的模式。然而,这种方式忽略了每个个体的各异性。
因此,群体智能模型试图对每一个个体建立个性化的模型,以模型的个性化为目标,让个体在环境中交互,使系统在演化过程中达到均衡的状态。
以联邦学习为例,在群体智能领域中,我们首先需要建立起面向个体的最优的本地模型。我们不再将数据集中起来然后进行统一的表征,而是需要在每个节点分别进行表征,再将每个节点的嵌入对齐。由于本地的样本数量和计算能力有限,我们的模型需要具备小样本学习能力。
此外,本地还会存在模型异构问题。每个计算节点上的数据分布不一,我们需要通过模型选择、超参数优化、NAS 等手段找出最优的模型。
在建立好本地模型后,我们还需要通过对抗(博弈)或协作(知识能力的迁移聚合)的思路形成群体,让节点学到的知识能够融合起来形成群体智能。其中,协作的方式包括联邦学习中的 FedAvg 技术、知识蒸馏、域自适应、联合表示学习等。而对抗的方式包括多能量函数优化,我们可以以此提升系统的鲁棒性。
在构建起群体后,我们还需要从拓扑结构优化、个性化与全局模型进化、新行为的快速收敛等角度考虑群体的动态性和群体进化。
目前,吴超教授团队正试图通过贝叶斯方法优化联邦学习中个节点之间的拓扑结构,采用元学习技术让全局模型帮助整个系统更快收敛。由于我们最终的目标是让群体智能更好地对复杂系统进行仿真和预测,我们需要利用真实世界验证模型空间。
数据资产化是构建群体智能的过程中一个非常关键的问题,我们也将其称为激励机制,它可以帮助我们建立起群体稚嫩的经济模型和生态,让每个参与的节点公平地得到好处。因此,我们需要对模型、数据进行定价,这与数字经济的发展方向也十分吻合。
为了公平地考虑数据对模型带来的价值,我们首先应该考虑如何将数据转变为生产要素,即数据的要素化。在这里,我们需要关注如何确定数据的所有权,我们也可以将数据的所有权和使用权分开,或采用数据 DRM 的方式保护所有权。此外,我们还需要基与现代产权理论对数据进行确权。
数据要素的市场化也是一个值得研究的课题,我们可以针对贡献度评价、市场定价、生态支持等问题展开一系列的研究。
思辨论道
大规模预训练模型如何改变 AI 研究?
01 知识图谱、因果推理、图神经网络、大数据等研究领域与大模型结合的研究挑战在哪里?如何缓解这些挑战?
杨洋:在图数据领域,目前有一些工作提出设计上千层的图神经玩路过。然而,实际上我们平时在使用 GNN 时,训练 4-5 层GNN 就会出现过平滑现象。我们需要思考何时需要使用更深的 GNN ,合适需要使用大的维度、大的参数量?
况琨:我们从事因果学习的团队更多地是从可解释、无偏学习等角度展开研究。相比于企业,高校的计算资源十分有限,我们更多地是从比较巧妙的角度进行研究。
杨红霞:深度学习技术诞生之初也因为缺乏可解释性等问题备受质疑,但是近年来却迅速取得了成功。长远来看,基于 Transformer 的模型一定会越来越流行。
如今,大流量的场景越来越多,为验证大模型提供了基础。深度学习技术在模式识别任务中已经取得了很好的效果,但是在认知和推理任务中仍然存在诸多挑战,而多模态预训练大模型已经具备了一定的创造能力。
学界和业界的合作还存在很大的空间,我们首先需要从身体力行的实践中找到真实场景下的挑战性问题。在找出这些挑战性问题后,我们就需要与高校合作共同探索这些问题,例如:解释模型起作用的原因、设计更好的初始化方式。
吴超:目前联邦学习研究领域处理的问题规模还较小,将大规模预训练模型引入联邦学习确实是未来的一种趋势,可能会提升最终的效果。
02 在大规模预训练模型出现之前,参加算法比赛的选手会将大量精力放在特征研究和算法设计上。然而,自从 BERT 等预训练模型出现后,比赛的竞争趋向于比拼算力,这是否意味着未来比赛的趣味性和挑战性会越来越低?如何解决这个问题?
吴超:比赛是现实竞争的缩影。未来,比赛的主办机构可以考虑对参赛者使用你的计算资源做一些限制。此外,比赛也可以提出更多的新问题,这些问题缺乏形式化描述,可以更加开放、更加面向真实的社会场景,并且尚未被很好地解决。
杨红霞:企业未来应该提出更多具有挑战性的问题。阿里巴巴天池数据竞赛平台未来就考虑限制参赛者使用的 GPU 资源,并且提供更多多模态训练场景下的真实数据,供比赛使用。
况琨:为了增加比赛的趣味性,赛题可以从实际应用的角度出发。而且,比赛的评测指标也可以更加多样化,并不仅仅是考虑准确率,也可以从公平性、可解释性等方面来评价参赛者设计的算法。
杨洋:在目前的许多 AI 竞赛中,也许并不是使用了预训练模型就一定能够得到更好的性能,比赛中使用的一些 Trick 也十分重要。从做研究的角度来说,我们更多地是探索前人没有走过的路。而工业界的责任就是利用更强大的资源来开垦学术界探索到的有前景的方向。
03 学校的责任是进行从无到有的科研。各类比赛除了能够检验大家学习的成果,更重要的是对人才的培养。在高校培养 AI 人才的过程中,我们应该更加重视以下哪些方面:课程设置、师资力量、教材建设、与产业界的结合?
杨洋:高校做研究做大的优势在于学科更加全面,我们应该培养更多的交叉学科人才。此外,教材的建设和课程设置也非常重要。
况琨:从科研的角度来说,我们做研究要更多地与产业结合,不能为了发文章而发文章。博士和硕士应该以解决实际问题为目标。
杨红霞:博士和硕士在读期间应该到企业中去实习。企业可以从真实场景下抽象出最有挑战性的问题,对科研和发文章也很有帮助。
吴超:每个人对世外桃源的理解不一样,同学们需要思考自己对世界有什么自己的关怀,世界会因为自己的努力而发生怎样的改变。
杨洋:我在招自己的研究生时,首先会问学生毕业之后希望从事什么行业,希望通过攻读学位获得什么。发论文和做研究都不是目的,而是手段。我们要因材施教,利用高校和企业的资源有针对性地培养人才。尽管现在「内卷」的环境可能对论文等指标有要求,但是学生还是应该保持初心,坚持自己的理想。
AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!
请将简历等信息发至[email protected]!
微信联系:AITIME_HY
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注
我知道你在看哟
点击 阅读原文 查看精彩回放