AutoGL:浅谈未来非常有前景的自动图机器学习相关概念

最近一年图神经网络网络的概念很火,也有很多相关的工作诞生。今天重点介绍下AutoGL,也就是Auto Graph Learn方面的基础概念。首先还是说下图计算和之前传统的非图类结构化数据计算的区别。

Graph建模的特点

以推荐系统为例,传统的结构化数据,其实比较好的描述的场景是user对item的单点关系,比如user A买了一个item B,那么可以把A和B的特征通过表的形式展示出来:

A_f1 A_f2 B_f1 B_f2 label
-- -- -- -- 1

但是实际的上user购买序列往往是一个图关系,user A可能先后买了B、C、D,之后又买了B。通过传统的结构化数据其实很难描绘好这种序列性关系,这时候图的价值就体现了。

AutoGL:浅谈未来非常有前景的自动图机器学习相关概念_第1张图片

既然有图计算,就一定有图机器学习,那么就会有图自动机器学习。接下来就介绍下图自动机器学习的一些概念。

图自动机器学习概念

清华大学有开源相关的工作:https://github.com/THUMNLab/AutoGL

首先可以看下图机器学习包含哪些环节:

AutoGL:浅谈未来非常有前景的自动图机器学习相关概念_第2张图片

大体上就是先构建特征,然后建模,接着调参,最后做模型融合,看上去跟传统的机器学习建模的流程没什么两样。

1.数据&feature

图的数据比较特别,有边和点的概念。一般点表示的是一个实物,比如说人或者物,边表示的是人和物的关系。比如我一天吃3个馒头,我和馒头是两个点,吃这个行为是关系,这个关系的属性是3。

图数据该如何描述呢?业内已经有两个很成熟的库了,

DGL:https://github.com/dmlc/dgl

PyG:https://github.com/rusty1s/pytorch_geometric

通过他们可以快速的导入数据,另外图数据领域有一个类似于CV领域的Benchmark数据集,叫做OGB:http://ogb.stanford.edu

2.Model环节

建模环节包含两个方向的模型训练,是监督学习。分别是Node Classification和Graph Classification。点分类比较好理解,比如在基因领域,把所有对基因颜色有影响的因素做成Node,因素间的边是因素相关性,对结果颜色有黄色影响的Node可以为一类,绿色的为另一类。

Graph Classification往往应用到风控场景。人以类聚,物以群分。好人一般都跟好人有社交关联属性,坏人往往跟坏人关联性高。如果把两个社交群体,一个判断为坏人群体,一个是好人群体,就可以针对坏人做一些风控,一网打尽。这个是Graph Classification的典型应用。

3.HPO环节

HPO就是自动调参,其实在图里面没什么特别的,就是贝叶斯、进化式调参、网格搜索这一些,google有非常多论文发表,不多讲了。

4.Ensemble

Ensemble指的是当我们有多个模型的时候,怎么样综合这些模型的结果并输出一个最终结果。常见的Ensemble有Voting、Bagging、Average、Stacking等。

  • Voting指的是投票机制,假设一共三个模型。两个说结果是1,一个说结果是0,少数服从多数,结果是1。

  • Stacking是一种将弱学习器集成进行输出的策略,其中,在stacking中,所有的弱学习器被称作0级(0 level)学习器,他们的输出结果被一个1级(1 level)学习器接受,然后再输出最后的结果。

总结一下

图数据因为在推荐、风控等领域的天然数据构造优势,肯定会越来越多的有各种好用的工具落地,特别是PyTorch还支持了图数据结构的输入。我自己也认识做这方面创业相关工作的人。没事多了解下是有帮助的,就这样~

 

你可能感兴趣的:(机器学习,图神经网络,机器学习,人工智能,深度学习)