TigerGraph GNN课程一:图数据切分与GNN模型数据加载实践

TigerGraph GNN课程一:图数据切分与GNN模型数据加载实践_第1张图片
在机器学习领域,我们需要审慎处理到手的真实数据集,在训练的各个阶段都会有不同的方法在样本上进行操作和验证。如何切分数据集并进行分批训练,是每一个机器学习项目都会面临的问题。

数据切分
对于机器学习模型,如何利用好已有的数据集是模型效果优劣的前提条件。切分训练集、验证集和使用测试集的过程,需要考虑数据的各类情况:有效样本的多少,样本中的时序信息,样本潜在的分组,样本平衡性问题等。切分的目标是在给定的数据集下,使得模型能够在训练集上快速的收敛,并在测试集有更好的近似泛化误差。

mini-batch训练
在传统机器学习中,因为样本数量的限制,会用交叉验证的方式防止过拟合;深度学习模型因为数据量过大无法完成全量训练,或因为单个样本的训练收敛效果不佳而使用 mini-batch。使用适当大小的mini-batch能在每一个小的数据集上完成梯度下降,并通过向量化运算加速模型训练,提高效率。
图神经网络模型在表征能力有了很大的提高, 在最近的研究中也探索出了高价值的应用场景:如蛋白质结构的预测,路径规划,推荐场景等等。这些模型都是囊括了对现实世界复杂图关系的信息。在图上构建的深度学习模型,需要执行更复杂的数据采集与计算。

本次图课堂直播课程我们邀请到了TigerGraph的高级客户成功顾问叶力豪老师,结合实际操作经验详细解读在不同图神经网络模型与各类数据集上如何利用TigerGraph和Machine Learning Workbench (机器学习工作台)进行数据切分模型和数据加载。手把手带你轻松掌握图数据切分与GNN模型数据加载实践。

关注TigerGraph公众号输入“20221208“即可报名参会。参与线上直播与讲师互动,就有机会获得TigerGraph虎牌定制保温杯!

你可能感兴趣的:(产品应用,人工智能,数据分析)