【论文阅读】Adaptive Mixtures of Local Experts

MoE可以理解成一种集成算法。其思想是训练多个神经网络(也就是多个专家,每一个专家是一个神经网络)。每个专家被指定应用于数据集的不同部分。这就是说,数据集可能有着多个不同的来源(意思是说数据集中的数据的产生方式不同)。不同来源提供的数据差距较大(但真实),因此我们为每一个来源的数据一个指定的神经网络来处理,而且模型还有一个managing neural net用来判断一个输入应该交给哪一个神经网络来处理。

单个的模型往往善于处理一部分数据,不擅长处理另外一部分数据(在这部分数据上犯错多),而多专家系统则很好的解决了这个问题:系统中的每一个神经网络,也就是每一个专家都会有一个擅长的数据区域,在这组区域上其要比其他专家表现得好。

【论文阅读】Adaptive Mixtures of Local Experts_第1张图片
每个专家都是一个前馈网络,所有专家都接收相同的输入并具有相同数量的输出。 门控网络也是前馈的,通常接收与专家网络相同的输入。
【论文阅读】Adaptive Mixtures of Local Experts_第2张图片
门控网络根据输入生成 n 个专家的分布,最终输出是所有专家输出的加权和。

参考资料:
多专家模型(mixture of experts)

你可能感兴趣的:(多模态,神经网络,人工智能,深度学习)