spark深度学习算法(CNN卷积神经网络)的测试与分析

  卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。

  关于CNN的一些发展信息,很多文献上都有。下面摘抄一段:(来自于http://www.36dsj.com/archives/24006)

  “卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。 K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工作者对该网络进行了改进。其中,具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。“


  那么做大数据挖掘的IT者,肯定想着深度学习是当前最新的潮流,那么能够将深度学习的一些算法搬迁到spark进行跑跑测试测试呢?基于这种想法,开始网上资料的一顿猛找,发现还是有挺多资源的。于是开始进行代码搭建和测试。

  

(1) 数据集介绍

   采取CNN常用的手写数字数据集MINST。手写数字数据库THE MNIST DATABASE,该数据集有有60000个训练样本数据集和10000个测试用例。它是NIST数据库的一个子集。这些数字图像已经被规范化,将数字置于图像中心,并使图像大小一致。这对于要尝试自己的学习技术模式识别方法在真实世界中的效果的人来说,是一个好的数据库,它节省了大量处理和格式化的时间


   (2)运行实验与测试

spark深度学习算法(CNN卷积神经网络)的测试与分析_第1张图片

 (3)性能分析

总体上而言,感觉效率还是很慢。第一试用local环境测试,居然跑了有好几分钟。换成master模式测试了下,也要个几分钟。后来琢磨一下原理也是,CNN它是逐层进行计算的,上一层的结果还是需要用于下一层的输入。任务之间带有相关性,肯定要等待。不过比起hadoop模式,那肯定性能还是大大的提升的。



你可能感兴趣的:(Spark,大规模机器学习)