flops

FLOPS(即“每秒浮点运算次数”,“每秒峰值速度”),是“每秒所执行的浮点运算次数”(floating-point operations per second)的缩写。它常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。

cnn模型所需的计算力(flops)是怎么计算的?

最近看到一些文章中有关于模型的计算力消耗问题,也就是flops,比如densenet中的这张图1

对于一个卷积层,假设其大小为 h * w *  c  * n (其中c为 #input channel, n为 #output channel),输出的feature map尺寸为 H' *  W' ,则该卷积层的

#paras  = n *  (h * w * c + 1)

#FLOPS= H' * W' * n * (h * w * c + 1)

即FLOPS= H'  *  W' *  #paras

看下底下第二张图对于大型全球iot项目的浮点数计算可能需要用到的flops单位,其中12位为billion10亿。常用的为exa flops。

正文:

地球上整个星球计算基础设施的规模,PC和笔记本。我们得到IDC或者其它市场调查数据显示,每年会销售2亿5万颗CPU,手机这一块每年销售15亿颗手机芯片。在服务器这一块大概2千万个服务器芯片销量,对于它的核心数、主屏数、持有年限以及计算能力,总共需要的功耗PC笔记本3千个兆瓦,手机达到900个兆瓦,Server1600个兆瓦,Bitcoin更高一点(虽然功耗稍微比pc低,但是浮点运算exa一行为pc的近10倍)。看图3

基于目前主流Deep Learning和AI深度学习计算架构来看,主流使用CPU,大部分使用GPU架构。处理刚才互联网视频,互联网音频以及安防视频需要多大的计算能力呢,分别是50、70、71,210的Exa Flops,通过分别需要的CPU计算方案和GPU计算方案可以看到是非常巨大的数字。CPU计算的互联网视频达到50亿瓦的规模,需要消耗500亿美金成本。如果用GPU稍微好一点,也200亿美金的成本,以及10亿瓦的功耗。

我们这里做一下整理:

音视频物联网安防这一块都归属于智能数据(为了便于描述),这个数据量级非常大,需要的浮点运算能力很大!特别是iot类型的项目和底层公链,他们需要支撑的运算非常恐怖。

1、处理音视频物联网安防这三个应用场景,尤其是安防加在一起会达到千亿美金,甚至更高的计算成本,以及几十亿瓦的巨大功耗。做一个对比,与世界上最大的科学计算、高性能计算的数据中心来讲,这个相当于重建了几百个甚至上千个超级计算中心,这样的  高成本  和  高能耗  很难实现深度学习的计算需求。

因此,对于分布式的cpu和gpu闲置利用的项目是必经之路,这个基础实在你能够有好的基础链架构去组织和运算这些数据。而系统架构可能需要有特定芯片或者中心化超级节点支撑,对技术的要求很高。(对于分布式,互联网架构中的Spark和TensorFlow等在多个GPU上开展分布式的深度神经网络训练的技术已经比较成熟)

2、到底需要的是什么样的算法,以及需要什么样的计算架构呢。(人工智能芯片 + POW公链 + AI算法)

btm比原链走在了前面提出的深度学习AI。

BTM的算法,可以对比一下在神经网络、深度学习这一块的线性运算常用的就是卷积、全连接、Conv、FC。非线性运算包括非线性映射函数,实现了神经网络非线性。实际上在BTM最新的论文里也看到了非常多的矩阵运算线性和非线性带来加密不可逆的特征。

人工智能芯片和POW公链结合在一起形成强大的算力,为PoW公链非常好的保驾护航。BYTOM的PoW算法充分利用了张量计算、矩阵计算的非线性特性,PoW公链算法具有优秀的不可逆加密特性。

基于张量计算的PoW公链算法具有很好的前景和生命力,比特大陆未来每一代AI产品都会支持Bytom挖矿计算,AI芯片加速,更有助于Bytom和AI的结合,生命力更强。让AI智能机器赋能更强生命力,用Blockchain智能机器更好维护信任的公链,使得生产力和生产关系都能并行往前走。

你可能感兴趣的:(flops)