焱融科技产品总监黎俊鸿:疫情背后的AI,AI背后的存储-爱分析ifenxi
黎俊鸿以疫情之下AI在智慧医疗中的应用为切入点,介绍了数据对于人工智能的重要性,以及深度学习训练时遇到的数据层面的挑战,并多角度阐述了焱融科技的YRCloudFile高性能分布式文件存储架构是如何满足AI训练场景下对数据访问的诉求。

大家好,我是焱融科技的黎俊鸿,为大家带来主题为“疫情背后的AI,AI背后的存储”的分享。

专注于软件定义存储

首先简单介绍一下我们公司。焱融科技是一家软件定义存储厂商,专门从事高性能分布式存储,帮助新兴的场景进行数字化转型。公司现在有50多名员工,目前为止我们完成了三轮融资,正处在快速发展的阶段。公司的研发团队有来自像IBM、华为这样的传统的IT厂商,也包括阿里云、百度云这样的互联网厂商。我本人也是在IBM和金山云从事了多年云计算方面的开发。

大家可能会很好奇,我们作为一家做存储的企业为什么会跟AI发生关系呢,接下来我将逐步回答这个问题。

AI助力新冠肺炎诊断

在开始回答这个问题之前,我们先来看一下经过几年发展的AI的一些应用场景。很多专家都会讲到AI在什么场景下能够真正落地,从技术的角度上说,普通人最多花一秒钟思考就能完成的工作,现在或是不久的将来很有可能被AI取代。

有几个应用场景大家这几年应该已经能感受到了。

一个是语音识别。语音识别现在的识别率已经非常高了,像美国的加州大学或者是斯坦福大学的研究机构,国内的像科大讯飞,他们的语音识别率都已经达到了非常高的水平。甚至于像方言这样的模型都已经非常的成熟。

另一个就是我今天讲的主题,计算机视觉。视觉识别在人脸识别,智能检测,比如车辆检测、停车等方面的应用,还有在平安城市、安保等方面现在已经发展得非常快,大家或多或少会有一些感受。

第三个是智慧医疗的场景,智慧医疗场景落地其实是比较缓慢的,一年前我曾与一位华为的资深专家讨论过,之前AI在医疗场景的落地并没有大家想象得这么快。一方面是由于数据方面的缺乏,还有一个原因是政策层面的影响,综合原因导致AI在医疗领域发展相对缓慢。

了解到这个场景以后,回到我们今天的主题。

在疫情之下,会发生一些什么样的变化呢?

焱融科技产品总监黎俊鸿:疫情背后的AI,AI背后的存储-爱分析ifenxi
我们看到在发生疫情之后,国内的一些AI头部企业,快速推出了新冠肺炎智能评价系统。很荣幸,图上这两个快速推出智能评价系统的企业,都是由焱融科技提供的数据存储产品来支撑他们的业务。

在新冠肺炎的判定和评价过程中,基本上每个人单次会产生300张左右的CT影像,按照以前的方法,平均每个病例需要医生投入约5~15分钟,放在日程诊断中,医生还是可以负载并接受的,但在疫情的影响下,每天仅武汉市可能就会有上万个病例影响需要一线医生诊断,对于医生来说这个工作量就难以负荷了。也正因如此,本次疫情也成为了AI应用的一个爆发点,使得这样的AI应用能够帮助一线的医生快速地做出诊断,借助这种AI影像系统,能够在几秒钟之内完影像初步评测,帮助医生提高诊断效率。这是在疫情之下视觉识别的一个非常重要的应用。

数据是深度学习精度的分水岭

回到AI本身,对于AI这个行业来说,大家如果不太熟悉可能会觉得特别神秘。但是相对于其他行业,在整个AI的学界和产业界,它的一些算法是公开的,包括深度神经网络等。大家对AI算法的交流也是非常密切的,不管在国内还是国外都有大量的论文介绍这类算法。

基于所有人都可以获得的算法,甚至于初始模型,或者一些基础设施,AI企业又该怎样构建壁垒足够高的业务系统呢?

这里面有两个非常稀缺的资源,一个是人才资源,特别是专业领域人才,对于AI业务在细分领域的落地是非常重要的。正如刚刚所说,基础算法是公开的,那怎样让算法能够在特定的领域、特定的业务场景下发挥作用,就需要专业的人才提供输入,比如像怎么样看CT图片,是需要专业知识和背景提供支撑的。

另外一个是数据。如果大家了解的话,AI特别是深度学习,是由两个重要的因素来推动的。一个是算力的突发性增长,摩尔定律在后面发挥了巨大的作用,GPU算力的增长给人工智能的落地提供了支撑。另一个推动因素是数据的大爆发,包括视频和图片,只有当这些数据大到足够支撑深度学习的时候,人工智能、深度学习才得到了突发性的增长。

焱融科技产品总监黎俊鸿:疫情背后的AI,AI背后的存储-爱分析ifenxi
上图的左表显示了人工智能领域人和数据两个因素对机器分析性能的影响,从右边这张图可以看到人的作用是一个不断累积的过程,而数据对机器学习精准度提升的影响已经逐步接近人的影响,也就是说数据会成为接下来的关键点。

了解了数据之后,我们再来看一下数据对于AI训练模型的具体影响在哪。

焱融科技产品总监黎俊鸿:疫情背后的AI,AI背后的存储-爱分析ifenxi
上图两条线分别是数据对传统算法和深度学习算法精确度的影响。可以看到,当数据量达到一定程度之后,深度学习算法的精度会远远超过传统算法。机器学习是高度依赖数据的一种算法,只有当数据量足够大,才能支撑深度学习模型的精确性。所以说数据已经成为训练模型精准度的分水岭。

从这张图我们可以得到以下结论。第一,人工智能需要海量的数据。第二,数据越多,AI就会越智能。第三,行业巨头跟普通的爱好者,或者说普通的AI公司之间最大的区别,一方面在于人才,另外一方面在于数据。从一些公开数据和公开的文章里可以看到,现在国内有些互联网公司已经拥有超过5万个小时的语音识别训练数据,所以才支撑了其语音识别的精确性。计算机视觉领域领先的学术论文,大概是基于1500万张图片数据基础,而国内一些较为领先的互联网企业已经是在基于数亿张图片的基础上进行分析。

数据量的规模会影响AI产品的质量,这是我们理解的AI背后数据的重要意义。

模型训练中数据访问面临挑战

既然数据对于AI来说是非常重要的,那么我们所说的数据又是一些什么样的数据呢?刚才再分享过程中也提到了一些,其实就是大量图片、语音、视频等等这样的非结构化数据。对于非结构化数据,在深度学习中有一个重要的过程就是训练。训练是非常依赖这些非结构化数据的,如何将这些非结构化数据用在训练这个场景里面,就是我们能够提供的能力,以及我们能够提供的相关的产品。

接下来我来分析一下,AI深度学习训练中,在数据访问方面所面临的挑战。

焱融科技产品总监黎俊鸿:疫情背后的AI,AI背后的存储-爱分析ifenxi
第一个挑战是AI运行的平台发生了非常大的变化,AI训练的运行平台已经由过去的物理机时代向容器场景转移。从数据的层面上来看,数据平台很重要的一点就是要服务于运行在容器上的训练业务,这是第一个挑战。

第二个挑战刚刚也有提到,就是海量的非结构化数据,这种数据要求具有高带宽、低延时的特性,才能更好地服务上层的GPU等训练服务器,让GPU充分饱和,达到非常高的使用率。

以上两点是在训练的场景下,面临的数据层面的挑战。而我们提供的存储产品正好能服务这样的场景。

YRCloudFile全方位满足数据访问诉求

我们的产品是一个分布式的高性能文件系统,从元数据以及数据的设计上来说,都能非常好地适配AI训练模型的一些诉求和场景,比如说我们支撑海量的文件,服务高性能的场景,在底层基于高性能的网络来连接不同的GPU服务器,以提升整体的训练效率。

从整体的特点上来说,非常契合人工智能深度学习的训练场景中对高性能、海量小文件以及容器化等这样的诉求,这是我们产品的基本特点。基于这些特点,我们能非常好地服务于我们的客户。接下来我将分别对这几个特点快速地讲解,让大家进行一些了解。

首先对于训练场景来说,它的高性能是为了满足GPU这样的训练服务器,让这些非常昂贵的GPU能够充分使用。大家可以想象,我花了六七万块钱买了一块V100GPU,我当然希望它能够发挥出6万块钱的价值,假如说GPU长期处于闲置状态,数据喂不饱这块GPU,那么你的投入产出比相对来说就非常低了,这是高性能对于训练场景非常重要的一点。而这种高性能,跟一些国际知名的高性能分布式的文件系统相比,我们都已经处于同一水平。

焱融科技产品总监黎俊鸿:疫情背后的AI,AI背后的存储-爱分析ifenxi
我们在19年的时候进入了在国际上非常著名的存储评价榜单IO500, 这是关于存储性能的排名,我们在IO500里边已经进入到世界前六的非常领先的水平,得到了业界非常高的认可。

第二个特点就是支持海量的文件。刚才也已经讲了,人工智能深度学习的模型一定是需要海量的文件来支撑的。在基于像神经网络、深度学习这些业务模型底下,算法(有的厂商会有一些秘诀,市场上也有很多开放的算法)只有辅之以海量的数据才能够发挥作用。

在海量的文件场景下,目前市场上的一些常见的文件系统,是不能提供足够的支撑的,YRCloudFile能很好地支撑这样的场景,像在0~70亿级别的文件背景下,对文件操作性能以及文件的读写性能做了一些测试。测试结果显示了非常平稳的性能,这决定了在海量的件场景下,YRCloudFile依然能够支撑上层的模型训练的任务,远远优于其他的开源的或者商业的存储产品。

第三个很重要的特性就是对容器Kubernetes的支持,刚才分析现在AI的一些趋势,也说到模型训练的一些任务已经运行在容器的场景下,用容器来调度训练任务。如何将存储适配到容器的K8S运行环境里,也是很多的AI的厂商和客户面临的问题之一。对于这种场景我们也做了非常好的适配,有很多的企业级的功能,包括像存储的配额,服务质量的控制(QoS),以及一些高级的企业级功能,我们的产品都能提供很好的支撑。

我们也是国内首个进入CNCF容器存储生态的中国厂商,这也是整个开源生态社区对我们产品的认可。

第四点是对于AI场景下一些特殊的训练和运维层面的支持。我们知道在训练的场景下,一些大的公司,比如说我们服务的客户像科大讯飞,他们有上千台高性能GPU服务器,在这些GPU服务器中,哪些服务器正在高速地进行数据的读写,哪些服务器负载比较低,哪些服务器目前的读写存在问题等等,通过我们的平台能够快速地将这些问题反馈给管理人员,让管理人员更方便和高效地维护整个集群。这是我们提供的其他的产品方案里不具备的功能。

产品获得AI头部企业认可

正是基于这样的一些特性,我们才获得了服务科大讯飞等领先企业的机会。去年,我们首先是服务了像科大讯飞这样的国内的头部的AI的企业,上线了YRCloudFile文件存储集群,今年我们又进行了好几次扩容,目前整个数据已经将近10PB的规模,今年我们还会持续的进行扩容,同时也对接科大讯飞内部更多的业务。

从细节上面来看,科大讯飞对分布式的高性能的文件存储,对训练集群来说,它的要求是非常高的,首先就是高带宽和低延迟。这两个功能组合起来,它的含义是指在短时间内能够读取到更多的非结构化数据,像小图片、小的语音或者是一些视频文件,然后加载到GPU服务器上,以加速整个训练。简化的运维来降低维护的难度,对容器化场景的支持,对KB级别文件的顺序读,还有TB级别的数千万张小图片聚合成的大文件的随机读,能非常好地支撑复杂的IO模型近千台高性能GPU服务器并发的高压力的访问,这些都是科大讯飞的实际业务要求。在这些场景下,我们的产品已经得到了非常好的印证。

我们还服务了国内另外的AI头部企业,为其训练集群提供支撑。

这两家企业在这疫情之下快速地推出了影像分析系统,我们为这些AI客户解决的也是高带宽、低延时、海量文件这样的训练数据访问诉求。

通过我上面的介绍,很好地反映了AI尤其是深度学习这个场景对海量数据的依赖,以及我们的产品如何满足AI训练的场景下对数据访问的诉求。总体来说,这是我们在疫情中看到的一些场景和我们所感受到的AI客户的一些情况,跟大家进行一个简单的分享,谢谢。