数据科学和机器学习平台之间,主要有什么区别?

从表面来看,所有的数据科学平台都差不多,但魔鬼隐藏在细节里。下面是一些可比较的数据点:

1.支持的语言

R语言和Python对绝大部分数据科学和机器学习项目都是标配。Java是接近的第二选择,因为有着像deeplearning4j和H2O的POJO模型提取器这样的库。而C++在科学计算或HPC的环境下尤其适用。其他执行时间则是可有可无的,这取决于你的用例和你的非数据科学同事所用的主要技术堆栈,比如NodeJS/Ruby/.NET这些。

2.CPUvs.GPU(深度学习)

随着这一领域的成熟和模型规模的增长,深度学习在数据科学和机器学习中的重要性会日益凸显。TensorFlow虽然很受欢迎,但它并不能总是做到反向兼容,Caffe则需要特定的编译器标识,cuDNN只会给你的GPU簇增加一层管理的复杂度。在没有强制要求的情况下,完全容器化(containerizing)且产品化的异构模型(在代码、节点权重、框架和底层驱动方面),和在GPU架构上运行它们对一个平台来说是非常不同的。

3.单一vs.多重的版本控制

版本化是指能够把模型的族系演变列出来并获取每个版本独立访问权限的能力。当模型被版本化以后,数据科学家就能测试模型随时间的变化规律。一个单一版本的架构只会显示出模型(目前稳定的那个版本)的单个RESTAPI端点,而只有创作者能通过他们的控制面板在不同的模型间「切换」。一个多版本的架构除了显示「稳定」版本的一个RESTAPI端点之外,还能显示以往每个版本的,使得它们都能同时可被获取,这能消除反向兼容困难,还能让后端工程师进行局部发布展示或实时A/B测试。

4.垂直vs.水平扩展

仅仅让模型作为一个可获取的RESTAPI是不够的。垂直拓展就是在一个更大型的机器上部署你的模型。水平扩展就是在多个机器上部署你的模型。而AlgorithmiaEnterprise所执行的无服务器扩展,这是应需求进行的垂直拓展,这里的需求是指把模型封装进一个专用容器中,把容器沿计算集群即时部署,并且在执行完成后将其消除以释放资源。无服务器计算带来了拓展和经济性方面的好处。

5.单一vs.多个租户

当你在共享硬件资源时,处理敏感或保密性的模型是很有挑战的。单一租户的平台会在同样的资源(机器实例、虚拟内存等)上运行所有的产品模型。多租户平台把模型作为虚拟隔离的系统(给每个模型不同的容器或虚拟机)来部署,可能会提供额外的安全措施(比如防火墙规则和审计跟踪)。

6.固定的vs.可交替的数据源

数据科学家可能需要在来自S3的模型上运行离线数据,而一个后端工程师则同时通过HDFS在同一个模型上运行产品数据。一个固定的数据源平台需要模型的作者安装两种数据连接器:HDFS和S3。而一个可交替的数据源则只需要作者安装一个通用的数据连接器,它可以作为多种数据源的适配器,同时也是一种让不会过时的模型与以后出现的任何数据源都能兼容的方式。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
四大机器学习编程语言对比:R、Python、MATLAB、Octave
http://www.duozhishidai.com/article-16728-1.html
人工智能,机器学习和深度学习之间,主要有什么差异?
http://www.duozhishidai.com/article-15858-1.html
机器学习已经被广泛应用,但是入行机器学习主要难在哪里?
http://www.duozhishidai.com/article-15300-1.html
干货:深度学习 vs 机器学习 vs 模式识别三种技术对比
http://www.duozhishidai.com/article-15119-1.html
这10本免费的机器学习和数据科学书籍,确定不看
http://www.duozhishidai.com/article-14077-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
  

你可能感兴趣的:(大数据,人工智能)