数据科学和机器学习与云计算数据库的相辅相成

导读 普渡大学(Purdue University)的数据科学和机器学习创新者希望帮助组织和用户从基于云计算的数据库中获得很大收益。当等待时间是主要问题时,其相同技术可以帮助自动驾驶车辆在道路上更安全地运行。

数据科学和机器学习与云计算数据库的相辅相成_第1张图片

普渡大学农业与生物工程学助理教授索Somali Chaterji负责细胞和神经机器创新[ICAN]的研究,她的团队创造了一种称为OPTIMUSCLOUD的技术。

对云计算供应商和客户均有利

该系统旨在帮助实现云计算托管数据库的成本和性能效率,对资源进行合理分配,以使那些不必为故障安全操作而积极地过度为其云托管服务器提供过多服务的云计算供应商以及客户受益,因为可以将数据中心节省的成本转移到他们身上。

Chaterji说:“这还可以帮助正在远程数据中心处理研究数据的研究人员,而在疫情期间,远程工作条件使吞吐量成为首要任务。这项技术源于提高数据管道的吞吐量,以处理微生物组或元基因组学数据。”

该技术可与三个主要的云计算数据库提供商一起使用:亚马逊的AWS、Google Cloud和Microsoft Azure。Chaterji表示,将在工程方面与其他更专业的云计算提供商(例如Digital Ocean和Floyd Hub)合作。

它以NoSQL技术Apache Cassandra和Redis在亚马逊的AWS云计算服务上进行了基准测试。

Chaterji说:“通过优化本地或云托管数据库的使用方式,帮助企业很大程度地发挥作用。这不再只是计算上的繁重工作,而是有效的计算,企业可以使用所需的东西并为使用的东西付费。”

处理长期运行的动态工作负载

Chaterji说,当前使用自动决策的云计算技术通常仅适用于短期和重复任务和工作负载。她表示,她的团队创建了一个优秀配置,以处理长期运行的动态工作负载,无论是来自连接农场中无处不在的传感器网络的工作负载,还是来自科学应用程序的高性能计算工作负载,还是来自于计算机不同部分的当前疫情仿真。急于寻找抗冠状病毒的方法。

Chaterji说,“随着在云平台上运行的无数应用程序,数据的多样性以及从数据中获取洞察力所需的算法以及随之而来的,需要拥有异构服务器来分析数据的成本显著不同的情况,我们正确调整大小的方法变得越来越重要。”

Chaterji说,“Amazon EC2上按需实例的价格相差五千倍,这取决于企业使用的虚拟内存实例类型。”OPTIMUSCLOUD对于无人驾驶车辆(延迟是优先考虑的),医疗保健存储库(吞吐量是优先考虑的)以及农场或工厂的物联网基础设施中使用的数据库具有众多应用程序。

OPTIMUSCLOUD:使用机器学习和数据科学原理

OPTIMUSCLOUD是与数据库服务器一起运行的软件。它使用机器学习和数据科学原理来开发算法,以帮助共同优化虚拟机选择和数据库管理系统选项。

Chaterji说,“而且在疫情时期,当我们和湿实验室这样的传统计算密集型实验室都依赖于计算存储,例如对疫情的传播运行仿真时,这些云托管的虚拟机的吞吐量至关重要,甚至利用率略有提高可带来巨大收益。考虑到目前,即使是最好的数据中心也只能以低于50%的利用率运行,因此,传递给最终用户的成本将显著增加。我们的系统会查看数百种可用选项,并确定按美元成本归一化的优秀选项。在云数据库和计算方面,当只需要一个轮胎时,尤其是现在每个实验室都需要一个轮胎才能行驶时,并不想购买整辆汽车。”更多Linux资讯请查看:https://www.linuxprobe.com

你可能感兴趣的:(数据科学和机器学习与云计算数据库的相辅相成)