Griffin成为Apache顶级项目

Griffin估计很多人第一次听说,今天就给大家介绍下这款Apache顶级项目。

含义

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。

来源

Griffin起源于eBay中国,并与2016年12月进入Apache孵化器。

Apache Griffin使数据科学家能够通过以下方式处理质量问题:源数据纳入Griffin计算集群后,根据用户定义的要求进行数据质量检测,数据质量报告作为度量标准导出到指定目标。

Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。

生产实践

Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。

同时,Apache Griffin 目前已在 163.com/Netease、eBay、Expedia、华为、京东、美团、PayPal、平安银行、PPDAI、VIP.com 和 VMWare 等高容量、高需求的环境中使用。


2948776e-bbd0-4e2b-b48e-00f514f35280.png

你可能感兴趣的:(Griffin成为Apache顶级项目)