##[开源]Griffin - 开源数据质量解决方案

//ebay技术博客
Griffin — Model-driven Data Quality Service on the Cloud for Both Real-time and Batch Data | eBay Tech Blog http://www.ebaytechblog.com/2016/10/12/griffin-model-driven-data-quality-service-on-cloud-for-both-real-time-and-batch-data/


【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务-博客-云栖社区-阿里云 https://yq.aliyun.com/articles/71102?spm=5176.100239.blogcont71098.15.Kt7Srt

##[开源]Griffin - 开源数据质量解决方案_第1张图片
Paste_Image.png
##[开源]Griffin - 开源数据质量解决方案_第2张图片
Paste_Image.png
##[开源]Griffin - 开源数据质量解决方案_第3张图片
Paste_Image.png

//userguide
griffin/userguide.md at master · eBay/griffin · GitHub https://github.com/eBay/griffin/blob/master/griffin-doc/userguide.md

##[开源]Griffin - 开源数据质量解决方案_第4张图片
Paste_Image.png

//
Apache Griffin首页、文档和下载 - 开源数据质量解决方案 - 开源中国社区 https://www.oschina.net/p/griffin?fromerr=PNYgofK7

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。
系统架构:

##[开源]Griffin - 开源数据质量解决方案_第5张图片

核心优势:
##[开源]Griffin - 开源数据质量解决方案_第6张图片

主要功能:
##[开源]Griffin - 开源数据质量解决方案_第7张图片

企业应用:
Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。
团队成员:
##[开源]Griffin - 开源数据质量解决方案_第8张图片

Apache Griffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。目前正在将Apache Griffin项目迁移到Apache社区,我们非常欢迎热心于开源软件的程序猿们,数据猿们参与进来,一起推动Apache Griffin更快更好的发展,回馈给全球软件开发者们。

你可能感兴趣的:(##[开源]Griffin - 开源数据质量解决方案)