##[开源]linkedin/WhereHows: Data Discovery and Lineage for Big Data Ecosystem(大数据开源元数据管理系统)


解读2016之大数据篇:跨越巅峰,迈向成熟 http://www.infoq.com/cn/articles/interpretation-of-2016-of-the-big-data
WhereHowsWhereHows是LinkedIn在2016年开源的一套数据目录发现和数据世系管理的平台。可以当作企业的中心元数据管理系统,对接不同的数据存储和数据处理系统,从而能够全面的管理企业数据目录、数据结构以及数据世系。

Alation是一套企业级的数据管理和数据发现的平台,与WhereHows不同的是Alation并不是一个开源的平台,而是一套商用的平台。除了基础的数据管理、数据发现,这个平台还支持多角色的协作,因为对于数据相关的工作,更好的协作才能提高生产的效率。Alation公司是成立于2012年的一家创业公司,2015年获得了900万美金的A轮融资。


LinkedIn 开源其数据发现和管理工具 WhereHows – 开源派 http://osp.io/archives/1571

LinkedIn 近期开源了一个元数据中心工具 WhereHows,已经在 LinkedIn 内部长期使用。WhereHows 方便内部员工发现公司内部的数据,跟踪数据集的移动和查看各种内部工具和服务的动向。

WhereHows 是 LinkedIn 构建的数据发现和大数据宗系工具,集成了所有主要的数据处理系统,可以进行目录收集和元数据操作。

WhereHows 可以解决很多公司面临的大数据内部分享的问题,提供一个平台让员工进行企业有价值的数据发现和进行一些更深度的分享。在当前,LinkedIn 的 WhereHows 存储的数据: 50,000 数据集,14,000 评论和 3500 万作业执行。

LinkedIn 是 Hadoop 的用户,但也支持其他系统,比如 Oracle 数据库,Informatica 等等。

WhereHows 提供给开发者两种访问方式:API(数据处理)和 Web 接口(数据发现和社区协作),允许员工查看一个数据集的宗系,进行注释或者其他操作。


##[开源]linkedin/WhereHows: Data Discovery and Lineage for Big Data Ecosystem(大数据开源元数据管理系统)_第1张图片
Paste_Image.png

//
GitHub - linkedin/WhereHows: Data Discovery and Lineage for Big Data Ecosystem https://github.com/linkedin/WhereHows

//wiki
Home · linkedin/WhereHows Wiki · GitHub https://github.com/linkedin/WhereHows/wiki

//Getting-Started
Getting Started · linkedin/WhereHows Wiki · GitHub https://github.com/LinkedIn/Wherehows/wiki/Getting-Started

//
Set Up New Metadata ETL Jobs · linkedin/WhereHows Wiki · GitHub https://github.com/linkedin/WhereHows/wiki/Set-Up-New-Metadata-ETL-Jobs

//
Backend API · linkedin/WhereHows Wiki · GitHub https://github.com/linkedin/WhereHows/wiki/Backend-API#etl-job-post

//Architecture
Architecture · linkedin/WhereHows Wiki · GitHub https://github.com/linkedin/WhereHows/wiki/Architecture

//
Quick Start with VM · linkedin/WhereHows Wiki · GitHub https://github.com/linkedin/WhereHows/wiki/Quick-Start-With-VM
//WhereHows-VM_免费高速下载|百度网盘-分享无限制 http://pan.baidu.com/s/1qXi2XWg?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0#list/path=%2FWhereHows-VM

//
Multiproduct Metadata ETL · linkedin/WhereHows Wiki · GitHub https://github.com/linkedin/WhereHows/wiki/Multiproduct-Metadata-ETL


WhereHows首页、文档和下载 - 数据发现和管理工具 - 开源中国社区 https://www.oschina.net/p/wherehows
WhereHows 是 LinkedIn 公司一个用于大数据发现和管理的工具,集成了所有主要的数据处理系统,可以进行分类收集和元数据操作。方便内部员工发现公司内部的数据,跟踪数据集的移动和查看各种内部工具和服务的动向。

WhereHows 可以解决很多公司面临的大数据内部分享的问题,提供一个平台让员工进行企业有价值的数据发现和进行一些更深度的分享。当前 LinkedIn 的 WhereHows 存储的数据: 50,000 数据集,14,000 评论和 3500 万作业执行。


LinkedIn开源元数据管理工具WhereHows - IT经理网 http://www.ctocio.com/ccnews/20483.html
职业社交平台LinkedIn今天开源了元数据管理工具WhereHows(GitHub),该工具可以帮企业员工发现和分享企业内部的元数据。
LinkedIn部署了很多数据存储和处理系统,包括Teradata的数据仓库、开源的Hadoop分布式文件系统,开源的Hive数据仓库以及自己开发的开源试试分析软件Pinot。而WhereHows则能帮LinkedIn的员工检索和分享LinkedIn的HDFS系统中超过25000个共享数据集。在数据爆炸的今天,随时掌握企业内部有价值信息的情况(元数据)非常重要,这能大大提高企业员工的信息搜索和分享深度,盘活整个企业的数据资产。
LinkedIn此前也开源过很多大数据工具,例如上文提到的Pinot,以及Azkaban、Kafka、Samza和Voldemort等,但在数据发现和数据目录方面的工具,WhereHows还是头一个。对于那些数据架构复杂的企业来说,WhereHows具有很高的实用价值。而对于LinkedIn来说,开源高价值高人气的工具能够帮助公司吸引优秀人才,这一点比什么都重要。
WhereHows的详细文档在这里。

你可能感兴趣的:(##[开源]linkedin/WhereHows: Data Discovery and Lineage for Big Data Ecosystem(大数据开源元数据管理系统))