大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。

一句话介绍

一站式大数据管理和应用开发平台,具有敏捷易用,成熟稳定,安全可靠,开放灵活的特点。

平台架构

大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第1张图片

产品功能

1、大规模数据存储与计算
支持不同的存储方案和计算方案,灵活满足客户的需求。支持 HDFS、Hbase、Kudu 等从 GB 到 PB 级别的存储方案,支持 Hive 和 MapReduce 等批量计算、Spark 内存计算、Kylin 多维分析、Impala 和流式计算(开源 Spark Streaming 和自研 Sloth)等计算方案,灵活满足客户的各类场景。

大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第2张图片

2、数据集成
支持全量离线接入和关系型数据库和日志的增量实时/准实时接入。
全量离线接入:将业务数据从各类数据源(MySQL、Oracle、PostgreSQL、MongoDB等)离线导入数据仓库以及其他相关大数据环境,适用于对数据导入实时性要求不高以及静态数据源的场景,例如将某业务上个月的所有数据导入数据仓库用于数据分析。
关系型数据库和日志的增量实时/准实时接入:分别使用了自研的NDC系统和DataStream,将业务库中增量数据和APP日志实时导入到大数据环境,延迟可控制在秒级,适用于对数据导入实时性要求高,且业务快速增长的场景。

大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第3张图片

3、数据应用开发
提供SQL开发、依赖配置与调度管理、交互式查询等,提高开发效率

传统软件的开发过程中,有大量丰富的软件保证开发、调试、发布等步骤井然有序地进行。从业人员的高素质和这些管理过程的工具保证了线上应用的高质量。但目前大数据商用软件领域,很少有足够好用的IDE来帮助企业构建数据应用。猛犸提供了SQL开发、依赖配置与调度管理、交互式查询等,协助管理开发过程,提高开发效率。

大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第4张图片

4、数据管理
提供元数据管理,标准化企业内部的元数据定义
元数据管理的主要目标是标准化企业内部的元数据定义。而随着数据依存度逐年增加,追踪数据流动,了解数据含义和血缘关系越发困难。猛犸通过数据地图、数据字典、数据血缘三个方面保证企业的元数据标准。同时对主题、维度、指标进行一致性定义和管理解决了数据生产过程中的质量问题。
大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第5张图片

5、数据安全
通过认证、授权、审计三个方面来保证数据安全
平台采用Kerberos做用户级别的认证。基于加密方法建立用户(和系统)识别自己的方法,对个人通信以安全的手段进行身份认证,用户和服务器都能验证对方的身份。针对角色授权数据访问。对HDFS、Hive等实现了统一的,细粒度的数据权限控制。从数据角度,可以查看当前何种角色有何种权限。从角色角度,可以查看对哪些数据有何种权限。审计提供较直观事件跟踪,包括实时监测对系统敏感信息的访问和操作行为,根据规则设定报警并及时阻断违规操作,收集并记录用户行为。
大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第6张图片

6、实时流计算
支持实时的数据接入,SQL开发流式计算任务,降低开发门槛
使用SQL开发流式计算任务,兼容离线SQL,可实时分析用户的访问数据,展示流量变化和用户分布情况。具备高可用(分布式),高吞吐(1000w/s),低延迟(毫秒级),精准计算(Exactly-once)等特点,用户可在猛犸平台上调试和提交流SQL任务,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。
大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第7张图片

应用场景

1、数据仓库
数据集成、数据处理、数据模型设计、数据分层主题设计、数据质量、数据生命周期管理、数据血缘、数据统计等。
大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第8张图片
2、数据营销
将所有日志,用户行为数据在平台上进行离线调度和分析,在上亿用户人群里面,精确的找到目标人群,进行资源营销策略。

大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第9张图片

【大数据每日哔哔】整理,更多大数据干货,欢迎扫码关注微信公众号:

大数据平台之初体验 | 网易猛犸 | 数据仓库、调度系统、数据质量、离线与实时计算应有尽有。_第10张图片

你可能感兴趣的:(大数据进击之路)