多位阿里数据人经验汇总:大数据之路——阿里大数据实践

定位于阿里集团数据中台,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。作为阿里大数据战略的核心践行者,致力于“让大数据赋能商业,创造价值”经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。

通过这个体系,超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴自身的业务和外部千万用户的发展。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第1张图片

阿里巴巴大数据系统体系架构图

现在,阿里巴巴数据技术及产品部正通过技术和产品上的创新,探索全域数据的价值,将阿里在大数据上沉淀的能力对外分享,为各行各业的发展带来更多可能性。

日志采集

数据采集作为阿里大数据系统体系的第一环尤为重要。因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。本章主要介绍数据采集中的日志采集部分。

阿里巴巴的日志采集体系方案包括两大体系: Aplus.JS 是Web端(基于浏览器) 日志采集技术方案; UserTrack是APP 端(无线客户端)日志采集技术方案。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第2张图片

离线数据开发

从采集系统中收集了大量的原始数据后,数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体系:数据存储及计算平台(离线计算平台MaxCompute和实时计算平台StreamCompute)、数据整合及管理体系(OneData)本章主要介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第3张图片

数据服务

数据部门产出的海量数据,如何能方便高效地开放出去,是我们一直想要解决的难题。在没有数据服务的年代,数据开放的方式简单、粗暴,一般是直接将数据导出给对方。这种方式不仅低效,还带来了安全隐患等诸多问题。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第4张图片

阿里巴巴数据整合及管理体系

面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一-致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。

OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公共层,并可以帮助相似的大数据项目快速落地实现。下面重点介绍OneData体系和实施方法论。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第5张图片

事实表特性

事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。

事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度;一种是所表示的具体业务含义。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第6张图片

元数据定义

按照传统的定义,元数据(Metadata) 是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。

在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。

将元数据按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据( Business Metadata)。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第7张图片

数据应用

全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第8张图片

由于本篇篇幅过长,小编这里呢,就不做过多的介绍了,从本篇中大家伙能够深切的体会到阿里大数据体系是非常厉害的,成功绝不是偶然,而是靠自己慢慢积累下来的,希望大家也能成为这样优秀的人,能够成就这么优秀的企业。

不积跬步无以至千里,不积小流无以成江海。知识就是从一点点积累起来的,希望大家能够一步步来,切勿心急!

好了,如果大家真的需要这篇【大数据之路——阿里大数据实践】技术文档的话,只需要关注+转发+评论,获取++++++我v x    ①⑧⑤⑥①③零⑤③⑨⑤  就可以获取了。

多位阿里数据人经验汇总:大数据之路——阿里大数据实践_第9张图片

对于高管和决策者,既需要宏观的业务数据,又需要可下沉的数据,还需要丰富的趋势数据来辅助决策,需要通过数据了解业务进展、当前进展是否合理、接下来的业务方向等,针对此类需求提供定制化的数据产品供决策参考,为高管提供宏观决策分析支撑平台,分析历史数据规律,预测未来发展趋势,洞察全行业动态。

随着阿里巴巴业务的发展、新技术的引人,对内数据产品势必会不断迭代,去探索更多、更新的数据价值,更高效地开发数据产品。

未来,对内数据产品平台的发展会重点在两个方面进行突破:一方面,把BI工具等工具型产品功能做强做大,不仅可以做报表,还可以做出专题分析型产品,在有限的研发资源下,更高效地实现数据产品;另一方面,在应用型数据产品上做更多的探索,赋能业务数据化的运营。

你可能感兴趣的:(多位阿里数据人经验汇总:大数据之路——阿里大数据实践)