从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!

大数据被称为新时代的黄金和石油,相关技术发展迅猛,所应用的行业也非常广泛,从传统行业如医疗、教育、金融、旅游,到新兴产业如电商、计算广告、可穿戴设备、机器人等。大数据技术更是国家科技发展和智慧城市建设的基础。

当前“互联网+”新业态的发展,其核心也是大数据的采集、分析、价值挖潜和应用。当今全球大数据的竞争及战略布局,突出体现在大数据的技术创新和人才培养方面。技术创新能够保障在大数据发展的浪潮中始终处于引领地位,而大数据人才体系则是能最终实现技术创新和实践的根本。

大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。

本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术、算法和一些应用场景,培养大数据的技术选型和系统架构能力。

文档不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。

主要内容:

  1. 大数据技术综述及发展历程:对大数据技术的起源以及近些年的发展趋势做了详细介绍。
  2. 大数据的技术分类:包括基础架构支持,大数据采集,大数据存储,大数据处理,大数据展示及交互。
  3. 大数据行业的最新技术进展:如Google新三驾马车,Spark统- 计算平台,深度学习,可穿戴计算等。
  4. 大数据的发展趋势:朝着实时化、泛在化、智能化的方向发展。
  5. 大型互联网公司的大数据架构实践:包括腾讯、淘宝、Facebook、 Twitter等。

目录为大家简单介绍一下:

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第1张图片

大数据的行业价值

大数据在过去几年得到了全社会的关注和快速的发展,几乎在每个行业都可以见到大数据应用的影子。大数据的应用范围越来越广,应用的行业也越来越多,我们几乎每天都可以看到大数据的- -些新奇应用,大数据的价值也已经体现在方方面面。大数据目前较多的应用领域主要有互联网、金融、医疗、教育、政府等行业,应用的环境也不尽相同,下面介绍几种大数据的典型应用场景。

1.分析用户行为,建立数据模型,并进行预测

2.提升企业的资产管理,优化企业的业务流程

3.大数据服务智慧城市、智慧交通

总共8大典型应用场景,上面为大家展示了3大应用场景。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第2张图片

大数据基础支撑——数据中心及云计算

大数据技术正在改变目前计算机的运行模式,正在改变着这个世界。它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其他形态的数据。它工作的速度非常快,可以达到实时。而为大数据提供核心基础支撑的是数据中心的大规模计算、存储及网络资源,以及负责管理、调度、监控这些资源的云计算平台。云计算让用户能够按照他们的业务需求获取相应的计算力、存储空间和信息服务,将计算任务分布到大量服务器构成的资源池上。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构则能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,为大数据处理和利用提供强力支撑。

在本章中,我们将重点介绍数据中心和云计算的概念、大数据和云计算的关系、云资源调度与管理、开放云计算平台OpenStack 等内容。

云存储系统

云存储不是一个设备,而是- - .种服务,具体来说,它是把数据存储和访问作为一种服务,并通过网络提供给用户。云计算是提供计算能力,相应地,云存储是提供存储能力。

云存储专注于向用户提供以网络为基础的在线存储服务,通过规模化来降低用户使用存储的成本。用户无须考虑存储容量、存储设备的类型、数据存储的位置以及数据完整性保护和容灾备份等烦琐的底层技术细节,按需付费就可以从云存储供应商那里获得近乎无限大的存储空间和企业级的服务质量。本章主要介绍云存储系统,从云存储的基础概念出发,介绍云存储涉及的关键技术,并对云存储系统按分类进行描述。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第3张图片

Hadoop与MapReduce

本章将简要介绍Hadoop分布式生态系统的各组成部分,首先从Hadoop的底层文件系统HDFS开始,接着介绍了Hadoop的结构化存储系统HBase,重点讲解Hadoop的任务调度框架MapReduce的原理,并给出了一个具体的编程实例,对MapReduce 2.0做简单的介绍和对比。由于篇幅有限,在6.3节简要介绍Hadoop生态圈的几个重要组成部分的功能。

最后介绍Hadoop平台的应用案例。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第4张图片

Storm流计算系统

Hadoop等大数据解决方案解决了当今大部分对于海量数据的处理需求,如网页检索、机器翻译、分布式计算、广告投放等;但对于某些实时性要求很高的数据处理系统,Hadoop则无能为力。对实时交互处理的需求催生了一大批实时计算系统,根据其数据流的特点,我们可以称之为流计算系统。本节主要介绍流计算的基本概念,以典型的流计算系统Storm为例深入分析流计算系统的特性。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第5张图片

SQL、NoSQL .与NewSQL

一直以来数据是基础也是核心,存储数据是前提,处理好数据是基础。之前企业一直用传统关系型数据库来存储数据,随着大数据时代的来临,需要存储的数据的量和数据的结构和种类都发生了很大的变化,人们已经不满足于传统关系型数据库带来的稳定性,对数据库支持的数据种类、伸缩性、可扩展性的需求越来越高,随着数据库技术的发展,NoSQL应运而生,发展的时间虽然不长,但已经成为大数据技术生态圈里不可或缺的- -员, NoSQL的广泛应用也带动了新型数据库技术-一NewSQL 的发展。本章由传统SQL数据库引出NoSQL,重点介绍NoSQL的基本原理及其应用,最后概要介绍NewSQL。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第6张图片

子商務与社会化网络大数据分析

本章内容比较多,而且和当前互联网最赚钱的行业关系密切。无论是电子商务、计算广告还是社会化网络都是很复杂的。针对每个领域,本章主要介绍如下内容:

①介绍在该领域做得比较好的互联网公司,以及这些公司的哪些产品中使用了与大数据相关的技术。②介绍相关的算法。③介绍应用实例。

针对电子商务这一部分, 将介绍常用的推荐算法并模拟一些测试数据。关于计算广告部分,将介绍目前的主流RTB ( Real Time Bidding), RTB即实时竞价,是目前主流的广告交易模式,国内外做得比较好的有百度、阿里妈妈、Google 等;此外还将介绍需求方平台(Demand-Side Platform, DSP),通过模拟RTB程序让读者知道实时竞价相关的流程,并重点讲解广告排序相关的技术点。最后关于社交网络,将主要介绍关系挖掘,比如二度人脉的挖掘、语言流行度等。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第7张图片

大数据展示与交互术

一幅图胜过千言万语。人类从外界获得的信息约有80%以上来自视觉系统。当大数据以直观的可视化的图形形式展示在分析者面前时,分析者往往能够-一眼洞悉数据背后隐藏的信息并将其转化为知识以及智慧。所以说,在大数据技术体系中,数据展示与交互虽不.是核心,但也至关重要。数据处理的最终目的是使人们更好地利用数据,选择恰当的、生动直观的展示方式能够帮助人们更好地理解数据的内涵和关联关系,也能够更有效地解释和运用数据,从而为生产、运营、规划提供决策支持,发挥出大数据的作用。随着技术的发展,大数据的展现方式也发生了巨大变化,除了传统的报表、图形之外,结合现代化的可视化工具及人机交互手段,智能化、实时化、多维度的数据展示与交互时代已经来临。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第8张图片

腾讯背景介绍

腾讯是目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之- -。首先,即时通信软件QQ,最高同时在线账户数达到2.06亿,月活跃账户数更是高达8.29亿,QQ智能终端月活跃账户数达到5.21亿。其次,“微信和WeChat”合并月活跃账户数达到4.38亿,QQ空间月活跃账户数达到6.45亿,QQ空间智能终端月活跃账户数达到4.97亿。从这些数据可以看到,腾讯每天的数据量是异常庞大的,目前最高日接入消息数为10000 亿条,日接入数据量为200TB,并发分拣业务接口为10000个。

腾讯在设计架构时主要考虑了3个主要的需求。

①数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自助化服务平台,满足快速增长的需求。

②专业化:从提供大量独立的系统/工具转变为提供集成、一体化、自动化数据开发平台服务。对来源于各个业务块的数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,并且快速孵化更多的数据应用。

③成本与性能:优化平台存储和计算方案,优化数据模型和算法,去除重复计算和存储:通过建设大规模集群,形成规模效应,提升平台能力并降低成本;随着平台上的数据量、用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断放大。

整体架构

从图可以看出,腾讯大数据平台主要由4个核心模块构成: TDW、TRC、TDBank和Gaia。从下至上,Gaia负责腾讯大数据平台.上所有集群资源的调度和管理工作,为上层的业务和数据服务提供必要的计算资源。构建于Gaia之上的两个部分TDW和TRC分别负责批量的离线计算和流式的实时计算。TDBank 则作为统一-的数据采集入口。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第9张图片

腾讯大数据平台的整体架构

淘宝背景介绍

淘宝网( taobao.com)目前拥有近5亿的注册用户数,每天有超过6000万名的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8 万件商品。截至2011年年底,淘宝网单日交易额峰值达到43.8亿元,创造了270.8 万个直接且充分的就业机会。随着淘宝网规模的扩大和用户数量的增加,淘宝也从单一的C2C网络集市变成了包括C2C、团购、分销、拍卖等多种电子商务模式在内的综合性零售商圈。目前它已经成为世界范围的电子商务交易平台之一,因此在其架构中面临着大量高性能问题。

整体架构

淘宝数据平台架构图如图所示。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第10张图片

基于云梯的淘宝数据平台架构图

**后面还有Facebook、Twitter、Netflix等企业的大数据架构,由于篇幅过长小编这里就不一一为大家介绍了。

从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!_第11张图片

能成功的人一定不是偶然的,当你成功的时候就会有许多同阶层的人跟你打交道,打交道的人多了之后,你的知识面也会越来越广了。

不要为了读书而读书,要细嚼慢咽,体会知识带来的乐趣。

你还可以更成功!

你可能感兴趣的:(大数据,系统架构,学习,大数据技术,java)