大数据技术与应用原理

0.前期准备

个人前言:最近一方面也是工作需要,另一方面也是个人兴趣,准备坚持学习一段时间的大数据相关的知识,就写了点学习笔记,一来勉励自己坚持学下去,二来也可以帮助刚入门想一起探索大数据之路的朋友们一点小小参考。这段时间我准备先跟着林子雨老师的网课先做个简单的入门了解。贴上地址,中国大学MOOC《大数据技术原理与应用》:课程地址
https://www.icourse163.org/course/XMU-1002335004
学生服务站提供了一些资源下载:学生服务站地址http://dblab.xmu.edu.cn/post/4331/

本课程系统介绍了大数据相关知识,共有13讲
系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、 NoSQL数据库、云数据库、分布式并行编程模型MapReduce、Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用
在Hadoop、HDFS、HBase、MapReduce、Spark等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术

课程目录
第1讲 大数据概述
第2讲 大数据处理架构Hadoop
第3讲 分布式文件系统HDFS
第4讲 分布式数据库HBase
第5讲 NoSQL数据库
第6讲 云数据库
第7讲 MapReduce
第8讲 Hadoop再探讨
第9讲 Spark
第10讲 流计算
第11讲 图计算
第12讲 数据可视化
第13讲 大数据在不同领域的应用

talk is cheap, just do it.

1.大数据概述

1.1 大数据时代

表1.1.1 三次信息化浪潮
信息化浪潮 发生时间 标志 解决问题 代表企业
第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业

在2010年前后,我们进入了大数据时代,一个信息爆炸,每两年全球信息量成一倍数量增长的时代。下面列出一下大数据发展的三个阶段。

表1.1.2 大数据发展的三个阶段
阶段 时间 内容
第一阶段:萌芽期 上世纪90年代至本世纪初 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
第二阶段:成熟期 本世纪前十年 Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。
第三阶段:大规模应用期 2010年以后 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。

1.2 大数据的特点

  • 数据量大
  • 数据类型繁多
  • 处理速度快
  • 价值密度低

1.3 大数据的影响

在思维方式方面,大数据完全颠覆了传统的思维方式:

  • 全样而非抽样(庞大的数据进行处理)
  • 效率而非精确(不必过分在意精细部分的准确性)
  • 相关而非因果(不必过分纠结决策结果的因果关系,更关系大数据决策结果是什么而不是怎么来的)

1.4 大数据的应用

一堆一堆的,这个就不详细赘述了。(几乎涵盖了生活的方方面面了)

1.5 大数据关键技术

表1.4.1 大数据技术的不同层面及其功能
技术层面 功能
数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

大数据有两大核心技术

  • 分布式存储
  • 分布式处理
    大数据技术与应用原理_第1张图片
    对分布式的理解,我感觉《Hadoop权威指南》有句话说的特别好。

In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, they didn’t try to grow a larger ox. We shouldn’t be trying for bigger computers, but for more systems of computers.
— Grace Hopper
古时候人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育一头更大的牛。同样我们也不需要去制造一台更大的计算机,而是应该开发出更多的计算机系统。

1.6 大数据计算模式

表1.6.1 大数据计算模式及其代表产品
大数据计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理 MapReduce、Spark等
流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算 针对大规模图结构数据的处理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算 大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、Impala等

目前也就只对批处理那块的MapReduce、Spark有过一丢丢了解。
= _ = 加油吧…

1.7 大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经
济活动的集合

1.8 大数据与云计算、物联网的关系

大数据技术与应用原理_第2张图片

  • 云计算( 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源)
    它有三种类型(公有云、私有云、混合云),三种服务模式(Iaas、Paas、Saas)
    大数据技术与应用原理_第3张图片大数据技术与应用原理_第4张图片

小记:对于云计算三大服务模式还是有点不清楚,找时间做一个详细了解,单独写一个小博客。

2.Hadoop的安装和分布式配置

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 安装博客
大数据处理架构Hadoop 学习指南 Hadoop 学习指南


这里主要就是对照博客安装了一下hadoop环境和伪分布式集群的配置。我是直接使用的阿里云Ubuntu服务器,所以就省去了安装操作系统的步骤。因为担心hadoop集群配置上我的垃圾学生服务器会崩掉,就暂时先配个伪分布式的学习学习,根据林老师的说法伪分布式配置好了,也足够入门学习这么课程了。so,let’s do it.

ちょっと待って. 还是先梳理一下配置教程中讲到的几个重要概念吧。首先,我们了解一下Hadoop项目结构。
大数据技术与应用原理_第5张图片

  • HDFS(分布式文件系统)怎么实现成百上千台服务器的数据存储
  • YARN(资源管理和调度框架)存储后的数据再使用时,如何分配调度计算资源(CPU、带宽、内存等)
  • MapReduce(离线批处理计算)数据处理计算
  • Tez(DAG)将MapReduce作业进行分析处理,构建一个有向无环图,分清楚哪些MapReduce作业先处理、哪些后处理,它期望获得最大的执行效率
  • Spark(内存计算)数据处理计算,但是他是基于内存的,所以会比常规的MapReduce快很多
  • Hive(数据仓库)存储大量的历史数据,建立多个维度进行数据分析与挖掘,满足企业的决策需求。支持sql语句,但是最终还是会转化为多个MapReduce作业进行批量数据处理
  • Pig(流数据处理)可实现轻量级的数据分析,提供了类似sql语句的语法(Pig Latin),主要处理流数据,实时性要求更高。而Hive主要是做批量数据处理的。
  • Oozie(作业流调度系统)工作流管理工具
  • Zookeeper(分布式协调一致性服务)分布式锁、集群管理等工作都是通过Zookeeper来协调实现的。例如:HBase中多个集群,有时候我们需要从集群的多个机器设备中定一个来管理其他的机器设备,这个就是通过Zookeeper来实现的。
  • HBase(非关系型分布式数据库)列族数据库,支持超大数据的随机读写和实时应用
  • Flume(日志收集)
  • Sqoop(数据库ETL工具)数据导入导出,可实现关系型数据库导入到HDFS、HBase、Hive中
  • Ambari(安装部署工具)

你可能感兴趣的:(大数据)