大数据离线计算

离线计算概述

所谓大数据离线计算,就是利用大数据的技术栈(主要是Hadoop),在计算开始前准备好所有输入数据,该输入数据不会产生变化,且在解决一个问题后就要立即得到计算结果的计算模式。
离线(offline)计算也可以理解为批处理(batch)计算,与其相对应的是在线(online)计算或实时(realtime)计算

离线计算的特点

大数据离线计算为多种应用场景提供基础计算功能,其特点 为:
 数据量巨大且保存时间长;
 在大量数据上进行复杂的批量运算,能够方便地查询批量计算的结果;
 数据在计算之前已经完全到位,不会发生变化。

大数据离线计算应用场景

大数据离线计算主要用于数据分析、数据挖掘等领域。技术栈主要是Hadoop
BI(全称为Business Intelligence,即商业智能)系统能够辅助业务经营决策。其需要综合利用数据仓库(基于关系型数据库)、联机分析处理(OLAP)工具(如各种SQL)和数据挖掘等技术。

离线计算架构

计算工具有 Hive、Pig、Spark SQL、Presto、MapReduce ,支持 Alluxio 的存储架构,形成了离线计算引擎
大数据离线计算_第1张图片
Hadoop集群
hadoop实现了一个分布式的基础框架,核心设计就是:hdfs和mapreduce
hdfs分布式存储:
将大文件按照一定大小拆分成多份,分别存储到独立的机器上,并且每一份可以设置一定的副本数,防止机器故障导致数据丢失,这种存储方式比传统关系型数据库/数据仓库使用的集中式存储,无论是容量、价格、吞吐率、鲁棒性等各方面都有明显优势。
mapreduce分布式计算:
核心思想是让多个机器并行计算,并通过对数据本地性的利用,尽量处理本机器上的那一部分数据,减少跨网络的数据传输。很多传统的数据库/数据仓库也支持利用多核CPU、集群技术来进行分布式计算,但Hadoop的分布式计算架构更为彻底。
YARN资源管理系统
它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度.Yarn是轻量级弹性计算平台,除了MapReduce框架,还可以支持其他框架,比如Spark、Storm等
多种框架统一管理,共享集群资源:
  资源利用率高
  运维成本低
  数据共享方便

Spark 计算引擎服务
Spark旨在为高性能、迭代计算、时效性要求极高的场景服务。随着业务的飞速增长, 很多业务场景已经无法接受基于磁盘批处理的MapReduce计算服务, 更倾向使用基于内存与 SSD 作为存储进行迭代计算, 希望整体提升数据结果的时效性。

Presto计算引擎服务
基于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎,多个节点管道式执行
支持任意数据源,数据规模GB~PB 是一种Massively parallel processing(mpp)(大规模并行处理)模型.数据规模PB 不是把PB数据放到内存,只是在计算中拿出一部分放在内存、计算、抛出、再拿

Hive 大数据查询引擎
它是目前业内能够支撑 GB/TB/PB 级数据仓库的通用解决方案 之一, 支持将 sql 语句转换为 MapReduce 任务, 能够快速处理海 量数据计算,有效降低分布式计算模型的使用成本。

你可能感兴趣的:(#,离线技术)