Hadoop大数据入门(1)

Hadoop大数据入门

1、大数据导论

数据:数据是对客观事物的计量和记录产生数据。

在企业数据分析中,数据之间是有关系的,其中数据分析就是将隐藏在数据背后的惯性系串联起来,它包括现状分析、原因分析、预测分析。

其中这三个分析正好对应着现状、过去和未来分析。

  • 原因分析—离线分析

面向过去,分析已有的数据。在时间维度明显呈批次性变化。

  • 实时分析

面相当下,分析实时产生的数据。

  • 预测分析

基于历史数据和当下产生的实时数据预测未来发生的事情。

Hadoop大数据入门(1)_第1张图片

数据分析流程

  • 明确分析目的和思路

流程的起点和方向。其次是思路的分析,需要相关理论的支撑。

  • 数据收集

明确目的之后,首先是从无到有的过程;其次是数据传输过程,将数据为自己所用。

其中数据包括:业务数据、日志数据、爬虫数据、互联网公开数据。

  • 数据处理

首先是数据预处理(脏数据、格式不正确等),保证数据一致性和有效性,处理成干净规整的结构化数据。通俗来说就是可读性并且格式清晰。

  • 数据分析

对处理的数据进行分析、提取价值。

  • 数据展现

数据可视化,比如用图形表示。其次还可以进行数据挖掘。

  • 报告撰写

将分析报告进行一个总结和呈现。

Hadoop大数据入门(1)_第2张图片

大数据时代

Hadoop大数据入门(1)_第3张图片

通过5V特征来描述大数据:

  • Volume:数据体量大
  • Variety:种类来源多样化
  • Value:低价值密度
  • Velocity:速度快
  • Veracity:数据的质量

大数据应用:

  • 大数据“杀熟”
  • 金融、交通领域、电信领域方面
  • 安防、医疗领域

分布式和集群概念

  • 分布式:多台机器每台机器部署不同的组件。

Hadoop大数据入门(1)_第4张图片

  • 集群:多台机器都部署相同的组件。

Hadoop大数据入门(1)_第5张图片

应用

Hadoop大数据入门(1)_第6张图片

  • 大数据的存储方式:多台机器分布式存储。
  • 计算方式:将数据拆分,多台机器分布式计算。

你可能感兴趣的:(hadoop,软件架构,hadoop,大数据)