大数据

什么是大数据:
通过收集本行业或者多个行业(智慧城市大数据平台需要收集交通行业,银行,工商,医院等相关多行业信息)海量数据,借助分布式储存系统及各类计算框架,提炼或者分析有价值的东西,提供满足企业需要的解决方案。
简单总结为:根据企业需求场景(离线计算或者流计算),利用大数据生态对应技术解决企业对大数据(已有的或者不断生成)分析需求的方案。
大数据特点:
1.数据产生快,数据量大;(前所未有,尤其是web2.0及物联网等行业兴起)
2.数据多样化(有文本,图片,视频…);
3.价值密度低,需要挖掘提炼商业价值
4.数据的真实性(数据是否真是可信,如经济普查,是否都如实上报)
大数据的应用场景:
1.各大电商平台个性化推荐(京东,淘宝)
2.根据上网痕迹,构建用户画像,实现精准推送(今日头条,淘宝,京东)
3.海关历年数据分析,决策辅助
4.医疗(对多年同专业数据进行分析)
5.农业
6.智慧校园(贫困生奖学金)

大数据需要解决的问题:
1.如何从众多的数据源提取数据?(核心)
2.如何储存GB/TB/PB/EB等级别的大数据?(核心)
3.如何计算如果庞大的数据?(核心)
4.如何管理众多的计算机资源?
5.如何保障数据的安全?

大数据计算场景及其技术:
大数据_第1张图片
大数据生态组件:
大数据_第2张图片
大数据生态组件简要介绍

Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,用来做数据采集。

Kafka
分布式的消息发布/订阅系统,通过与Spark Streaming整合,完成实时业务计算。由Java+scala开发。

HDFS
Hadoop中的重要组件之一,用来做分布式存储,具有高容错,高吞吐等特性,是常用的分布式文件存储系统。

MR(MapReduce简称)
Hadoop中的重要组件之一,作为分布式计算模型,程序人员只需在Mapper、Reducer中编写业务逻辑,然后直接交由框架进行分布式计算即可。

Yarn
Yarn是Hadoop中的重要组件之一,负责海量数据运算时的资源调度
Standalone是Spark提供的资源管理器,
Mesos也是Apache下的开源分布式资源管理器。

Spark
Spark是大规模数据快速处理通用的计算引擎,其提供大量的库:Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX 。(只是计算,不作存储)

Hive/Pig
hive是基于Hadoop的一个数据仓库工具,通过将结构化的数据文件(通常为HDFS文件)映射为一张数据表,提供简单的sql查询功能,将sql语句转换为MapReduce任务运行。
pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作,企业中很少用了。

Hbase
HBase是建立在Hadoop文件系统之上的面向列的分布式数据库。不同于一般的关系数据库,适合于存储非结构化的数据,HBase基于列而不是基于行。

Redis
Redis 可基于内存也可以持久化的日志型、Key-Value数据库。往往用来缓存key-value类型的小表数据。

Sqoop
负责数据在 HIVE—HDFS—DB之间进行导入导出。

JavaWeb
用来搭建可视化的Web服务平台。

你可能感兴趣的:(大数据)