大数据

1、 大数据的原理,本质

        大量的数据如何存储? 分布式文件系统(分布式存储)

        大量的数据如何计算? 分布式计算

2、Java和大数据的关系

      (1)Hadoop: 基于Java语言开发

      (2)Spark: 基于Scala语言开发,Scala基于Java语言开发

3、学习大数据的需要基础和路线

      (1)学习大数据需要的基础:

          Java基础(JavaSE)——类、继承、l/O、反射、泛型……

          Linux基础(Linux的基本操作)创建文件、目录、VI编辑器……

        (2)学习路线

            1、Java基础和Linux基础

            2、Hadoop的学习:体系结构、原理、编程

第一阶段: HDFS、MapReduce、HBace(NoSQL数据库)

第二阶段: 数据分析引擎——Hive、Pig

                  数据采集引擎——Sqoop、Flume

第三阶段: HUE : Web管理工具

                  Zookeepr: 实现Hadoop的HA

                  Oozie: 工作流引擎

            3、Spark的学习

第一阶段: Scala编程语言

第二阶段: Spark Core——基于内存,数据的计算

第三阶段: Spark SQL——类似Oracle中的SQl语句

第四阶段: Spark Streaming——进行实时计算(流失计算)比如: 自来水厂


             


   

你可能感兴趣的:(大数据)