一、初探大数据

一、能力要求

Hadoop方向

Spark Sql部分

Spark Sql部分2

Spark Sql 部分3

一、初探大数据_第1张图片
Scala语言的选择

环境参数

二、环境使用

2.1 环境的目录结构

  • ~/software :所有课程相关的软件;
  • ~/app:软件的安装目录
  • ~/data:所有的测试数据
  • ~/source:源码(Spark需要重新编码的)
  • ~/shell:课程里使用的一些脚本

2.2 配置映射关系:

一、初探大数据_第2张图片
Hadoop001这台机器对应这个ip地址

三、启动各个软件

  • 启动hadoop:

[hadoop@hadoop001 app]$ cd ~/app/hadoop-2.6.0-cdh5.7.0/sbin,执行./start-dfs.sh 跟./start-yarn.sh来分别启动hdfs跟yarn

  • 启动Hive:

[hadoop@hadoop001 hive-1.1.0-cdh5.7.0]$ cd ~/app/hive-1.1.0-cdh5.7.0/bin,然后执行./hive来启动hive

  • 启动spark shell


    启动spark shell

三、Hive

什么是Hive

一、初探大数据_第3张图片
为什么用Hive

Hiva的体系架构

部署架构

你可能感兴趣的:(一、初探大数据)