web 方式查看 hdfs 目录结构的地址是:http://主机名:50070
.
linux下存放公钥信息的是 id_rsa.pub 文件,放在 .ssh 目录下
.
下列可以实现定时任务调度的包括:Crontab、Oozie、Azkaban。
Hive 不可以实现定时任务调度。
.
hadoop配置文件(如:core-site.xml、hdfs-site.xml)在${HADOOP_HOME}/etc/hadoop 目录下
.
Hadoop1.0默认的调度器策略是:先进先出调度器
.
HDFS1.0 默认 Block Size大小是:64 MB
.
HBase 是 Bigtable 的开源实现
.
非关系型数据库:NoSql、Cloudant、MongoDB、redis、HBase
关系型数据库:Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮K-DB 等
.
NoSQL 类型:键值数据库、列族数据库、文档数据库和图形数据库
NoSQL 数据库的特点:灵活的可扩展性、灵活的数据类型、与云计算紧密耦合
.
非关系型数据库兴起原因:
.
NoSQL 数据库与关系数据库比较:
.
从 NoSQL 到 NewSQL:
.
非结构化数据:视频监控数据
结构化数据:企业ERP数据、财务系统数据、日志数据
.
Client 端上传文件的时候:Client 端将文件切分为 Block,依次上传
.
Hadoop 不支持数据的随机读写。
hbase 支持数据的随机读写。
.
NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从内存中读取或会写入 metadata 信息并反馈给 client 端。
.
MapReduce 的 input split 默认是一个 block。
.
MapReduce 适于 PB 级别以上的海量数据离线处理。
.
链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。
.
MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。
.
HBase 对于空(NULL)的列,不需要占用存储空间,没有则空不存储
.
HBase 有列和列族。
.
大数据特点(4V):数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。
.
大数据计算模式有哪些,针对什么问题,代表产品:
.
大数据的构成:结构化数据、半结构化数据、非结构化数据
.
大数据与云计算、物联网的关系:
.
名词解释:HDFS,Map/Reduce,Yarn
.
hadoop 和 yarn 启动后,会包含哪些 java 进程?
.
简述Hadoop安装步骤?
解压并安装安装包,配置 JDK 环境,设置环境变量,修改关键文件,关闭防火墙,设置免密登录,web 方式查看 hdfs 目录结构检查是否可用
.
Hadoop特性(优势):
.
HDFS特点:
.
HDFS数据管理策略:
为了保证数据的容错性和可靠性,HDFS 提供如下管理策略:
.
数据仓库:
.
Hive概述:
.
Hive 运行机制:
.
HBase 概述:
.
HBase 特点:
.
HBase 与关系数据库对比:
.
HBase 数据模型:
.
HBase 读写流程:
读流程:
注意:blockcache 是缓存,有大小限制,会有淘汰机制,默认将最早的数据淘汰
写流程:
验证 ZooKeeper 启动是否成功,看有无 QuorumPeerMain 进程。
.
HBase 启动和关闭服务:
启动:
启动后多 2 个进程 HMaser、HRegionServer
关闭:
.
Sqoop 概述:
Sqoop = Sql + Hadoop,是一个基于 Hadoop 与 RDBMS 间的数据传输工具,是Apache 顶级项目。
.
Sqoop 架构:
Sqoop 通过 Map 任务来传输数据,不需要 Reducer。
.
任务调度系统:
.
可视化概述:
.
可视化工具:
.
ECharts 简介:
ECharts 是一款由百度前端技术部开发的,基于 Javascript 的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表,支持丰富的图表类型,现在是由 Apache 孵化器赞助的 Apache 开源基金会孵化的项目。
.
ECharts 开发环境:
ECharts 图表是嵌入到网页中展现的,我们借助于 JSP 动态网页技术,将数据库中的数据通过 Echarts 展现在网页中。
由于 Centos 中的 Eclipse 运行较慢,开发工作在 Window 下进行,访问的数据库是Centos 下的。
.
MySQL 添加用户:
默认情况下,Mysql 只接受本地客户端的访问,Window 下程序要访问 Mysql,需要授权,我们添加一个 guest 用户,可以远程访问 test 数据库下的所有表。
grant select,insert,update,delete on test.* to guest@“%” identified by “guest”;
identified by “guest”:是设置用户密码的意思
.
Eclipse 下开发 web 项目的步骤有哪些?
.
大数据可视化典型案例:
.
Spark 概述:
.
Spark 生态系统:
.
Spark 执行流程:
.
Spark 部署和应用方式:
Spark 部署模式主要有四种:
不同的计算框架统一运行在 YARN 中,可以带来如下好处:
.
流计算应用:
批量计算允许用充裕的时间处理静态数据,如 Hadoop、Hive 等。
流计算则需要及时处理数据,应达到如下要求:
.
常用流计算框架:
.
Kafka:
一个典型的 Kafka 集群中包含若干 Producer、若干 Broker、若干 Consumer 以及一个 Zookeeper 集群。Kafka 通过 Zookeeper 管理集群配置。Producer 使用 push 模式将消息发布到 Broker,Consumer 使用 pull 模式从 Broker 订阅并消费消息。
.
Kettle简介
Kettle 是纯 java 开发,开源的 ETL 工具,用于数据库间的数据迁移 。可以在 Linux、Windows、Unix 中运行。有图形界面,也有命令脚本还可以二次开发。作为一个端对端的数据集成平台,可以对多种数据源进行抽取(Extraction)、加载(Loading)、数据落湖(Data Lake Injection)、对数据进行各种清洗(Cleasing)、转换(Transformation)、混合(Blending),并支持多维联机分析处理(OLAP)和数据挖掘(Data mining)