数据采集与预处理技术考点复习——第三、四章

第三章:大数据采集架构

1. 简述多级Flume架构
数据采集与预处理技术考点复习——第三、四章_第1张图片
Flume Agent包括Sourse、Channel、Sink

  • Sourse:接收数据并将接收的数据进行封装,然后传递给一个或多个通道(Channel)支持http、jms、rpc、NetCat、Exec、Spooling、Directory。
  • Channel:暂时的存储容器,将从Source处接受到的数据缓存起来,可以存放在memory、jdbc、file等
  • Sink:读取数据并发送给下一个Agent或者最终的目的地。目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义

2. 简述Kafka数据采集架构

Kafka包括Consumers、Broker、Producers

  • Consumers:消息接收者,可以订阅一个或多个话题,接收Broke发送的数据
  • Broker:服务代理,组成Kafka集群并保存已发布的消息
  • Producers:消息发布者,能够发布消息到Topics进程(Topics:消息的分类名)

3. Topic可以分很多区,这些分区有什么作用

作为并行处理单元,使Kafka有能力高效的处理大量数据

4. 在Kafka架构中ZooKeeper如何实现数据管理

Apache Kafka主要利用ZooKeeper解决分布式应用中遇到的数据管理问题,如名称服务、状态同步服务、集群管理、分布式应用配置项的管理等

ZooKeeper的数据管理通过多个Broker协同工作,Producer和Consumer部署在各个业务逻辑中被频繁的调用都是通过ZooKeeper管理协调请求和转发。通过ZooKeeper管理实现了高性能的分布式消息发布订阅系统

第四章:大数据迁移技术

1. 基于同构存储的数据迁移和基于异构存储的数据迁移差别有哪些

  • 同构存储的数据迁移是利用其自身复制技术,实现磁盘或卷LUN的复制
  • 异构存储的数据迁移是通过存储自身的虚拟化管理技术,实现对不同品牌存储的统一管理及内部复制,从而实现数据迁移

2. ETL构建数据仓库包含哪些关键流程

数据采集与预处理技术考点复习——第三、四章_第2张图片

  • 数据抽取:从不同的数据源(不同物理环境和背景 以及多样化的数据)中通过采用不同的方法抽取数据的一个过程。
  • 数据转换:从数据源中抽取获得的数据格式与目标 数据格式可能存在不一致的情况,所以需要对抽取后的数据进行数据转换以及加工的处理,包括数据的合 并、汇总、过滤和转换,重新对数据进行格式化等 过程。
  • 数据清洗:指数据在加载到数据仓库之前,可能会 存在- -些问题数据,即"脏数据" ,如不完整数据、错误数据和重复数据等须进行数据清洗,这是一个不 断反复的过程。
  • 数据加载:将经过数据转换和数据清洗后的数据依照实际数据模事义的表结构装载到目标库中。通常包含两种方式装载,一种是通过SOL语句进径接的 插人、删除和更新操作,另种是采用批量装载方法

3. 简述Sqoop的数据导入和数据导出的过程
导入流程:
(1)读取要导入数据的表结构
(2)读取参数,设置好job
(3)调用mapreduce执行任务

  • 对数据进行切分
  • 写入范围,以便读取
  • 读取范围参数(第二步中设置的参数)
  • 创建RecordReader并从数据库中读取数据
  • 创建map
  • 执行map

导出流程:
导入过程的逆向过程

转自——sqoop数据导入导出

4. 查阅相关资料,利用Kettle实现数据迁移

转自——利用Kettle实现数据迁移

你可能感兴趣的:(数据采集与预处理技术考点复习——第三、四章)