《大数据采集与预处理技术》-----前三章概述

**数据产生方式大致经历了3 个阶段**
1.互动式互联网阶段
2.传统数据库阶段
3.智慧社会阶段

大数据不仅仅是数据的“大量化” ,而是包含“快速化”、 “多样化”和“价值化”等多重属性

**大数据的特征**:大量,多样,价值,高速,准确性,复杂。

**大数据关键技术**:数据采集,数据预处理,数据存储,数据分析与挖掘,数据可视化。

**传统数据采集与分布式大数据采集** 
*传统数据采集*:数据来源单一,数据结构简单,且存储、管理和分析数据量也相对较小,大多采用集中式的关系型数据库或并行数据仓库即可处理。
 *分布式大数据采集*:更高的数据访问速度、更强的可扩展性、更高的并发访问量。

 **数据预处理技术**:数据清理,数据集成,数据变换,数据归约。

 **数据采集**是指将要获取的信息通过传感器转换为信号,并经过对信号的调整、采样、量化、编码和传输等步骤,最后送到计算机系统中进行处理、分析、存储和显示。

 **微型计算机数据采集系统和集散型数据采集系统**
 **微型计算机数据采集系统**
 1.传感器:把各种非电的物理量,比如温度、压力、位移、流量等转换成电信号的器件称为传感器。
 2.模拟多路开关来轮流切换各路模拟量与A/D转换器间的通道,使得在一个特定的时间内,只允许一路模拟信号输入到A/D转换器,从而实现分时转换的目的。
 3.程控放大器的作用是将微弱输人信号进行放大,以便充分利用A/D转换器的满量程分辨率。
 4.采样/保持器的加入,大大提高了数据采集系统的采样频率。
 5.a/d转换器:模拟信号转换成数字信号
 6.接口:用来将传感器输出得数字信号进行整形或电平调整,然后再传送到计算机的总线
 **集散型数据采集系统**
 1.数据采集站:一般是由单片机数据采集装置组成,位于生产设备附近,独立完成数据采集和处理任务,并将数据以数字信号的形式传送给上位机。
 2.上位机:一般为PC计算机,配置有打印机和绘图机。上位机用来将各个数据采集站传送来的数据,集中显示在显示器上或用打印机打印成各种报表,或以文件形式存储在磁盘上。此外,还可以将系统的控制参数发送给各个数据采集站,以调整数据采集站的工作状态。
 主要优点:系统的适应能力强系统的可靠性高系统可以实时响应对系统硬件的要求不高

 **数据采集关键技术**
 *采样技术*:常规采样技术,间歇采样技术,变频采样技术
 *量化技术*
 *编码技术*:把量化信号的数值用二进制代码来表示,称为编码。量化信号经编码后转换为数字信号。

 **数据采集面临困难**:数据的分布性,数据的不稳定性,数据的无结构和冗余性,数据的错误性。数据结构复杂。

 **大数据采集技术**:
 1.系统日志采集,
 2. 利用ETL(抽取、转换、加载的过程)工具采集,
 3.网络爬虫
 
 **大数据采集架构**
 Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在Hadoop 的 HDFS(存储) 和 map/reduce (编程模型,大规模数据集的并行运算)框架之上的,继承了Hadoop 的可伸缩性和鲁棒性。		
 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
 Apache Kafka是由Apache开发的一个开源消息系统项目。它是一个分布式的、分区的、多副本的日志提交服务。
 Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。
 **Chukwa----------**
 Agent:Chukwa 使用一个Agent 来采集它感兴趣的数据
 Adaptor: 会定期运行(比如每分钟读一次数据文件的结果)或事件驱动地执行
 Collector :用于把数据先进行部分合并,再写入集群,防止大量小文件的写入
 Demux :作业负责对数据的分类、排序和去重
 Archive: 作业则负责把同类型的数据文件合并,一方面保证了同一类的数据都在一起,便于进一步分析, 另一方面减少文件数量, 减轻Hadoop 集群的存储压力
 Dbadmin:主要用于数据存储
 HICC: 是 Chukwa 提供的数据展示端
 **Flume--------------**:
 *Agent*:
  Source:负责接收数据,并将接收的数据以Flume的event格式进行封装,然后将其传递给一个或者多个通道Channal。
  Channel(管道)是一种暂时的存储容器,它将从Source处接收到的event格式的数据缓存起来,它在Source和Sink间起着一共桥梁的作用。
  Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。	
  **Scribe----------**:Scribe由Scribe Agent、Scribe和存储系统三部分组成。
  Scribe Agent实际上是一个thrift client。各个数据源需通过thrift向Scribe传输数据,每条数据记录包含一个category和一个message,可以在Scribe配置中指定thrift线程数,默认是3。
  Scribe接收到thrift client发送过来的数据,放到一个共享队列message queue,然后根据配置文件,Scribe可以将不同category的数据存放到不同目录中并push给后端不同的存储对象。
  后端的存储系统提供各种各样的Store方式
  **Kafka-------------**:包括Consumers、Broker、Producers三层架构
	Consumers:即消息接收者,可以订阅一个或多个话题,接收Broker发送的数据;
	Broker即服务代理,组成Kafka集群,并保存已发布的消息;	
	producers即消息发布者,能够发布消息到topics进程;
	Topics是指消息的分类名。
	*Kafka机构的基本流程*就是Producers将消息发送给Broker,并以Topics名称分类;Broker又服务于Consumers,将指定Topics分类的消息传递给Consumers。

你可能感兴趣的:(笔记,概述,kafka,大数据)