大数据采集与预处理技术

第一章  三个点

1.1数据的处理流程 

数据采集 (系统日志采集,互联网数据采集,ETL)          在网上采集各种信息

数据预处理(数据清理,数据集成,数据变换,数据规约)  采集到信息杂乱,需要处理

数据存储 ( HDFS,NoSQL,云存储)            处理完数据我们要把它存储起来

数据分析与挖掘 (关联,聚类,分类,预测,回归,机器学习)         对数据分析产生价值

数据可视化 (标签云,流式地图,聚类图,信息流热力图)        将数据更好的表达出信息

1.2 大数据采集技术

 1.系统日志采集  

  数据到来源 : 系统操作日志,Web服务器访问日志,应用程序日志

大数据采集与预处理技术_第1张图片

 2.互联网数据采集

 

第二章  数据采集基础 

1传统数据采集技术

采集系统分为 硬件 与 软件 

硬件有分两类 1,微型计算机数据采集系统 2,集散型数据采集系统 

 

 

第三章大数据采集基础

1

2

3大数据采集的挑战与困难   分布性 不稳定性 无结构与冗余性 错误性 结构复杂

4,系统日志文件采集         日志: 系统自动生成的记录文件. 

5,ETL工具采集  数据源不同 格式不同 缺少整合 (E抽取 T转换 L 加载)

E(extract) 全量抽取 增量抽取(日志对比,时间戳,触发器,全表对比)

T(transform) 过滤 清洗 替换 验证 加解密

L(load)  自有数据的加载  非电子数据到数字化  对系统结构到清晰理解 ETL——ELT  API接口提供数据 

6,互联网数据采集 ——人 机 物 

特性 多源异构 互交性 时效性 社会性 突发性 高噪声

采集——网络爬虫              通用网络爬虫  聚焦网络爬虫 增量式网络爬虫  分布式网络爬虫

第四次课  大数据采集架构  flume

(几种采集项目 )

面对到问题 :数据源多种多样 数据量大 变化快 如何保证数据采集的可靠性到性能  如何避免重复到数据 如何保证数据质量

1,Flume数据采集

数据源 (Web Server)   数据搜集Agent (Source,Channel,Sink)  数据存储目的地(HDFS)

第四讲

数据源 web Server   数据收集Agent Source Channel sink 

channel  通道  

memory channel  写入内存  非持久化存储 断电   碟机 丢失信息         file channel  写入文件持久化储存 

第五讲 kafka

1,Scribe 数据采集   scribe 是facebook开源的日志收集系统 可以从各种日志源上收集日志存储到一个中央存储系统  特点 容错性好当后端的存储系统crash时scribe会将数据写到本地磁盘上,当存储系统恢复正常后,scribe 将日志重新加载到存储系统中

2,kafka数据采集  是发布订阅消息系统构建实时数据管道和数据流应用程序 

结构 生产者producer(数据采集的源头)  消费者consumer  kafka集群 broker(topic partition   broker 节点)   zookeeper负责协调节点

 (1)producer 负责向kafka的主题topic 提供数据(push)     topic是kafka的核心抽象 数据源可以用kafka按topic发布信息给定阅者

topic 一个主题 与多个分区维护一个分区日志 要求顺序写入均匀分布批量传输

(2)consumer 按组消费

(3)发布—订阅 Push and pull 机制    有主动获取与被动获取 

(4)zookeeper 分布式服务框架 统一命名服务   状态同步管理

大数据采集与预处理技术_第2张图片

第六次课  ELK

ELK是一种数据采集架构  E (ElasticSearch)   L(Logstash)   K(Kibana)

Logstash 日志采集 (重点)         ES 日志存储和索引 (放在中间步骤)       Kibana 分析与展示 数据可视化

logstash的工作过程 : input 数据收集 ——filters 修改数据——output 输出数据

input 

(一)filters 的操作

1,grok 对数据进行切分整理          

 大数据采集与预处理技术_第3张图片

2,rename 重命名

大数据采集与预处理技术_第4张图片

3,update 更新文段

大数据采集与预处理技术_第5张图片

4,replace 替代

5,drop 删除满足条件的日志

大数据采集与预处理技术_第6张图片

6,clone克隆操作  克隆增加 与克隆删除

大数据采集与预处理技术_第7张图片

7,geoip 对数据的IP地址增添维度

大数据采集与预处理技术_第8张图片

output 将通过索引数据输给ES 集群中

大数据采集与预处理技术_第9张图片

(二)ElasticSearch 

(三)Kibana

你可能感兴趣的:(专业学习笔记)