大数据日志分析2:kafka安装Hadoop简述flume简述及demo的搭建

基础环境搭建完成后需要开始根据我自己的需求进行大数据的demo开发
都的我的主要服务日志是nignx+egg生成的日志,eggjs框架集成了log4j,输出日志资源已经有了,现在需要对这些日记进行大数据的采集和分析.
今天的博客主要的方向就行对已有的log日志文件进行采集
采集分析前需要对已经安装的两个工具有个大致的了解
hadoop和flume都是apache出品

hadoop

Hadoop是一种分析和处理大数据框架,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算.框架最核心的设计就是:**HDFS和MapReduce**.**HDFS**为海量的数据提供了**存储**,则**MapReduce**为海量的数据提供了**计算**.
数据是通过了Hadoop的集群处理后得到的结果。处理了流程如下

大数据日志分析2:kafka安装Hadoop简述flume简述及demo的搭建_第1张图片

flume

flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方,比如送到HDFS,简单来说flume就是收集日志的,且数据源可定制.
flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink

你可能感兴趣的:(大数据,大数据,hadoop,flume,分布式)