网站流量日志分析——day1

背景

网站分析对于很多人来说是一个全新的行业,大家会存在常见的一些疑问,网站分析是干什么的?都分析哪些内容?为什么要对网站进行分析?这能带来哪些价值?
回答这些之前,我们先反问一下自己:网站为什么会存在?每个网站都有自己存在的目的和意义。除了政府和公益类网站之外,大多数网站的目的都是为了产生货币收入,说白了就是赚钱。要创建出用户需要的网站就必须进行网站分析,通过分析,找出用户实际需求,构建出符合用户需求的网站。

网站分析意义
网站分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。

首先,网站分析是网站的眼睛。是从网站的营销角度看到的网站分析。在这部分中,网站分析的主要对象是访问者,访问者在网站中的行为以及不同流量之间的关系。
其次,网站分析是整个网站的神经系统。这是从产品和架构的角度看到的网站分析。在这部分中,网站分析的主要对象是网站的逻辑和结构,网站的导航结构是否合理,注册购买流程的逻辑是否顺畅。
最后,网站分析是网站的大脑,在这部门中,网站分析的主要分析对象是投资回报率(ROI)。也就是说在现有的情况下,如何合理的分配预算和资源以完成网站的目标。
终极意义:改善网站的运营,获取更高投资回报率(ROI)。赚更多的钱。

数据处理流程

  • 数据采集

  • 数据从无到有,或者通过flume等共计进行数据采集搬运

  • 数据预处理

数据预处理(data preprocessing)是指在正式处理以前对数据进行的一些处理

本项目中通过MapReduce程序对采集到的原始日志数据进行预处理,比如数据清洗,日期格式整理,滤除不合法数据等,并且梳理成点击流模型数据。
使用MapReduce的好处在于:一是java语言熟悉度高,有很多开源的工具库便于数据处理,二是MR可以进行分布式的计算,并发处理效率高。

  • 数据入库

网站流量日志分析——day1_第1张图片

  • 数据分析和数据可视化
  • 数据分析使用hive sql
  • 数据可视化使用图标

架构

相对于传统的BI数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统BI完全不同:

  • 数据采集:页面埋点JavaScript采集;开源框架Apache Flume
  • 数据预处理: Hadoop MapReduce程序
  • 数据仓库技术:基于hadoop的数据仓库Hive
  • 数据导出:基于hadoop的sqoop数据导入导出工具
  • 数据可视化:定制开发web程序(echarts)
  • 整个过程的流程调度:hadoop生态圈中的azkaban工具
    网站流量日志分析——day1_第2张图片

模块开发-数据采集

网站流量日志数据获取

网站日志文件(Log files)

记录网站日志文件的方式是最原始的数据获取方式,主要在服务端完成,在网站的应用服务器配置相应的写日志的功能就能够实现,很多web应用服务器自带日志的记录功能。如Nginx的access.log日志等。

页面埋点js自定义采集。

埋点是指:在网页中预先加入小段javascript代码,这个代码片段一般会动态创建一个script标签,并将src属性指向一个单独的js文件,此时这个单独的js文件(图中绿色节点)会被浏览器请求到并执行,这个js往往就是真正的数据收集脚本。

数据收集完成后,js会请求一个后端的数据收集脚本(图中的backend),这个脚本一般是一个伪装成图片的动态脚本程序,js会将收集到的数据通过http参数的方式传递给后端脚本,后端脚本解析参数并按固定格式记录到访问日志,同时可能会在http响应中给客户端种植一些用于追踪的cookie。

  • 设计实现
    网站流量日志分析——day1_第3张图片

你可能感兴趣的:(项目,学习大数据的第一个项目)