用户行为日志概述

用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击。。。)

为什么要记录用户访问行为日志

  1. 网站页面的访问量
  2. 网站的黏性
  3. 推荐

用户行为日志生成渠道

  1. Nginx
  2. Ajax

用户行为日志内容

  1. IP
  2. 账号
  3. 时间区域
  4. 所使用的客户端
  5. 模块 appId
  6. 跳转的链接地址

日志数据内容:

  1. 访问的系统属性:操作系统、浏览器等等
  2. 访问特征:点击的url、从哪个url跳转过来的(referer)、页面上的停留时间
  3. 访问信息:session_id、访问ip(访问城市)等

用户行为日志分析的意义

  1. 网站的眼镜
  2. 网站的神经
  3. 网站的大脑 

数据处理流程

  1. 数据采集 
    1. Flume:web日志写到HDFS
  2. 数据清洗
    1. 脏数据
    2. Spark 、Hive、MapReduce等分布式计算框架
    3. 清洗完后的数据可以存放在HDFS上
  3. 数据处理
    1. 按照我们的需要进行业务的统计和分析
    2. Spark 、Hive、MapReduce等分布式计算框架
  4. 处理结果入库
    1. 结果可以存放到RDBMS(关系型数据库)、NoSql
  5. 数据的可视化
    1. 通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图
    2. ECharts、HUE、Zeppelin

你可能感兴趣的:(HADOOP)