大数据离线---网站日志流量分析系统(1)---简介及框架

本次介绍网站日志流量分析系统,首先是简介和架构。后面会对架构中需要的每个模块的进行逐个介绍。本篇主要分为两个部分

  • 网站日志流量分析系统简介
  • 整体技术流程和架构

1. 网站日志流量分析系统简介

1.1点击流数据模型

  • 点击流的概念
    点击流( Click Stream)是指用户在网站上持续访问的轨迹。 这个概念更注重用户浏览网站的整个流程。 用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据( Click Stream Data),它代表了用户浏览网站的整个流程。

  • 点击流和网站日志的区别
    点击流是从用户的角度出发,注重用户浏览网站的整个流程;
    而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。

  • 用户数据采集的方式 (时间顺序和会话标识Sessionid)
    网站是由多个网页( Page)构成,当用户在访问多个网页时,网页与网页之间是靠 Referrers 参数来标识上级网页来源。由此, 可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话( Session),在网站日志中将会用不同的 Sessionid 来唯一标识每次会话。如果把 Page 视为“点”的话,那么我们可以很容易的把 Session描绘成一条“线” ,也就是用户的点击流数据轨迹曲线。
    大数据离线---网站日志流量分析系统(1)---简介及框架_第1张图片

  • 点击流模型生成
    点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表 Pageviews 和 visits,例如:

原始访问日志表
大数据离线---网站日志流量分析系统(1)---简介及框架_第2张图片

页面点击流模型 Pageviews 表
大数据离线---网站日志流量分析系统(1)---简介及框架_第3张图片

点击流模型 Visits 表(按 session 聚集的页面访问信息)
大数据离线---网站日志流量分析系统(1)---简介及框架_第4张图片

1.2如何进行网站流量分析

流量分析整体来说是一个内涵非常丰富的体系, 整体过程是一个金字塔结构:
大数据离线---网站日志流量分析系统(1)---简介及框架_第5张图片

  • 网站流量分析模型举例

    • 网站流量质量分析(流量分析)

      流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入。
      大数据离线---网站日志流量分析系统(1)---简介及框架_第6张图片
      说明:
      X 轴代表量,指网站获得的访问量。
      Y 轴代表质,指可以促进网站目标的事件次数(比如商品浏览、注册、购买等行为)。
      圆圈大小表示获得流量的成本。
      BD 流量是指商务拓展流量。一般指的是互联网经过运营或者竞价排名等方
      式,从外部拉来的流量。比如电商网站在百度上花钱来竞价排名,产生的流量就
      是 BD 流量的一部分。

    • 网站流量多维度细分(流量分析)

      细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表
      现,进而找出有问题的那部分指标,对这部分指标进行优化。
      大数据离线---网站日志流量分析系统(1)---简介及框架_第7张图片

    • 网站内容及导航分析(内容分析)

      对于所有网站来说,页面都可以被划分为三个类别:导航页、功能页、内容页

      导航页的目的是引导访问者找到信息,如首页和列表页,
      功能页的目的是帮助访问者完成特定任务,如站内搜索页面、注册表单页面和购物车页面
      内容页的目的是向访问者展示信息并帮助访问者进行 决策,如产品详情页、新闻和文章页。
      比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:
      大数据离线---网站日志流量分析系统(1)---简介及框架_第8张图片
      第一个问题:访问者从导航页(首页) 还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因。
      第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分
      析内容页的最初设计,并考虑中内容页提供交叉的信息推荐。

    • 网站转化以及漏斗分析(转化分析)

      所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;对于转化渠道,主要进行两部分的分析:

      访问者的流失和迷失
      造成流失的原因很多,如:不恰当的商品或活动推荐对支付环节中专业名词的解释、帮助信息等内容不当
      大数据离线---网站日志流量分析系统(1)---简介及框架_第9张图片
      造成迷失的主要原因是转化流量设计不合理,访问者在特定阶段得不到需要的信息,并且不能根据现有的信息作出决策,比如在线购买演唱会门票,直到支付也没看到在线选座的提示,这时候就很可能会产生迷失,返回查看。
      大数据离线---网站日志流量分析系统(1)---简介及框架_第10张图片

    总之,网站数据分析是一门内容非常丰富的学科,我们主要关注网站流量分析过程中的技术运用,更多关于网站数据分析的业务知识可学习文档首页推荐的资料。

  • 流量分析常见分类
    指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。 比如我们经常说的流量就是一个网站指标,它是用来衡量网站获得的访问量。 在进行流量分析之前,我们先来了解一些常见的指标。

    • 骨灰级指标
      IP: 1 天之内,访问网站的不重复 IP 数。一天内相同 IP 地址多次访问网站只被计算 1 次。 曾经 IP 指标可以用来表示用户访问身份,目前则更多的用来获取访问者的地理位置信息。
      PageView 浏览量: 即通常说的 PV 值,用户每打开 1 个网站页面,记录 1 个PV。用户多次打开同一页面 PV 累计多次。 通俗解释就是页面被加载的总次数。
      Unique PageView: 1 天之内,访问网站的不重复用户数(以浏览器 cookie 为
      依据),一天内同一访客多次访问网站只被计算 1 次。

    • 基础级指标
      访问次数: 访客从进入网站到离开网站的一系列活动记为一次访问,也称会话(session),1 次访问(会话)可能包含多个 PV。
      网站停留时间: 访问者在网站上花费的时间。
      页面停留时间: 访问者在某个特定页面或某组网页上所花费的时间。

    • 复合级指标
      人均浏览页数: 平均每个独立访客产生的 PV。人均浏览页数=浏览次数/独立访客。体现网站对访客的吸引程度。

      跳出率:指某一范围内单页访问次数或访问者与总访问次数的百分比。其中跳出指单页访问或访问者的次数,即在一次访问中访问者进入网站后只访问了一个页面就离开的数量。

      退出率:指某一范围内退出的访问者与综合访问量的百分比。 其中退出指访问者离开网站的次数,通常是基于某个范围的。

    有了上述这些指标之后, 就能结合业务进行各种不同角度的分类分析,主要是以下几大方面:

    • 基础分析(PV,IP,UV)
      趋势分析: 根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。
      对比分析: 根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。
      当前在线: 提供当前时刻站点上的访客量,以及最近 15 分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。
      访问明细: 提供最近 7 日的访客访问记录,可按每个 PV 或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

      大数据离线---网站日志流量分析系统(1)---简介及框架_第11张图片

    • 来源分析

      来源可以分为一下几类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。
      搜索引擎: 提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。

      最近 7 日的访客搜索记录可按每个 PV 或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

      来路域名: 提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

      来路页面: 提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

      来源升降榜: 提供开通统计后任意两日的 TOP10000 搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

      大数据离线---网站日志流量分析系统(1)---简介及框架_第12张图片

    • 访客分析

      地区运营商: 提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。

      终端详情: 提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。

      新老访客: 当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。

      忠诚度: 从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。

      活跃度: 从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。
      大数据离线---网站日志流量分析系统(1)---简介及框架_第13张图片

    • 转换路径分析
      转化定义:访客在您的网站完成了某项您期望的活动,记为一次转化,如注册、 下载、购买。

      目标示例:
      获得用户目标:在线注册、创建账号等。
      咨询目标:咨询、留言、电话等。
      互动目标:视频播放、加入购物车、分享等。
      收入目标:在线订单、付款等。

      路径分析:
      根据设置的特定路线,监测某一流程的完成转化情况,算出每步的转换率和流失率数据,如注册流程,购买流程等。

      转化类型:
      大数据离线---网站日志流量分析系统(1)---简介及框架_第14张图片
      大数据离线---网站日志流量分析系统(1)---简介及框架_第15张图片


2. 整体技术流程及架构

2.1数据处理的流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。 有以下几个大的步骤:

  • 数据采集
    数据采集概念,目前行业会有两种解释:
    一是数据从无到有的过程(web 服务器打印的日志、自定义采集的日志等) 叫做数据采集;
    另一方面也有把通过使用 Flume 等工具把数据采集到指定位置的这个过程叫做数据采集。
    关于具体含义要结合语境具体分析,明白语境中具体含义即可。

  • 数据预处理
    通过 mapreduce 程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。

  • 数据入库
    将预处理之后的数据导入到 HIVE 仓库中相应的库和表中。

  • 数据分析
    项目的核心内容,即根据需求开发 ETL 分析语句,得出各种统计结果。

  • 数据展现
    将分析所得数据进行数据可视化,一般通过图表进行展示。

大数据离线---网站日志流量分析系统(1)---简介及框架_第16张图片

2.2系统的架构

相对于传统的 BI 数据处理,流程几乎差不多,但是因为是处理大数据, 所以流程中各环节所使用的技术则跟传统 BI 完全不同:

数据采集:定制开发采集程序,或使用开源框架 Flume
数据预处理:定制开发 mapreduce 程序运行于 hadoop 集群
数据仓库技术:基于 hadoop 之上的 Hive
数据导出:基于 hadoop 的 sqoop 数据导入导出工具
数据可视化:定制开发 web 程序(echarts)
整个过程的流程调度: hadoop 生态圈中的 azkaban 工具
大数据离线---网站日志流量分析系统(1)---简介及框架_第17张图片

系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块

2.3数据的展现

数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据。
市面上有许多开源的数据可视化软件、工具。 比如 Echarts

大数据离线---网站日志流量分析系统(1)---简介及框架_第18张图片


本次网络日志分析简介结束,后面的内容将会是架构中各个模块的开发具体实现。
本博客会持续大数据相关课程,感兴趣的童鞋欢迎关注。

你可能感兴趣的:(大数据,Hadoop)