流量分析

1 流量分析的定义

      “流量”本义是单位时间内通过河、渠或管道某一横截面的流体的量,或是通过道路的车辆、人员等的数量。在互联网时代,“流量”也指在一定时间内网站的访问量,以及手机等移动终端上网所耗费的字节数。而在本文的分析中,特指在一定时间内网站的访问量。

2 流量分析基础概念介绍

2.1 用户身份的识别

1)Cookie

    流量分析中用户常用的身份依据为Cookie。Cookie是网站以一小段文本的形式存储在用户本地终端的信息,以便网站之后的读取。但如果用户禁用了cookie,或清除了cookie,则身份的识别判断就会被中止掉。

2)用户ID

    对于访问用户中,如果已经注册且登录的用户,可以使用用户ID来标记用户身份。

3)IP

    IP地址是最早使用的识别用户的标识,但使用IP会造成很大的统计弊端,比如代理IP、动态IP、以及局域网共享同一公网出口等情况。

4)其它

其它如邮箱地址,手机号、车牌号等可以作为识别用户的方法。

2.2 访问概念

       根据用户的身份标记,将原始访问日志一次次点击按照用户串联起来。每个用户从进入网站到离开网站的过程就是一次访问(VISIT)。一个用户(Unique Visits)在一天可以产生多次访问,每次访问可以浏览多个页面(Pageviews),也可以浏览一个页面,浏览一个页面的即为弹出会话(Bounce visits)。用户的一次访问唯一标记为session,如果Session相同,则说明用户的这些浏览动作发生在一次访问过程中,这个过程中用户未离开网站且沉默期不超过30分钟。   

     访问过程中站内的第一个页面即为着陆页。

      Session标记跟Cookie一样,有一个有效期,当用户停留在你的网站但长时间不活动时,Session将被重置,一般是30分钟。

2.3 常见指标定义



2 流量分析的目的


3 流量分析内容

3.1 虚假流量与真实流量的区分

去除虚假流量是流量分析的基础。虚假的流量指的是非正常用户的点击访问。虚假流量的来源有以下几种:

①爬虫

首先说一下搜索引擎的原理来解释爬虫的存在。互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。

关于爬虫的识别,大部分的爬虫不是以浏览器方式来访问页面的,爬虫只下载网页的html源代码,不加载包含在页面中的js/css/图片,这是区分爬虫与否的一个关键。一个请求被识别出来不是浏览器访问,一定是爬虫,进一步对http头agent进行验证,是否标记为google、百度的spider,严格一点的话应该判别来源IP是否为google、baidu的爬虫IP,这些IP在网上都可以找到。

②异常流量

有一部分爬虫是以浏览器载入的方式来抓取内容的,所以,即使被识别出来是浏览器访问的来源ip。还要检测这个ip在一个时间片内的并发数,超过一定阀值,也可怀疑为爬虫。但这个过程依赖于人为的推测,所以一般被称为异常流量。而异常流量的去除多少,也没有固定标准。

③JS请求

随着ajax技术的广泛使用,用户在点击请求网页的时候,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。这样会导致用户在访问一个页面的时候,会出现多条自动更新部分内容的记录。这些自动更新并非用户的正常访问,因此在分析时,也要排除掉。

3.2 流量的基础分析

3.2.1 流量分析的指标

基础分析指标有会话量、弹出会话量、弹出率、会话平均访问时间、以及最终的订单转化。

常见的分析维度有流量来源,国家,新/老等。

详细说明一下用户的访问来源渠道。

链接用户和网站中间的媒介叫来源渠道,取值与会话中的第一个请求页的来源页面。常见的分类有以下几个:

①搜索引擎。

通过点击搜索结果而访问到网站。其中会分自然搜索和付费搜索。付费搜索是指用户点击的连接为付费的链接。自然链接,是指用户点击的链接为非付费。

②直接访问

会话的来源页为空时我们判断为直接访问。产生会话的来源页为空的原因,a,在浏览器中直接输入网址;b,点击书签中收藏的网站URL;c,也有可能是丢失来源信息的原因。

③推介流量

通过点击其它网站上的链接而访问。其它网站包括比如社交媒体、邮件、其它链接网站。举例,用户点击Facebook上的链接而访问网站。

3.3 付费广告效果追踪

对于付费广告效果,要追踪投入产出比。对于投入的广告在后续是否有转化,以及转化的订单金额是多少?和投入的成本相比的比率?

另一方面,提高投入产出比。追踪分析出投入产出比 较高的关键词。



3.4 EDM效果追踪















你可能感兴趣的:(流量分析)