1 流量分析的定义

“流量”本义是单位时间内通过河、渠或管道某一横截面的流体的量，或是通过道路的车辆、人员等的数量。在互联网时代，“流量”也指在一定时间内网站的访问量，以及手机等移动终端上网所耗费的字节数。而在本文的分析中，特指在一定时间内网站的访问量。

2 流量分析基础概念介绍

2.1 用户身份的识别

1）Cookie

流量分析中用户常用的身份依据为Cookie。Cookie是网站以一小段文本的形式存储在用户本地终端的信息，以便网站之后的读取。但如果用户禁用了cookie，或清除了cookie，则身份的识别判断就会被中止掉。

2）用户ID

对于访问用户中，如果已经注册且登录的用户，可以使用用户ID来标记用户身份。

3）IP

IP地址是最早使用的识别用户的标识，但使用IP会造成很大的统计弊端，比如代理IP、动态IP、以及局域网共享同一公网出口等情况。

4）其它

其它如邮箱地址，手机号、车牌号等可以作为识别用户的方法。

2.2 访问概念

根据用户的身份标记，将原始访问日志一次次点击按照用户串联起来。每个用户从进入网站到离开网站的过程就是一次访问(VISIT)。一个用户（Unique Visits）在一天可以产生多次访问，每次访问可以浏览多个页面(Pageviews)，也可以浏览一个页面，浏览一个页面的即为弹出会话(Bounce visits)。用户的一次访问唯一标记为session，如果Session相同，则说明用户的这些浏览动作发生在一次访问过程中，这个过程中用户未离开网站且沉默期不超过30分钟。

访问过程中站内的第一个页面即为着陆页。

Session标记跟Cookie一样，有一个有效期，当用户停留在你的网站但长时间不活动时，Session将被重置，一般是30分钟。

2.3 常见指标定义

2 流量分析的目的

3 流量分析内容

3.1 虚假流量与真实流量的区分

去除虚假流量是流量分析的基础。虚假的流量指的是非正常用户的点击访问。虚假流量的来源有以下几种：

①爬虫

首先说一下搜索引擎的原理来解释爬虫的存在。互联网上的信息存储在无数个服务器上，任何搜索引擎要想回答用户的搜索，首先要把网页存在自己本地的服务器上，这靠的就是网络爬虫。

关于爬虫的识别，大部分的爬虫不是以浏览器方式来访问页面的，爬虫只下载网页的html源代码，不加载包含在页面中的js/css/图片，这是区分爬虫与否的一个关键。一个请求被识别出来不是浏览器访问，一定是爬虫，进一步对http头agent进行验证，是否标记为google、百度的spider，严格一点的话应该判别来源IP是否为google、baidu的爬虫IP，这些IP在网上都可以找到。

②异常流量

有一部分爬虫是以浏览器载入的方式来抓取内容的，所以，即使被识别出来是浏览器访问的来源ip。还要检测这个ip在一个时间片内的并发数，超过一定阀值，也可怀疑为爬虫。但这个过程依赖于人为的推测，所以一般被称为异常流量。而异常流量的去除多少，也没有固定标准。

③JS请求

随着ajax技术的广泛使用，用户在点击请求网页的时候，可以在不重新加载整个网页的情况下，对网页的某部分进行更新。这样会导致用户在访问一个页面的时候，会出现多条自动更新部分内容的记录。这些自动更新并非用户的正常访问，因此在分析时，也要排除掉。

3.2 流量的基础分析

3.2.1 流量分析的指标

基础分析指标有会话量、弹出会话量、弹出率、会话平均访问时间、以及最终的订单转化。

常见的分析维度有流量来源，国家，新/老等。

详细说明一下用户的访问来源渠道。

链接用户和网站中间的媒介叫来源渠道，取值与会话中的第一个请求页的来源页面。常见的分类有以下几个：

①搜索引擎。

通过点击搜索结果而访问到网站。其中会分自然搜索和付费搜索。付费搜索是指用户点击的连接为付费的链接。自然链接，是指用户点击的链接为非付费。

②直接访问

会话的来源页为空时我们判断为直接访问。产生会话的来源页为空的原因，a,在浏览器中直接输入网址；b,点击书签中收藏的网站URL；c,也有可能是丢失来源信息的原因。

③推介流量

通过点击其它网站上的链接而访问。其它网站包括比如社交媒体、邮件、其它链接网站。举例，用户点击Facebook上的链接而访问网站。

3.3 付费广告效果追踪

对于付费广告效果，要追踪投入产出比。对于投入的广告在后续是否有转化，以及转化的订单金额是多少？和投入的成本相比的比率？

另一方面，提高投入产出比。追踪分析出投入产出比较高的关键词。

流量分析