谷歌分析数据抽样问题

谷歌分析数据抽样问题_第1张图片

正文

一些网站分析工具会使用抽样数据(Sampled Data)。比如,谷歌分析(Google Analytics /GA)在报表里会展示抽样数据

文章里我会解释抽样数据会给你做分析带来的问题。

数据抽样(Data Sampling)

数据抽样会产生严重的问题。

谷歌分析(Google Analytics / GA),会将数据进行抽样,在一些情况中,GA报表中展示的数据会是抽样数据。

一般场景是当一个GA 媒体资源属性(Property)所收集的数据超过了该资源属性的上限时,GA就会在其报表中显示抽样数据。

GA数据是如何被抽样的?

在以下场景中,数据会被抽样:

  • 报告中每天有50,000行以上的预汇总数据时。
  • 报告中有500,000个访问来自非汇总数据时。

当数据被抽样时,你的数据报告就不再精确了,而且GA也会向你展示如下信息,以表示该报告是以抽样数据为基准的:

"本报告以100,000访问次数为基准(占总访问次数的10%)"

GA数据抽样会导致什么问题?

举例而言,在你所选取的日期区间内,本来有1,000,000个访问。通过数据抽样,GA选取了当中的100,000个访问(假设是总访问次数的10%),把所有的数值乘以10倍,然后生成了你需要的报告。

假设,你GA帐号某时间段记录了1,000,000个访问,当中的10,000个访问(=1%)是属于某一个来源访问地址(referring URL=example.com)。如果要选取10%作为样本来计算,GA就会从1,000,000个访问中随机抽取100,000个。这100,000个访问中,GA很可能随机抽取了2,500个来自这个访问地址(example.com),然后将2,500乘以一个比例,得出一个“估计值” - 2,500是原来10,000的4分之1。最后,通过这样的数据抽样方式将数据汇报到平时的GA报表中。

通过数据抽样的方式,将数据汇报到平时的GA报表中后,你的数据就面临极不精准的问题。我稍后继续说明不精准的数据会带来什么样的数据分析问题。

在GA抽样数据上,如何使数据更精准?

在GA报告中,你可以选择增加抽样的样本量以提升精准性,或者降低样本量,以提升报告的生成速度。是两者二选一。

当然我们希望增加样本量,让GA基于更大的样本基数来运算,生成你的报表。

比如,GA一开始提供的标准抽样基数会比较低:

"此报告基于50,000个访问(总访问次数的5%)来计算"

你在GA帐号里手动提升了抽样基数后:

"此报告基于200,000个访问(总访问次数的20%)来计算"

GA数据抽样问题最终解决了吗?

免费版的GA,抽样问题无法完全避免,只能降低其影响。

你是可以通过GA帐号里的一个滑块开关来增加样本量,增加样本量后,GA报告的数据精准性会增加。但是,GA本来就有精度上限,你也只能把精度提升到比如20%(为最大值),所以GA报表中的数据出现的精度问题(或),抽样数据以后带来的问题,还是不能解决。

谷歌分析数据抽样问题_第2张图片

GA中的抽样数据无法解决!

抽样数据带来的问题

因为是从GA取得的是抽样数据,所以会碰到的问题包括:

  • 如果是电商业务,有可能发生的是你GA订单数据的细节跟你业务数据库里的订单数据对不上号。
  • 你很可能希望把用户数据做成用户轨迹(User Clickstream),但在建用户轨迹模型时,你会发觉当中缺数据。

使用GA的另一个麻烦问题是:你的网站分析数据其实是存放在Google的服务器上,你并没有自己保存一份完整的原始数据。以后你要做复杂的数据细分、比较、建模,前提是需要先有完整的原始数据,但是你没有保存一份。所以就别想要做复杂的细分、比较、建模了。

解决方法是:

你会需要自己保存自己的网站分析数据。

China Mobile SEO Book

过去我写过的一本SEO书:

  • www.ChinaMobileSEO.com

相关阅读

假如对数据分析技术有兴趣,推荐阅读我写的书,可以免费网上阅读数据分析技术白皮书

  • 中文版:cn.analyticsbook.org
  • 英文版:www.analyticsbook.org
  • 繁体版:hk.analyticsbook.org

我的个人微信号二维码

需要联系,就请扫二维码。

你可能感兴趣的:(谷歌分析数据抽样问题)