工作纪要---解决统计差别问题

1、解决统计差别问题  
   zongheng统计的访问uv和百度统计相差较大
   经过逐项对比数据,查找发现是因为直接访问的uv差距
   有部分用户禁用的cookie,导致无id信息,没有列入统计
   结果是 对该用户的ip地址进行记录,然后
   通过对总量的 uv/ip 的出比值,再进行相乘
   或者是总量pv/uv得出比值,再进行计算无cookie的pv 和uv
2、百度统计的总uv=直接访问+搜索+渠道 一个用户只会统计一次,有渠道优先级
   对于多方式的用户难以统计完全数目
   各个渠道单独统计。
   计算出来纯直接访问粘性用户(一天之内未经过任何渠道进入)
   计算出来直接访问用户(可以有其他渠道的链接)
3、百度统计的中,区分搜索和外部链接是通过关键词来通缉的,移动端阿拉丁跳转中间页不含搜索词,被归类为外部链接
4、发现网站统计的入口页uv数小于网站整体的uv数,查找原因。     
select urlfields['pf'] pf, 
 count(distinct baiduid) u1,
 count(distinct
       case when (parse_url(page_refer, 'HOST') not rlike '\\.zongheng\\.' and
       parse_url(page_refer, 'HOST')  not rlike '\\^zongheng\\.'and
       parse_url(page_refer, 'HOST') not rlike '\\.mmzh\\.') then baiduid end ) u2
 from zongheng_access
 where dt=20141209 and
    urlfields['pf'] in(1,2,3)
 group by urlfields['pf']
5 浏览与转化,解决用户的路径问题,类似于谷歌的wordvec,3重路径 p(1,2,3)=p(1)*p(2|1)*p(3|1-2)  这就是出现用户按照1,2,3来访问网站的概率 
p(2|1)=p(1,2)/p(1)  计算用户在先访问1的页面下访问页面2的概率


p为用户转为阅读页的情况,p1 为用户经历p1页最后转为阅读页的情况, 最后可以发现用户经历了哪些页面容易转入哪些不会转入阅读页。

通过对书籍和渠道的统计,可以找出用户那些章节是重点收入章节,渠道从哪个入口介入更能创造价值

你可能感兴趣的:(工作纪要---解决统计差别问题)