R语言与网站分析 (数据分析技术丛书)-李明著
在线阅读 百度网盘下载(7gln)
书名:R语言与网站分析 (数据分析技术丛书)
作者:李明著
格式:EPUB, HTMLZ, PDF
路径:点击打开
出版:机械工业出版社
排序作者:李明著
排序书名:R语言与网站分析 (数据分析技术丛书)
日期:09 12月 2018
uuid:f769e8ca-0fc6-4759-8276-9239bdc78067
id:523
出版日期:4月 2014
修改日期:09 12月 2018
大小:37.55MB
语言:中文
第1章 统计思维与网站分析
第1章先大略地谈谈数据统计和分析从业人员的常用思维方式(理论),以及网站数据分析和挖掘的整体思路,希望能帮助读者从数学思维和统计理论上对全书有整体的认识。
第2章 R语言数据操作基础
2.1 R简介
这里谈到的R涉及两个含义,它既表示一种用于数据分析建模以及绘图的语言,又指一个有着统计分析功能及强大作图功能的软件系统。R语言是由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman共同创建的,因此他们把该语言称为R语言。该语言在GNU协议General Public Licence 4下免费发行,现在由“R开发核心团队”负责开发。由于R语言是基于由AT&T贝尔实验室所创的S语言发展出的一种语言,因此,通常情况下使用S语言编写的代码都可以不做修改地在R环境下运行。
R软件是一个免费的自由软件,包括UNIX、Linux、MacOS和Windows等几个版本,可以免费下载R的安装程序、各种外挂程序和文档等。在R的安装程序中只包含8个基础模块,其他拓展的算法包可以通过CRAN获得。在CRAN中,除了有收藏R的执行档下载版、源代码和说明文件以外,还收录了各种用户撰写的软件包。目前,全球有超过100个CRAN镜像站。
第3章 R语言的绘图基础
3.1 概述
R语言除了拥有良好的数据处理和分析能力外,对于数据的展现也有极其灵活和强大的应用。由于图形对于分析结果的表达往往更具有直观性和简单性,所以对于一份优秀的数据分析报告而言,把数据结果以适当的图形方式展示后,其沟通效果和说服力会更佳。
第4章 单指标分析
本章是网站分析数学理论的第一个章节,这里先介绍单一指标变量,包括描述性分析、质量控制、样本差异对比,并在第9章中讲解样本间关联性的问题。
·单指标描述性分析:是为了让分析者对指标数值有一个整体的感知,便于同其他行业网站或者网站内的其他分类情况进行同指标对比。例如,研究页面浏览量的平均数和数据分布、研究用户访问深度(用户每次访问网站时浏览的页面数)的众数和频分布等。
·单指标质量控制:用于监控该指标的日常异常点,并了解短期波动趋势,便于及时发现网站的异常情况。例如,监控购物车转化率近2周内的波动和异常点。
·单指标样本差异对比:用于衡量相同指标在不同情况下是否具有显著性的差异。本质上这已经不是单纯地研究单指标了,而是在考虑其他分类变量对该指标是否产生了显著的影响。例如,在对购物车功能进行改版优化后,对比购物车转化率数据,确定其是否有显著的差异,以衡量本次改版优化的效果。
·单指标样本间关联性:针对点击流(序列关系的样本)模型的样本,找到样本间的关联性。例如,分析购物车内商品间的关联性,以找出可以交叉销售的商品。或者通过分析进入购物车页面所在的会话曾浏览过的页面,以找出那些促使用户发起添加购物车行为的页面。
第5章 时间序列分析
网站的日常指标多是以日为周期计算的,网站分析人员在观察日常指标时,不仅要监控其波动是否异常,还要发现其中的趋势,以便对指标进行预测。时间序列分析就是建立指标与时间轴关系的模型的方法。
第6章 连续指标建模:回归分析
数据指标的建模指的是,使用若干自变量并建立公式,以预测目标变量(因变量)。
如果研究的目标变量是连续型的,则称其为回归分析(将在本章进行阐述);如果是分类型,则称其为分类分析(将在下一章讲解)。
第7章 分类指标建模:分类分析
上一章讲解了连续型指标的建模,本章详细讨论如何对一个分类指标建模,以及如何检验其模型的性能。本章讲解的大部分算法均可以用于计算目标变量被预测为正例和反例(以二元分类为例)的概率,从这个角度来看,这些分类器算法的本质也是回归算法,即大部分分类器也可以用于回归分析。
第8章 样本细分
从本章开始,讲解研究样本的相关知识,主要包括样本的细分(第8章),样本间的关联和网络关系(第9章)。
对于分析师而言,对样本进行细分是一项重要工作——要在复杂的原始数据中去除大量无关的冗余数据,进而提取出主要信息,并把样本进行归类。实际上对于网站分析和问卷调查分析来说,只有把类似的样本(用户)分开来研究才有意义,其指标数据才更有代表性(只代表该特定群体样本)。
本章首先讲解如何对变量进行降维(因子分析),即使用最少的变量来代表最多的原始信息。接着介绍样本的归类(kmeans聚类分析),最后介绍knn判别分析法,并以此来构建一套基于商品的推荐系统。
第9章 样本间的关系
9.1 关联分析
关联分析主要用于从数据集中发现数据项(item)之间的联系,最著名的应用实例是沃尔玛的啤酒尿布推荐销售案例。20世纪90年代,美国沃尔玛超市的管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,经过后续调查发现,这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去并不相干的商品会经常出现在同一个购物篮的现象。在发现这一独特的现象后,沃尔玛超市开始尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物。而沃尔玛超市也可以让这些客户一次购买两件商品而不是一件,从而获得了很好的商品销售收入。
第10章 文本分析
在互联网上,用户产生的信息主要是文字形式,通过分析这些文字内容可以获得很多重要的信息。例如,分析某个用户发出的所有微博信息(加上分词并统计各词汇出现的频率等),从而找出该用户比较关注的话题信息等。这类分析称为文本分析。
第11章 网站指标监控系统的搭建
R语言的gWidgets包提供了一个创建GUI的统一框架,这给利用R语言搭建网站数据指标的监控系统提供了基础。第12章 基于RFM模型的客户价值系统
网站的运营人员通常会希望把浏览网站的用户划分为不同的等级。Wyner于1996年指出,企业80%的销售利润来自于20%的顾客,而其余20%的销售利润,却花了公司80%的推广费用。由此可知,对用户建立一整套顾客价值分析体系,并针对不同价值等级的用户进行管理很重要。
Hughes于1994年提出了RFM顾客价值分析模型,此模型利用3种指针:最近购买日(recency)、购买频率(frequency)及购买金额(monetary)来判断顾客的价值。该方法是目前企业最常用的顾客价值分析方法之一。
本章首先介绍马尔科夫链原理,并结合RFM模型了解客户价值的核心算法。
来源:我是码农,转载请保留出处和链接!
本文链接:http://www.54manong.com/?id=1174