《数据挖掘与数据化运营实战思路、方法、技巧与应用》卢辉

本书主要讲述了数据挖掘方面的内容,却又有别于其他数据挖掘类的书籍,本书在纯技术方面着墨较少,而是在如何做数据挖掘,数据挖掘的思路方面讲的较多,也即相较于术本书更注重讲述道。当然,这并不是说本书没有讲术或是术讲的不好,只是相较于之前看的大多数的关于“术”方面的书,本书更加注重应用,更加注重如何将数据挖掘方法应用于实际中,以业务为导向,以数据挖掘为方法,讲述如何应用数据挖掘技术解决实际业务问题的“道”。

下文对文中内容作一个简单的总结思考与回顾。

第一章 什么是数据化运营

数据化运营是指以企业级海量数据的存储和分析挖掘应用为支持的,企业全员参与的,以精准、细分和精细化为特点的企业运营制度和策略。简单理解,就是在企业常规运营的基础上革命性的添加数据分析和数据挖掘的精准支持。

这种新式的运营方法相对于传统的运营主要特点是“精准”和“精细”,传统的运营采用的大都是“广撒网”的策略,而数据化运营则是针对特定群体定向运营。举个可能不太准确的例子,以往房地产公司进行电话销售的时候可能是对所有的人都进行同样的房型销售,但是有了数据化运营以后,我们首先会从已有的客户信息中进行筛选,找出那些符合特定要求的(譬如18岁以下的基本上不会考虑买房的问题,所以可以直接将这部分客户过滤掉)进行电话销售,其次,如果有足够的数据信息,电话销售们还可以对不同的潜在客户推荐不同的房型以提高成功率(譬如对于一个普通工薪族,给他推荐一个二居、三室明显比推荐一个海边别墅来得靠谱),上面的电话销售过程即是表现了现代数据化运营的“精准”与“精细”。

上面简单说道了数据化运营的“精准”与“精细”的特点,那么这种“精准”和“精细”是如何做到的呢?答案就是数据挖掘,结合业务需求,通过对海量的用户数据进行分析,寻找出解决业务需求的方法。这里需要划重点的是,以往我们可能总是认为算法多重要,但是站在商业的角度上来看,数据才是最重要的,这听起来像是一句废话。有了数据才有了数据化运营的可能,我们的诸多算法不过是解决业务需求的一种方法途径,有了数据之后我们的重点是如何利用这些数据来进行运营——也即解决业务需求。事实上,数据挖掘并非是唯一达成数据化运营的途径,在有时候往往一些简单的统计分析也能达到不错的效果。简言之,我们的重点应该是如何去解决业务需求,以业务需求为导向来

日常接触的较多的可能是针对互联网运营部门的数据化运营,具体包括网站流量监控分析、目标用户行为研究、网站日常更新内容编辑、网络营销策划推广等,并且,这些内容是在以企业级海量数据的储存、分析、挖掘和应用为核心技术支持的基础上,通过量化、可细分、可预测等一系列精细化的方式来进行的。

第二章 数据挖掘概述

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。

数据挖掘和统计分析都能用来提取数据中的规律信息,数据挖掘可以看作是统计分析的延伸和发展,他们的主要区别如下:

  • 数据挖掘特别擅长于处理大数据;
  • 统计分析的基础之一是概率论,在对数据进行分析时,常常需要先对数据分布进行假设(如t检验);而数据挖掘却并无此要求;
  • 统计分析常常需要先做假设,然后利用统计分析来验证假设是否成立。而数据挖掘基本不需要对数据的内在关系作假设。

正如在第一章中说所得,所有方法都是为业务需求服务的,不论是统计分析还是数据挖掘,只要能解决业务需求,对于这个应用场景他就是一个好方法。因此在数据分析时,我们常常是对数据先进行一个探索式分析,查看数据的分布,然后尝试不同的方法,没有一个方法是适合所有场景的。

数据挖掘中的一些常用方法:

  • 决策树
  • 神经网络
  • 回归
  • 关联分析
  • 聚类
  • 贝叶斯分类方法
  • 支持向量机
  • 主成分分析
  • 假设检验

相对于传统行业而言,互联网行业的数据挖掘和数据化运营有如下一些特点:

  • 数据的海量性。互联网的出现使得用户数据的收集较之以前要容易得多,但这些海量的数据常常是非常“脏”的,需要大量的清洗工作,如何大浪淘沙挖掘出有用的信息便变得尤为重要,这也是数据挖掘的一个基本的工作;
  • 数据分析的周期短。互联网运营的周期短,如双十一和圣诞节的运营方法必然是有区别的,但是两者的之间只间隔了一个月。这就需要数据分析人员能对市场和业务需求做出快速的反应以满足业务需求;
  • 数据分析的时效性明显变短。双十一的运营方法显然无法应用于圣诞节,一方面是由于时间场景不同,另一方面还因为数据的不同,在双十一我们可以收集到大量的数据,这些数据又可以对后续的运营做出指导与纠正,因此需要我们重新分析某些数据以更好的完成业务需求;
  • 互联网行业新技术、新应用、新模式的更新换代相比于传统行业而言更加迅速、周期更短、更具颠覆性,相应地对数据分析挖掘的应用需求也更为苛刻,且要多样化。如从web 1.0门户网站(如新浪、搜狐)到web 2.0搜索引擎(Google、百度),再到web 3.0 的社交网络(如微博、微信),不同的时间需要的方法也是有区别的,需要数据挖掘人员不断地去学习、更新自己。

第三章 数据化运营中常见的数据分析项目类型

数据化运营中的数据分析项目类型比较多,涉及不同的业务场景、业务目的和分析技术。

3.1 目标用户特征分析

目标客户特征分析是最常见的需求之一,因为数据化运营的第一步就是需要找到目标客户,然后才是相应的运营方案、产品的设计。譬如某化妆品牌的广告投放,如果需要做到精细化投放,则需要先确定目标客户可以分为哪几类(如按年龄分为18以下,18-30,30以上等分类方法,当然也可以按男女来分类),然后按不同的类别分别设计不同的广告进行精准投放运营以吸引不同类别的客户购买产品。

3.2 目标客户的预测(响应、分类)模型

预测模型主要包括(客户)流失预警模型、付费(用户)预测模型、续费(用户)预测模型、运营活动响应模型(如广告点击预测)等。

没有一种算法适用于所有的预测模型场景,因此常常需要我们进行不同的尝试。此外,预测模型的输入变量,常常能够对运营做出指导。如广告点击率模型中,我们发现微信上面投放的广告比其他应用或网站的点击率要高,这是否意味着我们可以加大在微信上面的广告投放或后续产品的广告投放以微信平台为主呢?答案是不一定,但这至少给出了一个值得一试的思路。

3.3 运营群体活跃度定义

活跃度的定义没有统一的描述,一般都是根据特定的业务场景和运营需求来量身定做的。一般最重要,最常见的两个基本点如下:

  • 活跃度的组成指标应该是该业务场景中最核心的行为因素;
  • 衡量活跃度定义合适与否的重要判断是其能否有效回答业务需求的终极目标。

3.4 用户路径分析

用户路径分析主要用于分析用户在网页上流转的规律和特点,发现频繁访问的路径模式,这些路径的发现有很多用途,包括提炼特定用户群体的主流路径、网页设计的优化和改版、用户可能浏览的下一个页面的预测、特定群体的浏览等。

3.5 交叉销售模型

交叉销售模型通过对用户历史消费行为的挖掘,找出明显关联性质的商品组合,然后用不同的建模方法,去构建消费者购买这些关联商品组合的可能性模型,再用其中优秀的模型去预测新客户中购买特点商品组合的可能性。交叉销售模型有点类似推荐模型和关联分析。

3.6 信息质量模型

信息质量模型可以简单地理解为,如何使我们的信息更好的被用户接收。如淘宝店铺的装修风格、物品摆放方式以及物品质量等的评估。

3.7 服务保障模型

服务保障主要是站在为用户服务的角度来说的,出发点是为了让客户(平台的卖家)更好的做生意,达成更多的交易,平台应该为他们提供那些有价值的服务去支持。

3.8 用户(买家、卖家)分层模型

分层模型介于粗放运营与基于个体概率预测模型之间的一种折中和过渡模型,其既兼顾了精细化的需要,又不需要太多资源投入到预测模型的搭建和维护中,因而在数据化运营的初期以及在战略层面的分析中,分层模型有着比较广泛的应用和较大的价值。

如下图,客户服务团队便可以针对不同层级的客户采用不同的运营策略。


《数据挖掘与数据化运营实战思路、方法、技巧与应用》卢辉_第1张图片

3.9 信用风险模型

这里的信用风险主要包括欺诈预警、纠纷预警、高危用户判断等。信用风险模型相较于常规的数据分析挖掘有以下一些特点:

  • 由于骗子行骗手法经常变化,分析结论或者欺诈识别模型的时效更短,需要优化更新的评率更高;
  • 行骗手段变化很大程度上是随机的,因此对欺诈模型的及时性和准确性提出了严重的挑战;
  • 对根据预测模型提炼出的核心因子进行简单的规则梳理和罗列,可在风控管理的初期阶段有效锁定潜在的目标群体。

3.10 商品推荐模型

主要包括给予用户、物品、内容的推荐算法和关联算法,不在这里细述。

3.11 数据产品

即数据分析师设计和开发的一系列有关数据分析的应用。

3.12 决策支持

数据分析挖掘所承担的决策支持主要是指通过数据分析结论、数据模型对管理层的管理、决策提供响应和支持,从而帮助决策层提高决策水平和质量。

最后,一个成功的数据分析挖掘项目,首先要有准确的业务需求描述,之后则要求相关人员自始至终对业务有正确的理解和判断,只有在理解和掌握相关业务背景的基础上才可以真正理解项目类型的特点、目的,以及相应的分析挖掘技术合适与否。对业务的理解和思考,永远高于项目的分类和分析技术的选择。

第四章 数据化是跨专业、跨团队的协调与合作

如题,要想做好一个项目,解决好客户的需求,对于业务的理解和与客户产品的沟通是非常重要的,因为他们往往是最清楚需要什么的,同时,与他们的交流沟通有时还能纠正一些错误的需求。借用党的群众路线就是“从需求中来,到需求中去”,也可命名为需求路线?

第五章 分析师常见的错误观念和对治的管理策略

5.1 轻视业务论
万法皆下品,唯有业务高。永远不能混淆了主次关系,我们的算法都是为业务需求服务的,因此我的第一步通常就是理解业务。

5.2 技术万能论
没有最强的技术,只有最适合的技术。

5.3 技术顶尖论
新的往往不一定是好的,反而那些经典的常常能在资源和效果上达到一个较好的均衡,因此不可盲目追新。

5.4 建模与应用两段论
建模是为了更好的应用,若建的模型无法落地又有何用。

5.5 机器万能论
机器只能计算,关键在于思路与想法。如在数据挖掘中未经处理直接送入神经网络的模型和经过人工特征工程的逻辑回归,可能简单的逻辑回归相较神经网络表现更好。

第六章 数据挖掘项目完整应用案例演示

数据分析过程一般包括如下步骤:

  • 1、项目背景和业务需求的提出;
  • 2、数据分析师参与需求讨论;
  • 3、制定需求分析框架和计划;
  • 4、抽取样本数据、熟悉数据、数据清洗和摸底;
  • 5、按计划初步搭建挖掘模型;
  • 6、与业务方讨论模型的初步结论,提出新的思路和模型优化方案;
  • 7、按优化方案重新抽取样本并建模,提炼结论并验证模型;
  • 8、完成分析报告和落地应用建议;
  • 9、制定具体的落地应用和评估方案;
  • 10、业务方实施落地应用方案并跟踪、评估效果;
  • 11、落地应用方案在实际结果评估后,不断修正完结;
  • 12、不同运营方案的评估、总结和反馈;
  • 13、项目应用后的总结和反思。

从上面可以看出,模型搭建是一个螺旋上升的过程:在最开始的时候,我们会根据数据的初步探索来建立一个较为简单的模型来查看效果;在项目的进行过程中我们会不断深入对项目内容背景的了解,继而反馈到模型上,对我们的模型最初优化(如随着项目的深入,我们可能对特征的理解更深,发现可以进一步的进行特征工程)。其次,模型的评估是以实际落地效果来评估的,这时候影响落地效果的因素不再仅仅是模型的好坏,还包括运营的好坏等因素。因此,不论是前期建模还是后期落地结果评估,都需要我们对业务进行了解的,这是非常重要的一点。

第七章 数据挖掘建模的优化和限度

数据挖掘模型的每一次优化、提升都需要有资源的投入,而且都是为了满足特定的业务需求。在模型优化和资源投入之间,在投入数据分析资源和满足特定业务需求之间,又有一个平衡点——性价比。这个微妙的平衡点决定了模型的优化和完善是有限度的。

7.1 数据挖掘模型的优化要遵循有效、适度的原则

评价模型是否合格的一个原则性标准就是模型的结论或效果是否满足当初的业务需求,即有效的原则。一旦模型满足了有效原则,是否继续优化需要考虑到第二个原则——即适度原则。所谓适度,是说此时模型还是可以继续投入资源、投入精力去持续优化的,但是需要考虑性价比,若投入少量资源便能大幅度提升模型效果,这时候自然可以继续优化。反之,则不必再继续优化了。

7.2 如何有效优化模型

优化模型有三种方法:

  • 1、从业务思路上优化模型是最重要的模型优化措施。主要从以下几个层面进行考虑:(1)有没有更加明显且直观的规则、指标可以替代复杂的建模。(2)有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽了?(3)通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或业务直觉呢?(4)目标变量的定义是否稳定(在不同时间点抽样验证)?
    对数据分析师来说,不仅要多角度、多层次考虑业务逻辑,更重要的是要与业务团队充分沟通、共同探讨,在大家的思维碰撞中发现新的火花。
  • 2、从建模的技术思路上优化。指在建模的总体技术思路、总体技术方向上进行比较、权衡。包括不同的抽样方法、不同的建模算法、有没有必要细分群体来建模等。
  • 3、从建模的技巧上进行考虑。如调参等。

7.3 如何思考优化的限度
可以从时效性和投入产出比两方面来考虑。

7.4 模型效果评价的主要指标体系
常见的有ROC、召回率、准确率、F1-Score、KS值、Lift值等。

7.5 模型的稳定性评估
一般都用测试集来进行评估。

第八章 常见的数据处理技巧

8.1 数据的抽取要正确反映业务需求

8.2 数据抽样
常见的有随机抽样与分层抽样。抽样时需要注意以下几点:

  • 1、样本值域或者说分布要与整体数据集保持一致;
  • 2、样本缺失值评率要与整体缺失值频率相似;
  • 3、针对稀有事件建模时要采用抽样措施,如分层抽样。

8.3 分析数据的规模有哪些具体要求
训练集和测试集的比例需要注意。此外,特征变量应遵循少而精的原则。

8.4 处理异常值和缺失值
缺失值的一些方法如下:

  • 1、首先应该知道数据缺失的原因,基于数据缺失原因采取相应的措施;
  • 2、直接删除带有缺失值的数据元组;
  • 3、 对缺失值进行替换,如均值,中值,众数等;
  • 4、是用建模技术对缺失值进行预测填值。

异常值的判断方法如下:

  • 1、对于类别型变量,若某个值出现频率太小,就可能是异常值;
  • 2、对于连续型变量,则可以考虑以标准差作为判断标准,处于几个标准差之外的算作异常值。也可将数据排序,然后删除前k%或后k%的数据。

8.5 数据转换
数据转换主要可以分成以下四大类:

  • 1、 产生衍生变量;
  • 2、改善变量分布特征的转换。这里主要指对不对称分布所进行的转换,如取对数等;
  • 3、区间型变量的分箱操作;
  • 4、针对区间型变量进行的标准化操作。

8.6 筛选有效的特征
特征筛选方法如下:

  • 1、结合业务经验进行先行筛选;
  • 2、用线性相关性指标进行初步筛选;
  • 3、R平方查看各个变量对目标变量的拟合情况;
  • 4、卡方检验;
  • 5、IV和WOE;
  • 6、部分建模算法自身的筛选功能,如逻辑回归的系数大小可表示特征重要性;
  • 7、降维方法;

8.7 共线性问题
共线性特征会对模型稳定性和效率造成影响,可利用皮尔逊相关系数、主成分分析方法、观察回归模型中的回归系数(若标准差过大,就可能有共线性问题),对变量进行聚类。

第九章 聚类分析的典型应用和技术小窍门

聚类分析在数据化运营实践中常见业务场景如下:

  • 1、目标用户群体分类;
  • 2、不同产品的价值组合;
  • 3、探测、发现孤立点、异常值。

常见的聚类方法:

  • 1、划分方法,如KMeans;
  • 2、层次方法,又可分为凝聚层次聚类(自底向上)和分裂层次聚类(自顶向下);
  • 3、基于密度的方法;
  • 4、基于网格的方法。

聚类分析中的重点注意事项:

  • 1、 如何处理数据噪声和异常值,常用的处理方法如下:(1)直接删除那些比其他任何数据点都要远离聚类中心点的异常值。(2)随机抽样的方法也可以较好的规避数据噪声的影响。
  • 2、数据标准化;
  • 3、聚类变量少而精;

聚类分析的扩展应用:

  • 1、聚类的核心指标与非聚类的业务指标相辅相成;
  • 2、数据的探索和清理工具;
  • 3、个性化推荐的应用;

聚类分析结果的评价体系和评价指标:

  • 1、业务专家的评估;
  • 2、聚类技术上的评价指标;

第十章 预测响应(分类)模型的典型应用和技术小窍门

第十一章 用户特征分析的典型应用和技术小窍门

用户分析适用的典型应用场景:

  • 1、寻找目标用户;
  • 2、寻找运营的抓手;
  • 3、用户群体细分的依据;
  • 4、新品开发的线索和依据;

用户特征的三种划分方式:

  • 1、基于预定义的划分;
  • 2、基于数据的划分;
  • 3、综合上述两种方法的复合划分。

RFM分析
RFM分析是指影响企业销售和利润的客户行为字段里的最重要的3个变量来对用户进行划分:

  • Recency,客户消费新鲜度,指客户最近一次购买公司产品的时间;
  • Frequency,客户消费频度,指客户特定时间段里购买公司产品的次数、频度;
  • Monetary,客户消费金额,指客户在特定时间段里消费公司产品的总金额

其他的,用户特征分析方法包括聚类、决策树、预测以及假设检验等。

特征提炼后的评价:

  • 1、结论(典型特征)是否与当初的分析需求相一致;
  • 2、结论是否容易被业务方理解,是否容易特征化;
  • 3、这些结论特征圈定的客户基数是否足够大以满足特定运营活动的基本数量需求;
  • 4、结论是否方便业务方开发出有效的个性化的运营方案。

第十二章 运营效果分析的典型应用和技术小窍门

业务落地效果的检验有两层含义,第一是模型本身效果的检验,其次是运营效果的检验。我们不能光看落地效果差就说模型不行,因为有时候可能是运营差,因此评估运营效果是非常重要的。

运营效果常常适用假设检验来进行分析,主要包括:

  • 1、T检验,包括独立T检验和配对T检验;
  • 2、方差分析,包括单因素方差分析和多因素方差分析;
  • 3、卡方检验;
  • 4、控制变量方法;
  • 5、AB Test

这里介绍一下AB test,AB test最基本的含义是对于一个运营效果进行评价。在使用此方法时,需事先将用户群体随机分为A、B两组,一组进行运营,另一组不进行运营,这样才可以比较合理的评估运营效果;或者一组采用A方案运营,另一组采用B方案运营。但是,也并不是说只能局限于两个样本组,在实践中可以根据具体项目需求分成多个分组。

适用AB test方法时需要注意以下几点:

  • 1、参与AB test的客户群体应该是来自同一个总体的,应该具有相同的特征或属性;
  • 2、与AB test相关的其他业务因素应该一致,也就是说除了要分析的特定运营条件外,其他的业务因素应该一致。

第十三章 漏斗模型和路径分析

漏斗模型通常是对用户在网页浏览中一系列关键节点的转化程度所进行的描述。

漏斗模型的主要分析目的就是针对网站运营过程中各个关键环节的转化效率、运营效果及过程进行监控和管理,对于转化率低或者波动异常的环节加以有针对性的改正,以提升转化效率,从而最终提升运营效率和网站转化效果。

路径分析通常是指对用户的每一个网络行为进行精细跟踪和记录,并在此基础上通过分析、挖掘得到用户的详细网络行为路径特点、每一步的转化特点、每一步的来源和去向等,从而帮助互联网企业分析用户的网络行为,找出用户的主流路径,分析网络产品的用户使用路径,从而可以进行有效的产品优化和升级,并针对典型场景的用户转化数据来进一步制定和实施有针对性的策略,以提升转化效率。

严格来说,漏斗模型是包含在路径分析之中的,漏斗模型是路径分析的特殊情况,是针对少数关键节点的路径分析。

漏斗模型与路径分析的主要区别与联系:

  • 1、侧重点不同;
  • 2、两者思考的方式和细粒度不同;
  • 3、分析的思维方向有别;
  • 4、分析技术也有区别。

漏斗模型的主要应用场景:

  • 1、运营过程的监控和运营效率的分析和改善;
  • 2、用户关键路径分析;
  • 3、产品优化。


    《数据挖掘与数据化运营实战思路、方法、技巧与应用》卢辉_第2张图片

    路径分析的主要应用场景:

  • 1、用户典型的、频繁的路径模式识别;
  • 2、用户行为特征的识别;
  • 3、网站产品设计和优化的依据和参考;
  • 4、网站运营和产品运营的过程监控与管理。

路径分析的主要算法:

  • 1、社会网络分析(Social Network Analysis);
  • 2、基于序列的关联分析;
  • 3、最朴素的遍历方法。

第十四章 数据分析师对业务团队数据分析能力的培养

第十五章 换位思考

横看成岭侧成峰,远近高低各不同。从不同的角度思考问题能得到不同的理解,有助于全方位思考问题。这里主要包括从业务方的角度思考数据分析与挖掘和从同行的角度换位思考数据分析挖掘的经验教训。

第十六章 养成数据分析师的品质和思维模式

以业务为核心,以思路为重点,以分析技术为辅佐的数据分析实践应用宝典,强调的是分析思路的价值和重要性要远胜于分析技术本身。

1、态度决定一切

2、商业意识是核心

3、一个基本的方法论
通过下述方法步骤可以帮助数据分析师养成良好的思维习惯:

  • 1、 作假设。所谓作假设,就是搞清楚分析的目的是什么;
  • 2、定标准。指在分析中要统一数据口径,明确对比的有效性和可比性;
  • 3、作比较。在数据分析商业实践中的比较包括:跟目标(KPI)的比较、跟时间的比较(同比、环比等)、跟不同部门(竞争对手)的比较、跟活动前后的比较、产品使用与否的比较等,不一而足;
  • 4、看趋势;
  • 5、观全局;
  • 6、辩真伪;
  • 7、下结论。

4、大胆假设,小心求证

5、20、80原理

6、结构化思维

7、优秀的数据分析师既要客观,也要主观

第十七章 条条大道通罗马

第十八章 数据挖掘实践的质量保障流程和制度

第十九章 几个经典的数据挖掘方法论

1、SEMMA方法论

2、CRISP-DM方法论

3、Tom Khabaza的挖掘9律

小结

本想把书读薄,结果写完回头看,写的什么烂笔记。

你可能感兴趣的:(《数据挖掘与数据化运营实战思路、方法、技巧与应用》卢辉)