《数据挖掘与数据化运营实战》读书笔记

#一、相关理论

4P指的是Product(产品)、Price(价格)、Place(渠道)和Promotion(促销)。4P理论的核心是Product(产品)。因此,以4P理论为核心营销思想的企业营销战略又可以简称为“以产品为中心”的营销战略。

4C包括Consumer(消费者)、Cost(成本)、Convenience(方便性)和Communication(沟通交流)。4C理论的核心是Consumer消费者。因此,以4C理论为核心营销思想的企业营销战略又可以简称为“以消费者为中心”的营销战略。

在3P3C理论中,数据化运营6要素的内容如下。

❑ Probability(概率):营销、运营活动以概率为核心,追求精细化和精准率。

❑ Product(产品):注重产品功能,强调产品卖点。

❑ Prospects(消费者,目标用户)。

❑ Creative(创意,包括文案、活动等)。

❑ Channel(渠道)。

❑ Cost/Price(成本/价格)。

而在这其中,以数据分析挖掘所支撑的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环节和要素,共同促使数据化运营持续完善,直至成功。

数据化运营”的定义:

以企业级海量数据的存储和分析挖掘应用为核心支持的,企业全员参与的,以精准、细分和精细化为特点的企业运营制度和战略

产品开发人员所提出的新概念才不是拍脑袋拍出来的,而是来自于用户反馈数据的提炼;产品运营人员也不再仅仅是每天被动地抄报运营的KPI指标,通过数据意识的培养,他们将在运营前的准备,运营中的把握,运营后的反馈、修正、提升上有充分的预见性和掌控力;客户服务部门不仅仅满足于为客户提供满意的服务,他们学会了从服务中有意识地发现有代表性的、有新概念价值的客户新需求;销售部门则不再只是具有吃苦耐劳的精神,他们可通过数据分析挖掘模型的实施来实现有的放矢、精准营销的销售效益最大化。而企业的数据挖掘团队也不再仅仅局限于单纯的数据挖掘技术工作及项目工作,而是肩负在企业全员中推广普及数据意识、数据运用技巧的责任,这种责任对于企业而言比单纯的一两个数据挖掘项目更有价值,更能体现一个数据挖掘团队或者一个数据挖掘职业人的水准、眼界以及胸怀,俗话说“只有能发动人民战争,才是真正的英雄”,所以只有让企业全员都参与并支持你的数据挖掘分析工作,才能够真正有效地挖掘企业的数据资源。现代企业的领导者,应该有这种远见和智慧,明白全员的数据挖掘才是企业最有价值的数据挖掘,全员的数据化运营才是现代企业的竞争新核心。

2012年7月10日,阿里巴巴集团宣布设立“首席数据官”岗位,陆兆禧将主要负责全面推进阿里巴巴集团成为“数据分享平台”的战略,其主要职责是规划和实施未来数据战略,推进支持集团各事业群的数据业务发展。“将阿里巴巴集团变成一家真正意义上的数据公司”

数据化运营更是互联网企业得天独厚的“神器”。互联网行业与生俱来的特点就是大数据,而信息时代最大的财富也正是海量的大数据。2010年5月14日阿里巴巴集团在深圳举行的2010年全球股东大会上,马云进一步指出“21世纪核心的竞争就是数据的竞争”,“谁拥有数据,谁就拥有未来”。

数据化运营的几个前提条件:

1.存储海量数据

抛弃大型机+关系型数据库的模型,采用分布式的服务器集群+分布式存储的海量存储器,无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲,都是一次飞跃。未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。

2.有精细化运营的需求

3.数据分析和数据挖掘团队

出色的数据分析师必须是多面手,他不仅要具备统计技能(能熟练使用统计技术和统计工具进行分析挖掘)、数据仓库知识(比如熟悉主流数据库基本技术,可以自助取数,可以有效与数据仓库团队沟通)、数据挖掘技能(熟练掌握主流数据挖掘技术和工具),更重要的是他还要具有针对具体业务的理解能力和快速学习能力,并且要善于与业务方沟通、交流。

正如阿里巴巴集团董事会主席兼CEO马云在多个场合强调的那样,“人才和数据是阿里巴巴集团最大的财富和最强大的核心竞争力”。

#二、数据预处理

机器学习项目流程包括明确问题、数据获取、预处理与特征选择、模型训练与调优、模型诊断、模型融合/集成、上线运行

数据预处理包括缺失值,异常值,数据转换,筛选变量,共线性问题

数据转换包括生成衍生变量(今日-出生日,生成新字段年龄)、改善变量分布(一般对于区间型变量,取对数、开平方根、取倒数等)、分箱转换(一般将区间型变量转换成次序型变量,目的主要是降低变量的复杂性,提高自变量的预测能力)、数据的标准化

分箱转换:

筛选变量包括相关性,R方,卡方检验,IV和WOE,逐步回归,平均互信息、条件熵、后验概率、逻辑回归权重,降维(主成分分析和变量聚类)

IV和WOE

《数据挖掘与数据化运营实战》读书笔记_第1张图片
《数据挖掘与数据化运营实战》读书笔记_第2张图片

如何发现共线性

《数据挖掘与数据化运营实战》读书笔记_第3张图片

如何处理共线性

《数据挖掘与数据化运营实战》读书笔记_第4张图片

过拟合属于模型诊断(确定模型调优的方向与思路),过拟合、欠拟合 判断是模型诊断中至关重要的一步。常见的方法如交叉验证,绘制学习曲线等。过拟合的基本调优思路是增加数据量,降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量,增加模型复杂度。

误差分析也是机器学习至关重要的步骤。通过观察误差样本,全面分析误差产生误差的原因:是参数的问题还是算法选择的问题,是特征的问题还是数据本身的问题......

诊断后的模型需要进行调优,调优后的新模型需要重新进行诊断,这是一个反复迭代不断逼近的过程,需要不断地尝试, 进而达到最优状态。

《数据挖掘与数据化运营实战》读书笔记_第5张图片
《数据挖掘与数据化运营实战》读书笔记_第6张图片
《数据挖掘与数据化运营实战》读书笔记_第7张图片

模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况,还包括其运行的速度(时间复杂度)、资源消耗程度(空间复杂度)、稳定性是否可接受。

#三、聚类在数据化运营中的实践

1.常见的业务情景

《数据挖掘与数据化运营实战》读书笔记_第8张图片

2.算法分类

除了Kmeans和层次聚类,还有基于密度的DBSACN(可发现任意形状的类)和基于网格的

《数据挖掘与数据化运营实战》读书笔记_第9张图片

3.注意点

一般使用Kmeans,对数据噪声和异常点非常敏感,则应该采用随机抽样和适当删除,另外因为针对区间型变量,需要数据标准化,确定变量少而精(利用主成分分析,相关性检测等))

#四、分类/预测在数据化运营中的实践

一般有4种常见的算法:神经网络,决策树,逻辑回归,多元线性回归

1.神经网络

《数据挖掘与数据化运营实战》读书笔记_第10张图片
《数据挖掘与数据化运营实战》读书笔记_第11张图片
《数据挖掘与数据化运营实战》读书笔记_第12张图片

2.决策树

《数据挖掘与数据化运营实战》读书笔记_第13张图片

3.逻辑回归vs线性回归

《数据挖掘与数据化运营实战》读书笔记_第14张图片

#五、用户特征分析的典型分析思路

《数据挖掘与数据化运营实战》读书笔记_第15张图片
《数据挖掘与数据化运营实战》读书笔记_第16张图片

#六、运营效果分析的典型分析思路

《数据挖掘与数据化运营实战》读书笔记_第17张图片
《数据挖掘与数据化运营实战》读书笔记_第18张图片
《数据挖掘与数据化运营实战》读书笔记_第19张图片
《数据挖掘与数据化运营实战》读书笔记_第20张图片
《数据挖掘与数据化运营实战》读书笔记_第21张图片
《数据挖掘与数据化运营实战》读书笔记_第22张图片
《数据挖掘与数据化运营实战》读书笔记_第23张图片
《数据挖掘与数据化运营实战》读书笔记_第24张图片
《数据挖掘与数据化运营实战》读书笔记_第25张图片
《数据挖掘与数据化运营实战》读书笔记_第26张图片

#七、漏斗模型和路径分析

《数据挖掘与数据化运营实战》读书笔记_第27张图片
《数据挖掘与数据化运营实战》读书笔记_第28张图片

#八、大胆假设,小心求证

《数据挖掘与数据化运营实战》读书笔记_第29张图片

#九、条条大路通罗马

《数据挖掘与数据化运营实战》读书笔记_第30张图片

你可能感兴趣的:(《数据挖掘与数据化运营实战》读书笔记)