《数据挖掘与数据化运营实战》读书笔记

#一、相关理论

4P指的是Product（产品）、Price（价格）、Place（渠道）和Promotion（促销）。4P理论的核心是Product（产品）。因此，以4P理论为核心营销思想的企业营销战略又可以简称为“以产品为中心”的营销战略。

4C包括Consumer（消费者）、Cost（成本）、Convenience（方便性）和Communication（沟通交流）。4C理论的核心是Consumer消费者。因此，以4C理论为核心营销思想的企业营销战略又可以简称为“以消费者为中心”的营销战略。

在3P3C理论中，数据化运营6要素的内容如下。

❑ Probability（概率）：营销、运营活动以概率为核心，追求精细化和精准率。

❑ Product（产品）：注重产品功能，强调产品卖点。

❑ Prospects（消费者，目标用户）。

❑ Creative（创意，包括文案、活动等）。

❑ Channel（渠道）。

❑ Cost/Price（成本/价格）。

而在这其中，以数据分析挖掘所支撑的目标响应概率（Probability）是核心，在此基础上将会围绕产品功能优化、目标用户细分、活动（文案）创意、渠道优化、成本的调整等重要环节和要素，共同促使数据化运营持续完善，直至成功。

数据化运营”的定义：

以企业级海量数据的存储和分析挖掘应用为核心支持的，企业全员参与的，以精准、细分和精细化为特点的企业运营制度和战略

产品开发人员所提出的新概念才不是拍脑袋拍出来的，而是来自于用户反馈数据的提炼；产品运营人员也不再仅仅是每天被动地抄报运营的KPI指标，通过数据意识的培养，他们将在运营前的准备，运营中的把握，运营后的反馈、修正、提升上有充分的预见性和掌控力；客户服务部门不仅仅满足于为客户提供满意的服务，他们学会了从服务中有意识地发现有代表性的、有新概念价值的客户新需求；销售部门则不再只是具有吃苦耐劳的精神，他们可通过数据分析挖掘模型的实施来实现有的放矢、精准营销的销售效益最大化。而企业的数据挖掘团队也不再仅仅局限于单纯的数据挖掘技术工作及项目工作，而是肩负在企业全员中推广普及数据意识、数据运用技巧的责任，这种责任对于企业而言比单纯的一两个数据挖掘项目更有价值，更能体现一个数据挖掘团队或者一个数据挖掘职业人的水准、眼界以及胸怀，俗话说“只有能发动人民战争，才是真正的英雄”，所以只有让企业全员都参与并支持你的数据挖掘分析工作，才能够真正有效地挖掘企业的数据资源。现代企业的领导者，应该有这种远见和智慧，明白全员的数据挖掘才是企业最有价值的数据挖掘，全员的数据化运营才是现代企业的竞争新核心。

2012年7月10日，阿里巴巴集团宣布设立“首席数据官”岗位，陆兆禧将主要负责全面推进阿里巴巴集团成为“数据分享平台”的战略，其主要职责是规划和实施未来数据战略，推进支持集团各事业群的数据业务发展。“将阿里巴巴集团变成一家真正意义上的数据公司”

数据化运营更是互联网企业得天独厚的“神器”。互联网行业与生俱来的特点就是大数据，而信息时代最大的财富也正是海量的大数据。2010年5月14日阿里巴巴集团在深圳举行的2010年全球股东大会上，马云进一步指出“21世纪核心的竞争就是数据的竞争”，“谁拥有数据，谁就拥有未来”。

数据化运营的几个前提条件：

1.存储海量数据

抛弃大型机+关系型数据库的模型，采用分布式的服务器集群+分布式存储的海量存储器，无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲，都是一次飞跃。未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。

2.有精细化运营的需求

3.数据分析和数据挖掘团队

出色的数据分析师必须是多面手，他不仅要具备统计技能（能熟练使用统计技术和统计工具进行分析挖掘）、数据仓库知识（比如熟悉主流数据库基本技术，可以自助取数，可以有效与数据仓库团队沟通）、数据挖掘技能（熟练掌握主流数据挖掘技术和工具），更重要的是他还要具有针对具体业务的理解能力和快速学习能力，并且要善于与业务方沟通、交流。

正如阿里巴巴集团董事会主席兼CEO马云在多个场合强调的那样，“人才和数据是阿里巴巴集团最大的财富和最强大的核心竞争力”。

#二、数据预处理

机器学习项目流程包括明确问题、数据获取、预处理与特征选择、模型训练与调优、模型诊断、模型融合/集成、上线运行

数据预处理包括缺失值，异常值，数据转换，筛选变量，共线性问题

数据转换包括生成衍生变量（今日-出生日，生成新字段年龄）、改善变量分布（一般对于区间型变量，取对数、开平方根、取倒数等）、分箱转换（一般将区间型变量转换成次序型变量，目的主要是降低变量的复杂性，提高自变量的预测能力）、数据的标准化

分箱转换：