随着互联网的发展,数据越来越庞大并且也越来越重要的今天,如何充分利用现有的数据产生更多的数据并且把海量数据转化为实用价值为企业带来真实利益,是众多互联网公司尤其是初创的互联网都要深入思考的问题,幸而经过互联网这些年的长足发展,在数据领域这一块,结合传统的思路和方法,已经有比较成熟的互联网数据挖掘技术,并且应用于运营方面也取得了良好的成效。尽管有不少的一些互联网公司在数据规模上难以达成海量的数据级别,在技术、人力上也都相对较缺乏,但是借助资源和渠道充分的第三方平台,也可以让自身有限的数据得以充分的利用并为自己服务。
不过在国内来说,目前互联网的数据挖掘尽管在技术方面有比较成熟的方法,但是理论方面还是相对较缺乏一些。《数据挖掘与数据化运营实战》一书主要围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。
这本书算是实践说明比较详细的书,尤其是思路上,算法理论,建模过程,建模优化,结论分析等,但书只提供了说明,没有数据和实践,看完虽有收获,但还是没有实践的过程,需要读者继续深入思考,总体来说还是一本不错的书。书的内容偏专业性强一些,对没有数据分析基础的读者可能会有些阅读上的困难,但是也还是能从书中学到很不错的数据分析和数据挖掘的思路的,以及如何运用于数据运营上。
本书共19章,分为三个部分:基础篇(第1~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~13章)主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示;思想意识篇(第5章,第14~19章)主要是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。
对我个人而言,比较偏向于书中的技术内容部分,因为思想意识篇(第5章,第14~19章)没什么比较重要的内容,主要是讲数据分析师如何提高自身的数据分析素养,如何与团队(尤其是运营团队)合作,如何调高自己的业务意识能力,这些都是在职业的过程中逐步培养和形成,不能一蹴而就并且不是三言两语就能说得清楚的。基础篇(第1~4章)更多的基本的概念,是对数据运营、数据挖掘(数据分析)的简要概述,以及它们彼此间的关系。下面浅谈我对书中数据挖掘的理解:
从书中看出数据挖掘技术在数据运营中主要包含了:常见的数据分析项目类型、数据清理、常见的数据分析方法、效果的评价指标、十大数据挖掘算法。
一、常见的数据分析项目类型。
1、目标群体的特征分析,包含目标群体的行为预测、流失预警模型、群体分析模型、信用风险。
2、用户路径分析,包含优化页面提高用户转化率、交易漏斗分析。
3、商品推荐,常用的方法是关联规则、协同过滤(基于用户的协同过滤、基于物品的协同过滤)、基于内容的推荐(聚类分析)。
4、决策支持。
二、数据清理。
1、缺失值,首先需要了解属性的具体意义以及属性缺失的具体原因,在了解其意义和原因之后,可以使用直接进行替换或者赋值的方法。直接进行替换是使用均值、众数或者新值等对缺失值进行替换;赋值是采用模型等方案对缺失值进行预测。
2、异常值,去除异常值可以提高分析结果的准确度,分析异常值可能可以发现有价值的东西。
3、数据转换,可以产生衍生变量、改善变量分布、区间型变量的分箱转换、针对区间型变量进行的标准化操作。
4、筛选有效的输入变量,常用的方法有线性相关指标(找到相关的自变量,只保留一个即可)、R平方、卡方检验、IV和WOE(这两者的前提条件是把区间型自变量转化成类别型/次序型自变量,同时目标变量必须是二元变量)、借助于算法或者模型(如决策树模型、回归模型等,大数据建模时尤其需要如此)、降维的方法(如主成分分析、变量聚类)。
三、常用的数据分析方法。
1、神经网络。对神经网络的研究始于20世纪40年代,作为一门交叉学科,它是人类基于对其大脑神经认识理解的基础上,人工构造实现某种功能的网络模型。经过将近70年的发展,神经网络技术已经成为机器学习的典型代表,它不依照任何概率分布,而是模仿人脑功能进行抽象运算。简单来讲,神经网络是一组互相连接的输入/输出单元,其中每个连接都会与一个权重相关联。在学习阶段,通过调整这些连接的权重,就能够预测输入观察值的正确类标号。因此可以理解为人工神经网络是由大量神经元通过丰富完善的连接、抽象、简化和模拟而形成的一种信息处理系统。
2、决策树。决策树模型是数据挖掘应用中常见的一种成熟技术,因其输出规则让人容易理解而备受数据分析师和业务应用方的喜欢和推崇。决策树,顾名思义,其建模过程类似一棵树的成长,从根部开始,到树干,到分叉,到继续细枝末节的分叉,最终到一片片的树叶。在决策树里,所分析的数据样本形成一个树根,经过层层分枝,最终形成若干个结点,每个结点代表一个结论。从决策树的根部到叶结点的一条路径就形成了对相应对象的类别预测。决策树算法的核心是在对每个结点进行测试后,选择最佳的属性,并且对决策树进行剪枝处理。目前最常用的3种决策树算法分别是CHAID、CART和ID3,包括后来的C4.5,乃至C5.0。
3、回归。包含逻辑回归和多元线性回归技术。
4、聚类分析。聚类分析的典型应用场景是非常普遍的,业务团队几乎每天都要碰到。聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分,而这种目标群体的分类常常就是精细化运营、个性化运营的基础和核心,只有进行了正确的分类,才可以有效进行个性化和精细化的运营、服务及产品支持等,从这个角度来看,聚类分析技术对于数据化运营而言是非常重要、非常基础的。总地来说,聚类分析技术在数据化运营实践中常见的业务应用场景如下。
❑ 目标用户的群体分类:通过为特定运营目的和商业目的所挑选出的指标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体,从而可以在运营活动中为这些细分群体采用精细化、个性化的运营和服务,最终提升运营的效率和商业的效果。
❑ 不同产品的价值组合:企业可以按照不同的商业目的,并依照特定的指标变量来为众多的产品种类进行聚类分析,把企业的产品体系进一步细分成具有不同价值、不同目的多维度的产品组合,并且可在此基础上分别制定相应的产品开发计划、运营计划和服务规划。
❑ 探测、发现孤立点、异常值:孤立点就是指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致。虽然在一般的数据处理过程中会把孤立点作为噪声而剔除出去,但是在许多业务领域里,孤立点的价值非常重要。比如说,互联网的风险管理里,就非常强调对于风险的预防和预判,而相关的风险控制分析中的孤立点很多时候又是风险的最大嫌疑和主要来源。及时发现这些特殊行为对于互联网的风险管理来说至关重要。比如,某B2C电商平台上,比较昂贵的、频繁的交易,就有可能隐含着欺诈的风险成分,需要风控部门提前关注、监控,防患于未然。
除了以上主要方法外,还有假设检验、分类、贝叶斯、SVM、主成分分析等等,需要在业务的实际需求当中去灵活的应用这些方法、技术,以符合于业务的发展需要。
四、数据挖掘/数据分析方法的效果评价指标。
1、正确率、错误率、灵敏性、特效性、精度等。
2、ROC曲线。
3、KS曲线。
4、Lift值。
五、十大数据挖掘算法。
主要包含了分类C4.5、聚类K-Means、统计学习SVM、关联分析Aprion、统计学习EM、链接挖掘PageRank、Bogging&Boosting AdoBoost、分类KNN、分类Naive 贝叶斯、分类CART,由于这些算法都比较专业,在此就不作一一的介绍。
总体而言本书是内容量比较高,知识点也比较多的一本书,需要读者去深入了解每一个思路和方法、技巧,并在实践中灵活去应用,不拘泥于一种方法,在考虑资源、成本、时间、进度、质量、范围等前提条件下,去使用最合适的数据分析方法。
书中稍稍有些欠缺的地方就是,在后面的篇幅过于冗长和累赘,不够简练,并且案例不够丰富,缺乏数据的有效支撑,但我们如果能理解透并掌握里面的一些思路、方法和技巧点已足矣!