身处大数据领域,我们每天都不得不与各种各样的数据打交道,无论是围绕数据去进行计算还是分析,它们都分属大数据领域的一个细分领域。在数据分析领域,Python语言一直一枝独秀,本文作者在数据分析领域深耕多年,拥有丰富的实战经验,打造了这本干货十足且价格不菲(定价129元,这样的定价如果梁静茹没有给作者勇气,那么就一定是作者相信它物超所值)的《Python数据分析与数据化运营》。最近,华章出版社联合当当网给这本书做预售促销活动。定价129元,69元到手!还有叠加优惠并送无门槛消费券!详情见文末!
随着商业竞争形势的日益严峻,企业需要不断寻找提高利润率、降低成本、提高产出价值的有效方法,而数据化运营恰好是满足企业这一需求的关键武器。数据化运营包含了运营和数据两种要素,前者需要较多的业务经验,而后者对数据分析提出了更高的要求。只有把二者结合起来,在技能、经验和技术的支持下,数据化运营才能在企业内部真正落地、生根、发芽。
对数据化运营而言,各企业普遍关注的结构化数据分析、挖掘的场景非常丰富,例如销售预测、会员生命周期维护、商品结构分析等,这些普遍的共同认知为本书提供了接地气的基础。但除了这些“传统内容”外,还有很多非结构化的数据主题,它们在数据化运营过程中的作用越来越重要,例如主题挖掘、图片分析、文本挖掘、图像识别、语音识别等,这些内容拓展了数据化运营发挥价值的场景基础。
Python作为数据工作领域的关键武器之一,具有开源、多场景应用、快速上手、完善的生态和服务体系等特征,这些特征使其在数据分析与数据化运营的任何场景中都能游刃有余;即使在其为数不多的短板功能上,Python仍然可以基于“胶水”的特征,引入对应的第三方工具、库、程序等来实现全场景、全应用的覆盖。在海量数据背景下,Python对超大数据规模的支持性能、数据分析处理能力、建模的专业程度及开发便捷性的综合能力方面要远远高于其他工具。因此,Python几乎是数据化运营工作的不二之选。
纵观整个国内技术书籍市场,有关Python的书籍不少,但普遍都是基于工具层面的介绍,且侧重于工具本身的方法、参数、调用、实例,与真正实践结合的较少;而有关数据化运营的书籍,目前市场上还为数不多,现有的数据化运营方面的书籍大多是基于Excel等工具的入门级别的分析类书籍。
因此,本书结合Python和数据化运营两个方面,在数据分析工作流程和数据化运营主题结合的基础上,通过指标、模型、方法、案例配合工具的形式,详细介绍了如何使用Python来支持数据化运营,尤其是传统工具无法满足的应用场景。
本书第1版上市后,得到来自各行各业很多好友和读者的支持和反馈,在此致以感谢!第2版在第1版基础上做了很多优化甚至重写,还新增了很多内容。
01 / 核心内容
10大类数据预处理经验
14个数据分析与挖掘主题
50余个数据工作流知识点
4大核心数据化运营主题
8个经典综合性案例
数据化运营结合数据使用场景360°落地
02 / 优化及重写内容
全部代码基于Python3.7做优化或重写
基于Jupyter做调试、分析、应用和可视化
重写第四、五、六、七章的案例中的一半代码和逻辑
升级不支持Python2的库到Python3
原有语法重构为更Pythonic的实现方式
03 / 新增的内容
l 基于Anaconda的Python环境的安装和配置
l Jupyter基础工具的用法
l 基于Pandas的get_dummies做标志转换
l 特征选择的降维中新增feature_selection配合SelectPercentile、VarianceThreshold、RFE、SelectFromModel做特征选择
l 特征转换的降维中新增PCA、LDA、FA、ICA数据转换和降维的具体方法
l 特征组合的降维中新增基于GBDT、PolynomialFeatures、gplearn的genetic方法做组合特征
l 分类算法中新增使用XGboost做分类应用,以及配合graphviz输出矢量图形
l pyecharts的数据可视化的应用和操作
l Python通过rpy2调用R程序,实现关联算法的挖掘
l Python通过rpy2调用auto.airma实现自动ARIMA的应用
l 自动化数据挖掘与机器学习的理论、流程、知识和应用
04 / 专家推荐
数据分析师精通一两个工具是非常必要的,而Python是数据分析工具中的重器。这是一本将Python与数据分析、数据营运结合得很好的一本书,一些常用的分析方法在书中都有具体讲解。书中大量的案列也能丰富读者的使用场景,如果认真实操,一定会显著提高自己的数据分析和运营能力。
——黄成明(@数据化管理) 数据化管理咨询顾问和培训师。
本书深入浅出地解析了数据分析和数据化运营的方方面面,每个知识点都是作者宝贵经验的总结。市场上不缺工具书,但是纯粹并具有深度的经验总结却少之又少,因为这需要足够的行业和职业积累。从这点上来讲,本书是经验的传递而非简单的“知识堆砌”,因此更加可贵。
——宋星 “网站分析在中国”创始人/阳狮锐奇数据解决方案总经理
本书不仅从技术角度介绍了数据采集、清洗、分析的相关工具与方法论,而且对其在运营方面的业务应用也进行了体系化的介绍,并辅以典型案例说明,是一本拿来即可用的书籍。
——田学峰猪八戒金融副总经理
近年来,不论是零售、银行、保险还是证券,各行业对数据分析技术的需求越来越强烈,Python作为大家熟知的数据挖分析工具,被广泛应用。对任何数据从业者来说,本书绝对是个惊喜,结构完整,案例丰富,假以时日,必成经典。
——宫鑫 射手学院创始人
数据化运营方面的书籍越来越多,但令人唏嘘的是理论多过实践,故事多过案例。本书有很多的实际操作讲解和案例分析,强调动手,而不仅仅是强调认知,难能可贵。推荐阅读,更建议跟随书中的内容亲自动手。
——王晓东 TrueMetrics创始人
05 / 作者介绍
宋天龙(TonySong)
资深大数据技术专家,触脉咨询合伙人兼副总裁,前Webtrekk中国区技术和咨询负责人(德国最大在线数据分析服务提供商)。
擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。在电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验;参与过集团和企业级数据体系规划、DMP与数据仓库建设、大数据产品开发、网站流量系统建设、个性化智能推荐与精准营销、企业大数据智能等项目。参与实施的客户案例包括联合利华、Webpower、德国OTTO集团电子商务(中国)、Esprit中国、猪八戒网、顺丰优选、乐视商城、泰康人寿、酒仙网、国美在线、迪信通等。
著有多部畅销书:
《Python数据分析与数据化运营》
《网站数据挖掘与分析:系统方法与商业实践》
《企业大数据系统构建实战:技术、架构、实施与应用》
06 / 目录
第1章 Python和数据化运营
本章将首先介绍Python与数据化运营的基本内容,然后围绕数据化运营分析所需的Python相关工具进行介绍,最后通过一个入门级别的案例,介绍如何将Python用于数据化运营。
第2章 数据化运营的数据来源
本章将从数据类型和数据来源两个方面介绍数据化运营的数据来源,在第3部分我们还会简单介绍有关读取非结构化数据集的知识,包括网页抓取数据、文本、图像、视频、语音等,用来进行数据化的整体数据资源的整合。
第3章 10条数据化运营不得不知道的数据预处理经验
数据预处理是数据化运营过程中的重要环节,它直接决定了后期所有数据工作的质量和价值输出。从数据预处理的主要内容看,包括数据清洗、转换、归约、聚合、抽样等。本章将摒弃理论和方法说教,直接介绍预处理本身可能遇到的问题及应对方法。
第4章 跳过运营数据分析和挖掘的“大坑”
本章内容涵盖聚类、回归、分类、关联、异常检测、时间序列、路径分析、漏斗分析、归因分析、热力图分析及其他统计分析相关话题;有关聚类、回归、分类、关联、异常检测和时间序列的部分,本章通过Python程序辅助功能实现。
第5章 会员数据化运营
从本章开始,我们将介绍数据化运营的具体应用,包括会员数据化运营、商品数据化运营、流量数据化运营、内容数据化运营。本章将从会员数据化运营的概述、关键指标、应用场景、数据分析模型、分析小技巧、分析大实话以及实际案例几个方面展开,逐步介绍有关会员数据化运营的方方面面。
第6章 商品数据化运营
商品运营是销售型公司的核心工作之一。本章将围绕商品数据化运营展开,内容包括概述、关键指标、应用场景、分析模型、分析小技巧、分析“大实话”及应用案例。
第7章 流量数据化运营
流量(Teaffic)是企业获得用户的第一步,对于大多数需要“自力更生”的企业而言,流量是企业运营的命脉之一,没有流量就没有一切。本章将围绕流量运营的相关话题,从流量采集处理工具、流量数据与企业数据的整合、流量运营指标、流量数据化运营分析模型、流量分析小技巧和“大实话”等方面展开,最后通过两个案例介绍如何做流量建模分析。
第8章 内容数据化运营
内容运营是信息化媒体运营的核心,对于此类公司而言,内容即公司的核心价值。本章将围绕内容运营的相关话题展开,包括分析指标、应用场景、分析模型、分析小技巧、分析大实话。最后通过两个案例介绍如何通过Python做内容数据化支持。