Python作为一门简单、易学、易读、易维护、用途广泛、速度快、免费、开源的主流编程语言,广泛应用于Web开发、大数据处理、人工智能、云计算、爬虫、游戏开发、自动化运维开发等各个领域,是众多高等院校的必修基础课程,也是堪与Office办公软件比肩的职场人士必备技能。
但不少学生或职场人士总面临这样一种窘境:数字化转型大背景、大趋势下,感觉非常有必要学习Python等分析工具,但在真正学习Python的各种语言规则时,往往体验不到知识的乐趣,翻看个别章节后即束之高阁。造成这种情况的根因在于没有结合本职研究或工作需求、没有以解决问题为目标和导向来开展学习。
对于很多读者来说,Python学以致用的一个非常好的出口就是使用Python进行数据科学应用。数字化转型浪潮下,数据科学应用早已不再局限于概念普及和理念推广层面,而是真真切切地广泛应用在各类企事业单位的各个领域,从客户分层管理到目标客户选择,从客户满意度分析到客户流失预警,从信用风险防控到精准推荐……数据科学应用对于企业全要素生产率的边际提升起到了至关重要的作用。
基于上述原因,笔者致力于编写一本Python数据科学应用从入门到精通的教学和参考书,将Python与数据科学应用相结合,通过“深入浅出讲解数据科学原理-贴近实际精选操作案例-详细演示Python操作及代码含义-准确完整解读分析结果”的一站式服务,写出让读者“能看得懂、学得进去、真用得上”的数据科学应用书目,献给新时代的莘莘学子和职场奋斗者。
《Python数据科学应用从入门到精通》一书,旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院刘一鸣副研究员、硕士生导师,得厚投资合伙人张伟民等一众大牛联袂推荐。书中全是干货,买这一本书相当于一下子得到了5本书(Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模),而且入门超级简单,不需要编程基础,也不需要过多数学推导,非常适用于零基础学生。
本书内容共13章。
第1章为数据科学应用概述,介绍数据清洗、特征工程、数据可视化、数据挖掘与建模的概念、重要性、主要内容、应用场景、注意事项等,以及为什么要将Python作为实现工具。
第2章为Python入门基础,内容包括Python概述,Anaconda平台下载与安装,Python注释,基本输出与输入函数,Python保留字与标识符,Python变量和数据类型,Python数据运算符,Python序列的概念及通用操作,Python列表,Python元组,Python字典,Python集合,Python字符串等。
第3章为数据清洗,介绍Python函数与模块、Numpy模块数组、Pandas模块序列、Pandas模块数据框、Python流程控制语句,常见类型数据在Python中的读取、合并、写入,数据检索,数据行列处理,数据缺失值、重复值和异常值处理,制作数据透视表,开展描述性分析和交叉表分析等。
第4章为特征选择,介绍特征选择的概念、原则、方法,以及过滤法、嵌入法和包裹法各类方法特征选择的Python实现。
第5章为特征处理,介绍常用的特征处理方式,包括特征归一化、特征标准化、样本归一化等,也同步介绍了等宽分箱、等频分箱、决策树分箱、卡方分箱等分箱方法,WOE和IV及其Python实现等。
第6章为特征提取,介绍无监督降维技术主成分分析(PCA)和有监督降维技术线性判别分析(LDA)。
第7章为数据可视化,介绍常用的数据可视化涉及图形的绘制,包括四象限图、热力图、直方图、条形图、核密度图和正态QQ图、散点图、线图(含时间序列趋势图)、双纵轴线图、回归拟合图、箱图、小提琴图、联合分布图、雷达图、饼图等。
第8章为数据挖掘与建模1—线性回归,主要介绍线性回归算法的基本原理及其Python实现。
第9章为数据挖掘与建模2—Logistic回归,主要介绍二元Logistic回归的基本原理,并结合具体实例讲解算法在Python中的实现与应用。
第10章为数据挖掘与建模3—决策树,讲解决策树算法的概念与原理、特征变量选择及其临界值确定方法、决策树的剪枝、包含剪枝决策树的损失函数、变量重要性,以及算法解决分类问题和回归问题的Python实现与应用。
第11章为数据挖掘与建模4—随机森林,讲解模型融合的基本思想、集成学习的概念与分类、装袋法的概念与原理、随机森林算法的概念与原理、随机森林算法特征变量重要性度量、部分依赖图与个体条件期望图,以及算法解决分类问题和回归问题的Python实现与应用。
第12章为数据挖掘与建模5—神经网络,讲解神经网络算法的基本思想、感知机、多层感知机、神经元激活函数、误差反向传播算法、万能近似定理及多隐藏层优势、BP算法过拟合问题的解决,以及算法解决分类问题和回归问题的Python实现与应用。
第13章为数据挖掘与建模6—RFM分析,讲解RFM分析的基本思想、RFM分类组合与客户类型对应情况、不同类型客户的特点及市场营销策略,并结合具体实例讲解该分析方法在Python中的实现与应用。
本书的特色在于:一是通过“入门-进阶-应用”这一循序渐进的方式讲解Python与数据科学应用。前两章分别讲解数据科学应用概述和Python入门基础,使读者能够基本掌握Python与数据科学应用的基础,然后后续在讲解各类数据科学应用时逐一详解用到的各种Python代码,针对每行代码均给出恰当注释,使读者能够真正理解各种代码的含义,从而可以灵活运用于自身的科研或应用研究。二是通过“复杂算法模型简单化、抽象理论概念具象化”这一深入浅出的方式讲解数据科学。本文尽可能用图像化、案例化的方式剖析各种数据科学应用的基本原理和适用条件,使读者真的能够看得明白、学得进去,避免在复杂的数学公式推导面前耗尽了所有的学习热情,最终望洋兴叹,苦技能虽好却不能为己所用矣。同时本书也做到了不失专业深度,使读者能够掌握各种数据科学应用方法的精髓,根据自身需要选取方法、优化代码、科学调参。三是实现了Python与数据科学应用的深度融合。以学以致用为桥梁实现了Python与数据科学应用之间的高效联动协同,使读者通过学习本书就能够同时掌握Python语言、数据科学应用这两大专业利器,达到“一箭双雕”的学习效果,有效提升科研与应用水平。