【2020.12.25,第八次更新】
首先,明确学习目标--用Python来做数据分析很重要!作为目前的全球第一编程语言,Python几乎无所不能,从软件开发、Web开发、数据库开发、系统开发,到游戏开发,网络爬虫,再到让Python傲视群雄的机器学习。不同的学习目标,当然就对应着不同的学习路径。
说到数据分析,R语言其实之前一直走在Python的前面。R语言约等于统计学,说它是第一统计语言一点都不为过。然后呢随着机器学习的火爆,Python开始深入数据处理的各个领域,相继开发出了有划时代意义的NumPy(矩阵运算)、pandas(数据框数据整理)、matplotlib(画图)、seaborn(高级画图)、statsmodels(回归及其他计量分析)等数据处理包。再结合如日中天的sciki-learn(机器学习综合包)、keras(神经网络包)、TensorFlow(深度学习,Google推出)和PyTorch(深度学习,Facebook推出)包,Python即使在统计和数据分析这一领域,也大有取代R语言之势。不过话说回来,Python的各种数据分析包开发时公开借鉴了很多R、MATLIB、SAS和Stata等统计软件,尤其是R(毕竟人家是开源统计之王)。
换句话说,学习数据分析,其实就是一个学习使用各种包的过程。
接下来,就根据本人多年的自学经验,给大家分享学习过程中遇到的那些可以让我们少走弯路的经典书籍。介绍的时候,我通常会先推荐一本歪国人写的书,再对应一本国人写的书。国人写的书,坦白说相对没那么前沿那么高逼格,但是好处是可以帮我们学得飞快啊~~划重点:很多时候,学习一个技能最快捷的方法不是彻底搞懂它,是囫囵吞枣,尽快上手,能驾驭就好。呵哈哈哈。
好了说了那么多,开始上书(给出的链接默认是京东自营)。下面是后面部分内容的一个简单目录。目录
1 Python入门书籍介绍
2 数据分析基础
- 2.1 pandas入门
- 2.2 数据分析基础
- 2.3 备查工具书
- 2.4 金融和量化交易
- 2.5 和Excel/R/Stata一起玩耍
- 2.6 网络爬虫
3 机器学习
1 Python入门书籍介绍《Python编程 从入门到实践》 - 豆瓣9.1分
点评:这两本书,全面细致地介绍了一些Python的基础元素。从Python下载安装、开发环境搭建,到Python数据类型、循环,再到数据分析、游戏开发、爬虫和机器学习,都有简单涉及。但是,坦白说,这两本书的作用有限,只能帮助我们入门。想要掌握Python数据分析技能,我们还要继续往前。
Btw,这本国产入门圣经《零基础学Python(全彩版)Python3.8 全新升级》在豆瓣居然没有评分。不过呢,不妨碍人家京东自营销量第二啊~~至于第一是谁?还能是谁——那自然是上面老歪写的那本入门圣经咯。
2 数据分析基础
2.1 pandas入门《利用Python进行数据分析》 - 豆瓣8.1分
点评:首先,这书的作者就是pandas的开发者McKinney大神呃。然后,这里第二版是基于Python3.6,豆瓣评分掉了一些(8.1分)。基于Python 2.7的第一版实在经典,拿下8.6分。
点评:又是一本JD 派森数据分析排前二的神书。还是那个老故事,老歪写的销量第一,国人写的排第二。这个书除了介绍pandas,还介绍了NumPy、matplotlib、seaborn以及sciki-learn。它还自带大量的项目,手把手带你在数据分析的高速路上狂奔!坦白说,如果只给你一本书,要求你一周学会用Py做数据分析,那么,忘了那些老歪大神吧,除了国产圣经你还真别无选择~!
2.2 数据分析基础
点评:这本书真的很基础,写的也很好,但是不明白为什么豆瓣评分不高(6.9分,当然也不算低)。里面除了Python的语言基础之外,还介绍了如何处理CSV、Excel和SQL数据源,画图和回归建模基础和高级数据结构等。总的来说,该书的特色是CSV、Excel和SQL相关操作讲得比较细致全面。
2.2 备查工具书
坦白,刚才上面那本书已经可以算成总和Python数据分析的数据了。接下来,我们还会继续解释更加综合和细致的数据分析方面的牛书。《Python数据科学手册》 - 豆瓣9.3分
点评:豆瓣9.3分已经说明一切,9.3也是这次书单中的豆瓣最高分。该书足以和我们介绍的第一本Python入门圣经媲美的神书。这个书最大的特别是基础而细致。当我们遇到一些技术细节问题的时候,有时候百度Google未必都能找到思路的时候,翻翻这种工具书也会找到你想要的答案。
点评:这个书只有在编程到一定水平以后才可能用得着。它具体涵盖文本、数据结构、算法、网络通信、互联网、并发、模块工具等。是一本帮你知其然还“知其所以然”的好书。
2.4 金融和量化交易《Python金融大数据分析》 - 豆瓣7.6分
豆瓣显示的是第一版的评分。链接里面给的是最新的第二版(2019年4月)。
点评:作为金融科技专业背景的我,每次看到这本书都要叹上几口气。老子当年在北大读硕士那会,怎么就没人和我提过这本书???要立志成为一名合格的金融科技民工,没有这个指南,所以我这后来不就迷失人生方向了嘛==!所以后来再次遇到这本书的时候,就毫不犹豫把它买了下来。还不忘每天晚上睡觉时放枕头底下,让我重温自己的金融老梦。
另外,这个书的作者是Python Quants的创始人希尔皮斯科,量化交易方面的风云人物。
内容简介:这个书,讲了Py的基础和核心知识,讲了NumPy、pandas,金融统计和机器学习。针对金融,讲了随机过程、期权定价等等。最重要的是,讲了金融科技里面的算法交易、交易策略和自动化交易、金融模型模拟等等。
点评:国产版嘛,还是那个味。就是案例多,易上手,方便照猫画虎。可以作为上面那本的有效补充。
2.5 Python和Excel、R以及Stata协同
Excel大家知道吧,就是那个频繁出现在Python广告中的反面例子——“Excle加班熬夜搞通宵,几万个操作做不完。。。Python 两分钟3行代码轻轻松松搞定”之类。其实Excel这个软件,当然很重要很强大啊~多重要多强大?好吧,实在难以描述 undepictable。
反正,Excel是一个大家都多少多少会的软件。不管什么软件,都是为了处理数据,而已。那如果我们在用Python搞数据的时候,可以和Excel一起对比着学,那岂不是更加容易触类旁通举一反三?事实上作者本人就经常这么干。我不仅Excel一起学,还经常拉上Stata和R,和Python愉快地玩耍。
点评:Stata是经管界的通用语言,也是我用来跑计量模型发经济学论文的主力工具。然后呢,使用经验那肯定也很丰富。这里要是让我推荐唯一一本的话,当然就它了。这个书也是Stata官网中推荐的入门书籍之一。可能有读者看到了,那书用的Stata 12呢?好吧,本人学这本书时候用的13,目前用15.1和16.1,但是啊,也没明显发现上面的知识过时。为啥?因为介绍的都是很基础的东西。就像目前Stata很多官方视频,依然用的Stata 12 进行演示。
点评:豆瓣8.9分,还有什么好说的?这个书都被我给翻烂了,因为当年为了写一门金融数据分析课作业,经常写到想吐血。简单说来就四个字:入门最佳。
2.6 网络爬虫
关于编程工具Python、JAVA、C、C++和VB等对比,不知道大家有没有看过那个搞笑的鬼畜视频。大概就是Python亮出它的招牌工具爬虫的时候,就成功爬到老二的位置。老大嘛,自然还是JAVA。不过时至今日,Python还有新的招牌机器学习,直接就翻越JAVA,成为编程界霸主。好了,回到爬虫。爬虫嘛,就是一个数据获取的重要工具,是Python数据分析的一个独立模块(初学者可以完全可以先放一边,后面再学)。当然数据爬回来之后的清洗整理工作,还是得交给前面咱们提到的NumPy和pandas的。
点评:爬虫算是数据处理的一个专门模块,想要学会可能需要了解一些HTML/CSS/JAVA Script的基础知识。好好看完这两本书,多照着国产那本的项目跑几遍,自己尝试一些小项目。如此下来,相比爬虫这一神器也能用起来了~!
3 机器学习
机器学习和数据分析有关嘛?那当然有关咯。不管你是数据科学专业出身,还是经济管理计量领域,或是金融科技量化交易方面,机器学习都将是你站上时代潮头的最重要工具。
给小白的彩蛋来咯~!
点评:连最基础的那些常见的希腊字母都给你解释怎么读,什么意思;给你解释ln函数啥意思。你还不满足嘛?如果你对机器学习充满好奇,又担心自己数序基础太差或者没有,那买这个书就对了。看完之后,你即使自己不会机器学习建模,但是大概看明白那些酷炫的算法还是没有问题滴。看完之后,你可能会产生一种错觉——所谓的高深统计学习模型,也不过如此嘛~~!
点评:作者是Keras之父,TensorFlow主要作者。目前任职谷歌。
写在最后:不知道大家有没有发现。这几本在JD上销量前几的国产神书,大都是同一个国内叫明日科技的出版社出版出的;国外在主要来源于O'REILLY出版社(动物封面)。只能说,这2个出版社做到这个水平,那也是Python书籍出版界的领袖了吧。
最后的最后——自学贵在坚持~共勉!!!