史上最全的Python书排行榜|你想知道的都在这里

史上最全的Python书排行榜|你想知道的都在这里_第1张图片

这是菜鸟学Python的第99篇原创文章
阅读本文大概需要3分钟

引用

学Python这么久了,回首想想自己看过的Python书也不少,到底哪本书最牛,哪本书最火呢,哪个出版社出版的Python最多的,实力最强,这一系列的问题我都想知道.于是我就做了一个全网Python书的排行榜,前面两篇文章分别从思路和爬虫的角度去给大家分享,今天我就从数据的角度来给大家排个榜吧

一共1218本Python的书,有国人写的,也有老外写的,也有日本人写的,我把这些书全部存入了SQL数据库中,下面就给大家分享一下数据分析的结果

0.准备工作

1).数据存入了sqlite db里面,建了一个 books的表格,我把"作者","书名","ISDN","页数","价格","出版社","出版日期","点评人数","翻译","链接","评分",一共11个维度全部存入表里


史上最全的Python书排行榜|你想知道的都在这里_第2张图片

数据库books表头是:
HEADERS=['author', 'book', 'isdn', 'page', 'price','pub_company', 'pub_date', 'rating_people','translator', 'url', 'vote_num']

2).建一个class 专门查询

  • 为了方便,我们把连接数据库和关闭数据库都提取到类里面的两个方法
  • 连接SQLite3其实还好,但是如果用MySQL的时候,要用connect可能会报错,所以建议都加异常保护.
  • 查询的方法我们可以封装在类里面,这样清晰简单些


    史上最全的Python书排行榜|你想知道的都在这里_第3张图片

1.出版社Top10

在1200多本Python书中,到底哪家出版社出版的书最多呢:

史上最全的Python书排行榜|你想知道的都在这里_第4张图片

发现出版最多的是"Packt Publishing",然后就是人邮
史上最全的Python书排行榜|你想知道的都在这里_第5张图片

2.评分最高Top10:

相信很多同学买书的时候,一定会查这本书的评分如何,我这里列出了评分最高的10本书,看看有没有你心仪的哪本


史上最全的Python书排行榜|你想知道的都在这里_第6张图片
  • 第一名是"Fluent Python",第二名:"流畅的Python"其实一个是英文版,一个是中文版,看来流畅的Python目前是头牌
  • 有同学一定不服气,说我心目中的Python Cookbook, Python核心编程也是很不错呀,为啥连前10都没有上榜
  • 好,确实不太公平,如果一本书10人评价,10个人都是给高分,这样是不是样本太少了,好我们继续往下看


    史上最全的Python书排行榜|你想知道的都在这里_第7张图片

3.人气最高Top15:

为了更公平的评价到底哪一本才是人气最高的书,我们综合"点评人数"和"评分"两个维度去分析,把这两个数据相乘,Python好书太多了,我取前15名:


史上最全的Python书排行榜|你想知道的都在这里_第8张图片
  • 原来人气最高的是"Python基础教程" 1518个点评,7.9分
  • 我最喜欢的"A byte of Python"排第4


    史上最全的Python书排行榜|你想知道的都在这里_第9张图片

4.出版社哪家Python书最牛:

下面是我写这个程序的最初的目的,我就想知道哪家出版社的Python书卖的最好,最牛呢(因为有4家出版社陆陆续续跟我联系过关于出书的事情)。其实要分析也很简单,把Top10的出版社的出版的书的评分求和,然后求均值再排序就可了


史上最全的Python书排行榜|你想知道的都在这里_第10张图片

第一名:实力最强的看来是"机械工业出版社"
第二名:人民邮电出版社
第三名:O'Reolly Media

其实第二名和第三名比分很接近了

史上最全的Python书排行榜|你想知道的都在这里_第11张图片

6.出版Python最多的是哪一年

  • 大家是不是也先想知道,这么多Python书,到底哪一年出版的书最多呢,
  • 从这个数字的背后也反应了Python是从哪一年开始火起来了,不信我们分析一下

我们把数据库里面的出版日期全部提取出来,然后稍微要进行一下数据清洗,因为日期里面有'September 2007','2007年9月','April 09, 2007','2017-9','2017-8-25',5种杂乱的数据格式,我用正则进行了清洗(插一句正则对数据分析来说非常非常重要,不懂的小伙伴可以看我的历史文章,有详细的介绍)

然后把年份过滤提取,在用colleaction里面的Counter进行排序

发现年份最多的是2015年,其次是2016年,正好是Python开始火的时候

史上最全的Python书排行榜|你想知道的都在这里_第12张图片

[(u'2015', 167), (u'2016', 144), (u'2017', 97)]

7.其他有趣的发现

1).Python书名最长的:174个字符


史上最全的Python书排行榜|你想知道的都在这里_第13张图片

2).日期最老的Python书:1975年就出版了


史上最全的Python书排行榜|你想知道的都在这里_第14张图片

3).页数最多的Python书:有1632页
史上最全的Python书排行榜|你想知道的都在这里_第15张图片

4).页数最少的Python书
书名叫:Good morning,Little Python! 只有12页


史上最全的Python书排行榜|你想知道的都在这里_第16张图片

结论:
好,今天的全网分析Python书,结论篇,就讲道这里,这个实战项目算是结束了,后面还有很多好玩的文章要跟大家分享,数据分析是一个非常有趣的话题。这个实战项目有兴趣的小伙伴,也可以自己动手写一下哦。源码我会放github上,到时会通知大家,若有什么问题,也欢迎留言讨论一下.另外过两天还有送书的活动,大家敬请期待~~

关注微信公众号“菜鸟学python”,获得更多免费电子书和源码资料

你可能感兴趣的:(史上最全的Python书排行榜|你想知道的都在这里)