爬虫实战1：Python爬取豆瓣图书，发现言情小说界的霸主居然是TA！

继入门了Pyhton数据分析之后，我开始了爬虫的学习之路，主要是发现爬虫的用处实在是太大了，招聘信息、爱豆高清美图/歌曲、房地产信息、股票证券等金融信息、电影资源......只有想不到，没有爬不到！而且爬虫跟数据分析基本是强关联的，当需要针对爬取的数据做清洗和分析时，数据分析就派上用场了~

我的爬虫入门课是成都工业大学的网课《Python爬虫和数据可视化》，原本我是看了一个2016年的教程，结果发现视频中讲解的方式现在已不再适用，因为随着时间的推移和技术的进步，网站的反爬做的越来越好，没有给我可乘之机而前面说的这个网课则是2020年最新版的，课程以爬取豆瓣电影TOP250为例讲解了爬虫的基本原理和常用的库。当我跟着课程一步步操作到最后成功爬取了电影数据后，为了巩固基础知识、加深印象，我决定尝试举一反三，目标——爬取豆瓣读书的信息。

打开豆瓣读书的主页，可以看到右侧边栏有“热门标签”，点击任意一个标签即可浏览该标签下的所有图书，我选择了言情、推理和科幻三个大类进行尝试，我的第一个Python爬虫之路正式开始！

言情小说

通过多次尝试发现，各类别下的图书翻到51页就没有数据了，一页是20条，因此推测豆瓣标签下只展示前1000本图书信息，fine，那就爬取1000条咯~

image.png

爬取的信息包括：

①书名②链接③出版信息④星级⑤评价人数⑥简介⑦封面图片⑧评分

由于本篇不是爬虫教程类的文章，因此具体爬取过程略过，我在文末的公众号文章中附上了代码~

1000条信息爬取还是很快的，大概几秒钟的时间即可完成，数据如下：

image.png

接下来就进入正题——数据分析环节，看看根据以上数据我们可以获取哪些信息吧！

TOP200图书墙

言情小说.jpg

我的感觉是：言情小说封面用色比较小清新，古风和古风字体的占比挺高。

哪些作者最受欢迎？

言情作者.png

话不多说，上图！通过对作者名的词频分析，生成词云图，可以看出人气最高的作者是：桐华、匪我思存、墨宝非宝、辛夷坞和丁墨，不知道跟大家心中的猜测是否匹配呢？

由于上大学后我就很少看言情小说了，同时近年热门的大IP剧我也很少追，所以榜单上还是有挺多生面孔的。具体来说就是光TOP5里就有俩我不认识的作者：墨宝非宝和丁墨我那个时代的作者，以及更老一些我比较熟悉（看过或身边人都在看其作品）的有匪我思存、亦舒、沧月、明晓溪、郭敬明、八月长安、饶雪漫、张小娴......（流下了时代的眼泪）

描述性统计分析

image.png

字段代表书籍数量，上表展示了整体数据的描述性分析结果，如数量、平均值、标准差、最大/小值、中位数等信息。例如评分的中位数是7.4，平均值是7.27。

上榜超过5本的作者、作品数量及平均评分

言情5本以上作者.png

从数量来看，桐华一骑绝尘，以29本的上榜数量荣登榜首！另补一句，29本未对书名去重，即不同出版社的同一本书会被算作2本，经计算，去重后是24本。

那么她为啥这么火呢？让我们看看书单明细——

image.png

在她的作品里，排在TOP1的是步步惊心，虽然我没看过但电视剧有多火我还是知道的，吴奇隆感觉靠这部剧又火了一次，顺带还娶了年轻貌美的刘诗诗~进一步我百度了下桐华作品改编的电视剧：

image.png

搜到的标题都是这种画风，你们感受下：

image.png

看到这里，我不禁升起了另一个疑问：这么多书被改编成电视剧，还是大火的剧，能赚多少钱啊？本着吃瓜吃到底的心态，又搜了下桐华的收入。一部《步步惊心》就为其带来了200万以上的版权收入，厉害了！

image.png

评分分布

言情评分分布.png

从评分分布来看，接近一半的作品评分集中在7-8分区间内，其次是6-7分和8-9分，低于6分的较少，而9分以上的作品更是凤毛麟角。来看看9分以上的作品都有哪些吧，由于评价人数过少的书籍的评分置信度相对偏低，因此采取评分人数倒序展示数据：

image.png

从TOP5来看，说明言情小说要想达到9分以上难度非常大，仅《香初上舞·终上》和《有匪2》在约4000人评分的条件下能达到这一水平，评分人数2000以下的可信度一般，基本上是小圈子或者粉丝自high。此时想感叹一句，《香初上舞》是我曾经的高中同桌最喜欢的书籍之一，再次留下时代的眼泪。

再来看看评分人数过5万的作品，评分TOP10的作品明细吧：

image.png

TOP1居然是《最好的我们》，其实我更喜欢《你好，旧时光》哈哈这里面除了岩井俊二、张爱玲和亦舒，其他的都算是网络小说作者，果然还是网络的力量大，为言情小说传播贡献了巨大力量。

星级分布

言情星级分布.png

星级分布没什么好说的，跟评分分布类似（星级本身跟评分也是对应的），集中在3.5星，其次是4星，3星和4.5星差不多。

作者国籍分布

image.png

由于国籍信息是从出版信息中作者名前面的注释中提取出来的，有部分未标注国籍的都被算到None里了，所以其实None包含中国籍和其他未标注国籍信息的作者。尽管如此，这个数据还是令我震惊，它明明白白传递的信息是：言情小说已经完全是内地的天下，都不存在半壁江山一说，完完全全，被内地包揽！而韩国和日本，居然只有寥寥几部，要知道，我读书的年代，可爱淘的小说风靡全校啊，没想到如今已经如此没落Orz

说起来，欧美美国好像没啥言情小说，可能是文化所致，他们不习惯亚洲这种含蓄的表达方式，这种纯爱小说估计也没什么市场。不过也有一种可能是欧美小说没有被打上言情的标签，可能是打的通用的“文学”标签。

image.png

作者起书名时最爱用的词都有哪些？

同样地，对书名进行分词，并统计词频，生成词云图，得到我们想要的结果——

言情词汇.png

TOP词汇是：时光、我们、喜欢、如果、倾城......是不是有内味儿了(^▽)满满小言的味道~

另外，我注意到最近火的电视剧名字都越来越长，什么香蜜沉沉烬如霜啦、三生三世十里桃花啦，于是我又列了下书名超过7个字的list，来看看都有啥：

image.png

书名长度分布如下，大部分书籍长度还是以2-5个字为主~

image.png

以上是我对豆瓣言情小说标签下书籍的分析，同时我也对推理小说和科幻小说做了相应的分析，详情请移步我的个人微信公众号：苕言苕语（shaoyanshaoyu_），还请朋友们多多支持呀~

参考教程

《Python爬虫和数据可视化》

主要是P15-P25这几个章节

https://www.bilibili.com/video/BV12E411A7ZQ

Python将多张图片进行合并拼接

https://blog.csdn.net/ahaotata/article/details/84027000

以扶摇为例：如何使用Python绘制词云？

https://baijiahao.baidu.com/s?id=1608201291686838534&wfr=spider&for=pc

爬虫实战1：Python爬取豆瓣图书，发现言情小说界的霸主居然是TA！

言情小说

TOP200图书墙

哪些作者最受欢迎？

描述性统计分析

上榜超过5本的作者、作品数量及平均评分

评分分布

星级分布

作者国籍分布

作者起书名时最爱用的词都有哪些？

参考教程

你可能感兴趣的:(爬虫实战1：Python爬取豆瓣图书，发现言情小说界的霸主居然是TA！)