爬虫实战1:Python爬取豆瓣图书,发现言情小说界的霸主居然是TA!

继入门了Pyhton数据分析之后,我开始了爬虫的学习之路,主要是发现爬虫的用处实在是太大了,招聘信息、爱豆高清美图/歌曲、房地产信息、股票证券等金融信息、电影资源......只有想不到,没有爬不到!而且爬虫跟数据分析基本是强关联的,当需要针对爬取的数据做清洗和分析时,数据分析就派上用场了~

我的爬虫入门课是成都工业大学的网课《Python爬虫和数据可视化》,原本我是看了一个2016年的教程,结果发现视频中讲解的方式现在已不再适用,因为随着时间的推移和技术的进步,网站的反爬做的越来越好,没有给我可乘之机而前面说的这个网课则是2020年最新版的,课程以爬取豆瓣电影TOP250为例讲解了爬虫的基本原理和常用的库。当我跟着课程一步步操作到最后成功爬取了电影数据后,为了巩固基础知识、加深印象,我决定尝试举一反三,目标——爬取豆瓣读书的信息。

打开豆瓣读书的主页,可以看到右侧边栏有“热门标签”,点击任意一个标签即可浏览该标签下的所有图书,我选择了言情、推理和科幻三个大类进行尝试,我的第一个Python爬虫之路正式开始!

言情小说

通过多次尝试发现,各类别下的图书翻到51页就没有数据了,一页是20条,因此推测豆瓣标签下只展示前1000本图书信息,fine,那就爬取1000条咯~


image.png

爬取的信息包括:

①书名②链接③出版信息④星级⑤评价人数⑥简介⑦封面图片⑧评分

由于本篇不是爬虫教程类的文章,因此具体爬取过程略过,我在文末的公众号文章中附上了代码~

1000条信息爬取还是很快的,大概几秒钟的时间即可完成,数据如下:

image.png

接下来就进入正题——数据分析环节,看看根据以上数据我们可以获取哪些信息吧!

TOP200图书墙
言情小说.jpg

我的感觉是:言情小说封面用色比较小清新,古风和古风字体的占比挺高。

哪些作者最受欢迎?
言情作者.png

话不多说,上图!通过对作者名的词频分析,生成词云图,可以看出人气最高的作者是:桐华、匪我思存、墨宝非宝、辛夷坞和丁墨,不知道跟大家心中的猜测是否匹配呢?

由于上大学后我就很少看言情小说了,同时近年热门的大IP剧我也很少追,所以榜单上还是有挺多生面孔的。具体来说就是光TOP5里就有俩我不认识的作者:墨宝非宝和丁墨我那个时代的作者,以及更老一些我比较熟悉(看过或身边人都在看其作品)的有匪我思存、亦舒、沧月、明晓溪、郭敬明、八月长安、饶雪漫、张小娴......(流下了时代的眼泪)

描述性统计分析
image.png

字段代表书籍数量,上表展示了整体数据的描述性分析结果,如数量、平均值、标准差、最大/小值、中位数等信息。例如评分的中位数是7.4,平均值是7.27。

上榜超过5本的作者、作品数量及平均评分
言情5本以上作者.png

从数量来看,桐华一骑绝尘,以29本的上榜数量荣登榜首!另补一句,29本未对书名去重,即不同出版社的同一本书会被算作2本,经计算,去重后是24本。

那么她为啥这么火呢?让我们看看书单明细——


image.png

在她的作品里,排在TOP1的是步步惊心,虽然我没看过但电视剧有多火我还是知道的,吴奇隆感觉靠这部剧又火了一次,顺带还娶了年轻貌美的刘诗诗~进一步我百度了下桐华作品改编的电视剧:


image.png

搜到的标题都是这种画风,你们感受下:
image.png

image.png

看到这里,我不禁升起了另一个疑问:这么多书被改编成电视剧,还是大火的剧,能赚多少钱啊?本着吃瓜吃到底的心态,又搜了下桐华的收入。一部《步步惊心》就为其带来了200万以上的版权收入,厉害了!


image.png
评分分布
言情评分分布.png

从评分分布来看,接近一半的作品评分集中在7-8分区间内,其次是6-7分和8-9分,低于6分的较少,而9分以上的作品更是凤毛麟角。来看看9分以上的作品都有哪些吧,由于评价人数过少的书籍的评分置信度相对偏低,因此采取评分人数倒序展示数据:


image.png

从TOP5来看,说明言情小说要想达到9分以上难度非常大,仅《香初上舞·终上》和《有匪2》在约4000人评分的条件下能达到这一水平,评分人数2000以下的可信度一般,基本上是小圈子或者粉丝自high。此时想感叹一句,《香初上舞》是我曾经的高中同桌最喜欢的书籍之一,再次留下时代的眼泪。

再来看看评分人数过5万的作品,评分TOP10的作品明细吧:


image.png

TOP1居然是《最好的我们》,其实我更喜欢《你好,旧时光》哈哈这里面除了岩井俊二、张爱玲和亦舒,其他的都算是网络小说作者,果然还是网络的力量大,为言情小说传播贡献了巨大力量。

星级分布
言情星级分布.png

星级分布没什么好说的,跟评分分布类似(星级本身跟评分也是对应的),集中在3.5星,其次是4星,3星和4.5星差不多。

作者国籍分布
image.png

由于国籍信息是从出版信息中作者名前面的注释中提取出来的,有部分未标注国籍的都被算到None里了,所以其实None包含中国籍和其他未标注国籍信息的作者。尽管如此,这个数据还是令我震惊,它明明白白传递的信息是:言情小说已经完全是内地的天下,都不存在半壁江山一说,完完全全,被内地包揽!而韩国和日本,居然只有寥寥几部,要知道,我读书的年代,可爱淘的小说风靡全校啊,没想到如今已经如此没落Orz

说起来,欧美美国好像没啥言情小说,可能是文化所致,他们不习惯亚洲这种含蓄的表达方式,这种纯爱小说估计也没什么市场。不过也有一种可能是欧美小说没有被打上言情的标签,可能是打的通用的“文学”标签。


image.png
作者起书名时最爱用的词都有哪些?

同样地,对书名进行分词,并统计词频,生成词云图,得到我们想要的结果——


言情词汇.png

TOP词汇是:时光、我们、喜欢、如果、倾城......是不是有内味儿了()满满小言的味道~

另外,我注意到最近火的电视剧名字都越来越长,什么香蜜沉沉烬如霜啦、三生三世十里桃花啦,于是我又列了下书名超过7个字的list,来看看都有啥:


image.png

书名长度分布如下,大部分书籍长度还是以2-5个字为主~


image.png

以上是我对豆瓣言情小说标签下书籍的分析,同时我也对推理小说和科幻小说做了相应的分析,详情请移步我的个人微信公众号:苕言苕语(shaoyanshaoyu_),还请朋友们多多支持呀~


参考教程

《Python爬虫和数据可视化》

主要是P15-P25这几个章节

https://www.bilibili.com/video/BV12E411A7ZQ

Python将多张图片进行合并拼接

https://blog.csdn.net/ahaotata/article/details/84027000

以扶摇为例:如何使用Python绘制词云?

https://baijiahao.baidu.com/s?id=1608201291686838534&wfr=spider&for=pc

你可能感兴趣的:(爬虫实战1:Python爬取豆瓣图书,发现言情小说界的霸主居然是TA!)