继入门了Pyhton数据分析之后,我开始了爬虫的学习之路,主要是发现爬虫的用处实在是太大了,招聘信息、爱豆高清美图/歌曲、房地产信息、股票证券等金融信息、电影资源......只有想不到,没有爬不到!而且爬虫跟数据分析基本是强关联的,当需要针对爬取的数据做清洗和分析时,数据分析就派上用场了~
我的爬虫入门课是成都工业大学的网课《Python爬虫和数据可视化》,原本我是看了一个2016年的教程,结果发现视频中讲解的方式现在已不再适用,因为随着时间的推移和技术的进步,网站的反爬做的越来越好,没有给我可乘之机而前面说的这个网课则是2020年最新版的,课程以爬取豆瓣电影TOP250为例讲解了爬虫的基本原理和常用的库。当我跟着课程一步步操作到最后成功爬取了电影数据后,为了巩固基础知识、加深印象,我决定尝试举一反三,目标——爬取豆瓣读书的信息。
打开豆瓣读书的主页,可以看到右侧边栏有“热门标签”,点击任意一个标签即可浏览该标签下的所有图书,我选择了言情、推理和科幻三个大类进行尝试,我的第一个Python爬虫之路正式开始!
言情小说
通过多次尝试发现,各类别下的图书翻到51页就没有数据了,一页是20条,因此推测豆瓣标签下只展示前1000本图书信息,fine,那就爬取1000条咯~
爬取的信息包括:
①书名②链接③出版信息④星级⑤评价人数⑥简介⑦封面图片⑧评分
由于本篇不是爬虫教程类的文章,因此具体爬取过程略过,我在文末的公众号文章中附上了代码~
1000条信息爬取还是很快的,大概几秒钟的时间即可完成,数据如下:
接下来就进入正题——数据分析环节,看看根据以上数据我们可以获取哪些信息吧!
TOP200图书墙
我的感觉是:言情小说封面用色比较小清新,古风和古风字体的占比挺高。
哪些作者最受欢迎?
话不多说,上图!通过对作者名的词频分析,生成词云图,可以看出人气最高的作者是:桐华、匪我思存、墨宝非宝、辛夷坞和丁墨,不知道跟大家心中的猜测是否匹配呢?
由于上大学后我就很少看言情小说了,同时近年热门的大IP剧我也很少追,所以榜单上还是有挺多生面孔的。具体来说就是光TOP5里就有俩我不认识的作者:墨宝非宝和丁墨我那个时代的作者,以及更老一些我比较熟悉(看过或身边人都在看其作品)的有匪我思存、亦舒、沧月、明晓溪、郭敬明、八月长安、饶雪漫、张小娴......(流下了时代的眼泪)
描述性统计分析
字段代表书籍数量,上表展示了整体数据的描述性分析结果,如数量、平均值、标准差、最大/小值、中位数等信息。例如评分的中位数是7.4,平均值是7.27。
上榜超过5本的作者、作品数量及平均评分
从数量来看,桐华一骑绝尘,以29本的上榜数量荣登榜首!另补一句,29本未对书名去重,即不同出版社的同一本书会被算作2本,经计算,去重后是24本。
那么她为啥这么火呢?让我们看看书单明细——
在她的作品里,排在TOP1的是步步惊心,虽然我没看过但电视剧有多火我还是知道的,吴奇隆感觉靠这部剧又火了一次,顺带还娶了年轻貌美的刘诗诗~进一步我百度了下桐华作品改编的电视剧:
搜到的标题都是这种画风,你们感受下:
看到这里,我不禁升起了另一个疑问:这么多书被改编成电视剧,还是大火的剧,能赚多少钱啊?本着吃瓜吃到底的心态,又搜了下桐华的收入。一部《步步惊心》就为其带来了200万以上的版权收入,厉害了!
评分分布
从评分分布来看,接近一半的作品评分集中在7-8分区间内,其次是6-7分和8-9分,低于6分的较少,而9分以上的作品更是凤毛麟角。来看看9分以上的作品都有哪些吧,由于评价人数过少的书籍的评分置信度相对偏低,因此采取评分人数倒序展示数据:
从TOP5来看,说明言情小说要想达到9分以上难度非常大,仅《香初上舞·终上》和《有匪2》在约4000人评分的条件下能达到这一水平,评分人数2000以下的可信度一般,基本上是小圈子或者粉丝自high。此时想感叹一句,《香初上舞》是我曾经的高中同桌最喜欢的书籍之一,再次留下时代的眼泪。
再来看看评分人数过5万的作品,评分TOP10的作品明细吧:
TOP1居然是《最好的我们》,其实我更喜欢《你好,旧时光》哈哈这里面除了岩井俊二、张爱玲和亦舒,其他的都算是网络小说作者,果然还是网络的力量大,为言情小说传播贡献了巨大力量。
星级分布
星级分布没什么好说的,跟评分分布类似(星级本身跟评分也是对应的),集中在3.5星,其次是4星,3星和4.5星差不多。
作者国籍分布
由于国籍信息是从出版信息中作者名前面的注释中提取出来的,有部分未标注国籍的都被算到None里了,所以其实None包含中国籍和其他未标注国籍信息的作者。尽管如此,这个数据还是令我震惊,它明明白白传递的信息是:言情小说已经完全是内地的天下,都不存在半壁江山一说,完完全全,被内地包揽!而韩国和日本,居然只有寥寥几部,要知道,我读书的年代,可爱淘的小说风靡全校啊,没想到如今已经如此没落Orz
说起来,欧美美国好像没啥言情小说,可能是文化所致,他们不习惯亚洲这种含蓄的表达方式,这种纯爱小说估计也没什么市场。不过也有一种可能是欧美小说没有被打上言情的标签,可能是打的通用的“文学”标签。
作者起书名时最爱用的词都有哪些?
同样地,对书名进行分词,并统计词频,生成词云图,得到我们想要的结果——
TOP词汇是:时光、我们、喜欢、如果、倾城......是不是有内味儿了(▽)满满小言的味道~
另外,我注意到最近火的电视剧名字都越来越长,什么香蜜沉沉烬如霜啦、三生三世十里桃花啦,于是我又列了下书名超过7个字的list,来看看都有啥:
书名长度分布如下,大部分书籍长度还是以2-5个字为主~
以上是我对豆瓣言情小说标签下书籍的分析,同时我也对推理小说和科幻小说做了相应的分析,详情请移步我的个人微信公众号:苕言苕语(shaoyanshaoyu_),还请朋友们多多支持呀~
参考教程
《Python爬虫和数据可视化》
主要是P15-P25这几个章节
https://www.bilibili.com/video/BV12E411A7ZQ
Python将多张图片进行合并拼接
https://blog.csdn.net/ahaotata/article/details/84027000
以扶摇为例:如何使用Python绘制词云?
https://baijiahao.baidu.com/s?id=1608201291686838534&wfr=spider&for=pc