知乎里有个问题:有没有推荐的大学生书单?
看了下,回答里推荐的书都比较主观。其实我觉得,书也要讲究在对的时间读到合适的书,在人的成长阶段中,对你帮助最大的,并不一定是该领域经典的书,而应该是现阶段适合你的书。
如果你是一个金融初学者,上来就啃《金融学》这种大部头,反倒不如读《图解金融学》这种偏入门的书对你帮助大,虽然前者比后者评分高了太多。
所以,对于大学生来说,最好的选书方式,不是盲目追求那些经典著作,而是要看同龄人、同专业的人都在读什么。因为大学生们大多有着相似的视野和生活经历、这样更有参照性。
于是,秉承着适合大学生读的书,一定是大学生自己亲手找出来的这个思想,在春节假期里,我用Python爬取了全国24个985和211高校图书馆的16多万条热门浏览(借阅)记录(24个高校名单已经附在文末,快来看看有没有你的大学!),提炼了这一份大学生必读TOP150书单。
这份必读书单,不带一点主观倾向,数据来自于大学图书馆里的热门借阅、热门浏览记录,换句话说,一定是历年大学里的学长学姐甚至还在读的大学生们用自己的读书经历投出来的好书。
点击这个链接:
高校热门书单TOP150
会进入一个在线表格。表格长这个样子:
表格里几个列的含义分别为:
总浏览次数:24所高校的大学生浏览这本书的总次数、
霸榜高校数:这本书出现在24所大学中多少所大学的热门书单里
霸榜率:霸榜高校数/统计的总高校数(24)。就是为了给你更直观的认识,排名就是按照这个数据排的。
榜单排名中位数:这本书绝大多数情况下在这些大学榜单中的排名。
当然,每本书仅仅给个高校的排名还是不够的,为了让你直观了解这本书,我又费劲爬取了豆瓣评分和详情链接,点击跳转就可以跳到对应的书籍详情页。
从总体榜单可以看到,排行榜中小说类书籍居多,很多热门小说的精彩片段都收录在高中课本里,可能大家在高中时被课本安利到,但是没有时间读全本,上大学之后就第一时间把全本补上。
高校热门浏览量前三名分别是:《追风筝的人》、《百年孤独》、《平凡的世界》,总浏览次数都已经上万。
第一名《追风筝的人》,在24个高校的热门浏览图书榜单中,这本书出现在了22次,霸榜率91.67%。你可以找找自己大学图书馆的热门浏览数据,这本书很大概率在榜单上。
《百年孤独》那个经典的开头自不必多说,曾经我写过一篇关于老罗TNT的文章,还致敬了这个开头,所以本书排第二也名副其实。
《平凡的世界》其实总体浏览量远远高于以上两本,但是鉴于霸榜率只有83.33%,只能屈居第三。
当然,总体榜单并不一定可以满足所有专业同学的需求,所以除总体榜单外,我还根据中图分类法划分的22个专业领域分别出了一份书单,你可以找到自己对应专业的分类,看看自己专业领域的同龄人都在看什么书。
点击相应的sheet页,可以按照中图分类法查看不同领域的书籍排名,附上中图分类号:
如果你是学商科的,可以点击“F经济”这个sheet面,查看经济学的热门书单。
从这里你也会发现很多对大学生可能帮助很大,但却是职场人士不大可能推荐的书,比如,在Z综合类书单中,《万万没想到》排名第一,这本书确实很有意思,知乎等也有很多人推荐。但是,第三名《大学四年要读的101本书》这种和大学生关系很大的书,可能不会在其他推荐渠道中看到,但数据却显示,这本书出现在了42%的高校热门浏览量书单中。
爱读书的大学生们赶紧收藏起来,拯救你的书荒。
因为是根据规则用爬虫爬取到的数据,有一些书名重复、没有找到豆瓣评分和链接的脏数据,目前确实没有想到很好的办法优化整合,有想法的小伙伴也可以评论区告诉我。
肯定有人会好奇为什么是这24个大学,首先,这几个大学图书馆检索系统都是用的汇文的接口,接口比较相似,界面长这样:
如果你大学图书馆里的书目检索系统也是这个样子,那就是汇文提供的软件无疑了。这种相似的接口便于写程序爬取,其次,虽然汇文服务的高校还挺多的,但是因为各个大学的图书馆主页都不一样,我只能程序加人工的方式把这些主页链接找出来。
举个例子你就明白了:
链接中间的一部分字母是根据大学的特点自己设定的。
而且就算找到链接,有的大学图书馆可能是放寒假了,服务器不稳定,有的大学限制校外的访问,没有办法爬取。拿到这几个高校的数据已经算尽力了。(看在这么辛苦的份上,不双击屏幕给个赞吗?)
所以,本来的想法是尽量涵盖国内所有高校,但是逐层筛选下来,只剩下这几所高校了。
当然,也要对以上几个大学的图书馆说声感谢!感谢寒假期间还提供优质的访问服务。
当然,如果你对这份源数据很感兴趣,想进一步进行分析,也可以关注我的公众号:【布吉岛青年】,回复【书单】获取,也可以私聊我获取爬虫的源码。
作为一名数据分析师,用数据说话是我的强项,对于大学生来说,可以看到一份相对客观的书单,避免个人主观的推荐。但我的真正目的,是希望在这个过程中让你感受到数据的力量,因为未来一定是数据主导的时代,不论你学什么专业,或者在从事什么工作。都应该提高对数据的敏感性,具备获取数据、应用数据的能力,以及从数据中发现现象的思维。
对于同样数据分析师或者有志于从事数据分析师职业的从业者来说,这其实是个很好的实践案例,整个过程涉及了很多数据分析相关的专业知识,包括获取数据(爬虫)、数据整理和分析、图表可视化等,本文还是主要从数据获取角度来做的,这些数据中有意思的点还未真正挖掘出来。我后续会出一份大学生阅读分析报告,并面向数据分析师,专门写一篇文章梳理一下整个技术细节,对数据分析感兴趣的请先关注我,文章发布后会第一时间推送给你。
我的终极目标是:如果你是一名在校大学生,可以根据自己的专业,找到全国高校的历届学长(姐)用自己的大学阅读经历帮你筛选出来的好书。如果你是一名数据分析师,可以从这个项目中学到从搜集数据到整理数据再到分析数据的全流程角度和方法。
当然,相比于平常工作中处理的海量数据来说,这点数据已经非常少了。
好啦,现在说说涉及到的技术吧,非技术人员可以撤离了。
爬虫技术。爬虫来擅长处理重复的事情,所以一个主页上的数据相对来说比较好爬,但是,找到不同高校的主页、并从里边爬数据,还是个不小的挑战。
获取cookies绕过豆瓣的反爬虫机制。
如何批量生成格式优美的表格:其实你看到的这每个sheet页,包括字体、隔行底色都是用代码批量调整的。
在这个项目过程中其实也加入了自己的一些值得一提的小技巧。比如豆瓣图书的API接口已经停止服务了,如何从豆瓣主页里获得评分和链接;再比如怎样尽量减少访问豆瓣主页的次数,防止触发反爬机制(虽然最后还是触发了)等。