爬取11088个知乎专栏,打破发现壁垒

去UC是不可能去UC的,这辈子都不可能去UC的。——Deserts_X

一、前言

上回我用Gephi绘制了知乎374名10万+关注的大V间相互关注情况,因为涉及25090条关注数据,最后成果图不算理想,但也能简单窥见大V生态圈的面貌,详情见于:《374名10万+知乎大V(一):相互关注情况》


论理这回应该继续对374名10万+大V、4151名1万+小V进行研究,写作(二)、(三)等系列文章,那到底为什么不填坑,而搞了这个爬知乎专栏的项目呢?


二、痛点

本专栏Data Analysis & Viz开通50来天,关注人数不知不觉也快有666人了,很好奇关注我或专栏的用户都有谁,他们有哪些共同点,还关注了哪些类似主题的专栏......

前两个问题倒是很好解决,只需爬取关注列表,分析下用户信息,也就心里有数了;但知乎上有多少类似主题的优质专栏,却是个不好回答的问题。

原先一直以为知乎有搜索专栏的地方,找了半天发现下面的网页后,以为捡到宝了,立马写个爬虫,翻页10000次,美滋滋地等着拿数据,却发现最后到手的有效专栏数才313个用《红楼梦》的话说,这个网站“原来苗而不秀,是个银样镴枪头”,是个中看不中用的主。




继续寻寻觅觅后,发现个人主页有两处专栏相关的入口:一个是自己的专栏,一个是关注的专栏。于是决定以后者为入口,用上回获取的30多万用户ID,爬取各自关注的专栏,从而得到知乎专栏的数据



有了入口和思路,之后就是写代码和爬取的事了,不在话下。

@Ricky,2015年在《知乎都有哪些值得推荐的专栏?》 话题下提到:“专栏除了在时间线被关注用户点赞或者关注的情况外,是没有一个发现频道的。也就是说知乎团队希望专栏还是以一种去中心化的形态去发展。

现在依旧如此,去中心化的形式就是上述痛点的来源。


三、专栏情况

3.1 数据一览

最终得到11088条知乎专栏数据,格式如下,作者为机构号的专栏特别标注出来


3.2 文章数与粉丝数

所有专栏的文章数与粉丝数情况如下,粉丝数30万+的第一梯度有:女神进化论、知乎电子书、硬派健身;20万+的有:张佳玮写字的地方、潜台词。文章数1500+的有:最美应用 | 有价值的好应用、知识市场编辑推荐、扑克投资家、游戏茶馆


3.3 TOP100

粉丝数排名TOP100专栏的门槛为40814人(“如何认真地活着”)。TOP100专栏总计8261681人次关注,占全部11088个专栏总关注31262218人次的26.4%,而TOP27专栏的关注人次占到TOP100的一半

全部专栏的平均粉丝数为2819人(拖后腿了),中位数为432人。前393个专栏总计关注人次超过全部专栏的一半。


3.4 TOP20

“数据冰山”专栏两个月前曾对TOP20专栏进行分析:《知乎Top20专栏用户的那些事》、上文提到的《知乎都有哪些值得推荐的专栏?》一文也有2015年的TOP20专栏名单,三者比较后,发现部分专栏地位稳固,“你大爷依旧是你大爷!”


3.5 机构号

在上万的专栏里有191个系机构号所创建,请下图的相关人员支付广告费!否则,我将用三十年修炼的、集一阳指和狮吼功于一体的神功,give you color to see see!顶部和底部没显示完整的可以半折。


3.6 假的图表

原本以为上文数据一览里时间栏是专栏的开通时间,于是绘制了下各年份的情况。之后才发现这部分应该是爬虫入口的用户关注专栏的时间,似乎啥也说明不了......不管了,聪明的人看不到这张图!


四、未完

由于篇幅原因,具体数据分析、挖掘、python、爬虫、机器学习等方向的优质专栏,会在下一篇文章里给出史上最全合集,敬请期待。

有兴趣做个“搜索知乎专栏”功能的小伙伴也可以搞一下哈。

想找自己感兴趣的、非上述主题的专栏的话,可以到公众号“牛衣古柳”(ID:Deserts-X)后台自取原始数据文件,会不断在公众号分享资源、数据,欢迎关注哈。




你可能感兴趣的:(爬取11088个知乎专栏,打破发现壁垒)