根据微博昵称分析大学生对母校的认同度

动机

刷微博时发现有些用户的昵称带有他们学校的英文简称,例如清华大学的“某某某_THU”,北京大学的“某某某_PKU"等等。

于是我就想,如果可以假设这些用户,他们在设置自己的昵称时,有个潜在的心理是对自己的母校比较认同的话,那么,只要统计这样的用户数,就有可能反映该校大学生对其母校的整体认同度。

那么,哪个大学最受学生认同呢?

作为一名好奇的在校大学生,我直接开干!

方法

首先需要一堆大学的名称和其英文缩写的对应关系列表。

总不能一个个手动找吧。我尝试搜索“高校简称”,发现这个网页:《70所部属高校明确中文简称:“地名+大”居多**》。复制下里面的文字,并处理生成一个列表,作为输入。

然后打开微博网页版,分析了下微博用户搜索页面的业务逻辑,并根据它编写js代码(我没有抢过月饼!),复制到浏览器的控制台里运行。这样的好处是无需处理登录逻辑,而且方便调试,在这方面比python啥的不知道高到哪去(虽然我都用python写服务端代码)。程序运行起来长这样:

根据微博昵称分析大学生对母校的认同度_第1张图片
爬虫运行界面

其中,标注了“18”那个是因为遇到了微博反爬虫验证码,所以重复了多次。由于大概抓取几十个学校的数据才会出现一次验证码,而且爬的数据不多,所以手动对付了下。

结果和分析

等了几分钟,最后整理结果如下:

根据微博昵称分析大学生对母校的认同度_第2张图片
微博昵称含学校缩写的用户数排名

从这个表格中,we can see that 。。等下?北京大学用户居然这么多!

于是我才意识到前面的方法存在一个不准确的地方是:不同学校的微博用户数本来就不一样!

因此,为提高准确性,应该用 “昵称含缩写的用户数 / 该学校的用户总数” 这个比例作为指标。

好吧,修改代码,又跑了一遍,最后得到:

微博昵称含学校缩写的用户数占该学校总用户数的比例排名

果然!排名发生了变化。由于表格不够直观,画出条形图为:

根据微博昵称分析大学生对母校的认同度_第3张图片
微博昵称含学校缩写的用户数占该学校总用户数的比例排名条形图

可见中科大遥遥领先,与第二名相差近一半,后面的则慢慢下降,没有再出现比较悬殊的差别,说明这个统计结果比较稳定咯。不过,北大的190多万的总用户数实在难以解释。

当然,很多因素会影响这个结果。例如,北邮的同学似乎更爱用byr(北邮人)而不是bupt;微博的的搜索引擎返回的结果每次也存在小差异。所以,在此郑重声明,以上结果不代表任何事实,仅供娱乐!!

不过,我还是要感叹:中科大的同学真幸福啊!

PS:中科大招生办公室的领导同志们,请问,我这个注册微博VIP会员的费用找谁报销?

你可能感兴趣的:(根据微博昵称分析大学生对母校的认同度)