python数据分析——择偶标准与黑名单

诞生背景

不偏不倚,恰好单身20年,这对于一个优秀的人是特别苦恼的,我也渐渐陷入了自我怀疑中,可是想来想去除了与高 富 帅 不太搭边外,我也没有什么致命的缺点呀,慢慢地,朋友都知道我为何而愁:
python数据分析——择偶标准与黑名单_第1张图片
可能我还是没有意识到自身的问题,所以开始网上求知,刚好在微博上看见了这么几个话题:
python数据分析——择偶标准与黑名单_第2张图片
这择偶标准、择偶标准黑名单都齐了,只要我能从择偶标准黑名单的阵地转移到择偶标准上,难道还会为没有女朋友而发愁吗?

数据提取及分析

爬取数据集如下:
python数据分析——择偶标准与黑名单_第3张图片
我本意是想通过用户id获取到用户的基本信息,即使原理都理解了,但无奈微博反爬过于凶猛,自己又是个菜鸟,用户信息爬取还是失败了,等日后再战,本文只做一个简单的文本分析,纯属娱乐。
文本核心即利用jieba库对微博内容进行分词,获取权重值较高的词语形成词云图,另外实现词频统计
部分代码如下:
python数据分析——择偶标准与黑名单_第4张图片

数据可视化

择偶标准黑名单词汇Top10

python数据分析——择偶标准与黑名单_第5张图片
应该不难看出来,这些词汇很多都明确指向男性,比如“妈宝”、“大男子主义”,另一个就是跟风黑女生的爱豆,这种行为好像令大多数女孩子都难以接受,所以在与女生相处过程中,上述行为切忌!

择偶标准黑名单权重词云图

python数据分析——择偶标准与黑名单_第6张图片
除了词频较高的10个词汇,有的品性也真的是让人难以接受,比如“双标”、“紧身裤”、“小气”,虽然萝卜青菜各有所爱,即使你留给别人的印象极好,但上述品性其中之一也足以毁掉了。

择偶标准词汇Top10

python数据分析——择偶标准与黑名单_第7张图片
王一博、肖战是19年比较大势的男演员,也是众多女孩的新爱豆,可能是爬取的样本量太少,所以导致二者词频统计相差较大—我的错!“喜欢”这个词厉害了,两个字就能概括剩下九个,“要求不高,找一个自己喜欢的就好”==“吴彦祖or彭于晏”。

择偶标准权重词云图

python数据分析——择偶标准与黑名单_第8张图片
词云图中八成词汇是明星的名字,除此之外,也就一个“快乐”适合我了,既然择偶标准已经达到这个地步,那我也不装了、摊牌了。

李优秀的择偶标准

python数据分析——择偶标准与黑名单_第9张图片

总结

虽说不随波逐流难得,但是有的品性必须改、有的品质真要学,不止在男女相处之间,甚至足以影响朋友、同学之间的相处,即使许多品质与我们不沾边,但至少要得达到一个合格的标准,不给自己减分。

本文娱乐性质较高,若感兴趣公众号“奶糖猫”后台回复“择偶”获取源码供参考。

你可能感兴趣的:(数据分析与爬虫)