superheros数据分析

转载请在文章起始处注明出处,谢谢!

数据来源:kaggle
具体数据:
heroes_information/英雄基本信息表
super_hero_powers/英雄能力表
正直超级英雄的大热时期加上本人对超级英雄题材也比较感兴趣,便从kaggle网上下载了一些相关的数据,将从超级英雄各方面属性、阵营、及具体阵营之间的比较,做一些简单的分析。

导入必要的库和数据:

image.png

观察ifm英雄信息表的数据:
image.png

出版社中有缺失值,ifm中也有未填写的以‘-’替代的值,身高体重出现负的值。
image.png

ifm预处理完成。身高体重负的值均为-99,并无其他值,在这里可代指未知的值,可不作处理。

观察power表:


image.png

power表共有168列,167个为布偶型,1个为文本即英雄名字。
在这里我们仅仅提取英雄能力总数为sumpower来作分析


image.png

power表的处理完成。

接下来将两表连结整合为一张表,通过name字段。


image.png

数据清洗完毕,开始具体分析。

首先观察下哪家漫画公司的英雄数量最多。

image.png

两家老牌漫画公司Mavel和DC以绝对的优势分别位居一二,当然这些英雄数据只是其中一部分,据不完全统计,Mavel旗下至少有8000位超级英雄和漫画角色

超级英雄的超能力是我们最关注的。在这次统计中,我只是简单的把超能力数的总和相加,但其实各项超能力之间也存在着强弱的差异,常见的敏捷,力量,抗击打一般都是标配,更强大的有如:奥丁神力,凤凰之力等等,具体各项能力指数加分可参照https://www.superherodb.com/powers/ 让我们来看一下英雄的能力个数排行榜吧

image.png

排名第一的是来自DC的幽灵(The Spectre),他是DC漫画中至高神明“上帝”的复仇之灵,拥有近乎无所不能的神力。再看下榜单中还有没有我们比较熟悉的英雄,排名6、7的惊奇队长实力也是不容小觑。Thanos灭霸排名12,这实力应该是有手套加成吧。排名13奥丁,一统九界,实力非常强悍。我们最熟悉的超人排名有些靠后,排在了19位,超人有个氪石的弱点也不是无敌的。

超能力的个数非常重要,决定了实力的强弱,那么在这些英雄的数据中,他们超能力个数的占比又是多少呢?

image.png

我们将超能力的个数划分为如上述的区域进行比较,为了保证英雄信息的完整,我们用的是左连接,所以部分英雄的信息对不上能力的个数的数据,我们选择剔除。
image.png

从饼图中我们可以看出,漫画角色能力数1-10的占比最多,占总比数68%。2.1%的漫画角色拥有超过30种的超能力!

每个超级英雄都有自己的独特的超能力,那么在众多能力中,哪些能力是比较普遍,属于超能力中的“大众化”呢?

image.png

image.png

可以看出排名第一的是SuperStrength超级力量,接下来依次是耐力、抗击打能力、超级速度、敏捷等等,大多数漫画角色也都是这些相关的属性,所谓富人靠科技,穷人靠变异

接下来我们具体统计下一些超级英雄的一些常规数据:

image.png

image.png

生成如下图形:
image.png

男女比例图中,漫画角色为男性的个数要多于女性,others在这里应该是代指机械类或人工智能等无性别的区分英雄。正反派阵营中,反派的个数只有正派方的一半都不到,虽然反派数少,但电影里超级大反派都是一次锤好几个超级英雄的,其余的为中立或其他。身高体重图中,有许多小于0的值,在这里应该是指未知的数值,我们可以看出大部分正常的角色身高体重都分别在1.5-2.0m、100kg左右,为正常成年人的身高体重,漫画的构想也是来源于生活,当然也不排除比较夸张的数值设定,比如体重为300KG以上的怪物级别。

将combine数据中,身高体重能力数两两作图比较

image.png

从pairplot多变量图中可知,各个性别的身高和体重相关性较强,呈正相关性。能力数和男性、女性身高体重均无明显相关性。性别中others中身高体重的数值有些异常,是受到未知的以-99代替的值的影响

接下来,我们研究下,在作者塑造这些角色的时候,一些因素如眼睛颜色会不会对正反派阵营的区别产生影响。


image.png

在眼睛颜色统计中,我们发现样本中,有些颜色的个数太少,难以看出对阵营的影响,选择剔除。


image.png

image.png

观察图形可以看出,大部分角色的眼睛颜色都是蓝色棕色绿色等欧美人的眼睛色。因为我们采集的样本中本身正派的个数是大于反派的,所以眼睛颜色分类中,正派也是大于反派,但有一条‘red’数据显示即使样本分布不均匀,红色眼睛中,反派的个数仍是要多于正派的。

Mavel VS DC
漫威和DC之间的擂台赛,不同级别组中的能力数比拼。
数据预处理:

image.png

筛选出身高,体重未知的特殊组为special
image.png

常规组common,按照身高体重划分等级:
image.png

根据描述统计的各分位数,我们可以按照其对应的数值来进行分段操作,具体如下:
image.png

选出各组别的前三名:
image.png

可视化:
image.png

image.png

各组别的前三名已经出来了,漫威阵营的是绿色,DC阵营的是蓝色。特殊组的冠军依旧是来自DC的幽灵。羽量级的冠军是来自漫威的一名超越欧米茄级的变种人富兰克林,是神器先生与隐形女侠的儿子,也是复仇者联盟中的一名成员。在常规组轻量级和中量级中均出现了Captain Marvel,一个来自漫威,一个来自DC,两家漫画公司其实都有这个英雄。来自漫威的应该很熟悉了,就是刚上映的惊奇队长,实力的强悍也不用多说了,复联无限战争中的战斗女神。来自DC阵营的惊奇队长其实就是即将上映的雷霆沙赞,他通过喊出‘沙赞’,就能变成和超人类似能力的成年强壮体型的超级英雄,是一位热心肠且正义阳光的漫画角色。重量级中的冠军是DC的火星猎人,是正义联盟中的一员。超重量级中的冠军是来自DC的超级大反派Amazo(亚魔卓),他的类别是属于人工智能,能力是可以复制见到的所有人的超能力,非常特殊非常强大的能力!

你可能感兴趣的:(superheros数据分析)