数据分析day2:dat表数据处理

数据来自《利用python进行数据分析》附加数据文件,本篇使用电影评分数据

数据分析day2:dat表数据处理_第1张图片
读取三份数据

这里传入的names值的是要使用的列名称的列表
数据分析day2:dat表数据处理_第2张图片
三个表的前5行

要记住每一个都是DataFrame对象,不过三个表看起来太麻烦了,不如合成为一个表,这时就利用pandas的merge函数,先将ratings跟users合并,然后再将movies合并进去,merge函数会根据列名的重叠情况自动推断出哪些列是合并(或连接)键
数据分析day2:dat表数据处理_第3张图片

数据分析day2:dat表数据处理_第4张图片
取出第一行

原书中使用的 ix(int)函数,但是这个函数已经弃用了,再使用会抛出警告,我就换了新的函数 loc这里是基于标签索引还有一个基于位置索引的 iloc

数据分析day2:dat表数据处理_第5张图片
透视表

数据分析day2:dat表数据处理_第6张图片
pivot_table官方文档

数据分析day2:dat表数据处理_第7张图片

筛选出投票数大与250的,并作为索引生成新的DataFrame
数据分析day2:dat表数据处理_第8张图片

对女性观众的评分进行排序,这里出发了一个警告, sort_index已经弃用,所以我更换了新的方法 sort_values

接下来计算男女分歧比较大的电影,其实就是多加一列,计算出男女电影评分差,排序一下就可以了


数据分析day2:dat表数据处理_第9张图片
按照评分差排序

反过来就是男性最喜欢的电影(相比较)


数据分析day2:dat表数据处理_第10张图片
女性最喜欢倒序之后

这里利用切片的第三个参数步进为负数实现倒序

转载请注明出处

python自学技术互助扣扣群:670402334

你可能感兴趣的:(数据分析day2:dat表数据处理)