Kaggle入门——电影案例数据分析

数据集

1. 数据集介绍

本项目用到的数据集IMDB-Movie-Data是Kaggle平台上的项目TMDB(The Movie Database),主要为美国2006-2016年间的电影作品。

2. 数据集下载

Kaggle入门——电影案例数据分析_第1张图片
下载地址
由于Kaggle平台是外网可能会出现下载较慢等问题,可以直接从下面下载
下载链接
提取码:MNSW

3. 导入数据

#文件的路径
path = "./data/IMDB-Movie-Data.csv"
#读取文件
movie = pd.read_csv(path)

数据基本信息

1. 数据集形状

Kaggle入门——电影案例数据分析_第2张图片
在这里插入图片描述

问题1:如何获取电影数据中评分的平均分,导演的人数等信息

1. mean(a, axis, dtype)

Kaggle入门——电影案例数据分析_第3张图片

  1. np.unique():去重

观察数据我们可以发现,会出现一个导演执导多部电影的情况,所以需要对导演列去重;
Kaggle入门——电影案例数据分析_第4张图片

问题2:数据可视化电影信息

1. 创建画布

plt.figure(figsize=(20, 8), dpi=80)

2. 绘制直方图

api:matplotlib.pyplot.hist(x, bins=None)
x:需要传递的参数
bins:组距

plt.hist(movie["Rating"].values,bins=20)

2.1 添加轴刻度

# 增加x轴刻度
max_ = movie["Rating"].max()
min_ = movie["Rating"].min()

x1 = np.linspace(min_,max_,21)
print(x1)
# 添加x1刻度
plt.xticks(x1)

2.2 添加网格

# 增加网格
plt.grid()

3. 显示图像

Kaggle入门——电影案例数据分析_第5张图片

问题三: 统计电影分类genre情况并数据可视化

1. 以前5行数据为例,观察genre信息
Kaggle入门——电影案例数据分析_第6张图片
Kaggle入门——电影案例数据分析_第7张图片

如上图所示,我们可以发现,Genre列下的每一行数据包含了多个电影类别,却是以一个字符串的形式存储的,这样不好筛选类别;

2. 切割字符串

可以考虑用“,”进行字符串分割,使得每一个类别是一个单独的字符串;
Kaggle入门——电影案例数据分析_第8张图片

3. 遍历字符串并去重

j 指向的是每一行的数据,i 指向的是每行数据中的每个类别,相当于双重for循环嵌套,最后值赋值给i ;
Kaggle入门——电影案例数据分析_第9张图片

4. 构建一个全为0的DataFrame,行为电影名,列为各个电影分类

创建列表:
pd.DataFrame(data=None, index=None, columns=None)
生成全0数组:
np.zeros(shape, dtype)

Kaggle入门——电影案例数据分析_第10张图片

5. 电影类别划分,以0/1描述

使用ix进行下标和名称组合索引
data.ix[0:4, [‘open’, ‘close’, ‘high’, ‘low’]]

for i in range(1000):
    genre_zero.ix[i,temp_list[i]] = 1
    #  获取第i行中temp_list中的所有类,并置为1

在这里插入图片描述
Kaggle入门——电影案例数据分析_第11张图片

6. 数据可视化

求和降序排列
Kaggle入门——电影案例数据分析_第12张图片
柱状图显示

genre_zero.sum().sort_values(ascending=False) .plot(kind="bar",figsize=(20,8))

Kaggle入门——电影案例数据分析_第13张图片

你可能感兴趣的:(Deep,Learning,python,机器学习,pycharm)