Pandas数据处理项目----好莱坞评分数据分析

一、数据加载

数据源及代码:https://pan.baidu.com/s/1bSqZWOcqeJTkMFz7BLtTvA
提取码:kf8r
视频地址:网易云课堂

引包:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

数据加载

movie_path = 'movies.dat'
user_path = 'users.dat'
rating_path = 'ratings.dat'

movie_data = pd.read_csv(movie_path,sep="::",names=['movie_id','movie_name','movie_type'],header=None,engine="python")
user_date = pd.read_csv(user_path,sep="::",header=None,engine="python",names=["user_id","gender","age","occupation","zip_code"])
rating_data = pd.read_csv(rating_path,sep="::",header=None,names=["user_id","movie_id","rating","timestamp"],engine='python')

查看数据

Pandas数据处理项目----好莱坞评分数据分析_第1张图片

二、数据预处理

数据合并

Pandas数据处理项目----好莱坞评分数据分析_第2张图片
Pandas数据处理项目----好莱坞评分数据分析_第3张图片

三、数据分析

1.平均分排名

Pandas数据处理项目----好莱坞评分数据分析_第4张图片

2.不同性别对电影的平均评分

Pandas数据处理项目----好莱坞评分数据分析_第5张图片
Pandas数据处理项目----好莱坞评分数据分析_第6张图片

3.不同性别争议最大电影

Pandas数据处理项目----好莱坞评分数据分析_第7张图片
Pandas数据处理项目----好莱坞评分数据分析_第8张图片

可视化

Pandas数据处理项目----好莱坞评分数据分析_第9张图片

4.评分次数最多热门的电影

Pandas数据处理项目----好莱坞评分数据分析_第10张图片

5.不同年龄段争议最大的电影

Pandas数据处理项目----好莱坞评分数据分析_第11张图片
Pandas数据处理项目----好莱坞评分数据分析_第12张图片

你可能感兴趣的:(数据分析)