python数据分析2之分析豆瓣电影

import pandas as pd
import numpy as np
读取豆瓣电影数据文档
df=pd.read_csv(‘doban.csv’)
df.head(1)

python数据分析2之分析豆瓣电影_第1张图片

每年的数量(求和),评分(平均数),评分人数(平均数)

china_year=df.groupby(‘year’).agg({‘id’:‘count’,‘rate’:‘mean’,‘rating_num’:‘mean’}).reset_index()
china_year

可视化,年代为x,数量为y

import matplotlib.pyplot as plt
plt.plot(china_year[‘year’],china_year[‘id’])
python数据分析2之分析豆瓣电影_第2张图片

电影评分的分析

plt.plot(china_year[‘year’],china_year[‘rate’])
python数据分析2之分析豆瓣电影_第3张图片

筛选出大陆的电影

df_mainland=df.loc[df[‘is_cn’]==1]

筛选出香港的电影

df_hk=df.loc[df[‘is_hk’]==1]

筛选出台湾的电影

df_tw=df.loc[df[‘is_tw’]==1]
df_tw.head()
python数据分析2之分析豆瓣电影_第4张图片

大陆每年的数量,评分,评分人数

mainland_year=df_mainland.groupby(‘year’).agg({‘id’:‘count’,‘rate’:‘mean’,‘rating_num’:‘mean’}).reset_index()

香港每年的数量,评分,评分人数

hk_year=df_hk.groupby(‘year’).agg({‘id’:‘count’,‘rate’:‘mean’,‘rating_num’:‘mean’}).reset_index()

台湾每年的数量,评分,评分人数

tw_year=df_tw.groupby(‘year’).agg({‘id’:‘count’,‘rate’:‘mean’,‘rating_num’:‘mean’}).reset_index()
tw_year.head()
python数据分析2之分析豆瓣电影_第5张图片
import matplotlib.pyplot as plt

三地每年的电量平均分

plt.plot(mainland_year[‘year’],mainland_year[‘rate’])
plt.plot(hk_year[‘year’],hk_year[‘rate’])
plt.plot(tw_year[‘year’],tw_year[‘rate’])
python数据分析2之分析豆瓣电影_第6张图片

三地每年的电量数量

plt.plot(mainland_year[‘year’],mainland_year[‘id’])
plt.plot(hk_year[‘year’],hk_year[‘id’])
plt.plot(tw_year[‘year’],tw_year[‘id’])
python数据分析2之分析豆瓣电影_第7张图片

三地每年的电量评分人数

plt.plot(mainland_year[‘year’],mainland_year[‘rating_num’])
plt.plot(hk_year[‘year’],hk_year[‘rating_num’])
plt.plot(tw_year[‘year’],tw_year[‘rating_num’])
python数据分析2之分析豆瓣电影_第8张图片
coldict = {‘is_drama’:‘剧情’,‘is_comedy’:‘喜剧’,‘is_action’:‘动作’,‘is_romance’:‘爱情’,
‘is_scifi’:‘科幻’,‘is_cartoon’:‘动画’,‘is_mystery’:‘悬疑’,‘is_thriller’:‘惊悚’,
‘is_horror’:‘恐怖’,‘is_crime’:‘犯罪’,‘is_homosexua’:‘同性’,‘is_music’:‘音乐’,
‘is_musical’:‘歌舞’,‘is_biographical’:‘传记’,‘is_historical’:‘历史’,‘is_war’:‘战争’,
‘is_western’:‘西部’,‘is_fantasy’:‘奇幻’,‘is_adventure’:‘冒险’,‘is_disaster’:‘灾难’,
‘is_sowordsmen’:‘武侠’,‘is_erotic’:‘情色’}

每种电影类型数量

type_count_dic={}
for k,v in coldict.items():
type_count_dic[v]=df[k].sum()
result1=pd.DataFrame.from_dict(type_count_dic,orient=‘index’).reset_index()

制定列名

result1.columns = [‘类型’,‘数量’]
result1
python数据分析2之分析豆瓣电影_第9张图片

figsize

plt.figure(figsize=(11, 6.5))

设置字体

plt.rcParams[‘font.sans-serif’]=[‘Arial Unicode MS’]

绘图柱状图

plt.bar(result1[‘类型’],result1[‘数量’])
python数据分析2之分析豆瓣电影_第10张图片

每种电影类型的平均评价人数

typecount_ratnum_dic={}
for k,v in coldict.items():

刚才只需要分类的数量,现在需要取出类型,分别求数量,评分数

temp=df.loc[df[k]==1]
typecount_ratnum_dic[v]=temp['rating_num'].mean()

result2=pd.DataFrame.from_dict(typecount_ratnum_dic,orient=‘index’).reset_index()
result2.columns=[‘类型’,‘平均评分人数’]
result2
python数据分析2之分析豆瓣电影_第11张图片

设置大小

plt.figure(figsize=(11,7))

设置排序

result2=result2.sort_values(‘平均评分人数’,ascending=False)

柱状图

plt.bar(result2[‘类型’],result2[‘平均评分人数’])
plt.show()
python数据分析2之分析豆瓣电影_第12张图片

查看西部评分人数较多的电影

df.loc[df[‘is_western’]==1].sort_values(‘rate’,ascending=False)
python数据分析2之分析豆瓣电影_第13张图片

平均分

typerate_dic={}
for k,v in coldict.items():
temp=df.loc[df[k]==1]
typerate_dic[v]=temp[‘rate’].mean()
result3=pd.DataFrame.from_dict(typerate_dic,orient=‘index’).reset_index()
result3.columns=[‘类型’,‘平均分’]
result3
python数据分析2之分析豆瓣电影_第14张图片

设置大小

plt.figure(figsize=(11,8))

排序

result3=result3.sort_values(‘平均分’,ascending=False)
plt.bar(result3[‘类型’],result3[‘平均分’])
python数据分析2之分析豆瓣电影_第15张图片

平均分,平均人数,数量

需要把之前三个合并

merge

df_temp=pd.merge(result1,result2,on=‘类型’)
china_type=pd.merge(df_temp,result3,on=‘类型’)
china_type.head()
python数据分析2之分析豆瓣电影_第16张图片
plt.figure(figsize=(11,7))
plt.scatter(china_type[‘平均分’],china_type[‘平均评分人数’])
python数据分析2之分析豆瓣电影_第17张图片
剔除评分人数少于500的
df0=df.loc[df[‘rating_num’]>=500]
plt.figure(figsize=(11,7))
plt.scatter(df0[‘rate’],df0[‘rating_num’])
python数据分析2之分析豆瓣电影_第18张图片

你可能感兴趣的:(Python)