Matplotlib–数据可视化库–柱形图与盒图
对fandango_scores.csv文件,将’FILM’,‘RT_user_norm’, ‘Metacritic_user_nom’, ‘IMDB_norm’, ‘Fandango_Ratingvalue’, 'Fandango_Stars’这6列的前5行的数据提取出来.
import pandas as pd
import matplotlib.pyplot as plt
reviews = pd.read_csv(‘fandango_scores.csv’)
cols = [‘FILM’, ‘RT_user_norm’, ‘Metacritic_user_nom’, ‘IMDB_norm’, ‘Fandango_Ratingvalue’]
norm_reviews = reviews[cols]
print(norm_reviews[:5])
value_counts()
Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
功能:返回包含唯一值计数的对象。结果对象将按降序排列,以便第一个元素是最常出现的元素。 不包括默认的NA值,返回:计数:Serise
normalize : boolean, default False
如果为True,则返回的对象将包含唯一值的相对频率。
sort : boolean, default True
按值排序
ascending : boolean, default False
按升序排序
bins : integer, optional
而不是数值计算,把它们分成半开放的箱子,一个方便的pd.cut,只适用于数字数据
dropna : boolean, default True
不包括NaN的数量。
sort_index()
Series 的 sort_index(ascending=True) 方法可以对 index 进行排序操作,ascending 参数用于控制升序或降序,默认为升序。
若要按值对 Series 进行排序,当使用 .order(na_last=True, ascending=True, kind=‘mergesort’) 方法,任何缺失值默认都会被放到 Series 的末尾。
在 DataFrame 上,.sort_index(axis=0, by=None, ascending=True) 方法多了一个轴向的选择参数与一个 by 参数,by 参数的作用是针对某一(些)列进行排序(不能对行使用 by 参数)。注意在使用sort_index对DataFrame进行排序的时候,不能直接对index和columns都含有的字段进行排序,会报错。
fandango_distribution = norm_reviews[‘Fandango_Ratingvalue’].value_counts()
fandango_distribution = fandango_distribution.sort_index()
imdb_distribution = norm_reviews[‘IMDB_norm’].value_counts()
imdb_distribution = imdb_distribution.sort_index()
print(fandango_distribution)
print(imdb_distribution)
fig, ax = plt.subplots()
ax.hist(norm_reviews[‘Fandango_Ratingvalue’])
#ax.hist(norm_reviews[‘Fandango_Ratingvalue’],bins=20)
#ax.hist(norm_reviews[‘Fandango_Ratingvalue’], range=(4, 5),bins=20)
plt.show()
fig = plt.figure(figsize=(5,20))
ax1 = fig.add_subplot(4,1,1)
ax2 = fig.add_subplot(4,1,2)
ax3 = fig.add_subplot(4,1,3)
ax4 = fig.add_subplot(4,1,4)
ax1.hist(norm_reviews[‘Fandango_Ratingvalue’], bins=20, range=(0, 5))
ax1.set_title(‘Distribution of Fandango Ratings’)
ax1.set_ylim(0, 50)
ax2.hist(norm_reviews[‘RT_user_norm’], 20, range=(0, 5))
ax2.set_title(‘Distribution of Rotten Tomatoes Ratings’)
ax2.set_ylim(0, 50)
ax3.hist(norm_reviews[‘Metacritic_user_nom’], 20, range=(0, 5))
ax3.set_title(‘Distribution of Metacritic Ratings’)
ax3.set_ylim(0, 50)
ax4.hist(norm_reviews[‘IMDB_norm’], 20, range=(0, 5))
ax4.set_title(‘Distribution of IMDB Ratings’)
ax4.set_ylim(0, 50)
plt.show()
matplotlib库常用boxplot函数画箱线图,boxplot函数中包含n多参数,涉及到对框的颜色及形状、线段线型、均值线、异常点的形状大小等等设置,由于大多并不常用,用了几个常用参数,
sym=‘r*’,表示异常点的形状,
vert=False,表示横向还是竖向(True),,
patch_artist=True,(上下四分位框内是否填充,True为填充)
meanline=False,showmeans=True,是否有均值线及其形状,meanline=True时,均值线也像中位数线一样是条红色线段,这样容易与中位数线混淆。
另外,还有其他参数,比如notch表示中间箱体是否缺口,whis为设置数据的范围,showcaps、showbox是否显示边框.
fig, ax = plt.subplots()
ax.boxplot(norm_reviews[‘RT_user_norm’])
ax.set_xticklabels([‘Rotten Tomatoes’])
ax.set_ylim(0, 5)
plt.show()