csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第1张图片

第一次吃星巴克是一块小小的蛋糕,类似圣诞帽似的圆锥形,35块钱一块,感觉很贵,那是别人买给我的,以此为背景,研究星巴克店铺的分布情况,熟悉星巴克店铺的地理分布位置。

一、数据来源


本节使用星巴克店铺的数据集,通过Python可视化技术,分析星巴克店铺的分布情况,使用的数据来源于网络,其中City为店铺所在城市、State/Province为店铺所在的州和省份、Country为店铺所在国家。

starbucks = pd.read_csv(open('directory.csv',encoding='utf-8'))
starbucks.head()

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第2张图片

二、问题探索

  • 星巴克店铺在全球的分布情况
  • 哪些国家星巴克店铺较多
  • 哪些城市星巴克店铺较多
  • 星巴克店铺在我国的分布情况

三、数据清洗

starbucks.isnull().sum()

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第3张图片


查看缺失值,City列有15个缺失值。

starbucks[starbucks['City'].isnull()]  #查看缺失值的具体情况。

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第4张图片
def fill_na(x): 
    return x #定义填充函数
starbucks['City'] = starbucks['City'].fillna(fill_na(starbucks['State/Province'])) 
starbucks[starbucks['Country']=='EG']

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第5张图片


用State/Province进行缺失值的填充。

new_data.to_csv('starbucks.csv',index=False,encoding='utf-8') #保存数据

四、数据探索

starbucks.shape

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第6张图片
len(starbucks['Country'].unique())

(25247, 13)
星巴克店铺共有25247家分店。

len(starbucks['City'].unique())

72
分布在72个国家。

country_count = starbucks['Country'].value_counts()[0:10]
country_count

5405

分布在5405个城市。

country_count = starbucks['Country'].value_counts()[0:10] 
country_count

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第7张图片


对Country计数,筛选出店铺数量排名前10位的国家。

city_count = starbucks['City'].value_counts()[0:10]
city_count

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第8张图片


星巴克分布情况,美国位居榜首,中国次之。

ownership_count = starbucks['Ownership Type'].value_counts()[0:10]
ownership_count

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第9张图片


对City计数,筛选出店铺数量排名前10位的城市。

china_data = starbucks[starbucks['Country'] == 'CN'] #筛选中国的数据
china_data.head()

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第10张图片


上海市作为国际化大都市,星巴克店铺数量最多,西雅图作为星巴克的总部城市,排在第十位。

cn_starbucks = pd.read_csv(open('cn_starbucks.csv',encoding='utf-8'))
cn_starbucks.head()

70032c597124c9f4df8f948da0560d23.png
city_count = cn_starbucks['City'].value_counts()[0:10]
city_count

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第11张图片
china_data.to_csv('cn_starbucks.csv',index=False,encoding='utf-8') #保存中国的数据
cn_starbucks = pd.read_csv(open('cn_starbucks.csv',encoding='utf-8')) 
cn_starbucks.head()

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第12张图片
city_count = cn_starbucks['City'].value_counts()[0:10] 
city_count

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第13张图片


对City计数,筛选出店铺数量在中国排名前10位的城市。

plt.rcParams['font.sans-serif'] = ['simhei'] #指定默认字体 
plt.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题 
labels = list(city_count.index)  #刻度标签 
plt.xlabel('City')  #设置X轴标签 plt.ylabel('Count')  #设置Y轴标签 
plt.title('星巴克各城市分布') 
plt.barh(range(len(labels)),city_count) 
plt.yticks(range(len(labels)),labels) #设置刻度和刻度标签

csv数据筛选 matlab_Python数据分析实战,星巴克店铺分布数据分析_第14张图片


在中国,北上广深这四个城市的店铺排名靠前,与当地的经济实力有着密切的关系。

你可能感兴趣的:(csv数据筛选,matlab)