Python网络爬虫与文本数据分析(视频课)
之前分享过pandas也是可以作图的,今天复习一下pandas作图,并与seaborn做对比,熟悉下各自绘图的特点。
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('fivethirtyeight')
plt.style.use('bmh')
business = pd.read_csv('data/business.csv')
business.head()
查看用户对yelp平台内店家评价的分布情况。使用pandas绘图
colors = sns.color_palette()
#stars是series数据类型
stars = business['stars'].value_counts().sort_index()
stars.plot(kind='bar',
figsize=(10, 5),
color=colors[:9],
rot=0,
title='Distribution of rating')
也可以用seaborn作图,代码如下
plt.figure(figsize=(10,5))
sns.countplot(business['stars'])
plt.title('Distribution of rating')
我们发现大多数用户店家评分都是4分及以上
我们看看店铺的最常见的店名、最常见的坐标。使用pandas绘图
fig, ax = plt.subplots(1, 2, figsize=(14, 8))
business['name'].value_counts()[:20].plot(kind='barh',
ax=ax[0],
color=colors[:20],
title='Top 20 name of store in Yelp')
business['city'].value_counts()[:20].plot(kind='barh',
ax=ax[1],
color=colors[:20],
title='Top 20 of city in Yelp')
f,ax = plt.subplots(1,2, figsize=(14,8))
cnt = business['name'].value_counts()[:20].to_frame()
sns.barplot(cnt['name'], cnt.index, palette = 'RdBu', ax = ax[0])
ax[0].set_xlabel('')
ax[0].set_title('Top 20 name of store in Yelp')
cnt = business['city'].value_counts()[:20].to_frame()
sns.barplot(cnt['city'], cnt.index, palette = 'rainbow', ax =ax[1])
ax[1].set_xlabel('')
ax[1].set_title('Top 20 of city in Yelp')
plt.subplots_adjust(wspace=0.3)
从上面两个例子看,pandas和seaborn绘图各有千秋,有时候pandas简洁,有时候seaborn简洁。
近期文章
精选课程 | Python数据分析实战(学术)
pandas 1.0最新版本特性抢先看
用python帮你生产指定内容的word文档
Modin:一行代码让pandas加速数十倍
2020年B站跨年晚会弹幕内容分析
综述:文本分析在市场营销研究中的应用
Lazy Prices公司年报内容变动碰上股价偷懒
使用pandas做数据可视化
用statsmodels库做计量分析
YelpDaset: 酒店管理类数据集10+G
NRC词语情绪词典和词语色彩词典
Loughran&McDonald金融文本情感分析库
股评师分析报告文本情感分析预测股价
使用分析师报告中含有的情感信息预测上市公司股价变动
【公开视频课】Python语法快速入门
【公开视频课】Python爬虫快速入门
一行pandas代码生成哑变量
使用Python读取图片中的文本数据
代码不到40行的超燃动态排序图
jupyter notebook代码获取方式,公众号后台回复关键词“20200127”