【数据py03】Pandas_02(总结+可视化)

目录

 

groupby 基础(4-1)

使用multiple index进行统计

 aggregate函数

数据可视化工具(4-2)

matplotlib中数据可视化

Pandas中的数据可视化(7-1)

1,plot()函数 --折线图

2,Bar plots-条形图

3,直方图hist()

4,Boxplot

5,散点图scatter( )

6.matplotlib 各种绘图参数

7.扇形图

8.subplot


(4-1)

  • read_csv
  • read_excel
  • read_hdf
  • read_sql
  • read_json
  • read_msgpack (experimental)
  • read_html
  • read_gbq (experimental)
  • read_stata
  • read_sas
  • read_clipboard
  • read_pickle

  • to_csv
  • to_excel
  • to_hdf
  • to_sql
  • to_json
  • to_msgpack (experimental)
  • to_html
  • to_gbq (experimental)
  • to_stata
  • to_clipboard
  • to_pickle

其它数据源:

  • 数据库
  • 读取网页数据,网络文件
  • 读取股票数据
  • yahoo,世界银行等等、
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)
  • 分组
  • 分组数据统计
  • Matplotlib以及pandas数据可视化初步

groupby 基础(4-1)

1,引用读取数据

url="https://en.wikipedia.org/wiki/List_of_European_Cup_and_UEFA_Champions_League_finals"
eu_champions=pd.read_html(url)

使用multiple index进行统计

使用multiple index进行统计

 aggregate函数

stat_Grp.aggregate(np.sum)

数据可视化工具(4-2)

网站:https://matplotlib.org/api/pyplot_api.html

数据网站:http://hao.bigdata.ren/

  • matplotilb   :pip install matplotlib
  • seaborn
  • PyX
  • Boken
  • .....

导入相关库

matplotlib中数据可视化

import pandas as pd  #数据框操作
import csv
import matplotlib.pyplot as plt  #绘图
from wordcloud import WordCloud  #云词可视化
import matplotlib as mpl  #字体配置
import jieba    #分词
from pyecharts import Geo  #地图
import pandas as pd
import numpy as np

import matplotlib as mpl
import matplotlib.pyplot as plt
例子1

x=np.arange(-10,10,0.005)
y=x**2+1
plt.xlim(-10,10)
plt.plot(x,y)
plt.show()


例子2

x=np.arange(-1,1,0.005)
y=(1+x)/(1-x)
plt.xlim(-1,1)
plt.plot(x,y)
plt.show()

例子3

x=np.arange(-1,1,0.005)
y1=np.abs(250*x)
y2=(1+x)/(1-x)
plt.plot(x,y1,label='First one')
plt.plot(x,y2,label='Second one')
plt.xlabel('x')
plt.ylabel('y')
plt.title('My Figure')
plt.legend()
plt.show()

Pandas中的数据可视化(7-1)

1,plot()函数 --折线图

normals = pd.Series(np.random.normal(size=10))
normals.plot()

2求和

normals.cumsum().plot(grid=True)

3,绘图

1,一张图,不同颜色数据显示(显示一张图,3个数据对比)

variables = pd.DataFrame({'normal': np.random.normal(size=100), 
                       'gamma': np.random.gamma(1, size=100), 
                       'poisson': np.random.poisson(size=100)})
variables.cumsum(0).plot()
---------------

2,独立绘图(显示3个图)
variables.cumsum(0).plot(subplots=True)

2,Bar plots-条形图

条形图通常用来显示或者比较数值,比如个数,数量。pandas里面利用`kind='bar'`参数绘制条形图 

1,竖化-生还数
titanic.groupby('Pclass').Survived.sum().plot(kind='bar')

2,横着化
titanic.groupby(['Sex','Pclass']).Survived.sum().plot(kind='barh')

3,直方图hist()

titanic.Fare.hist(grid=False)

titanic.Fare.hist(bins=30)

4,Boxplot

titanic.boxplot(column='Fare', by='Pclass', grid=False)

5,散点图scatter( )

plt.scatter(baseball.ab, baseball.h)
plt.xlim(0, 700); plt.ylim(0, 200)

2,点的大小
plt.scatter(baseball.ab, baseball.h, s=baseball.hr*10, alpha=0.5)
plt.xlim(0, 700); plt.ylim(0, 200)

3,不同颜色
plt.scatter(baseball.ab, baseball.h, c=baseball.hr, s=40, cmap='hot')
plt.xlim(0, 700); plt.ylim(0, 200);

6.matplotlib 各种绘图参数


1,显示,实线和虚线
plt.plot(X, C, color="blue", linewidth=3.0, linestyle="--")

plt.plot(X, S, color="green", linewidth=6.0, linestyle="-")

7.扇形图

ax = plt.axes([0,0,1,1], polar=True)

N = 20
theta = np.arange(0.0, 2*np.pi, 2*np.pi/N)
radii = 10*np.random.rand(N)
width = np.pi/4*np.random.rand(N)
bars = plt.bar(theta, radii, width=width, bottom=0.0)

for r,bar in zip(radii, bars):
    bar.set_facecolor( plt.cm.jet(r/10.))
    bar.set_alpha(0.5)

ax.set_xticklabels([])
ax.set_yticklabels([])

8.subplot

你可能感兴趣的:(python数据分析)