Python之数据处理与可视化

数据基本处理:Numpy和Pandas

1.csv文件处理

数据导入:pd.read_csv()
df=pd.read_csv(“文件名”,sep=“分隔符”,header=0,index_col=None,encoding=“字符编码”)

数据导出:pd.to_csv()
df.to_csv(“文件名”,index=False,header=Ture)

2.txt文件处理

数据加载:np.loadtxt()
df=pd.DataFrame(np.loadtxt(‘文件名’,delimiter=‘分割符’))
注意:txt文本文件中的每一行必须含又相同数量的数据

3.excel格式数据导入与导出

数据导入:pd.read_excel()
df=read_excel(“文件名”,sheetname=‘工作簿名称’,header=0)

数据导出:pd.to_excel()
df.to_excel(目标路径,sheet_name=‘sheetname’,index=False)

数据可视化:matplotlib,plotnine,Seaborn
matplotlib常见二维图的绘制函数

函数 图表类型
plot() 折现图
scatter() 散点图、气泡图
bar() 柱形图、堆积柱形图
barh 条形图、堆积条形图
fill_between 面积图
stackplot() 堆积面积图、量化波形图
pie() 饼图
errorbar() 误差棒
hist() 统计直方图
boxplot() 箱形图
axhline() 垂直于X轴直线
axvline() 垂直于Y轴直线
axhspan() 垂直于X轴矩形方形
axvspan() 垂直于Y轴矩形方形
text() 在指定位置放置文件
annotate() 在指定的数据点上添加带连接线的文本标注

matplotlib三维图表绘制函数

函数 图表类型
plot() 三维曲线图
scatter3D() 三维散点图、气泡图
bar3d() 三维柱形图
contour() 三维等高线图
contourf() 三维等高面图
plot_surface() 三维曲面图
plot_wireframe() 三维网面图
voxels() 三维块状图

Seaborn常见图标类型参数说明

函数 图标类型
lineplot() 折线图,带数据标记的折线图
scatterplot() 散点图,气泡图
stripplot() 抖动散点图
swarmplot() 蜂巢图
pointplot() 带误差棒的散点图
barplot() 带误差棒的柱形图
countplot() 用于分类统计展示的柱形图
boxplot() 箱形图
violinplot() 小提琴图
boxenplot() 用于高纬数据展示的箱形图
regplot() 用于数据拟合展示的散点图
distplot() 统计直方与核密度估计的组合图
heatmap() 热力图

Pandas:表格处理
3种数据类型:Series,DataFrame,Panel
1.Series:本质上是一个含有索引的一维数组,是带有索引的的列表
2.DataFrame:数据框,类似于Excel电子表格

  • 使用list或者ndarray对象创建DataFrame
    df=pd.DataFrame([[‘a’,1,2],[‘b’,2,5],[‘c’,3,3]],columns=[‘x’,‘y’,‘z’])
  • 使用字典创建DataFrame
    df=pd.DataFrame({‘x’:[‘a’,‘b’,‘c’],‘y’:range(1,4),‘z’:[2,5,3]})
    注意:数据框的行索引默认是从0开始

获取数据框相关信息:

  • 行数或列数:df.shape / len(df)
  • 列名或行名:df.columns / df.index
  • 更改某列名:df.rename(columns={‘x’:‘X’},inplace=True),ps:如果缺少inplace选项,则不会更改,而是增加新列
  • 查看属性信息:df.info()
  • 查看前5行数据信息:df.head()
  • 查看最后5行数据信息:df.tail()

你可能感兴趣的:(python,数据分析,机器学习)