用pandas读取Excel表,并生成dataframe格式进行进一步处理

利用pandas读取Excel表并处理成dataframe格式:

import pandas as pd

total_data = pd.read_excel('/Users/appler/Downloads/gzmxb.xls')
total_data = pd.DataFrame(total_data)
print(total_data)      #通常会通过print来检查一下是否顺利读取

进行数据的进一步处理,如:

(1)利用不同列之间的数量关系进行新变量的合成:

#通过运算形成新变量列
total_data["单位支付合计数"]=total_data["应付工资"]+total_data["单位缴纳社保"]+total_data["单位缴纳住房公积金"]
    
print(total_data)    #输出检查

pandas 获取DataFrame的规模(行数、列数)

df.info() 	    #显示行数、列数等
df.shape	    #获取行数和列数
len(df)	        #获取行数
len(df.columns)	#获取列数

(2)对不同列进行排序(多列条件排序)

df = pd.DataFrame({"A":[3,1,3,9,7],
                   "D":[666,1,888,5,3],
                   "C":[3,15,9,6,12],
                   "B":[2,4,6,10,8]},
                   index=list("acbed"))
display(df)

df.sort_values(by=["A","D"],axis=0,ascending=[True,False],inplace=True)
df

代码出处来自:DataFrame(13):DataFrame的排序与排名问题_数据分析与统计学之美的博客-CSDN博客_dataframe排序

Dataframe获得某一列中所有的不重复的值

dataframe['xxx'].unique()

导出Excel文件

#定义导出的路径,并定义好文件名
resultPath = 'D:\我的文件\桌面内容\使用python读取Excel的路径\表格3.xlsx'
#导出文件
df3.to_excel(resultPath,sheet_name = "汇总",index = False,na_rep = 0,inf_rep = 0)

to_excel函数使用方法:

to_excel(参数1,参数2,参数3,参数4,参数5,参数6)

参数1:导出文件的路径,和定义好的文件名

参数2:sheet_name = 表格名

参数3:index = False :导出的数据有索引值

index = True :导出的数据无索引值

参数4:na_rep = 0 :将空值填充为0

参数5:inf_rep = 0 :将不符合数学规律和定律的填充为0

内容出处来自:​​​​​​​如何将python处理好的DataFrame格式数据导出为xlsx格式的Excel文件? - 知乎

​​​​​​​机器学习(2)Pandas数据读取、选择、定位(loc、iloc、ix)_"灼灼其华"的博客-CSDN博客_pandas定位某个元素

你可能感兴趣的:(python数据处理,python)