基于透视表自动化Pandas使用 (一)DataFrame 基本模块

data = pd.read_excel(r'path', sheetname=0, header=0)#读取path路径文档第一个sheet表,header=0 首行为列名
dk_origin = pd.DataFrame(data, columns = ['A','B','C','D'']) #只保留源数据表的A,B,C,D列
dk = dk_origin[dk_origin['A'].isin(['A1','A2','A3','A4'])] #筛选A列值为A1,A2,A3,A4的行

dk_countbybrand = dk.groupby('A')['B'].count()#基于A列值进行分类,并对各类B列的值进行计数
dk_guestbybrand = dk.groupby('A')['C'].nunique()#基于A列值进行分类,并对各类B列的值进行非重复计数(重复项只计首次出现)
#groupby函数输出的值格式为series,将其分别存储在相应变量内

dk_1 = {'A':dk_countbybrand, 'B':dk_storebybrand}#将groupby的值存为字典格式,A,B是列名
dk_result_brand = pd.DataFrame(dk_1)#将字典转化为pd.dataframe格式

你可能感兴趣的:(Python)