python基础学习|使用python对CSV、excel表格数据进行读取,筛选,输出

对CSV、excel表格数据进行读取

直接使用pandas进行读取
read_excel()
常用参数解析:
io : excel 路径。
sheet_name:它是指包含DataFrame的工作表的名称。若sheetname=None是返回全表
header : 指定列名行,默认0,即取第一行
skiprows :省略指定行数的数据
skip_footer : int, 省略从尾部数的int行数据,默认不忽略
index_col : 指定第n列为索引列,也可以使用u”strings”
names :指定列的名字。

import pandas as pd
df1 = pd.read_excel('学员管理.xlsx') 
df2 = pd.read_csv('学员管理.csv')

所得到的数据块,为DataFrame格式

height,width = df1.shape
print(height,width,type(df1))
>>111027 16 

对CSV、excel表格数据进行简单筛选

查询表格各列数据格式

df1.dtypes
>>首购时间         datetime64[ns]
学员id                  int64
购买课程类型               object

python、NumPy 格式类型的对应关系

更改表格各列数据格式

df.astype('数据类型') #改变整个df的数据类型
df['列名'].astype('数据类型') #仅改变某一列的数据类型

df1['学员id']=df1['学员id'].astype('object')
df1.dtypes
>>
首购时间         datetime64[ns]
学员id                 object
购买课程类型               object

条件筛选数据

数据列大小比较

df1['金额']>200
字符列精确筛选
df1['购买课程类型']=='试听课'
字符列满足任意条件
df1['购买课程类型'].isin(['试听课','小班课'])   #筛选购买课程类型为'试听课'或'小班课'的列
字符列模糊筛选
df1['购买课程类型'].str.contains('课')    #购买课程类型中,只要带有课字的,均筛选
字符列多个模糊条件筛选
df1['购买课程类型'].str.contains('课|正式')    #购买课程类型中,只要带有'课'字或'正式'的,均筛选
时间列比较
dt = datetime.datetime(2021,1, 1)
df1['首购时间']>dt   #筛选首购时间在2021/1/1日以后的列
多条件筛选
sx = df1[(df1['金额']>200)&(df1['购买课程类型']=='试听课')&(df1['首购时间']>dt)]    #且条件筛选
任意条件筛选
sx = df1[(df1['金额']>200)|(df1['购买课程类型']=='试听课')|(df1['首购时间']>dt)]    #或条件筛选
反向筛选
sx = df1[(df1['金额']>200)&(df1['购买课程类型']=='试听课')&(df1['首购时间']>dt)]
sx2 = df1[~df1['学员id'].isin(sx['学员id'])]       #筛选学员id不在sx表中的数据

对CSV、excel表格数据进行输出

直接使用pandas进行输出
df.to_excel()
常用参数解析:
excel_writer:文件路径或现有的ExcelWriter。
sheet_name:包含DataFrame的工作表的名称。
na_repr:缺少数据表示形式。
float_format:这是一个可选参数, 用于格式化浮点数字符串。
header:写出列名。如果给出了字符串列表, 则假定它是列名的别名。
index:写入索引。
index_label:引用索引列的列标签。如果未指定, 并且标头和索引为True, 则使用索引名称。如果DataFrame使用MultiIndex, 则应给出一个序列。
merge_cells:返回布尔值, 其默认值为True。它将MultiIndex和Hierarchical行写为合并的单元格。

sx.to_excel('新学生管理.xlsx',index = False)
sx.to_csv('新学生管理.xlsx',index = False)

你可能感兴趣的:(python基础学习|使用python对CSV、excel表格数据进行读取,筛选,输出)