pandas是处理excel与csv文件的利器，这次我来聚集一下自己所使用到的方法。

读取文件

常用

df_= pd.DataFrame(pd.read_excel("路径"))  # csv文件使用read_csv
# read_csv的参数skip_blank_lines=True会忽略注释行和空行
# header默认情况下，对有表头的数据识别第一行作为header（即header=0）
# 对无表头的数据，则需设置header=None，否则第一行数据被作为表头，也可以指定行为表头，例如：header=4
# 同时呢，还有encodeing = "", 对文件进行转码读取（需要转码，可能是你的环境有问题）
# converters = {u'账号信息':str}，利用converters 可以使得账号前缀 0不会缺失（字符串）
# 下同

打开一个ecxel文件里的多张表

    df_count = pd.ExcelWriter("路径")        
    df_yue = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet1"))
    df_liushui = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet2"))

处理pandas对象

常用

# read_html(网页文本)   读取网页html的table表格标签
pd. read_html(text)
# shape[0] 读取excel表格行数，shape[1]读取列数;
  df.shape[0]
# 获取表头列表
  columns_list = list(df)
  print(columns_list)
# 更改表头
  df.columns = ['A','B','C','D']
# excel文件的sheet名称列表
  df_sheetnames = pd.ExcelFile(excel_path)
  sheetnames = df_sheetnames.sheet_names
# iloc[0,0] 获取excel表格的指定数据
  data = df.iloc[i,j]  # 行，列
  # 同时，也是可以更改数据 df.iloc[i,j] = ''
# 查看是否有重复行
  re_row = df.duplicated()
  print(re_row)
# 查看去除重复行的数据
  no_re_row = df.drop_duplicates()
  print(no_re_row)
# 查看基于[物品]列去除重复行的数据
  wp = df.drop_duplicates(['物品'])
  print(wp)
#整行添加数据
  df.loc[a] = ['', '', '', '', '', '']   # a行数（int），或者也可以填index指定行（str）
# 读取行
  df.loc[a]  # a行数（int），或者也可以填index指定行（str）
# 读取列
  df.loc[:,'A']
# 合并
  df1.append(df2)：将df2中的行添加到df1的尾部
  df.concat([df1, df2],axis=1)：将df2中的列添加到df1的尾部
  df1.join(df2,on=col1,how='inner')：对df1的列和df2的列执行SQL形式的join
# 修改字段类型
  df[['two', 'three']] = df[['two', 'three']].astype(float)
# 在excel中的长数据串前面加入单引号(')，可解决数据变成科学计数格式！

使用

 # 合并文件，列合并
lst = [df1, df2]
result = pd.concat(lst,axis=1)   axis=1列索引，axis=0行索引
writer = pd.ExcelWriter(filename)
result.to_excel(writer,index=False)
writer.save()

不常用

# 数据统计
df.describe()：查看数据值列的汇总统计
df.mean()：返回所有列的均值
df.corr()：返回列与列之间的相关系数
df.count()：返回每一列中的非空值的个数
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位数
df.std()：返回每一列的标准差

# 数据处理
df[df[col] > 0.5]：选择col列的值大于0.5的行
df.sort_values(col1)：按照列col1排序数据，默认升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列数据
df.groupby(col)：返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2])：返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值
data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1)：对DataFrame中的每一行应用函数np.max

# 数据清理
df[df[col] > 0.5]：选择col列的值大于0.5的行
df.sort_values(col1)：按照列col1排序数据，默认升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列数据
df.groupby(col)：返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2])：返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值
data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1)：对DataFrame中的每一行应用函数np.max

写入文件

常用

  df.to_excel("路径",index=None)    # csv文件使用to_csv

在同一个文件写入多张表

     writer = pd.ExcelWriter("路径")
     df_yue.to_excel(writer, sheet_name='sheet1',index=None)    
     df_liushui.to_excel(writer,'sheet2',index=None)
     writer.save()

小操作

# 分割字符串
    text_data = text.split('/')
# 去除字符串空格
    str.strip()
# re提取字符串中的数字 
     text = re.sub("\D","",text_data[1])
    print(text)
# 在字符串里插入字符      
   '#prdList__ct{}_accList__ctl0_accNam'.format('11')
# 昨天日期
    yesterday = (datetime.date.today() + datetime.timedelta(days = -1)).strftime("%Y-%m-%d")

os操作

os.path.isfile()和os.path.isdir()函数分别检验给出的路径是一个文件还是目录。
os.path.exists()函数用来检验给出的路径是否真地存在
 os.path.exists(path):文件或文件夹是否存在，返回True 或 False。
os.path.basename(path):返回文件名
os.mkdir(path):创建文件夹
os.remove(path)函数用来删除一个文件。
os.listdir(path)返回指定目录下的所有文件和目录名。
os.path.getsize(name):获得文件大小，如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(path) ：将path分割成目录和文件名二元组返回。
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录;使用“\”连接
os.path.dirname(path):返回文件路径

========================================================================================

os.sep可以取代操作系统特定的路径分隔符。windows下为 “\\”

os.name字符串指示你正在使用的平台。比如对于Windows，它是'nt'，而对于Linux/Unix用户，它是'posix'。

os.getcwd()函数得到当前工作目录，即当前Python脚本工作的目录路径。

os.getenv()获取一个环境变量，如果没有返回none

os.putenv(key, value)设置一个环境变量值

os.listdir(path)返回指定目录下的所有文件和目录名。

os.remove(path)函数用来删除一个文件。

os.system(command)函数用来运行shell命令。

os.linesep字符串给出当前平台使用的行终止符。例如，Windows使用'\r\n'，Linux使用'\n'而Mac使用'\r'。
os.curdir:返回当前目录（'.')
os.chdir(dirname):改变工作目录到dirname
========================================================================================

glob.glob同时获取所有的匹配路径
for im in glob.glob(folder + '/*.jpg'):

迷惑青年

【Python】Pandas使用

读取文件

处理pandas对象

写入文件

小操作

os操作

你可能感兴趣的:(【Python】Pandas使用)