python使用pandas读取xlsx数据并存入txt

使用pandas读取xlsx数据并存入txt文件

转换一个文件:

import pandas as pd
df = pd.read_excel('../data/x/ant_1.5.xlsx',usecols="C,X")	# 使用pandas模块读取数据
df['Class']=df['Class'].str.replace('.','/',regex=True) # 替换 .换成/
print('开始写入txt文件...')
df.to_csv('../data/t/ant_1.5.txt', header=None, sep=' ', index=False)		# 写入txt,空格分隔
print('文件写入成功!')
①读取指定列
df = pd.read_excel("data.xlsx", usecols=[0, 5]) # 指定读取第1列和第6列
# 可以用"A,F"代替[0,5]

参考pandas读取Excel指定列

②替换:replace()

既可以替换某列,也可以替换某行,还可以全表替换。
df.replace() 或者 df[col].replace()

#参数如下:
df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad',)
参数说明:
  • to_replace:被替换的值 value:替换后的值
  • inplace:是否要改变原数据,False是不改变,True是改变,默认是False
  • limit:控制填充次数
  • regex:是否使用正则,False是不使用,True是使用,默认是False
  • method:填充方式,pad,ffill,bfill分别是向前、向前、向后填充

df.replace() 或者 df[col].replace()替换都是整个值,也即是说如果被替换值=‘asdfg’,之前的只有值等于=‘asdfg’,才可以被替换。
但是我们很多时候是值想替换局部的,比如说‘深圳地区’,替换为‘深圳市’,那么就得先str,代码如下:

main_copy['city']=main_copy['city'].str.replace('地区','市')

参考replace替换用法

如果要把某一列中的.替换成/,需要regex=True(使用正则),否则会把所有字符替换成/(不知道为什么?)

正则替换

转义字符\可以转义很多字符,比如\n表示换行,\t表示制表符,字符\本身也要转义,所以\表示的字符就是
如果字符串里面有很多字符都需要转义,就需要加很多\,为了简化,Python还允许用r’‘表示’'内部的字符串默认不转义

df.replace(r'\?|\.|\$',np.nan)  #和原来没有变化
df.replace(r'\?|\.|\$',np.nan,regex=True)#用np.nan替换?或.或$原字符
df.replace([r'\?',r'\$'],np.nan,regex=True)#用np.nan替换?和$
df.replace([r'\?',r'\$'],[np.nan,'NA'],regex=True)#用np.nan替换?用NA替换$符号
df.replace(regex={r'\?':None})

当然,如果不想使用inplace=True,也可以这样子表达

df=df.replace(20,30)
df.replace(20,30,inplace=True)

批量处理:

#简单的逻辑
import pandas as pd
import os
xlsx_path='../data/x/'
txt_path='../data/t/'
for xlsxfile in os.listdir(xlsx_path):
    if xlsxfile == '.DS_Store':
        continue
    df = pd.read_excel(xlsx_path+xlsxfile,usecols="C,X")
    df['Class'] = df['Class'].str.replace('.', '/', regex=True)
    df.to_csv(txt_path+xlsxfile.split('.xlsx')[0]+'.txt', header=None, sep=' ', index=False)

os.listdir()用于返回指定文件夹下包含的所有文件或文件夹名字的列表
.DS_Store:隐藏文件。这里用来过滤隐藏文件


2022.3.11


pandas为一列数据添加前后缀

将DataFrame的列视为str,随后利用str的连接操作即可。

# 添加前缀
newDF = strs + oldDF[col].astype('str')
# 添加后缀
newDF = oldDF[col].astype('str') + strs

其中oldDF为原始的DataFrame,col为列索引名,strs为需要添加的字符串,新的列将被保存在newDF中。
若其余位置需要添加代码类似,可直接按照字符串的操作进行切片与拼接。
参考为一列数据添加前后缀

根据条件添加相应的前缀:
import pandas as pd
import os
xlsx_path='../data/x/'
txt_path='../data/t/'
for xlsxfile in os.listdir(xlsx_path):
    if xlsxfile == '.DS_Store':
        continue
    df = pd.read_excel(xlsx_path+xlsxfile,usecols="C,X")
    df['Class'] = df['Class'].str.replace('.', '/', regex=True)
    if (xlsxfile == 'ant_1.5.xlsx' or xlsxfile == 'ant_1.6.xlsx' or xlsxfile == 'ant_1.7.xlsx'):
        df['Class'] = 'src/main/' + df['Class'].astype('str')
    elif (xlsxfile == 'camel_1.2.xlsx' or xlsxfile == 'camel_1.4.xlsx' or xlsxfile == 'camel_1.6.xlsx'):
        df['Class'] = 'camel-core/src/main/java/' + df['Class'].astype('str')
    elif (xlsxfile == 'ivy_1.4.xlsx' or xlsxfile == 'ivy_2.0.xlsx' or xlsxfile == 'log4j_1.0.xlsx' or xlsxfile == 'log4j_1.1.xlsx' or xlsxfile == 'lucene_2.0.xlsx' or xlsxfile == 'lucene_2.2.xlsx' or xlsxfile == 'lucene_2.4.xlsx' or xlsxfile == 'poi_1.5.xlsx' or xlsxfile == 'poi_2.5.1.xlsx' or xlsxfile == 'poi_3.0.xlsx'):
        df['Class'] = 'src/java/' + df['Class'].astype('str')
    elif (xlsxfile == 'synapse_1.0.xlsx' or xlsxfile == 'synapse_1.1.xlsx' or xlsxfile == 'synapse_1.2.xlsx'):
        df['Class'] = 'modules/core/src/main/java/' + df['Class'].astype('str')
    elif (xlsxfile == 'xalan_2.4.0.xlsx' or xlsxfile == 'xalan_2.5.0.xlsx' or xlsxfile == 'xerces_1.2.0.xlsx' or xlsxfile == 'xerces_1.3.0.xlsx'):
        df['Class'] = 'src/' + df['Class'].astype('str')
    df.to_csv(txt_path+xlsxfile.split('.xlsx')[0]+'.txt', header=None, sep=' ', index=False)

2022.3.12


添加文件名作为前缀:
import pandas as pd
import os
xlsx_path='../data/xlsx/'
txt_path='../data/txt/'
for xlsxfile in os.listdir(xlsx_path):
    if xlsxfile == '.DS_Store':
        continue
    df = pd.read_excel(xlsx_path+xlsxfile,usecols="C,X")
    df['Class'] = df['Class'].str.replace('.', '/', regex=True)
    if (xlsxfile == 'ant_1.5.xlsx' or xlsxfile == 'ant_1.6.xlsx' or xlsxfile == 'ant_1.7.xlsx'):
        df['Class'] = xlsxfile.split('.xlsx')[0] + '/src/main/' + df['Class'].astype('str')
    elif (xlsxfile == 'camel_1.2.xlsx' or xlsxfile == 'camel_1.4.xlsx' or xlsxfile == 'camel_1.6.xlsx'):
        df['Class'] = xlsxfile.split('.xlsx')[0] + '/camel-core/src/main/java/' + df['Class'].astype('str')
    elif (xlsxfile == 'ivy_1.4.xlsx' or xlsxfile == 'ivy_2.0.xlsx' or xlsxfile == 'log4j_1.0.xlsx' or xlsxfile == 'log4j_1.1.xlsx' or xlsxfile == 'lucene_2.0.xlsx' or xlsxfile == 'lucene_2.2.xlsx' or xlsxfile == 'lucene_2.4.xlsx' or xlsxfile == 'poi_1.5.xlsx' or xlsxfile == 'poi_2.5.1.xlsx' or xlsxfile == 'poi_3.0.xlsx'):
        df['Class'] = xlsxfile.split('.xlsx')[0] + '/src/java/' + df['Class'].astype('str')
    elif (xlsxfile == 'synapse_1.0.xlsx' or xlsxfile == 'synapse_1.1.xlsx' or xlsxfile == 'synapse_1.2.xlsx'):
        df['Class'] = xlsxfile.split('.xlsx')[0] + '/modules/core/src/main/java/' + df['Class'].astype('str')
    elif (xlsxfile == 'xalan_2.4.0.xlsx' or xlsxfile == 'xalan_2.5.0.xlsx' or xlsxfile == 'xerces_1.2.0.xlsx' or xlsxfile == 'xerces_1.3.0.xlsx'):
        df['Class'] = xlsxfile.split('.xlsx')[0] + '/src/' + df['Class'].astype('str')
    df.to_csv(txt_path+xlsxfile.split('.xlsx')[0]+'.txt', header=None, sep=' ', index=False)

你可能感兴趣的:(python,开发语言,数据分析)