修改csv某一列

代码如下:

# np.where(condition, x, y)
# 满足条件(condition),输出x,不满足输出y。
import time
import pandas as pd
import numpy as np
def change_p(path):
    df = pd.read_csv(path)
    print("-------------文件已经读入内存----------")
    df["isFraud"] = np.where(df["isFraud"] ==1, "+", "-")
    print("-------------数据处理完毕,开始写入----------")
    df.to_csv("fraud_delte_DeviceType2.csv",index=False)
if __name__ == '__main__':
    start=time.time()
    path="fraud_delte_DeviceType.csv"
    change_p(path)
    end=time.time()
    print("总共耗时",end-start)

上面代码的意思是如果该列的数值=1,就改成+,否则就改成-

比较恶心的是没有进度条,怎么办呢?

直接看fraud_delte_DeviceType2.csv的大小变化就知道进度了

性能:

50w数据用以上代码处理总共耗时 170.94927763938904s
 

你可能感兴趣的:(Kaggle-数据挖掘与技巧)