pandas学习笔记

筛选数据



读取文件

import pandas as pd

pd.read_csv( "Lung.txt" ,header=None)

字符匹配

data[0].str.contains(a_r)       #选择第0列的数据,看每行数据是否包含字符串a_r。返回布尔值

data1=data[data[0].str.contains(a_r)]        #筛选出布尔值为TRUE的数据块给data1,data数据块不变

写入文件

bol.to_csv('data_new_1.csv',mode='a',header=0)   #将数据bol写成csv文件,文件自动创建,mode参数默认为w,每次写入会覆盖整个文                                                                                     #件,设置为a,在文件后追加数据

去重复数据

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

#subset :用来指定特定的列,默认所有列  如subset=[0,1,2]

#keep : {‘first’, ‘last’, False}, default ‘first’  删除重复项并保留第一次出现的项

#inplace :default False  是直接在原来数据上修改还是保留一个副本

例子


import pandas as pd

import numpy as np

#读取两个文件

data1 = pd.read_csv("Lung.txt",header=None)

data = pd.read_csv("data_new.csv",header=None)

#将data1的第零列转化为列表a

a=list(data1[0])

print(a)

#循环读取每一列到数据中去查找

for a_r in a:

        print(a_r)

         bol=data[data[0].str.contains(a_r)]     #得到数据第零列包含特定类名的数据块

#写入csv文件

bol.to_csv('data_new_1.csv',mode='a',header=0)

你可能感兴趣的:(pandas学习笔记)