[数据处理][Pandas] .csv文件 提取行列 | 统计次数 | 读取文件

1. loc 和iloc 提取行、列

loc:通过具体索引来提取行;
iloc:通过行号来提取行。
iloc不管是有索引还是无索引都可以用iloc来提取,比如:

data.iloc[:, [0, 1]]  # [行,列]

指,提取data文件的所有行的第0列和第1列。

2. value_counts() 统计值的重复次数

(1).value_counts()
统计有多少值,以及每个值的重复次数。

(2).reset_index()
重置索引。

(3).sort_index()
按照key进行排序

3. pd.read_csv() 读取文件 | pd.to_csv() 存储文件

读取文件。
例如:

path = '../xx.csv'
f1_df = pd.read_csv(path, sep=',', names=['a1', 'a2'], header=0)
# 当文件第一列无索引的时候,可以使用'names='加上索引,方便后续对数据进行操作
# 当文件第一列有索引的时候,可以使用header=0表明第一行为索引,后续数据统计时不算第一行

listt = [1,2,3,4,5]
# 创建空的DataFrame
f2_df = pd.DataFrame(columns= ['b1', 'b2', 'b3'])
f2_df['b1'] = d1_df['a1']  # 可以直接进行赋值
f2_df['b2'] = d1_df['a2']
f2_df['b3'] = listt        # 也可以将list赋值,注意len(listt)应该与上述len(d1_df['a1'])、len(d1_df['a2'])长度一致。
f2_df.to_csv(path, sep='\t', columns=['b1', 'b2'], header=True)
# 指定f2_df列进行保存,否则全部保存。

4. csv.reader(df) 读取文件

import csv

path = '../xx.csv'
df = open(path, 'r')
next(df) # 跳过第一行
file = csv.reader(df)  # b1, b2, b3
for line in df:  # line是list
    b1 = line[0]
    b2 = line[1]
    b3 = line[2]

参考:

1.Pandas中loc和iloc函数用法详解:https://blog.csdn.net/qq_33217634/article/details/88423660
2. pandas中.value_counts()的用法:https://www.jianshu.com/p/f773b4b82c66
3. pandas 读取文件 加入列索引:https://blog.csdn.net/u010211479/article/details/79178910?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EsearchFromBaidu%7Edefault-1.pc_relevant_baidujshouduan&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EsearchFromBaidu%7Edefault-1.pc_relevant_baidujshouduan
4. python – pandas Series.value_counts返回相等计数字符串的不一致顺序:http://www.voidcn.com/article/p-epmympot-bve.html

你可能感兴趣的:(model-pytorch,pandas)