随便记录记录

统一整理一下各种

pandas读csv

import pandas as pd
## 默认会将第一行作为列
df = pd.read_csv('path_to_your_file.csv')
## 传递 header=None 参数来告诉 Pandas 不要将第一行
df = pd.read_csv('path_to_your_file.csv', header=None)
## 使用多种选项来处理数据,如指定分隔符、指定索引列等。【这种针对于数据之间用;号连接情况,并选择 id 列内容作为索引列】
df = pd.read_csv('path_to_your_file.csv', sep=';', index_col='id')
## 使用 chunksize 参数来读取 CSV 文件,它会返回一个 TextFileReader 对象,而不是一个完整的 DataFrame 对象。TextFileReader 对象允许你逐块读取数据,并不支持直接使用 head() 方法来查看前几行数据。

常用命令:

1 查看前几行数据:
使用 head() 方法可以查看 DataFrame 的前几行数据,默认显示前 5 行。你可以指定数字来查看更多行,例如:df.head(10)。

2 查看后几行数据:
类似于 head(),你可以使用 tail() 方法来查看 DataFrame 的后几行数据,默认显示后 5 行。

3 获取列名:
使用 columns 属性可以获取 DataFrame 的列名,例如:df.columns。

4 基本统计信息:
使用 describe() 方法可以获取 DataFrame 中数值列的基本统计信息,如平均值、标准差、最小值、最大值等。

5 筛选列:
使用列名来获取特定列的数据,例如:df[‘column_name’]。

6 筛选行:
使用布尔条件来筛选满足特定条件的行,例如:df[df[‘age’] > 25] 可以返回年龄大于 25 的所有行。

7 使用条件筛选:
使用 query() 方法可以根据条件筛选行,例如:df.query(‘age > 25’)。

8 排序:
使用 sort_values() 方法可以对 DataFrame 进行排序,例如:df.sort_values(by=‘age’) 可以按照年龄升序排序。

9 获取唯一值:
使用 unique() 方法可以获取某列的唯一值,例如:df[‘city’].unique()。

10 分组和聚合:
使用 groupby() 方法可以根据某一列的值进行分组,然后使用聚合函数计算汇总信息,例如:df.groupby(‘city’)[‘age’].mean() 可以计算每个城市的平均年龄。

11 计数和频率统计:
使用 value_counts() 方法可以统计某一列中每个值的频率,例如:df[‘city’].value_counts()。

你可能感兴趣的:(pandas)