Pandas 常见用法演示及解释

1. 创建 DataFrame

DataFrame 是 Pandas 中的一个基本数据结构,用于以表格形式存储和操作数据。以下是创建 DataFrame 的代码示例:

import pandas as pd

# 创建一个简单的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

这里,我们创建了一个包含姓名、年龄和城市的 DataFrame。每个键('Name', 'Age', 'City')对应一列,而键的值是一个列表,表示列中的数据。

2. 数据选择和过滤

Pandas 提供了灵活的数据选择和过滤选项。例如,您可以选择特定的列或基于条件过滤数据。这在数据分析中非常有用:

# 选择特定的列
selected_columns = df[['Name', 'City']]

# 过滤特定的行(例如,选择年龄大于 30 的行)
filtered_rows = df[df['Age'] > 30]
3. 数据清洗:处理 NaN 值

在真实世界的数据集中,经常会遇到缺失值(NaN)。Pandas 提供了处理这些缺失值的方法,例如,您可以用一个特定的值填充它们:

import numpy as np

# 人为添加 NaN 值
df_with_nan = df.copy()
df_with_nan.loc[1, 'Age'] = np.nan

# 填充 NaN 值
df_filled = df_with_nan.fillna({'Age': df_with_nan['Age'].mean()})

在这个例子中,df_with_nan.loc[1, 'Age'] = np.nan 将第二行的 'Age' 列设置为 NaN,代表缺失值。然后,我们用平均年龄填充了所有的 NaN 值。

4. 数据聚合和分组

Pandas 允许您对数据集进行分组,并对每组数据进行聚合计算,如计算平均值、求和等:

# 添加一个分组列
df['Group'] = ['A', 'B', 'A']

# 按 'Group' 分组并计算每组的平均年龄
grouped_data = df.groupby('Group')['Age'].mean()

这里,df.groupby('Group')['Age'].mean() 将 DataFrame 按 'Group' 列的值分组,并计算每个组中 'Age' 列的平均值。

5. 描述性统计

描述性统计是数据分析的一个重要方面。Pandas 提供了 describe 方法,用于快速查看数据的统计摘要:

# 获取描述性统计信息
description = df.describe()

df.describe() 提供了每个数值列的计数、平均值、标准差、最小值、四分位数和最大值。

6. 读取和写入 CSV 文件

Pandas 支持多种格式的数据读写,例如 CSV:

# 写入 CSV 文件
df.to_csv('my_data.csv', index=False)

# 从 CSV 文件读取数据
df_from_csv = pd.read_csv('my_data.csv')

在这里,df.to_csv('my_data.csv', index=False) 将 DataFrame 写入 my_data.csv 文件。然后,我们使用 pd.read_csv('my_data.csv') 从该文件中读取数据。

总结

Pandas 是 Python 数据分析的强大工具,提供了丰富的功能来处理和分析数据。从创建和修改 DataFrame 到执行复杂的数据过滤、聚合和统计分析,Pandas 使得数据分析变得更加容易和直观。无论是处理小型数据集还是大型复杂的数据集,Pandas 都是数据科学家和分析师的重要工具。

你可能感兴趣的:(pandas)