核心数据结构
创建 DataFrame
```python
import pandas as pd
# 从字典创建 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
```
输出:
```
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
```
---
读取和写入数据
```python
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 写入 CSV 文件
df.to_csv('output.csv', index=False)
```
支持的文件格式包括 CSV、Excel、JSON、SQL 等。
---
#### 查看数据
```python
# 查看前 5 行
print(df.head())
# 查看数据基本信息
print(df.info())
# 查看统计信息
print(df.describe())
```
---
#### 数据选择
```python
# 选择单列
print(df['Name'])
# 选择多列
print(df[['Name', 'Age']])
# 选择行
print(df.iloc[0]) # 选择第一行
print(df.loc[df['Age'] > 30]) # 选择年龄大于 30 的行
```
---
#### 数据排序
```python
# 按年龄升序排序
sorted_df = df.sort_values(by='Age')
print(sorted_df)
```
---
数据分组和聚合
```python
# 按城市分组,计算平均年龄
grouped_df = df.groupby('City')['Age'].mean()
print(grouped_df)
```
---
处理缺失值
```python
# 检查缺失值
print(df.isnull())
# 删除包含缺失值的行
df_cleaned = df.dropna()
# 填充缺失值
df_filled = df.fillna(0)
```
---
# 创建另一个 DataFrame
data2 = {
'Name': ['Alice', 'Bob', 'David'],
'Salary': [70000, 80000, 90000]
}
df2 = pd.DataFrame(data2)
# 合并两个 DataFrame
merged_df = pd.merge(df, df2, on='Name', how='inner')
print(merged_df)
```
---