创建Datas

 

 

核心数据结构

 

创建 DataFrame

```python

import pandas as pd

 

# 从字典创建 DataFrame

data = {

    'Name': ['Alice', 'Bob', 'Charlie'],

    'Age': [25, 30, 35],

    'City': ['New York', 'Los Angeles', 'Chicago']

}

 

df = pd.DataFrame(data)

print(df)

```

 

输出:

```

      Name Age City

0 Alice 25 New York

1 Bob 30 Los Angeles

2 Charlie 35 Chicago

```

 

---

 读取和写入数据

```python

# 读取 CSV 文件

df = pd.read_csv('data.csv')

 

# 写入 CSV 文件

df.to_csv('output.csv', index=False)

```

 

支持的文件格式包括 CSV、Excel、JSON、SQL 等。

 

---

 

#### 查看数据

```python

# 查看前 5 行

print(df.head())

 

# 查看数据基本信息

print(df.info())

 

# 查看统计信息

print(df.describe())

```

 

---

 

#### 数据选择

```python

# 选择单列

print(df['Name'])

 

# 选择多列

print(df[['Name', 'Age']])

 

# 选择行

print(df.iloc[0]) # 选择第一行

print(df.loc[df['Age'] > 30]) # 选择年龄大于 30 的行

 

```

 

---

 

#### 数据排序

```python

# 按年龄升序排序

sorted_df = df.sort_values(by='Age')

print(sorted_df)

```

 

---

数据分组和聚合

```python

# 按城市分组,计算平均年龄

grouped_df = df.groupby('City')['Age'].mean()

print(grouped_df)

```

 

---

 

 处理缺失值

```python

# 检查缺失值

print(df.isnull())

 

# 删除包含缺失值的行

df_cleaned = df.dropna()

 

# 填充缺失值

df_filled = df.fillna(0)

```

 

---

 

# 创建另一个 DataFrame

data2 = {

    'Name': ['Alice', 'Bob', 'David'],

    'Salary': [70000, 80000, 90000]

}

df2 = pd.DataFrame(data2)

 

# 合并两个 DataFrame

merged_df = pd.merge(df, df2, on='Name', how='inner')

print(merged_df)

```

 

---

 

你可能感兴趣的:(python)