pandas常用操作

`pandas`是Python中用于数据操作和分析的强大库。以下是一些常用的操作:

### 1. 读取数据
- **从CSV文件读取**:
  ```python
  import pandas as pd
  df = pd.read_csv('path/to/file.csv')
  ```
- **从Excel文件读取**:
  ```python
  df = pd.read_excel('path/to/file.xlsx', sheet_name='Sheet1')
  ```

### 2. 数据查看
- **显示前几行**:
  ```python
  df.head()  # 默认显示前5行
  ```
- **显示后几行**:
  ```python
  df.tail()
  ```
- **查看数据信息**:
  ```python
  df.info()
  ```
- **基本统计信息**:
  ```python
  df.describe()
  ```

### 3. 数据选择
- **选择列**:
  ```python
  df['column_name']
  df.column_name
  ```
- **选择多列**:
  ```python
  df[['column1', 'column2']]
  ```
- **基于条件选择行**:
  ```python
  df[df['column'] > 0]
  ```
- **选择行和列**:
  ```python
  df.loc[row_indexer, column_indexer]  # 标签索引
  df.iloc[row_indexer, column_indexer]  # 位置索引
  ```

### 4. 数据处理
- **删除列**:
  ```python
  df.drop('column_name', axis=1, inplace=True)
  ```
- **删除行**:
  ```python
  df.drop(0, axis=0, inplace=True)  # 删除第一行
  ```
- **填补缺失值**:
  ```python
  df.fillna(value, inplace=True)
  ```
- **重命名列**:
  ```python
  df.rename(columns={'old_name': 'new_name'}, inplace=True)
  ```
- **更改列类型**:
  ```python
  df['column_name'] = df['column_name'].astype('int')
  ```

### 5. 数据聚合与分组
- **分组操作**:
  ```python
  grouped = df.groupby('column_name')
  grouped.mean()  # 按组计算平均值
  ```
- **应用函数**:
  ```python
  df['column_name'].apply(lambda x: function(x))
  ```

### 6. 数据合并
- **合并数据框**:
  ```python
  pd.concat([df1, df2])  # 按行合并
  pd.merge(df1, df2, on='key_column')  # 按列合并
  ```

### 7. 数据清洗
- **处理重复行**:
  ```python
  df.drop_duplicates(inplace=True)
  ```
- **处理缺失数据**:
  ```python
  df.dropna()  # 删除有缺失值的行
  ```

### 8. 数据保存
- **保存为CSV文件**:
  ```python
  df.to_csv('output.csv', index=False)
  ```
- **保存为Excel文件**:
  ```python
  df.to_excel('output.xlsx', index=False)
  ```

这些只是`pandas`库中最常用的一些操作。`pandas`的功能非常丰富,涵盖了数据处理的方方面面,具体使用时可以参考其官方文档或社区资源来解决更复杂或特定的问题。

你可能感兴趣的:(python,pandas)