Pandas基础操作与数据分析

1. Pandas简介

Pandas是一个开源的第三方Python库,主要用于数据分析。它基于Numpy和Matplotlib构建,提供了高性能、易于使用的数据结构和数据分析工具。Pandas广泛应用于学术、金融、统计学等领域,成为Python数据分析的必备工具。

2. Pandas数据结构

Pandas提供了两种主要的数据结构:

  • Series‌:一维数据结构,可以存储各种数据类型,如整数、浮点数、字符串等。Series由索引(index)和数据值组成。
  • DataFrame‌:二维表格型数据结构,既有行索引(index),也有列索引(columns)。DataFrame可以看作是由多个Series组成的。

3. 创建Series和DataFrame

3.1 创建Series

  • 使用空数据创建‌:pd.Series(dtype='f8')
  • 使用ndarray创建‌:pd.Series([1, 2, 3, 4, 5], dtype='f8')
  • 使用字典创建‌:pd.Series(data={"name": "zhangsan", "gender": "男"})

3.2 创建DataFrame

  • 使用列表嵌套字典创建‌:
  • data = [{'name': "张三", 'age': 18}, {'name': "小红", 'gender': "男", 'age': 19}] result = pd.DataFrame(data=data)

  • 使用字典嵌套列表创建‌:
     

    data = {"name": ['小米', '小红', '小紫'], "age": [18, 19, 20]} result = pd.DataFrame(data=data)

  • 使用Series创建‌:
     
    
    data = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])} result = pd.DataFrame(data=data)

4. 数据操作

4.1 Series操作

  • 访问数据‌:通过索引访问,如result["name"]result
  • 遍历数据‌:使用items()index属性或values属性
  • 常用方法‌:
    • isnull()notnull():检测缺失值
    • dropna():删除缺失值
    • fillna():填充缺失值

4.2 DataFrame操作

  • 列索引操作‌:
    • 选取数据‌:result['one']
    • 添加数据‌:result['three'] = [1, 2, 3, 4]
    • 修改数据‌:result['two'] = result['one'] + 100
    • 删除数据‌:result.drop(['one'], axis=1)
  • 行索引操作‌:
    • loc‌:基于标签索引选取数据,如df.loc['a']
    • iloc‌:基于位置索引选取数据,如df.iloc
    • 添加新行‌:df.loc['e'] = [17, 18, 19, 20]
    • 删除行‌:result.drop(['a'], axis=0)

你可能感兴趣的:(pandas,数据分析,python)