Pandas数据分析——常用操作

引言

Pandas是一种常见且便捷的数据处理库,为便于使用和复习,个人针对一些常用操作进行了总结。

目录

  • 引言
  • 一、pandas是什么?
  • 二、pandas常用操作有哪些?
    • 1.导入、保存数据
    • 2.创建(DataFrame)
    • 3.索引
      • 3.1 按位置索引
      • 3.2 按名称索引
    • 4.修改
      • 4.1 增
      • 4.2 删
      • 4.3 查&改
    • 5.统计分析
      • 5.1 相关性分析
  • 总结


一、pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、pandas常用操作有哪些?

【快速了解可参考目录】

1.导入、保存数据

1.1导入数据

import pandas as pd

# 1.直接导入
data = pd.read_csv("./data.csv", sep=",")
print(data)

# 2.特殊情况导入
# header=None可不导入列索引,engine="python"可以避免文件路径中有中文, encoding="utf_8_sig"可以使读取的内容中有中文
data = pd.read_csv("./data.csv", sep=",",header=None, engine="python", encoding="utf_8_sig")
print(data)

1.2保存数据

import pandas as pd

# index=False导出的文件没有行索引, header=False导出的文件没有列名
data.to_csv("./file/data_name.csv", index=False, header=False)

2.创建(DataFrame)

import pandas as pd
import numpy as np

# 创建一个numpy二维数组
df = np.arange(16).reshape((4,4))

data1 = pd.DataFrame(df, index=list("abcd"), columns=list("wxyz"))
print(data1)

data2 = pd.DataFrame(df, index=["A","B","C","D"], columns=["W","X","Y","Z"])
print(data2)

Pandas数据分析——常用操作_第1张图片Pandas数据分析——常用操作_第2张图片


3.索引

3.1 按位置索引

# 返回坐标(1,2)的值
data.iloc[1, 2]

# 返回第一列的所有值
data.iloc[:, 0]

# 返回第二行所有的值
data.iloc[1, :]

3.2 按名称索引

# 返回上面第2小节中data2的W列数据
data2.loc[:, "W"]

# 返回上面第2小节中data2的W、Z列数据
data2.loc[:, ["W", "Z"]]

Pandas数据分析——常用操作_第3张图片Pandas数据分析——常用操作_第4张图片


4.修改

4.1 增

import pandas as pd
import numpy as np

data = np.arange(12).reshape((3,4))
data = pd.DataFrame(data, index=["A","B","C"], columns=["One","Two","Three","Four"])
print(data)

# 增加一列
data["Five"] = [0,0,0]

# 增加一行
data.loc["D"]=[6,6,6,6]

Pandas数据分析——常用操作_第5张图片Pandas数据分析——常用操作_第6张图片Pandas数据分析——常用操作_第7张图片

4.2 删

import pandas as pd
import numpy as np

data = np.arange(12).reshape((3,4))
data = pd.DataFrame(data, index=["A","B","C"], columns=["One","Two","Three","Four"])
print(data)

# 删除,axis=1表示列方向, 列名:Two, inplace=True表示在原数据上修改
data.drop(['Two'], axis=1, inplace=True)

# 删除,axis=0表示列方向, 列名:C, inplace=True表示在原数据上修改
data.drop(['C'], axis=0, inplace=True)

Pandas数据分析——常用操作_第8张图片Pandas数据分析——常用操作_第9张图片删除行

4.3 查&改

: 对应第3节的索引
:索引目标位置后直接赋值


5.统计分析

5.1 相关性分析

import matplotlib.pyplot as plt
import seaborn as sns

print(data)
matrix = data.corr()
cmap = sns.diverging_palette(250, 15, s=75, l=40, n=9, center="light", as_cmap=True)

plt.figure(figsize=(12, 8)) 
sns.heatmap(matrix,  center=0, annot=True, fmt='.2f', square=True, cmap=cmap)

Pandas数据分析——常用操作_第10张图片
Pandas数据分析——常用操作_第11张图片


总结

本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。后面会根据需要继续增加和完善文章内容。

你可能感兴趣的:(python,pandas)