python pandas excel 多线程_Python数据分析:pandas玩转Excel (一)

1 pandas简介

1.Pandas是什么?

Pandas是一个强大的分析结构化数据的工具集;

它的使用基础是Numpy(提供高性能的矩阵运算);

用于数据挖掘和数据分析,同时也提供数据清洗功能。

2.DataFrame

DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。

pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

参数

意义

数据结构

data

需要被转换的数据

ndarray (structured or homogeneous), Iterable, dict, or DataFrame

index

设置行索引

Index or array-like

columns

设置列名

Index or array-like

dtype

设置数据类型

dtype, default None

copy

备份数据

boolean, default False

3.Series

它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。

4.pandas 网址

2 导入

符号

含义

df

二维的表格型数据结构DataFrame

s

一维数组Series (一个一维的标签矩阵)

还需要执行以下导入才能开始:

import pandas as pd

import numpy as np

3 使用

# 使用Pandas

>>> import pandas as pd

>>> df = pd.DataFrame()

>>> print(df)

# 输出结果

Empty DataFrame

Columns: []

Index: []

4 读取、写入

import pandas as pd

df = pd.read_excel("D:/项目/资料/People.xlsx") # 把文件读到内存中形成DataFrame

print(df.shape) # 读取文件行数和列数

print(df.columns) # 读取列名

print(df.head(3)) # 打印前3行

print(df.tail(3)) # 打印后3行

df = pd.DataFrame({"ID":[1,2,3],"Name":["jack","小明","小红"]})

df = df.set_index("ID") # 把ID那一列当索引,并产生新的DataFrame

df.to_excel("D:/项目/我爱你.xlsx") # 写入文件

print("Done!")

你可能感兴趣的:(python,pandas,excel,多线程)