pandas是基于Numpy创建的Python包,内置了大量标准函数,能够高效地解决数据分析数据处理和分析任务,pandas支持多种文件的操作,比如Excel,csv,json,txt 文件等,读取文件之后,就可以对数据进行各种清洗、分析操作了。
pandas | excel |
---|---|
DataFrame | 工作表(Worksheet) |
Series | 列(Column) |
index | 行号(row index) |
Row | 行(Row) |
NaN | 空单元格(empty cell) |
Pandas 中的 DataFrame 类似于 Excel 工作表,虽然 Excel 工作簿可以包含多个工作表,但 Pandas DataFrame 独立存在的。
序列是表示 DataFrame 的一列的数据结构,类似于引用电子表格的列。
每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。在 Pandas 中,如果未指定索引,则默认使用 RangeIndex(第一行 = 0,第二行 = 1,依此类推),类似于电子表格中的每行开始的数字。 在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样,这些索引值可用于引用行。索引值是持久的,所以对 DataFrame 中的行重新排序,特定行的标签不会改变。
pandas读取文件之后,将内容存储为DataFrame,然后就可以调用内置的各种函数进行分析处理。
pandas对xlrd等模块进行了封装,可以很方便的处理excel文件,支持xls和xlsx等格式,需要提前安装模块pip install openpyxl
pandas.read_excel(filename, sep, header,encoding)
参数解释
可以读取Excel中的数据表,并指定分隔符(如制表符或逗号)。
pd.read_table('data.xlsx', sheet_name='Sheet1', delimiter='\t', header=0)
import pandas as pd
result = pd.read_excel(r"E:\2021竞赛题目列表(本科).xlsx")
print(result)
import pandas as pd
# 创建数据框
data = {'Name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'Age': [20, 25, 22, 28],
'Gender': ['M', 'M', 'M', 'M']}
df = pd.DataFrame(data)
# 保存数据框到 Excel 文件
df.to_excel('example.xlsx', index=False)