目录
1. CSV 文件
1.1 介绍
1.2 操作方法
1.3 转换
2. Excel 文件
2.1 介绍
2.2 操作方法
2.3 转换
3. SQL 数据库
3.1 介绍
3.2 操作方法
3.3 转换
4. JSON 文件
4.1 介绍
4.2 操作方法
4.3 转换
5. HTML 文件
5.1 介绍
5.2 操作方法
5.3 转换
6. HDF5 文件
6.1 介绍
6.2 操作方法
6.3 转换
7. Parquet 文件
7.1 介绍
7.2 操作方法
7.3 转换
8. Feather 文件
8.1 介绍
8.2 操作方法
8.3 转换
9. Stata 文件
9.1 介绍
9.2 操作方法
9.3 转换
10. SAS 文件
10.1 介绍
10.2 操作方法
10.3 转换
11. SPSS 文件
11.1 介绍
11.2 操作方法
11.3 转换
12. Clipboard
12.1 介绍
12.2 操作方法
12.3 转换
13. Pickle 文件
13.1 介绍
13.2 操作方法
13.3 转换
14. ORC 文件
14.1 介绍
14.2 操作方法
14.3 转换
Pandas 是一个高效的数据分析库,支持多种数据源的读取和写入。每种数据源都有其独特的特点和使用场景。以下是 Pandas 支持的主要数据源及其操作方法,包括如何在
Series
和DataFrame
之间进行转换。
CSV(Comma-Separated Values)是一种广泛使用的文本格式,便于存储表格数据。每行表示一条记录,字段之间用逗号分隔。
pd.read_csv()
DataFrame.to_csv()
import pandas as pd
# 读取 CSV 文件
df_csv = pd.read_csv('data.csv')
# 写入 CSV 文件
df_csv.to_csv('output.csv', index=False)
series_from_df = df_csv['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
Excel 是一种流行的电子表格应用,通常使用 .xls
和 .xlsx
格式。常用于复杂的表格数据和多工作表的存储。
pd.read_excel()
DataFrame.to_excel()
# 读取 Excel 文件
df_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 写入 Excel 文件
df_excel.to_excel('output.xlsx', index=False)
series_from_df = df_excel['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
SQL(Structured Query Language)数据库用于存储结构化数据,可以通过 SQL 查询进行数据操作,适用于大规模数据管理。
pd.read_sql()
DataFrame.to_sql()
from sqlalchemy import create_engine
# 创建数据库连接
engine = create_engine('sqlite:///example.db') # 示例为 SQLite
# 读取数据
df_sql = pd.read_sql('SELECT * FROM table_name', engine)
# 写入数据
df_sql.to_sql('new_table', engine, if_exists='replace', index=False)
series_from_df = df_sql['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于阅读和编写,广泛用于存储结构化和半结构化数据。
pd.read_json()
DataFrame.to_json()
# 读取 JSON 文件
df_json = pd.read_json('data.json')
# 写入 JSON 文件
df_json.to_json('output.json', orient='records')
series_from_df = df_json['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
HTML 文件用于网页展示,可以包含表格数据。Pandas 支持从网页中提取表格数据。
pd.read_html()
DataFrame.to_html()
# 从网页读取数据
dfs = pd.read_html('https://example.com/data.html')
# 写入为 HTML 文件
dfs[0].to_html('output.html')
series_from_df = dfs[0]['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
HDF5(Hierarchical Data Format version 5)是一种用于存储和管理大规模数据的文件格式,支持高效的读写操作。
pd.read_hdf()
DataFrame.to_hdf()
# 读取 HDF5 文件
df_hdf = pd.read_hdf('data.h5', key='dataset_name')
# 写入 HDF5 文件
df_hdf.to_hdf('output.h5', key='new_dataset', mode='w')
series_from_df = df_hdf['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
Parquet 是一种列式存储文件格式,适合大数据处理,提供高效的压缩和编码,常用于大数据分析工具(如 Apache Spark)。
pd.read_parquet()
DataFrame.to_parquet()
# 读取 Parquet 文件
df_parquet = pd.read_parquet('data.parquet')
# 写入 Parquet 文件
df_parquet.to_parquet('output.parquet')
series_from_df = df_parquet['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
Feather 是一种高效的二进制文件格式,旨在快速读写 DataFrame,适合数据科学的工作流。
pd.read_feather()
DataFrame.to_feather()
# 读取 Feather 文件
df_feather = pd.read_feather('data.feather')
# 写入 Feather 文件
df_feather.to_feather('output.feather')
series_from_df = df_feather['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
Stata 是一种用于数据分析和统计的专用软件,其文件格式广泛被社会科学领域使用。
pd.read_stata()
DataFrame.to_stata()
# 读取 Stata 文件
df_stata = pd.read_stata('data.dta')
# 写入 Stata 文件
df_stata.to_stata('output.dta')
series_from_df = df_stata['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
SAS 是一种统计分析软件,常用于商业和学术研究,其数据集文件通常以 .sas7bdat
格式存储。
pd.read_sas()
# 读取 SAS 文件
df_sas = pd.read_sas('data.sas7bdat')
series_from_df = df_sas['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
SPSS 是一种用于社会科学研究的统计软件,其数据通常以 .sav
格式存储。
pd.read_spss()
# 读取 SPSS 文件
df_spss = pd.read_spss('data.sav')
series_from_df = df_spss['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
剪贴板是一种临时存储区域,可以快速从其他地方复制数据并粘贴到 Pandas 中。
pd.read_clipboard()
# 从剪贴板读取数据
df_clipboard = pd.read_clipboard()
series_from_df = df_clipboard['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
Pickle 是 Python 的一种对象序列化格式,可以将 Python 对象存储到文件中,以便后续读取。
pd.read_pickle()
DataFrame.to_pickle()
# 读取 Pickle 文件
df_pickle = pd.read_pickle('data.pkl')
# 写入 Pickle 文件
df_pickle.to_pickle('output.pkl')
series_from_df = df_pickle['column_name']
to_frame()
df_from_series = series_from_df.to_frame()
ORC(Optimized Row Columnar)是一种列式存储格式,主要用于 Hadoop 生态系统,支持高效的数据压缩和读取。
pd.read_orc()
# 读取 ORC 文件
df_orc = pd.read_orc('data.orc')
series_from_df = df_orc['column_name']
to_frame()
df_from_series = series_from_df.to_frame()