Python金融量化利器——Pandas操作手册(一)

Pandas是Python在数据分析与挖掘上崭露头角的第三方库,可以说学会Pandas的操作,在金融量化上将游刃有余,下面以系列的形式,给大家分享pandas的完全操作手册。由于内容较大,没有展示相关案例,最好是结合具体数据进行操作。

输入/输出

Pickling

read_pickle(path[, compression]):从文件加载pickled pandas对象(或任何对象)

平面文件

read_table(filepath_or_buffer[, sep, …]):将常规分隔文件读入DataFrame

read_csv(filepath_or_buffer[, sep, …]):将CSV(逗号分隔)文件读入DataFrame

read_fwf(filepath_or_buffer[, colspecs, widths]):将固定宽度格式化的行表读入DataFrame

read_msgpack(path_or_buf[, encoding, iterator]):从指定的文件路径加载msgpack pandas对象

遇到问题没人解答,小编创建了一个Python学习交流裙:五二八 三九七 六一七, 寻找有志同道合的小伙伴,互帮互助,群里还有不错的学习视频教程和PDF电子书分享!

剪贴板

read_clipboard([sep]):从剪贴板中读取文本并传递给read_table.

Excel

read_excel(io[, sheet_name, header, names, …]):将Excel表读入pandas DataFrame

ExcelFile.parse([sheet_name, header, names, …]):将指定的工作表解析为DataFrame

JSON

read_json([path_or_buf, orient, typ, dtype, …]):将JSON字符串转换为pandas对象

json_normalize(data[, record_path, meta, …]):将“半结构化JSON数据”“规范化”为平面表

build_table_schema(data[, index, …]):从中创建表模式data

HTML

read_html(io[, match, flavor, header, …]):阅读HTML表格到list的DataFrame对象

HDFStore: PyTables (HDF5)

read_hdf(path_or_buf[, key, mode]):从商店读取,如果我们打开它关闭它.

HDFStore.put(key, value[, format, append]):将对象存储在HDFStore中

HDFStore.append(key, value[, format, …]):附加到文件中的表.

HDFStore.get(key):检索存储在文件中的pandas对象

HDFStore.select(key[, where, start, stop, …]):检索存储在文件中的pandas对象,可选择基于where条件

HDFStore.info():打印商店的详细信息

HDFStore.keys():返回与HDFStore中存储的对象相对应的键(可能无序)列表。

Feather

read_feather(path[, nthreads]):从文件路径加载羽毛格式对象

Parquet

read_parquet(path[, engine, columns]):从文件路径加载镶木地板对象,返回DataFrame.

SAS

read_sas(filepath_or_buffer[, format, …]):读取存储为XPORT或SAS7BDAT格式文件的SAS文件

SQL

read_sql_table(table_name, con[, schema, …]):将SQL数据库表读入DataFrame.

read_sql_query(sql, con[, index_col, …]):将SQL查询读入DataFrame.

read_sql(sql, con[, index_col, …]):将SQL查询或数据库表读入DataFrame.

Google BigQuery

read_gbq(query[, project_id, index_col, …]):从Google BigQuery加载数据.

STATA

read_stata(filepath_or_buffer[, …]):将Stata文件读入DataFrame.

StataReader.data_label():返回Stata文件的数据标签

StataReader.value_labels():返回一个dict,将每个变量名称与一个dict相关联,将每个值与其对

StataReader.variable_labels():将变量标签作为dict返回,将每个变量名称与相应的标签相关联

一般功能

数据处理

melt(frame[, id_vars, value_vars, var_name, …]):“Unpivots”DataFrame从宽格式到长格式,可选择设置标识符变量。

pivot(index, columns, values):根据此DataFrame的3列生成“pivot”表。

pivot_table(data[, values, index, columns, …]):创建一个电子表格样式的数据透视表作为DataFrame。

crosstab(index, columns[, values, rownames, …]):计算两个(或更多)因子的简单交叉列表。

cut(x, bins[, right, labels, retbins, …]):Bin值为离散间隔。

qcut(x, q[, labels, retbins, precision, …]):基于分位数的离散化功能。

merge(left, right[, how, on, left_on, …]):通过按列或索引执行数据库样式的连接操作来合并DataFrame对象。

merge_ordered(left, right[, on, left_on, …]):使用为时序数据等有序数据设计的可选填充/插值执行合并。

merge_asof(left, right[, on, left_on, …]):执行asof合并。

concat(objs[, axis, join, join_axes, …]):沿特定轴连接pandas对象,沿其他轴使用可选的设置逻辑。

get_dummies(data[, prefix, prefix_sep, …]):将分类变量转换为虚拟/指示变量

factorize(values[, sort, order, …]):将对象编码为枚举类型或分类变量。

unique(values):哈希表基于唯一。

wide_to_long(df, stubnames, i, j[, sep, suffix]):宽面板到长格式。

顶级缺失数据

isna(obj):检测类似数组的对象的缺失值。

isnull(obj):检测类似数组的对象的缺失值。

notna(obj):检测类似数组的对象的非缺失值。

notnull(obj):检测类似数组的对象的非缺失值。

顶级转换

to_numeric(arg[, errors, downcast]):将参数转换为数字类型.

顶级处理时间

to_datetime(arg[, errors, dayfirst, …]):将参数转换为datetime。

to_timedelta(arg[, unit, box, errors]):将参数转换为timedelta

date_range([start, end, periods, freq, tz, …]):返回固定频率DatetimeIndex。

bdate_range([start, end, periods, freq, tz, …]):返回固定频率DatetimeIndex,以工作日作为默认频率

period_range([start, end, periods, freq, name]):返回固定频率PeriodIndex,以日(日历)作为默认频率

timedelta_range([start, end, periods, freq, …]):返回固定频率TimedeltaIndex,以day作为默认频率

infer_freq(index[, warn]):根据输入索引推断最可能的频率。

顶级处理间隔

interval_range([start, end, periods, freq, …]):返回固定频率IntervalIndex

顶级评估

eval(expr[, parser, engine, truediv, …]):使用各种后端将Python表达式评估为字符串

分类

Pandas定义了一种自定义数据类型,用于表示只能使用有限的固定值集的数据。a的dtype Categorical可以用a来描述pandas.api.types.CategoricalDtype.

api.types.CategoricalDtype.categories:一个Index包含被允许的唯一类别。

api.types.CategoricalDtype.ordered:类别是否具有有序关系

api.types.CategoricalDtype([categories, ordered]):键入具有类别和有序性的分类数据

分类数据可以存储在 pandas.Categorical

Categorical(values[, categories, ordered, …]):表示经典R / S-plus方式的分类变量

Categorical.from_codes()已有类别和整数代码时,可以使用替代构造函数:

Categorical.from_codes(codes, categories[, …]):从代码和类别数组中创建分类类型.

dtype信息可在 Categorical

Categorical.dtype:在CategoricalDtype此实例

Categorical.categories:这种分类的类别。

Categorical.ordered:类别是否具有有序关系

Categorical.codes:此类别的类别代码。

np.asarray(categorical)通过实现数组接口工作。请注意,这会将Categorical转换回NumPy数组,因此不会保留类别和订单信息!

Categorical.__array__([dtype]):numpy数组接口

A Categorical可以存储在Series或中DataFrame。要创建一个D型系列category,使用或 其中的两种cat = s.astype(dtype)Series(..., dtype=dtype)dtype

字符串 'category'

一个例子CategoricalDtype。

你可能感兴趣的:(Python,Python学习,Python开发)