Pandas是Python在数据分析与挖掘上崭露头角的第三方库,可以说学会Pandas的操作,在金融量化上将游刃有余,下面以系列的形式,给大家分享pandas的完全操作手册。由于内容较大,没有展示相关案例,最好是结合具体数据进行操作。
输入/输出
Pickling
read_pickle(path[, compression]):从文件加载pickled pandas对象(或任何对象)
平面文件
read_table(filepath_or_buffer[, sep, …]):将常规分隔文件读入DataFrame
read_csv(filepath_or_buffer[, sep, …]):将CSV(逗号分隔)文件读入DataFrame
read_fwf(filepath_or_buffer[, colspecs, widths]):将固定宽度格式化的行表读入DataFrame
read_msgpack(path_or_buf[, encoding, iterator]):从指定的文件路径加载msgpack pandas对象
遇到问题没人解答,小编创建了一个Python学习交流裙:五二八 三九七 六一七, 寻找有志同道合的小伙伴,互帮互助,群里还有不错的学习视频教程和PDF电子书分享!
剪贴板
read_clipboard([sep]):从剪贴板中读取文本并传递给read_table.
Excel
read_excel(io[, sheet_name, header, names, …]):将Excel表读入pandas DataFrame
ExcelFile.parse([sheet_name, header, names, …]):将指定的工作表解析为DataFrame
JSON
read_json([path_or_buf, orient, typ, dtype, …]):将JSON字符串转换为pandas对象
json_normalize(data[, record_path, meta, …]):将“半结构化JSON数据”“规范化”为平面表
build_table_schema(data[, index, …]):从中创建表模式data
HTML
read_html(io[, match, flavor, header, …]):阅读HTML表格到list的DataFrame对象
HDFStore: PyTables (HDF5)
read_hdf(path_or_buf[, key, mode]):从商店读取,如果我们打开它关闭它.
HDFStore.put(key, value[, format, append]):将对象存储在HDFStore中
HDFStore.append(key, value[, format, …]):附加到文件中的表.
HDFStore.get(key):检索存储在文件中的pandas对象
HDFStore.select(key[, where, start, stop, …]):检索存储在文件中的pandas对象,可选择基于where条件
HDFStore.info():打印商店的详细信息
HDFStore.keys():返回与HDFStore中存储的对象相对应的键(可能无序)列表。
Feather
read_feather(path[, nthreads]):从文件路径加载羽毛格式对象
Parquet
read_parquet(path[, engine, columns]):从文件路径加载镶木地板对象,返回DataFrame.
SAS
read_sas(filepath_or_buffer[, format, …]):读取存储为XPORT或SAS7BDAT格式文件的SAS文件
SQL
read_sql_table(table_name, con[, schema, …]):将SQL数据库表读入DataFrame.
read_sql_query(sql, con[, index_col, …]):将SQL查询读入DataFrame.
read_sql(sql, con[, index_col, …]):将SQL查询或数据库表读入DataFrame.
Google BigQuery
read_gbq(query[, project_id, index_col, …]):从Google BigQuery加载数据.
STATA
read_stata(filepath_or_buffer[, …]):将Stata文件读入DataFrame.
StataReader.data_label():返回Stata文件的数据标签
StataReader.value_labels():返回一个dict,将每个变量名称与一个dict相关联,将每个值与其对
StataReader.variable_labels():将变量标签作为dict返回,将每个变量名称与相应的标签相关联
一般功能
数据处理
melt(frame[, id_vars, value_vars, var_name, …]):“Unpivots”DataFrame从宽格式到长格式,可选择设置标识符变量。
pivot(index, columns, values):根据此DataFrame的3列生成“pivot”表。
pivot_table(data[, values, index, columns, …]):创建一个电子表格样式的数据透视表作为DataFrame。
crosstab(index, columns[, values, rownames, …]):计算两个(或更多)因子的简单交叉列表。
cut(x, bins[, right, labels, retbins, …]):Bin值为离散间隔。
qcut(x, q[, labels, retbins, precision, …]):基于分位数的离散化功能。
merge(left, right[, how, on, left_on, …]):通过按列或索引执行数据库样式的连接操作来合并DataFrame对象。
merge_ordered(left, right[, on, left_on, …]):使用为时序数据等有序数据设计的可选填充/插值执行合并。
merge_asof(left, right[, on, left_on, …]):执行asof合并。
concat(objs[, axis, join, join_axes, …]):沿特定轴连接pandas对象,沿其他轴使用可选的设置逻辑。
get_dummies(data[, prefix, prefix_sep, …]):将分类变量转换为虚拟/指示变量
factorize(values[, sort, order, …]):将对象编码为枚举类型或分类变量。
unique(values):哈希表基于唯一。
wide_to_long(df, stubnames, i, j[, sep, suffix]):宽面板到长格式。
顶级缺失数据
isna(obj):检测类似数组的对象的缺失值。
isnull(obj):检测类似数组的对象的缺失值。
notna(obj):检测类似数组的对象的非缺失值。
notnull(obj):检测类似数组的对象的非缺失值。
顶级转换
to_numeric(arg[, errors, downcast]):将参数转换为数字类型.
顶级处理时间
to_datetime(arg[, errors, dayfirst, …]):将参数转换为datetime。
to_timedelta(arg[, unit, box, errors]):将参数转换为timedelta
date_range([start, end, periods, freq, tz, …]):返回固定频率DatetimeIndex。
bdate_range([start, end, periods, freq, tz, …]):返回固定频率DatetimeIndex,以工作日作为默认频率
period_range([start, end, periods, freq, name]):返回固定频率PeriodIndex,以日(日历)作为默认频率
timedelta_range([start, end, periods, freq, …]):返回固定频率TimedeltaIndex,以day作为默认频率
infer_freq(index[, warn]):根据输入索引推断最可能的频率。
顶级处理间隔
interval_range([start, end, periods, freq, …]):返回固定频率IntervalIndex
顶级评估
eval(expr[, parser, engine, truediv, …]):使用各种后端将Python表达式评估为字符串
分类
Pandas定义了一种自定义数据类型,用于表示只能使用有限的固定值集的数据。a的dtype Categorical可以用a来描述pandas.api.types.CategoricalDtype.
api.types.CategoricalDtype.categories:一个Index包含被允许的唯一类别。
api.types.CategoricalDtype.ordered:类别是否具有有序关系
api.types.CategoricalDtype([categories, ordered]):键入具有类别和有序性的分类数据
分类数据可以存储在 pandas.Categorical
Categorical(values[, categories, ordered, …]):表示经典R / S-plus方式的分类变量
Categorical.from_codes()已有类别和整数代码时,可以使用替代构造函数:
Categorical.from_codes(codes, categories[, …]):从代码和类别数组中创建分类类型.
dtype信息可在 Categorical
Categorical.dtype:在CategoricalDtype此实例
Categorical.categories:这种分类的类别。
Categorical.ordered:类别是否具有有序关系
Categorical.codes:此类别的类别代码。
np.asarray(categorical)通过实现数组接口工作。请注意,这会将Categorical转换回NumPy数组,因此不会保留类别和订单信息!
Categorical.__array__([dtype]):numpy数组接口
A Categorical可以存储在Series或中DataFrame。要创建一个D型系列category,使用或 其中的两种cat = s.astype(dtype)Series(..., dtype=dtype)dtype
字符串 'category'
一个例子CategoricalDtype。