pandas中文教程文档

原文:http://doc.codingdict.com/Pandas_0j2/index.html

导航

索引

模块|

下一个|

pandas 0.19.2 documentation»

目录

新功能

安装

为pandas贡献

常见问题(FAQ)

套装概述

10分钟入门pandas

教程

食谱

数据结构简介

基本基本功能

使用文本数据

选项和设置

索引和选择数据

MultiIndex /高级索引

计算工具

使用缺失数据

分组:split-apply-combine

合并,连接和连接

整形和数据透视表

时间系列/日期功能

时间Deltas

分类数据

可视化

样式

IO工具(文本,CSV,HDF5,...)

远程数据访问

增强性能

稀疏数据结构

告诫和诀窍

rpy2 / R interface

pandas生态系统

与R / R库比较

与SQL比较

与SAS的比较

API参考

内部

发行说明

搜索

输入搜索字词或模块,类或函数名称。

pandas:强大的Python数据分析工具包¶

PDF版本

已压缩的HTML

日期:2016年12月24日版本:0.19.2

二进制安装:http://pypi.python.org/pypi/pandas

源代码仓库:http://github.com/pydata/pandas

问题&想法:https://github.com/pydata/pandas/issues

Q&A支持:http://stackoverflow.com/questions/tagged/pandas

开发人员邮件列表:http://groups.google.com/group/pydata

pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。

pandas非常适合许多不同类型的数据:

具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中

有序和无序(不一定是固定频率)时间序列数据。

带有行和列标签的任意矩阵数据(均匀类型或异质)

任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中

pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame提供R的data.frame所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。

这里只是几个pandas做得很好的事情:

轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据

大小可变性:列可以从DataFrame和更高维度的对象中插入和删除

自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame 等在计算中为您自动对齐数据

功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据

使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象

基于智能标签的切片花式索引子集化大数据集

直观的合并连接数据集

灵活的重塑和数据集的旋转

轴的分层标签(每个标记可能有多个标签)

用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具

时间序列- 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。

许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。

其他一些注释

pandas是快速的。许多低级算法位已在Cython代码中广泛调整。然而,与任何其他泛化通常牺牲性能。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。

pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。

pandas已广泛用于金融应用的产品。

注意

本文档假定大家熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间在学习NumPy。

有关库中的内容的更多详细信息,请参阅软件包概述。

新功能

v0.19.2(2016年12月24日)

增强功能

性能改进

错误修正

v0.19.1(2016年11月3日)

性能改进

错误修正

v0.19.0(2016年10月2日)

新功能

merge_asof用于asof风格的时间序列加入

.rolling()现在是时间系列感知

read_csv已改进对重复列名称的支持

read_csv支持直接解析Categorical

分类连接

半月偏移

新建索引方法

Google BigQuery增强功能

细粒度数字错误状态

get_dummies现在返回整数dtypes

将to_numeric中的最小可能dtype向下转换

pandas开发API

其他增强功能

API更改

Series.tolist()现在将返回Python类型

Series系列

Series在分配时促销

.to_datetime()更改

合并更改

.describe()更改

Period更改

索引+/-不再用于设置操作

Index.difference和.symmetric_difference更改

Index.unique始终返回Index

MultiIndex构造函数,groupby和set_index保留分类dtypes

read_csv将逐步枚举块

稀疏更改

索引器dtype更改

其他API更改

弃用

删除以前的版本弃用/更改

性能改进

错误修正

v0.18.1(2016年5月3日)

新功能

自订工作时间

.groupby(..)语法与窗口和重新抽样操作

方法链改进

当MultiIndex的一部分时,DateTimeIndex

汇编数据时

其他增强功能

稀疏变化

API更改

.groupby(..).nth()更改

numpy功能兼容性

在groupby重新取样上使用.apply

read_csv异常中的更改

to_datetime错误更改

其他API更改

弃用

性能改进

错误修正

v0.18.0(2016年3月13日)

新功能

窗口函数现在是方法

更改重命名

范围索引

更改为str.extract

添加str.extractall

更改为str.cat

数据类型舍入

FloatIndex中的整数格式

更改dtype分配行为

to_xarray  0>

乳胶表示

pd.read_sas()更改

其他增强功能

向后不兼容的API更改

NaT和Timedelta操作

更改为msgpack

.rank的签名更改

QuartBegin中的错误,n = 0

重新取样API

更改为eval

其他API更改

弃用

删除已弃用的浮动索引器

删除以前的版本弃用/更改

性能改进

错误修正

v0.17.1(2015年11月21日)

新功能

条件HTML格式

增强功能

API更改

弃用

性能改进

错误修正

v0.17.0(2015年10月9日)

新功能

Datetime with TZ

释放GIL

绘制子方法

dt存取器的其他方法

周期频率增强

支持SAS XPORT文件

支持.eval()中的数学函数

使用MultiIndex更改Excel

Google BigQuery增强功能

使用Unicode东亚宽度显示对齐

其他增强功能

向后不兼容的API更改

对排序API的更改

更改为to_datetime和to_timedelta

更改索引比较

更改为布尔比较与无

HDFStore dropna behavior

更改为display.precision选项

更改为Categorical.unique

在解析器中将bool更改为header

其他API更改

弃用

删除以前的版本弃用/更改

性能改进

错误修正

v0.16.2(2015年6月12日)

新功能

管道

其他增强功能

API更改

性能改进

错误修正

v0.16.1(2015年5月11日)

增强功能

CategoricalIndex

示例

字符串方法增强

其他增强功能

API更改

弃用

索引表示

性能改进

错误修正

v0.16.0(2015年3月22日)

新功能

DataFrame分配

与scipy.sparse的交互

字符串方法增强

其他增强功能

向后不兼容的API更改

Timedelta的变化

索引更改

分类更改

其他API更改

弃用

删除以前的版本弃用/更改

性能改进

错误修正

v0.15.2(2014年12月12日)

API更改

增强功能

效果

错误修正

v0.15.1(2014年11月9日)

API更改

增强功能

错误修正

v0.15.0(2014年10月18日)

新功能

Series / DataFrame中的分类

TimedeltaIndex / Scalar

内存使用

.dt存取器

时区处理改进

滚动/展开时机改进

sql io模块的改进

向后不兼容的API更改

突变更改

内部重构

弃用

删除以前的版本弃用/更改

增强功能

效果

错误修正

v0.14.1(2014年7月11日)

API更改

增强功能

效果

实验

错误修正

v0.14.0(2014年5月31日)

API更改

显示更改

文本解析API更改

Groupby API更改

SQL

MultiIndexing Using Slicers

绘图

先前版本弃用/更改

弃用

已知问题

增强功能

效果

实验

错误修正

v0.13.1(2014年2月3日)

输出格式增强

API更改

先前版本弃用/更改

弃用

增强功能

效果

实验

错误修正

v0.13.0(2014年1月3日)

API更改

先前版本弃用/更改

弃用

索引API更改

Float64Index API Change

HDFStore API更改

DataFrame repr更改

增强功能

实验

内部重构

错误修正

v0.12.0(2013年7月24日)

API更改

I / O增强功能

其他增强功能

实验功能

错误修正

v0.11.0(2013年4月22日)

选择选择

选择弃用

Dtypes

Dtype Conversion

Dtype Gotchas

数据时间转换

API更改

增强功能

v0.10.1(2013年1月22日)

API更改

新功能

HDFStore

v0.10.0(2012年12月17日)

文件解析新功能

API更改

新功能

宽数据框架打印

更新了PyTables支持

N Dimensional Panels(实验)

v0.9.1(2012年11月14日)

新功能

API更改

v0.9.0(2012年10月7日)

新功能

API更改

v0.8.1(2012年7月22日)

新功能

性能提升

v0.8.0(2012年6月29日)

支持非唯一索引

NumPy datetime64 dtype和1.6 dependency

时间序列变化和改进

其他新功能

新的绘图方法

其他API更改

pandas< = 0.7.3位用户的潜在移植问题

v.0.7.3(2012年4月12日)

新功能

NA Boolean比较API更改

其他API更改

v.0.7.2(2012年3月16日)

新功能

性能提升

v.0.7.1(2012年2月29日)

新功能

性能提升

v.0.7.0(2012年2月9日)

新功能

API对整数索引的更改

有关基于标签的切片的API调整

更改为系列[]运算符

其他API更改

性能提升

v.0.6.1(2011年12月13日)

新功能

性能提升

v.0.6.0(2011年11月25日)

新功能

性能增强

v.0.5.0(2011年10月24日)

新功能

性能增强

v.0.4.3至v0.4.1(2011年9月25日 -  10月9日)

新功能

性能增强

安装

Python版本支持

安装pandas

尝试熊猫,无需安装!

使用Anaconda安装大熊猫

使用Miniconda安装大熊猫

从PyPI安装

使用您的Linux发行版软件包管理器安装

从源安装

运行测试套件

依赖关系

推荐的依赖关系

可选依赖关系

贡献给pandas

从哪里开始?

错误报告和增强请求

使用代码

版本控制,Git和GitHub

开始使用Git

分岔

创建分支

创建开发环境

创建Windows开发环境

进行更改

参与文档

关于pandas文档

如何构建pandas文档

要求

构建文档

构建主分支文档

有助于代码库

代码标准

测试驱动开发/代码编写

写测试

运行测试套件

运行性能测试套件

运行Google BigQuery集成测试

运行vbench性能测试套件(逐步淘汰)

记录您的代码

贡献您对pandas的更改

提交代码

组合提交

推送更改

检查您的代码

最后,请求拉请求

删除合并的分支(可选)

常见问题(FAQ)

DataFrame内存使用

字节排序问题

在Qt应用程序中可视化数据

套装概述

数据结构一览

为什么有多个数据结构?

数据的可变性和复制

获取支持

学分

开发团队

许可证

10分钟到熊猫

对象创建

查看数据

选择

取得

按标签选择

按位置选择

布尔索引

设置

缺少数据

操作

统计

应用

直方图

字符串方法

合并

Concat

加入

附加

分组

整形

堆栈

数据透视表

时间序列

分类

绘图

获取数据输入/输出

CSV

HDF5

Excel

Gotchas

教程

内部指南

pandas Cookbook

新建pandas用户课程

使用Python进行实际数据分析

现代大熊猫

包含pandas,vincent和xlsxwriter的Excel图表

各种教程

食谱

成语

if-then ...

拆分

建立条件

选择

DataFrames

面板

新列

MultiIndexing

算术

切片

排序

级别

panelnd

缺少数据

替换

分组

展开数据

拆分

Pivot

应用

时间库

重新采样

合并

绘图

数据输入/输出

CSV

跳过标题和数据之间的行

SQL

Excel

HTML

HDFStore

二进制文件

计算

Timedeltas

别名轴名称

创建示例数据

数据结构简介

系列

你可能感兴趣的:(pandas中文教程文档)