原文:http://doc.codingdict.com/Pandas_0j2/index.html
导航
索引
模块|
下一个|
pandas 0.19.2 documentation»
目录
新功能
安装
为pandas贡献
常见问题(FAQ)
套装概述
10分钟入门pandas
教程
食谱
数据结构简介
基本基本功能
使用文本数据
选项和设置
索引和选择数据
MultiIndex /高级索引
计算工具
使用缺失数据
分组:split-apply-combine
合并,连接和连接
整形和数据透视表
时间系列/日期功能
时间Deltas
分类数据
可视化
样式
IO工具(文本,CSV,HDF5,...)
远程数据访问
增强性能
稀疏数据结构
告诫和诀窍
rpy2 / R interface
pandas生态系统
与R / R库比较
与SQL比较
与SAS的比较
API参考
内部
发行说明
搜索
输入搜索字词或模块,类或函数名称。
pandas:强大的Python数据分析工具包¶
PDF版本
已压缩的HTML
日期:2016年12月24日版本:0.19.2
二进制安装:http://pypi.python.org/pypi/pandas
源代码仓库:http://github.com/pydata/pandas
问题&想法:https://github.com/pydata/pandas/issues
Q&A支持:http://stackoverflow.com/questions/tagged/pandas
开发人员邮件列表:http://groups.google.com/group/pydata
pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。
pandas非常适合许多不同类型的数据:
具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中
有序和无序(不一定是固定频率)时间序列数据。
带有行和列标签的任意矩阵数据(均匀类型或异质)
任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中
pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame提供R的data.frame所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。
这里只是几个pandas做得很好的事情:
轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据
大小可变性:列可以从DataFrame和更高维度的对象中插入和删除
自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame 等在计算中为您自动对齐数据
功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据
使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
基于智能标签的切片,花式索引和子集化大数据集
直观的合并和连接数据集
灵活的重塑和数据集的旋转
轴的分层标签(每个标记可能有多个标签)
用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具
时间序列- 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。
许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。
其他一些注释
pandas是快速的。许多低级算法位已在Cython代码中广泛调整。然而,与任何其他泛化通常牺牲性能。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。
pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。
pandas已广泛用于金融应用的产品。
注意
本文档假定大家熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间在学习NumPy。
有关库中的内容的更多详细信息,请参阅软件包概述。
新功能
v0.19.2(2016年12月24日)
增强功能
性能改进
错误修正
v0.19.1(2016年11月3日)
性能改进
错误修正
v0.19.0(2016年10月2日)
新功能
merge_asof用于asof风格的时间序列加入
.rolling()现在是时间系列感知
read_csv已改进对重复列名称的支持
read_csv支持直接解析Categorical
分类连接
半月偏移
新建索引方法
Google BigQuery增强功能
细粒度数字错误状态
get_dummies现在返回整数dtypes
将to_numeric中的最小可能dtype向下转换
pandas开发API
其他增强功能
API更改
Series.tolist()现在将返回Python类型
Series系列
Series在分配时促销
.to_datetime()更改
合并更改
.describe()更改
Period更改
索引+/-不再用于设置操作
Index.difference和.symmetric_difference更改
Index.unique始终返回Index
MultiIndex构造函数,groupby和set_index保留分类dtypes
read_csv将逐步枚举块
稀疏更改
索引器dtype更改
其他API更改
弃用
删除以前的版本弃用/更改
性能改进
错误修正
v0.18.1(2016年5月3日)
新功能
自订工作时间
.groupby(..)语法与窗口和重新抽样操作
方法链改进
当MultiIndex的一部分时,DateTimeIndex
汇编数据时
其他增强功能
稀疏变化
API更改
.groupby(..).nth()更改
numpy功能兼容性
在groupby重新取样上使用.apply
read_csv异常中的更改
to_datetime错误更改
其他API更改
弃用
性能改进
错误修正
v0.18.0(2016年3月13日)
新功能
窗口函数现在是方法
更改重命名
范围索引
更改为str.extract
添加str.extractall
更改为str.cat
数据类型舍入
FloatIndex中的整数格式
更改dtype分配行为
to_xarray 0>
乳胶表示
pd.read_sas()更改
其他增强功能
向后不兼容的API更改
NaT和Timedelta操作
更改为msgpack
.rank的签名更改
QuartBegin中的错误,n = 0
重新取样API
更改为eval
其他API更改
弃用
删除已弃用的浮动索引器
删除以前的版本弃用/更改
性能改进
错误修正
v0.17.1(2015年11月21日)
新功能
条件HTML格式
增强功能
API更改
弃用
性能改进
错误修正
v0.17.0(2015年10月9日)
新功能
Datetime with TZ
释放GIL
绘制子方法
dt存取器的其他方法
周期频率增强
支持SAS XPORT文件
支持.eval()中的数学函数
使用MultiIndex更改Excel
Google BigQuery增强功能
使用Unicode东亚宽度显示对齐
其他增强功能
向后不兼容的API更改
对排序API的更改
更改为to_datetime和to_timedelta
更改索引比较
更改为布尔比较与无
HDFStore dropna behavior
更改为display.precision选项
更改为Categorical.unique
在解析器中将bool更改为header
其他API更改
弃用
删除以前的版本弃用/更改
性能改进
错误修正
v0.16.2(2015年6月12日)
新功能
管道
其他增强功能
API更改
性能改进
错误修正
v0.16.1(2015年5月11日)
增强功能
CategoricalIndex
示例
字符串方法增强
其他增强功能
API更改
弃用
索引表示
性能改进
错误修正
v0.16.0(2015年3月22日)
新功能
DataFrame分配
与scipy.sparse的交互
字符串方法增强
其他增强功能
向后不兼容的API更改
Timedelta的变化
索引更改
分类更改
其他API更改
弃用
删除以前的版本弃用/更改
性能改进
错误修正
v0.15.2(2014年12月12日)
API更改
增强功能
效果
错误修正
v0.15.1(2014年11月9日)
API更改
增强功能
错误修正
v0.15.0(2014年10月18日)
新功能
Series / DataFrame中的分类
TimedeltaIndex / Scalar
内存使用
.dt存取器
时区处理改进
滚动/展开时机改进
sql io模块的改进
向后不兼容的API更改
突变更改
内部重构
弃用
删除以前的版本弃用/更改
增强功能
效果
错误修正
v0.14.1(2014年7月11日)
API更改
增强功能
效果
实验
错误修正
v0.14.0(2014年5月31日)
API更改
显示更改
文本解析API更改
Groupby API更改
SQL
MultiIndexing Using Slicers
绘图
先前版本弃用/更改
弃用
已知问题
增强功能
效果
实验
错误修正
v0.13.1(2014年2月3日)
输出格式增强
API更改
先前版本弃用/更改
弃用
增强功能
效果
实验
错误修正
v0.13.0(2014年1月3日)
API更改
先前版本弃用/更改
弃用
索引API更改
Float64Index API Change
HDFStore API更改
DataFrame repr更改
增强功能
实验
内部重构
错误修正
v0.12.0(2013年7月24日)
API更改
I / O增强功能
其他增强功能
实验功能
错误修正
v0.11.0(2013年4月22日)
选择选择
选择弃用
Dtypes
Dtype Conversion
Dtype Gotchas
数据时间转换
API更改
增强功能
v0.10.1(2013年1月22日)
API更改
新功能
HDFStore
v0.10.0(2012年12月17日)
文件解析新功能
API更改
新功能
宽数据框架打印
更新了PyTables支持
N Dimensional Panels(实验)
v0.9.1(2012年11月14日)
新功能
API更改
v0.9.0(2012年10月7日)
新功能
API更改
v0.8.1(2012年7月22日)
新功能
性能提升
v0.8.0(2012年6月29日)
支持非唯一索引
NumPy datetime64 dtype和1.6 dependency
时间序列变化和改进
其他新功能
新的绘图方法
其他API更改
pandas< = 0.7.3位用户的潜在移植问题
v.0.7.3(2012年4月12日)
新功能
NA Boolean比较API更改
其他API更改
v.0.7.2(2012年3月16日)
新功能
性能提升
v.0.7.1(2012年2月29日)
新功能
性能提升
v.0.7.0(2012年2月9日)
新功能
API对整数索引的更改
有关基于标签的切片的API调整
更改为系列[]运算符
其他API更改
性能提升
v.0.6.1(2011年12月13日)
新功能
性能提升
v.0.6.0(2011年11月25日)
新功能
性能增强
v.0.5.0(2011年10月24日)
新功能
性能增强
v.0.4.3至v0.4.1(2011年9月25日 - 10月9日)
新功能
性能增强
安装
Python版本支持
安装pandas
尝试熊猫,无需安装!
使用Anaconda安装大熊猫
使用Miniconda安装大熊猫
从PyPI安装
使用您的Linux发行版软件包管理器安装
从源安装
运行测试套件
依赖关系
推荐的依赖关系
可选依赖关系
贡献给pandas
从哪里开始?
错误报告和增强请求
使用代码
版本控制,Git和GitHub
开始使用Git
分岔
创建分支
创建开发环境
创建Windows开发环境
进行更改
参与文档
关于pandas文档
如何构建pandas文档
要求
构建文档
构建主分支文档
有助于代码库
代码标准
测试驱动开发/代码编写
写测试
运行测试套件
运行性能测试套件
运行Google BigQuery集成测试
运行vbench性能测试套件(逐步淘汰)
记录您的代码
贡献您对pandas的更改
提交代码
组合提交
推送更改
检查您的代码
最后,请求拉请求
删除合并的分支(可选)
常见问题(FAQ)
DataFrame内存使用
字节排序问题
在Qt应用程序中可视化数据
套装概述
数据结构一览
为什么有多个数据结构?
数据的可变性和复制
获取支持
学分
开发团队
许可证
10分钟到熊猫
对象创建
查看数据
选择
取得
按标签选择
按位置选择
布尔索引
设置
缺少数据
操作
统计
应用
直方图
字符串方法
合并
Concat
加入
附加
分组
整形
堆栈
数据透视表
时间序列
分类
绘图
获取数据输入/输出
CSV
HDF5
Excel
Gotchas
教程
内部指南
pandas Cookbook
新建pandas用户课程
使用Python进行实际数据分析
现代大熊猫
包含pandas,vincent和xlsxwriter的Excel图表
各种教程
食谱
成语
if-then ...
拆分
建立条件
选择
DataFrames
面板
新列
MultiIndexing
算术
切片
排序
级别
panelnd
缺少数据
替换
分组
展开数据
拆分
Pivot
应用
时间库
重新采样
合并
绘图
数据输入/输出
CSV
跳过标题和数据之间的行
SQL
Excel
HTML
HDFStore
二进制文件
计算
Timedeltas
别名轴名称
创建示例数据
数据结构简介
系列