I天辉I

十分钟搞定pandas

原文出处： pandas.pydata.org 译文出处：石卓林

这是关于pandas的简短介绍，主要面向新用户。可以参阅Cookbook了解更复杂的使用方法。

习惯上,我们做以下导入

In [1]: import pandas as pd In [2]: import numpy as np In [3]: import matplotlib.pyplot as plt

In [ 1 ] : import pandas as pd

In [ 2 ] : import numpy as np

In [ 3 ] : import matplotlib . pyplot as plt

创建对象

使用传递的值列表序列创建序列, 让pandas创建默认整数索引

In [4]: s = pd.Series([1,3,5,np.nan,6,8]) In [5]: s Out[5]: 0 1 1 3 2 5 3 NaN 4 6 5 8 dtype: float64

In [ 4 ] : s = pd . Series ( [ 1 , 3 , 5 , np . nan , 6 , 8 ] )

In [ 5 ] : s

Out [ 5 ] :

0 1

1 3

2 5

3 NaN

4 6

5 8

dtype : float64

使用传递的numpy数组创建数据帧,并使用日期索引和标记列.

In [6]: dates = pd.date_range('20130101',periods=6) In [7]: dates Out[7]: [2013-01-01, ..., 2013-01-06] Length: 6, Freq: D, Timezone: None In [8]: df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) In [9]: df Out[9]: A B C D 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 2013-01-04 0.721555 -0.706771 -1.039575 0.271860 2013-01-05 -0.424972 0.567020 0.276232 -1.087401 2013-01-06 -0.673690 0.113648 -1.478427 0.524988

In [ 6 ] : dates = pd . date_range ( '20130101' , periods = 6 )

In [ 7 ] : dates

Out [ 7 ] :

< class 'pandas.tseries.index.DatetimeIndex' >

[ 2013 - 01 - 01 , . . . , 2013 - 01 - 06 ]

Length : 6 , Freq : D , Timezone : None

In [ 8 ] : df = pd . DataFrame ( np . random . randn ( 6 , 4 ) , index = dates , columns = list ( 'ABCD' ) )

In [ 9 ] : df

Out [ 9 ] :

A B C D

2013 - 01 - 01 0.469112 - 0.282863 - 1.509059 - 1.135632

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860

2013 - 01 - 05 - 0.424972 0.567020 0.276232 - 1.087401

2013 - 01 - 06 - 0.673690 0.113648 - 1.478427 0.524988

使用传递的可转换序列的字典对象创建数据帧.

In [10]: df2 = pd.DataFrame({ 'A' : 1., ....: 'B' : pd.Timestamp('20130102'), ....: 'C' : pd.Series(1,index=list(range(4)),dtype='float32'), ....: 'D' : np.array([3] * 4,dtype='int32'), ....: 'E' : pd.Categorical(["test","train","test","train"]), ....: 'F' : 'foo' }) ....: In [11]: df2 Out[11]: A B C D E F 0 1 2013-01-02 1 3 test foo 1 1 2013-01-02 1 3 train foo 2 1 2013-01-02 1 3 test foo 3 1 2013-01-02 1 3 train foo

In [ 10 ] : df2 = pd . DataFrame ( { 'A' : 1. ,

. . . . : 'B' : pd . Timestamp ( '20130102' ) ,

. . . . : 'C' : pd . Series ( 1 , index = list ( range ( 4 ) ) , dtype = 'float32' ) ,

. . . . : 'D' : np . array ( [ 3 ] * 4 , dtype = 'int32' ) ,

. . . . : 'E' : pd . Categorical ( [ "test" , "train" , "test" , "train" ] ) ,

. . . . : 'F' : 'foo' } )

. . . . :

In [ 11 ] : df2

Out [ 11 ] :

A B C D E F

0 1 2013 - 01 - 02 1 3 test foo

1 1 2013 - 01 - 02 1 3 train foo

2 1 2013 - 01 - 02 1 3 test foo

3 1 2013 - 01 - 02 1 3 train foo

所有明确类型

In [12]: df2.dtypes Out[12]: A float64 B datetime64[ns] C float32 D int32 E category F object dtype: object

In [ 12 ] : df2 . dtypes

Out [ 12 ] :

A float64

B datetime64 [ ns ]

C float32

D int32

E category

F object

dtype : object

如果你这个正在使用IPython，标签补全列名（以及公共属性）将自动启用。这里是将要完成的属性的子集：

In [13]: df2. df2.A df2.boxplot df2.abs df2.C df2.add df2.clip df2.add_prefix df2.clip_lower df2.add_suffix df2.clip_upper df2.align df2.columns df2.all df2.combine df2.any df2.combineAdd df2.append df2.combine_first df2.apply df2.combineMult df2.applymap df2.compound df2.as_blocks df2.consolidate df2.asfreq df2.convert_objects df2.as_matrix df2.copy df2.astype df2.corr df2.at df2.corrwith df2.at_time df2.count df2.axes df2.cov df2.B df2.cummax df2.between_time df2.cummin df2.bfill df2.cumprod df2.blocks df2.cumsum df2.bool df2.D

In [ 13 ] : df2 . < TAB >

df2 . A df2 . boxplot

df2 . abs df2 . C

df2 . add df2 . clip

df2 . add_prefix df2 . clip_lower

df2 . add_suffix df2 . clip_upper

df2 . align df2 . columns

df2 . all df2 . combine

df2 . any df2 . combineAdd

df2 . append df2 . combine_first

df2 . apply df2 . combineMult

df2 . applymap df2 . compound

df2 . as_blocks df2 . consolidate

df2 . asfreq df2 . convert_objects

df2 . as_matrix df2 . copy

df2 . astype df2 . corr

df2 . at df2 . corrwith

df2 . at_time df2 . count

df2 . axes df2 . cov

df2 . B df2 . cummax

df2 . between_time df2 . cummin

df2 . bfill df2 . cumprod

df2 . blocks df2 . cumsum

df2 . bool df2 . D

如你所见, 列 A, B, C, 和 D 也是自动完成标签. E 也是可用的; 为了简便起见,后面的属性显示被截断.

查看数据

参阅基础部分

查看帧顶部和底部行

In [14]: df.head() Out[14]: A B C D 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 2013-01-04 0.721555 -0.706771 -1.039575 0.271860 2013-01-05 -0.424972 0.567020 0.276232 -1.087401 In [15]: df.tail(3) Out[15]: A B C D 2013-01-04 0.721555 -0.706771 -1.039575 0.271860 2013-01-05 -0.424972 0.567020 0.276232 -1.087401 2013-01-06 -0.673690 0.113648 -1.478427 0.524988

In [ 14 ] : df . head ( )

Out [ 14 ] :

A B C D

2013 - 01 - 01 0.469112 - 0.282863 - 1.509059 - 1.135632

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860

2013 - 01 - 05 - 0.424972 0.567020 0.276232 - 1.087401

In [ 15 ] : df . tail ( 3 )

Out [ 15 ] :

A B C D

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860

2013 - 01 - 05 - 0.424972 0.567020 0.276232 - 1.087401

2013 - 01 - 06 - 0.673690 0.113648 - 1.478427 0.524988

显示索引,列,和底层numpy数据

In [16]: df.index Out[16]: [2013-01-01, ..., 2013-01-06] Length: 6, Freq: D, Timezone: None In [17]: df.columns Out[17]: Index([u'A', u'B', u'C', u'D'], dtype='object') In [18]: df.values Out[18]: array([[ 0.4691, -0.2829, -1.5091, -1.1356], [ 1.2121, -0.1732, 0.1192, -1.0442], [-0.8618, -2.1046, -0.4949, 1.0718], [ 0.7216, -0.7068, -1.0396, 0.2719], [-0.425 , 0.567 , 0.2762, -1.0874], [-0.6737, 0.1136, -1.4784, 0.525 ]])

In [ 16 ] : df . index

Out [ 16 ] :

< class 'pandas.tseries.index.DatetimeIndex' >

[ 2013 - 01 - 01 , . . . , 2013 - 01 - 06 ]

Length : 6 , Freq : D , Timezone : None

In [ 17 ] : df . columns

Out [ 17 ] : Index ( [ u 'A' , u 'B' , u 'C' , u 'D' ] , dtype = 'object' )

In [ 18 ] : df . values

Out [ 18 ] :

array ( [ [ 0.4691 , - 0.2829 , - 1.5091 , - 1.1356 ] ,

[ 1.2121 , - 0.1732 , 0.1192 , - 1.0442 ] ,

[ - 0.8618 , - 2.1046 , - 0.4949 , 1.0718 ] ,

[ 0.7216 , - 0.7068 , - 1.0396 , 0.2719 ] ,

[ - 0.425 , 0.567 , 0.2762 , - 1.0874 ] ,

[ - 0.6737 , 0.1136 , - 1.4784 , 0.525 ] ] )

描述显示数据快速统计摘要

In [19]: df.describe() Out[19]: A B C D count 6.000000 6.000000 6.000000 6.000000 mean 0.073711 -0.431125 -0.687758 -0.233103 std 0.843157 0.922818 0.779887 0.973118 min -0.861849 -2.104569 -1.509059 -1.135632 25% -0.611510 -0.600794 -1.368714 -1.076610 50% 0.022070 -0.228039 -0.767252 -0.386188 75% 0.658444 0.041933 -0.034326 0.461706 max 1.212112 0.567020 0.276232 1.071804

In [ 19 ] : df . describe ( )

Out [ 19 ] :

A B C D

count 6.000000 6.000000 6.000000 6.000000

mean 0.073711 - 0.431125 - 0.687758 - 0.233103

std 0.843157 0.922818 0.779887 0.973118

min - 0.861849 - 2.104569 - 1.509059 - 1.135632

25 % - 0.611510 - 0.600794 - 1.368714 - 1.076610

50 % 0.022070 - 0.228039 - 0.767252 - 0.386188

75 % 0.658444 0.041933 - 0.034326 0.461706

max 1.212112 0.567020 0.276232 1.071804

转置数据

In [20]: df.T Out[20]: 2013-01-01 2013-01-02 2013-01-03 2013-01-04 2013-01-05 2013-01-06 A 0.469112 1.212112 -0.861849 0.721555 -0.424972 -0.673690 B -0.282863 -0.173215 -2.104569 -0.706771 0.567020 0.113648 C -1.509059 0.119209 -0.494929 -1.039575 0.276232 -1.478427 D -1.135632 -1.044236 1.071804 0.271860 -1.087401 0.524988

In [ 20 ] : df . T

Out [ 20 ] :

2013 - 01 - 01 2013 - 01 - 02 2013 - 01 - 03 2013 - 01 - 04 2013 - 01 - 05 2013 - 01 - 06

A 0.469112 1.212112 - 0.861849 0.721555 - 0.424972 - 0.673690

B - 0.282863 - 0.173215 - 2.104569 - 0.706771 0.567020 0.113648

C - 1.509059 0.119209 - 0.494929 - 1.039575 0.276232 - 1.478427

D - 1.135632 - 1.044236 1.071804 0.271860 - 1.087401 0.524988

按轴排序

In [21]: df.sort_index(axis=1, ascending=False) Out[21]: D C B A 2013-01-01 -1.135632 -1.509059 -0.282863 0.469112 2013-01-02 -1.044236 0.119209 -0.173215 1.212112 2013-01-03 1.071804 -0.494929 -2.104569 -0.861849 2013-01-04 0.271860 -1.039575 -0.706771 0.721555 2013-01-05 -1.087401 0.276232 0.567020 -0.424972 2013-01-06 0.524988 -1.478427 0.113648 -0.673690

In [ 21 ] : df . sort_index ( axis = 1 , ascending = False )

Out [ 21 ] :

D C B A

2013 - 01 - 01 - 1.135632 - 1.509059 - 0.282863 0.469112

2013 - 01 - 02 - 1.044236 0.119209 - 0.173215 1.212112

2013 - 01 - 03 1.071804 - 0.494929 - 2.104569 - 0.861849

2013 - 01 - 04 0.271860 - 1.039575 - 0.706771 0.721555

2013 - 01 - 05 - 1.087401 0.276232 0.567020 - 0.424972

2013 - 01 - 06 0.524988 - 1.478427 0.113648 - 0.673690

按值排序

In [22]: df.sort(columns='B') Out[22]: A B C D 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 2013-01-04 0.721555 -0.706771 -1.039575 0.271860 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-06 -0.673690 0.113648 -1.478427 0.524988 2013-01-05 -0.424972 0.567020 0.276232 -1.087401

In [ 22 ] : df . sort ( columns = 'B' )

Out [ 22 ] :

A B C D

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860

2013 - 01 - 01 0.469112 - 0.282863 - 1.509059 - 1.135632

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 06 - 0.673690 0.113648 - 1.478427 0.524988

2013 - 01 - 05 - 0.424972 0.567020 0.276232 - 1.087401

选择器

注释: 标准Python / Numpy表达式可以完成这些互动工作, 但在生产代码中, 我们推荐使用优化的pandas数据访问方法, .at, .iat, .loc, .iloc 和 .ix.

参阅索引文档索引和选择数据 and 多索引/高级索引

读取

选择单列, 这会产生一个序列, 等价df.A

In [23]: df['A'] Out[23]: 2013-01-01 0.469112 2013-01-02 1.212112 2013-01-03 -0.861849 2013-01-04 0.721555 2013-01-05 -0.424972 2013-01-06 -0.673690 Freq: D, Name: A, dtype: float64

In [ 23 ] : df [ 'A' ]

Out [ 23 ] :

2013 - 01 - 01 0.469112

2013 - 01 - 02 1.212112

2013 - 01 - 03 - 0.861849

2013 - 01 - 04 0.721555

2013 - 01 - 05 - 0.424972

2013 - 01 - 06 - 0.673690

Freq : D , Name : A , dtype : float64

使用[]选择行片断

In [24]: df[0:3] Out[24]: A B C D 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 In [25]: df['20130102':'20130104'] Out[25]: A B C D 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 2013-01-04 0.721555 -0.706771 -1.039575 0.271860

In [ 24 ] : df [ 0 : 3 ]

Out [ 24 ] :

A B C D

2013 - 01 - 01 0.469112 - 0.282863 - 1.509059 - 1.135632

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804

In [ 25 ] : df [ '20130102' : '20130104' ]

Out [ 25 ] :

A B C D

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860

使用标签选择

更多信息请参阅按标签选择

使用标签获取横截面

In [26]: df.loc[dates[0]] Out[26]: A 0.469112 B -0.282863 C -1.509059 D -1.135632 Name: 2013-01-01 00:00:00, dtype: float64

In [ 26 ] : df . loc [ dates [ 0 ] ]

Out [ 26 ] :

A 0.469112

B - 0.282863

C - 1.509059

D - 1.135632

Name : 2013 - 01 - 01 00 : 00 : 00 , dtype : float64

使用标签选择多轴

In [27]: df.loc[:,['A','B']] Out[27]: A B 2013-01-01 0.469112 -0.282863 2013-01-02 1.212112 -0.173215 2013-01-03 -0.861849 -2.104569 2013-01-04 0.721555 -0.706771 2013-01-05 -0.424972 0.567020 2013-01-06 -0.673690 0.113648

In [ 27 ] : df . loc [ : , [ 'A' , 'B' ] ]

Out [ 27 ] :

A B

2013 - 01 - 01 0.469112 - 0.282863

2013 - 01 - 02 1.212112 - 0.173215

2013 - 01 - 03 - 0.861849 - 2.104569

2013 - 01 - 04 0.721555 - 0.706771

2013 - 01 - 05 - 0.424972 0.567020

2013 - 01 - 06 - 0.673690 0.113648

显示标签切片, 包含两个端点

In [28]: df.loc['20130102':'20130104',['A','B']] Out[28]: A B 2013-01-02 1.212112 -0.173215 2013-01-03 -0.861849 -2.104569 2013-01-04 0.721555 -0.706771

In [ 28 ] : df . loc [ '20130102' : '20130104' , [ 'A' , 'B' ] ]

Out [ 28 ] :

A B

2013 - 01 - 02 1.212112 - 0.173215

2013 - 01 - 03 - 0.861849 - 2.104569

2013 - 01 - 04 0.721555 - 0.706771

降低返回对象维度

In [29]: df.loc['20130102',['A','B']] Out[29]: A 1.212112 B -0.173215 Name: 2013-01-02 00:00:00, dtype: float64

In [ 29 ] : df . loc [ '20130102' , [ 'A' , 'B' ] ]

Out [ 29 ] :

A 1.212112

B - 0.173215

Name : 2013 - 01 - 02 00 : 00 : 00 , dtype : float64

获取标量值

In [30]: df.loc[dates[0],'A'] Out[30]: 0.46911229990718628

1 2	In [ 30 ] : df . loc [ dates [ 0 ] , 'A' ] Out [ 30 ] : 0.46911229990718628

快速访问并获取标量数据 (等价上面的方法)

In [31]: df.at[dates[0],'A'] Out[31]: 0.46911229990718628

1 2	In [ 31 ] : df . at [ dates [ 0 ] , 'A' ] Out [ 31 ] : 0.46911229990718628

按位置选择

更多信息请参阅按位置参阅

传递整数选择位置

In [32]: df.iloc[3] Out[32]: A 0.721555 B -0.706771 C -1.039575 D 0.271860 Name: 2013-01-04 00:00:00, dtype: float64

In [ 32 ] : df . iloc [ 3 ]

Out [ 32 ] :

A 0.721555

B - 0.706771

C - 1.039575

D 0.271860

Name : 2013 - 01 - 04 00 : 00 : 00 , dtype : float64

使用整数片断,效果类似numpy/python

In [33]: df.iloc[3:5,0:2] Out[33]: A B 2013-01-04 0.721555 -0.706771 2013-01-05 -0.424972 0.567020

In [ 33 ] : df . iloc [ 3 : 5 , 0 : 2 ]

Out [ 33 ] :

A B

2013 - 01 - 04 0.721555 - 0.706771

2013 - 01 - 05 - 0.424972 0.567020

使用整数偏移定位列表,效果类似 numpy/python 样式

In [34]: df.iloc[[1,2,4],[0,2]] Out[34]: A C 2013-01-02 1.212112 0.119209 2013-01-03 -0.861849 -0.494929 2013-01-05 -0.424972 0.276232

In [ 34 ] : df . iloc [ [ 1 , 2 , 4 ] , [ 0 , 2 ] ]

Out [ 34 ] :

A C

2013 - 01 - 02 1.212112 0.119209

2013 - 01 - 03 - 0.861849 - 0.494929

2013 - 01 - 05 - 0.424972 0.276232

显式行切片

In [35]: df.iloc[1:3,:] Out[35]: A B C D 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804

In [ 35 ] : df . iloc [ 1 : 3 , : ]

Out [ 35 ] :

A B C D

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804

显式列切片

In [36]: df.iloc[:,1:3] Out[36]: B C 2013-01-01 -0.282863 -1.509059 2013-01-02 -0.173215 0.119209 2013-01-03 -2.104569 -0.494929 2013-01-04 -0.706771 -1.039575 2013-01-05 0.567020 0.276232 2013-01-06 0.113648 -1.478427

In [ 36 ] : df . iloc [ : , 1 : 3 ]

Out [ 36 ] :

B C

2013 - 01 - 01 - 0.282863 - 1.509059

2013 - 01 - 02 - 0.173215 0.119209

2013 - 01 - 03 - 2.104569 - 0.494929

2013 - 01 - 04 - 0.706771 - 1.039575

2013 - 01 - 05 0.567020 0.276232

2013 - 01 - 06 0.113648 - 1.478427

显式获取一个值

In [37]: df.iloc[1,1] Out[37]: -0.17321464905330861

1 2	In [ 37 ] : df . iloc [ 1 , 1 ] Out [ 37 ] : - 0.17321464905330861

快速访问一个标量（等同上个方法）

In [38]: df.iat[1,1] Out[38]: -0.17321464905330861

1 2	In [ 38 ] : df . iat [ 1 , 1 ] Out [ 38 ] : - 0.17321464905330861

布尔索引

使用单个列的值选择数据.

In [39]: df[df.A > 0] Out[39]: A B C D 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-04 0.721555 -0.706771 -1.039575 0.271860

In [ 39 ] : df [ df . A > 0 ]

Out [ 39 ] :

A B C D

2013 - 01 - 01 0.469112 - 0.282863 - 1.509059 - 1.135632

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860

where 操作.

In [40]: df[df > 0] Out[40]: A B C D 2013-01-01 0.469112 NaN NaN NaN 2013-01-02 1.212112 NaN 0.119209 NaN 2013-01-03 NaN NaN NaN 1.071804 2013-01-04 0.721555 NaN NaN 0.271860 2013-01-05 NaN 0.567020 0.276232 NaN 2013-01-06 NaN 0.113648 NaN 0.524988

In [ 40 ] : df [ df > 0 ]

Out [ 40 ] :

A B C D

2013 - 01 - 01 0.469112 NaN NaN NaN

2013 - 01 - 02 1.212112 NaN 0.119209 NaN

2013 - 01 - 03 NaN NaN NaN 1.071804

2013 - 01 - 04 0.721555 NaN NaN 0.271860

2013 - 01 - 05 NaN 0.567020 0.276232 NaN

2013 - 01 - 06 NaN 0.113648 NaN 0.524988

使用 isin() 筛选：

In [41]: df2 = df.copy() In [42]: df2['E']=['one', 'one','two','three','four','three'] In [43]: df2 Out[43]: A B C D E 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 one 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 one 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 two 2013-01-04 0.721555 -0.706771 -1.039575 0.271860 three 2013-01-05 -0.424972 0.567020 0.276232 -1.087401 four 2013-01-06 -0.673690 0.113648 -1.478427 0.524988 three In [44]: df2[df2['E'].isin(['two','four'])] Out[44]: A B C D E 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 two 2013-01-05 -0.424972 0.567020 0.276232 -1.087401 four

In [ 41 ] : df2 = df . copy ( )

In [ 42 ] : df2 [ 'E' ] = [ 'one' , 'one' , 'two' , 'three' , 'four' , 'three' ]

In [ 43 ] : df2

Out [ 43 ] :

A B C D E

2013 - 01 - 01 0.469112 - 0.282863 - 1.509059 - 1.135632 one

2013 - 01 - 02 1.212112 - 0.173215 0.119209 - 1.044236 one

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804 two

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 0.271860 three

2013 - 01 - 05 - 0.424972 0.567020 0.276232 - 1.087401 four

2013 - 01 - 06 - 0.673690 0.113648 - 1.478427 0.524988 three

In [ 44 ] : df2 [ df2 [ 'E' ] . isin ( [ 'two' , 'four' ] ) ]

Out [ 44 ] :

A B C D E

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 1.071804 two

2013 - 01 - 05 - 0.424972 0.567020 0.276232 - 1.087401 four

赋值

赋值一个新列，通过索引自动对齐数据

In [45]: s1 = pd.Series([1,2,3,4,5,6],index=pd.date_range('20130102',periods=6)) In [46]: s1 Out[46]: 2013-01-02 1 2013-01-03 2 2013-01-04 3 2013-01-05 4 2013-01-06 5 2013-01-07 6 Freq: D, dtype: int64 In [47]: df['F'] = s1

In [ 45 ] : s1 = pd . Series ( [ 1 , 2 , 3 , 4 , 5 , 6 ] , index = pd . date_range ( '20130102' , periods = 6 ) )

In [ 46 ] : s1

Out [ 46 ] :

2013 - 01 - 02 1

2013 - 01 - 03 2

2013 - 01 - 04 3

2013 - 01 - 05 4

2013 - 01 - 06 5

2013 - 01 - 07 6

Freq : D , dtype : int64

In [ 47 ] : df [ 'F' ] = s1

按标签赋值

In [48]: df.at[dates[0],'A'] = 0

1	In [ 48 ] : df . at [ dates [ 0 ] , 'A' ] = 0

按位置赋值

In [49]: df.iat[0,1] = 0

1	In [ 49 ] : df . iat [ 0 , 1 ] = 0

通过numpy数组分配赋值

In [50]: df.loc[:,'D'] = np.array([5] * len(df))

1	In [ 50 ] : df . loc [ : , 'D' ] = np . array ( [ 5 ] * len ( df ) )

之前的操作结果

In [51]: df Out[51]: A B C D F 2013-01-01 0.000000 0.000000 -1.509059 5 NaN 2013-01-02 1.212112 -0.173215 0.119209 5 1 2013-01-03 -0.861849 -2.104569 -0.494929 5 2 2013-01-04 0.721555 -0.706771 -1.039575 5 3 2013-01-05 -0.424972 0.567020 0.276232 5 4 2013-01-06 -0.673690 0.113648 -1.478427 5 5

In [ 51 ] : df

Out [ 51 ] :

A B C D F

2013 - 01 - 01 0.000000 0.000000 - 1.509059 5 NaN

2013 - 01 - 02 1.212112 - 0.173215 0.119209 5 1

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 5 2

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 5 3

2013 - 01 - 05 - 0.424972 0.567020 0.276232 5 4

2013 - 01 - 06 - 0.673690 0.113648 - 1.478427 5 5

where 操作赋值.

In [52]: df2 = df.copy() In [53]: df2[df2 > 0] = -df2 In [54]: df2 Out[54]: A B C D F 2013-01-01 0.000000 0.000000 -1.509059 -5 NaN 2013-01-02 -1.212112 -0.173215 -0.119209 -5 -1 2013-01-03 -0.861849 -2.104569 -0.494929 -5 -2 2013-01-04 -0.721555 -0.706771 -1.039575 -5 -3 2013-01-05 -0.424972 -0.567020 -0.276232 -5 -4 2013-01-06 -0.673690 -0.113648 -1.478427 -5 -5

In [ 52 ] : df2 = df . copy ( )

In [ 53 ] : df2 [ df2 > 0 ] = - df2

In [ 54 ] : df2

Out [ 54 ] :

A B C D F

2013 - 01 - 01 0.000000 0.000000 - 1.509059 - 5 NaN

2013 - 01 - 02 - 1.212112 - 0.173215 - 0.119209 - 5 - 1

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 - 5 - 2

2013 - 01 - 04 - 0.721555 - 0.706771 - 1.039575 - 5 - 3

2013 - 01 - 05 - 0.424972 - 0.567020 - 0.276232 - 5 - 4

2013 - 01 - 06 - 0.673690 - 0.113648 - 1.478427 - 5 - 5

丢失的数据

pandas主要使用np.nan替换丢失的数据. 默认情况下它并不包含在计算中. 请参阅 Missing Data section

重建索引允许更改/添加/删除指定轴索引,并返回数据副本.

In [55]: df1 = df.reindex(index=dates[0:4],columns=list(df.columns) + ['E']) In [56]: df1.loc[dates[0]:dates[1],'E'] = 1 In [57]: df1 Out[57]: A B C D F E 2013-01-01 0.000000 0.000000 -1.509059 5 NaN 1 2013-01-02 1.212112 -0.173215 0.119209 5 1 1 2013-01-03 -0.861849 -2.104569 -0.494929 5 2 NaN 2013-01-04 0.721555 -0.706771 -1.039575 5 3 NaN

In [ 55 ] : df1 = df . reindex ( index = dates [ 0 : 4 ] , columns = list ( df . columns ) + [ 'E' ] )

In [ 56 ] : df1 . loc [ dates [ 0 ] : dates [ 1 ] , 'E' ] = 1

In [ 57 ] : df1

Out [ 57 ] :

A B C D F E

2013 - 01 - 01 0.000000 0.000000 - 1.509059 5 NaN 1

2013 - 01 - 02 1.212112 - 0.173215 0.119209 5 1 1

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 5 2 NaN

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 5 3 NaN

删除任何有丢失数据的行.

In [58]: df1.dropna(how='any') Out[58]: A B C D F E 2013-01-02 1.212112 -0.173215 0.119209 5 1 1

In [ 58 ] : df1 . dropna ( how = 'any' )

Out [ 58 ] :

A B C D F E

2013 - 01 - 02 1.212112 - 0.173215 0.119209 5 1 1

填充丢失数据

In [59]: df1.fillna(value=5) Out[59]: A B C D F E 2013-01-01 0.000000 0.000000 -1.509059 5 5 1 2013-01-02 1.212112 -0.173215 0.119209 5 1 1 2013-01-03 -0.861849 -2.104569 -0.494929 5 2 5 2013-01-04 0.721555 -0.706771 -1.039575 5 3 5

In [ 59 ] : df1 . fillna ( value = 5 )

Out [ 59 ] :

A B C D F E

2013 - 01 - 01 0.000000 0.000000 - 1.509059 5 5 1

2013 - 01 - 02 1.212112 - 0.173215 0.119209 5 1 1

2013 - 01 - 03 - 0.861849 - 2.104569 - 0.494929 5 2 5

2013 - 01 - 04 0.721555 - 0.706771 - 1.039575 5 3 5

获取值是否nan的布尔标记

In [60]: pd.isnull(df1) Out[60]: A B C D F E 2013-01-01 False False False False True False 2013-01-02 False False False False False False 2013-01-03 False False False False False True 2013-01-04 False False False False False True

In [ 60 ] : pd . isnull ( df1 )

Out [ 60 ] :

A B C D F E

2013 - 01 - 01 False False False False True False

2013 - 01 - 02 False False False False False False

2013 - 01 - 03 False False False False False True

2013 - 01 - 04 False False False False False True

运算

参阅二元运算基础

统计

计算时一般不包括丢失的数据

执行描述性统计

In [61]: df.mean() Out[61]: A -0.004474 B -0.383981 C -0.687758 D 5.000000 F 3.000000 dtype: float64

In [ 61 ] : df . mean ( )

Out [ 61 ] :

A - 0.004474

B - 0.383981

C - 0.687758

D 5.000000

F 3.000000

dtype : float64

在其他轴做相同的运算

In [62]: df.mean(1) Out[62]: 2013-01-01 0.872735 2013-01-02 1.431621 2013-01-03 0.707731 2013-01-04 1.395042 2013-01-05 1.883656 2013-01-06 1.592306 Freq: D, dtype: float64

In [ 62 ] : df . mean ( 1 )

Out [ 62 ] :

2013 - 01 - 01 0.872735

2013 - 01 - 02 1.431621

2013 - 01 - 03 0.707731

2013 - 01 - 04 1.395042

2013 - 01 - 05 1.883656

2013 - 01 - 06 1.592306

Freq : D , dtype : float64

用于运算的对象有不同的维度并需要对齐.除此之外，pandas会自动沿着指定维度计算.

In [63]: s = pd.Series([1,3,5,np.nan,6,8],index=dates).shift(2) In [64]: s Out[64]: 2013-01-01 NaN 2013-01-02 NaN 2013-01-03 1 2013-01-04 3 2013-01-05 5 2013-01-06 NaN Freq: D, dtype: float64 In [65]: df.sub(s,axis='index') Out[65]: A B C D F 2013-01-01 NaN NaN NaN NaN NaN 2013-01-02 NaN NaN NaN NaN NaN 2013-01-03 -1.861849 -3.104569 -1.494929 4 1 2013-01-04 -2.278445 -3.706771 -4.039575 2 0 2013-01-05 -5.424972 -4.432980 -4.723768 0 -1 2013-01-06 NaN NaN NaN NaN NaN

In [ 63 ] : s = pd . Series ( [ 1 , 3 , 5 , np . nan , 6 , 8 ] , index = dates ) . shift ( 2 )

In [ 64 ] : s

Out [ 64 ] :

2013 - 01 - 01 NaN

2013 - 01 - 02 NaN

2013 - 01 - 03 1

2013 - 01 - 04 3

2013 - 01 - 05 5

2013 - 01 - 06 NaN

Freq : D , dtype : float64

In [ 65 ] : df . sub ( s , axis = 'index' )

Out [ 65 ] :

A B C D F

2013 - 01 - 01 NaN NaN NaN NaN NaN

2013 - 01 - 02 NaN NaN NaN NaN NaN

2013 - 01 - 03 - 1.861849 - 3.104569 - 1.494929 4 1

2013 - 01 - 04 - 2.278445 - 3.706771 - 4.039575 2 0

2013 - 01 - 05 - 5.424972 - 4.432980 - 4.723768 0 - 1

2013 - 01 - 06 NaN NaN NaN NaN NaN

Apply

在数据上使用函数

In [66]: df.apply(np.cumsum) Out[66]: A B C D F 2013-01-01 0.000000 0.000000 -1.509059 5 NaN 2013-01-02 1.212112 -0.173215 -1.389850 10 1 2013-01-03 0.350263 -2.277784 -1.884779 15 3 2013-01-04 1.071818 -2.984555 -2.924354 20 6 2013-01-05 0.646846 -2.417535 -2.648122 25 10 2013-01-06 -0.026844 -2.303886 -4.126549 30 15 In [67]: df.apply(lambda x: x.max() - x.min()) Out[67]: A 2.073961 B 2.671590 C 1.785291 D 0.000000 F 4.000000 dtype: float64

In [ 66 ] : df . apply ( np . cumsum )

Out [ 66 ] :

A B C D F

2013 - 01 - 01 0.000000 0.000000 - 1.509059 5 NaN

2013 - 01 - 02 1.212112 - 0.173215 - 1.389850 10 1

2013 - 01 - 03 0.350263 - 2.277784 - 1.884779 15 3

2013 - 01 - 04 1.071818 - 2.984555 - 2.924354 20 6

2013 - 01 - 05 0.646846 - 2.417535 - 2.648122 25 10

2013 - 01 - 06 - 0.026844 - 2.303886 - 4.126549 30 15

In [ 67 ] : df . apply ( lambda x : x . max ( ) - x . min ( ) )

Out [ 67 ] :

A 2.073961

B 2.671590

C 1.785291

D 0.000000

F 4.000000

dtype : float64

直方图

请参阅直方图和离散化

In [68]: s = pd.Series(np.random.randint(0,7,size=10)) In [69]: s Out[69]: 0 4 1 2 2 1 3 2 4 6 5 4 6 4 7 6 8 4 9 4 dtype: int32 In [70]: s.value_counts() Out[70]: 4 5 6 2 2 2 1 1 dtype: int64

In [ 68 ] : s = pd . Series ( np . random . randint ( 0 , 7 , size = 10 ) )

In [ 69 ] : s

Out [ 69 ] :

0 4

1 2

2 1

3 2

4 6

5 4

6 4

7 6

8 4

9 4

dtype : int32

In [ 70 ] : s . value_counts ( )

Out [ 70 ] :

4 5

6 2

2 2

1 1

dtype : int64

字符串方法

序列可以使用一些字符串处理方法很轻易操作数据组中的每个元素,比如以下代码片断。注意字符匹配方法默认情况下通常使用正则表达式（并且大多数时候都如此）. 更多信息请参阅字符串向量方法.

In [71]: s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat']) In [72]: s.str.lower() Out[72]: 0 a 1 b 2 c 3 aaba 4 baca 5 NaN 6 caba 7 dog 8 cat dtype: object

In [ 71 ] : s = pd . Series ( [ 'A' , 'B' , 'C' , 'Aaba' , 'Baca' , np . nan , 'CABA' , 'dog' , 'cat' ] )

In [ 72 ] : s . str . lower ( )

Out [ 72 ] :

0 a

1 b

2 c

3 aaba

4 baca

5 NaN

6 caba

7 dog

8 cat

dtype : object

合并

连接

pandas提供各种工具以简便合并序列,数据桢,和组合对象, 在连接/合并类型操作中使用多种类型索引和相关数学函数.

请参阅合并部分

把pandas对象连接到一起

In [73]: df = pd.DataFrame(np.random.randn(10, 4)) In [74]: df Out[74]: 0 1 2 3 0 -0.548702 1.467327 -1.015962 -0.483075 1 1.637550 -1.217659 -0.291519 -1.745505 2 -0.263952 0.991460 -0.919069 0.266046 3 -0.709661 1.669052 1.037882 -1.705775 4 -0.919854 -0.042379 1.247642 -0.009920 5 0.290213 0.495767 0.362949 1.548106 6 -1.131345 -0.089329 0.337863 -0.945867 7 -0.932132 1.956030 0.017587 -0.016692 8 -0.575247 0.254161 -1.143704 0.215897 9 1.193555 -0.077118 -0.408530 -0.862495 # break it into pieces In [75]: pieces = [df[:3], df[3:7], df[7:]] In [76]: pd.concat(pieces) Out[76]: 0 1 2 3 0 -0.548702 1.467327 -1.015962 -0.483075 1 1.637550 -1.217659 -0.291519 -1.745505 2 -0.263952 0.991460 -0.919069 0.266046 3 -0.709661 1.669052 1.037882 -1.705775 4 -0.919854 -0.042379 1.247642 -0.009920 5 0.290213 0.495767 0.362949 1.548106 6 -1.131345 -0.089329 0.337863 -0.945867 7 -0.932132 1.956030 0.017587 -0.016692 8 -0.575247 0.254161 -1.143704 0.215897 9 1.193555 -0.077118 -0.408530 -0.862495

In [ 73 ] : df = pd . DataFrame ( np . random . randn ( 10 , 4 ) )

In [ 74 ] : df

Out [ 74 ] :

0 1 2 3

0 - 0.548702 1.467327 - 1.015962 - 0.483075

1 1.637550 - 1.217659 - 0.291519 - 1.745505

2 - 0.263952 0.991460 - 0.919069 0.266046

3 - 0.709661 1.669052 1.037882 - 1.705775

4 - 0.919854 - 0.042379 1.247642 - 0.009920

5 0.290213 0.495767 0.362949 1.548106

6 - 1.131345 - 0.089329 0.337863 - 0.945867

7 - 0.932132 1.956030 0.017587 - 0.016692

8 - 0.575247 0.254161 - 1.143704 0.215897

9 1.193555 - 0.077118 - 0.408530 - 0.862495

# break it into pieces

In [ 75 ] : pieces = [ df [ : 3 ] , df [ 3 : 7 ] , df [ 7 : ] ]

In [ 76 ] : pd . concat ( pieces )

Out [ 76 ] :

0 1 2 3

0 - 0.548702 1.467327 - 1.015962 - 0.483075

1 1.637550 - 1.217659 - 0.291519 - 1.745505

2 - 0.263952 0.991460 - 0.919069 0.266046

3 - 0.709661 1.669052 1.037882 - 1.705775

4 - 0.919854 - 0.042379 1.247642 - 0.009920

5 0.290213 0.495767 0.362949 1.548106

6 - 1.131345 - 0.089329 0.337863 - 0.945867

7 - 0.932132 1.956030 0.017587 - 0.016692

8 - 0.575247 0.254161 - 1.143704 0.215897

9 1.193555 - 0.077118 - 0.408530 - 0.862495

连接

SQL样式合并. 请参阅数据库style联接

In [77]: left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]}) In [78]: right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]}) In [79]: left Out[79]: key lval 0 foo 1 1 foo 2 In [80]: right Out[80]: key rval 0 foo 4 1 foo 5 In [81]: pd.merge(left, right, on='key') Out[81]: key lval rval 0 foo 1 4 1 foo 1 5 2 foo 2 4 3 foo 2 5

In [ 77 ] : left = pd . DataFrame ( { 'key' : [ 'foo' , 'foo' ] , 'lval' : [ 1 , 2 ] } )

In [ 78 ] : right = pd . DataFrame ( { 'key' : [ 'foo' , 'foo' ] , 'rval' : [ 4 , 5 ] } )

In [ 79 ] : left

Out [ 79 ] :

key lval

0 foo 1

1 foo 2

In [ 80 ] : right

Out [ 80 ] :

key rval

0 foo 4

1 foo 5

In [ 81 ] : pd . merge ( left , right , on = 'key' )

Out [ 81 ] :

key lval rval

0 foo 1 4

1 foo 1 5

2 foo 2 4

3 foo 2 5

添加

添加行到数据增. 参阅添加

In [82]: df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D']) In [83]: df Out[83]: A B C D 0 1.346061 1.511763 1.627081 -0.990582 1 -0.441652 1.211526 0.268520 0.024580 2 -1.577585 0.396823 -0.105381 -0.532532 3 1.453749 1.208843 -0.080952 -0.264610 4 -0.727965 -0.589346 0.339969 -0.693205 5 -0.339355 0.593616 0.884345 1.591431 6 0.141809 0.220390 0.435589 0.192451 7 -0.096701 0.803351 1.715071 -0.708758 In [84]: s = df.iloc[3] In [85]: df.append(s, ignore_index=True) Out[85]: A B C D 0 1.346061 1.511763 1.627081 -0.990582 1 -0.441652 1.211526 0.268520 0.024580 2 -1.577585 0.396823 -0.105381 -0.532532 3 1.453749 1.208843 -0.080952 -0.264610 4 -0.727965 -0.589346 0.339969 -0.693205 5 -0.339355 0.593616 0.884345 1.591431 6 0.141809 0.220390 0.435589 0.192451 7 -0.096701 0.803351 1.715071 -0.708758 8 1.453749 1.208843 -0.080952 -0.264610

In [ 82 ] : df = pd . DataFrame ( np . random . randn ( 8 , 4 ) , columns = [ 'A' , 'B' , 'C' , 'D' ] )

In [ 83 ] : df

Out [ 83 ] :

A B C D

0 1.346061 1.511763 1.627081 - 0.990582

1 - 0.441652 1.211526 0.268520 0.024580

2 - 1.577585 0.396823 - 0.105381 - 0.532532

3 1.453749 1.208843 - 0.080952 - 0.264610

4 - 0.727965 - 0.589346 0.339969 - 0.693205

5 - 0.339355 0.593616 0.884345 1.591431

6 0.141809 0.220390 0.435589 0.192451

7 - 0.096701 0.803351 1.715071 - 0.708758

In [ 84 ] : s = df . iloc [ 3 ]

In [ 85 ] : df . append ( s , ignore_index = True )

Out [ 85 ] :

A B C D

0 1.346061 1.511763 1.627081 - 0.990582

1 - 0.441652 1.211526 0.268520 0.024580

2 - 1.577585 0.396823 - 0.105381 - 0.532532

3 1.453749 1.208843 - 0.080952 - 0.264610

4 - 0.727965 - 0.589346 0.339969 - 0.693205

5 - 0.339355 0.593616 0.884345 1.591431

6 0.141809 0.220390 0.435589 0.192451

7 - 0.096701 0.803351 1.715071 - 0.708758

8 1.453749 1.208843 - 0.080952 - 0.264610

分组

对于“group by”指的是以下一个或多个处理

将数据按某些标准分割为不同的组
在每个独立组上应用函数
组合结果为一个数据结构

请参阅分组部分

In [86]: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', ....: 'foo', 'bar', 'foo', 'foo'], ....: 'B' : ['one', 'one', 'two', 'three', ....: 'two', 'two', 'one', 'three'], ....: 'C' : np.random.randn(8), ....: 'D' : np.random.randn(8)}) ....: In [87]: df Out[87]: A B C D 0 foo one -1.202872 -0.055224 1 bar one -1.814470 2.395985 2 foo two 1.018601 1.552825 3 bar three -0.595447 0.166599 4 foo two 1.395433 0.047609 5 bar two -0.392670 -0.136473 6 foo one 0.007207 -0.561757 7 foo three 1.928123 -1.623033

In [ 86 ] : df = pd . DataFrame ( { 'A' : [ 'foo' , 'bar' , 'foo' , 'bar' ,

. . . . : 'foo' , 'bar' , 'foo' , 'foo' ] ,

. . . . : 'B' : [ 'one' , 'one' , 'two' , 'three' ,

. . . . : 'two' , 'two' , 'one' , 'three' ] ,

. . . . : 'C' : np . random . randn ( 8 ) ,

. . . . : 'D' : np . random . randn ( 8 ) } )

. . . . :

In [ 87 ] : df

Out [ 87 ] :

A B C D

0 foo one - 1.202872 - 0.055224

1 bar one - 1.814470 2.395985

2 foo two 1.018601 1.552825

3 bar three - 0.595447 0.166599

4 foo two 1.395433 0.047609

5 bar two - 0.392670 - 0.136473

6 foo one 0.007207 - 0.561757

7 foo three 1.928123 - 1.623033

分组然后应用函数统计总和存放到结果组

In [88]: df.groupby('A').sum() Out[88]: C D A bar -2.802588 2.42611 foo 3.146492 -0.63958

In [ 88 ] : df . groupby ( 'A' ) . sum ( )

Out [ 88 ] :

C D

bar - 2.802588 2.42611

foo 3.146492 - 0.63958

按多列分组为层次索引,然后应用函数

In [89]: df.groupby(['A','B']).sum() Out[89]: C D A B bar one -1.814470 2.395985 three -0.595447 0.166599 two -0.392670 -0.136473 foo one -1.195665 -0.616981 three 1.928123 -1.623033 two 2.414034 1.600434

In [ 89 ] : df . groupby ( [ 'A' , 'B' ] ) . sum ( )

Out [ 89 ] :

C D

A B

bar one - 1.814470 2.395985

three - 0.595447 0.166599

two - 0.392670 - 0.136473

foo one - 1.195665 - 0.616981

three 1.928123 - 1.623033

two 2.414034 1.600434

重塑

请参阅章节分层索引和重塑.

堆叠

In [90]: tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', ....: 'foo', 'foo', 'qux', 'qux'], ....: ['one', 'two', 'one', 'two', ....: 'one', 'two', 'one', 'two']])) ....: In [91]: index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) In [92]: df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B']) In [93]: df2 = df[:4] In [94]: df2 Out[94]: A B first second bar one 0.029399 -0.542108 two 0.282696 -0.087302 baz one -1.575170 1.771208 two 0.816482 1.100230

In [ 90 ] : tuples = list ( zip ( * [ [ 'bar' , 'bar' , 'baz' , 'baz' ,

. . . . : 'foo' , 'foo' , 'qux' , 'qux' ] ,

. . . . : [ 'one' , 'two' , 'one' , 'two' ,

. . . . : 'one' , 'two' , 'one' , 'two' ] ] ) )

. . . . :

In [ 91 ] : index = pd . MultiIndex . from_tuples ( tuples , names = [ 'first' , 'second' ] )

In [ 92 ] : df = pd . DataFrame ( np . random . randn ( 8 , 2 ) , index = index , columns = [ 'A' , 'B' ] )

In [ 93 ] : df2 = df [ : 4 ]

In [ 94 ] : df2

Out [ 94 ] :

A B

first second

bar one 0.029399 - 0.542108

two 0.282696 - 0.087302

baz one - 1.575170 1.771208

two 0.816482 1.100230

堆叠函数 “压缩” 数据桢的列一个级别.

In [95]: stacked = df2.stack() In [96]: stacked Out[96]: first second bar one A 0.029399 B -0.542108 two A 0.282696 B -0.087302 baz one A -1.575170 B 1.771208 two A 0.816482 B 1.100230 dtype: float64

In [ 95 ] : stacked = df2 . stack ( )

In [ 96 ] : stacked

Out [ 96 ] :

first second

bar one A 0.029399

B - 0.542108

two A 0.282696

B - 0.087302

baz one A - 1.575170

B 1.771208

two A 0.816482

B 1.100230

dtype : float64

被“堆叠”数据桢或序列(有多个索引作为索引), 其堆叠的反向操作是未堆栈, 上面的数据默认反堆叠到上一级别:

In [97]: stacked.unstack() Out[97]: A B first second bar one 0.029399 -0.542108 two 0.282696 -0.087302 baz one -1.575170 1.771208 two 0.816482 1.100230 In [98]: stacked.unstack(1) Out[98]: second one two first bar A 0.029399 0.282696 B -0.542108 -0.087302 baz A -1.575170 0.816482 B 1.771208 1.100230 In [99]: stacked.unstack(0) Out[99]: first bar baz second one A 0.029399 -1.575170 B -0.542108 1.771208 two A 0.282696 0.816482 B -0.087302 1.100230

In [ 97 ] : stacked . unstack ( )

Out [ 97 ] :

A B

first second

bar one 0.029399 - 0.542108

two 0.282696 - 0.087302

baz one - 1.575170 1.771208

two 0.816482 1.100230

In [ 98 ] : stacked . unstack ( 1 )

Out [ 98 ] :

second one two

first

bar A 0.029399 0.282696

B - 0.542108 - 0.087302

baz A - 1.575170 0.816482

B 1.771208 1.100230

In [ 99 ] : stacked . unstack ( 0 )

Out [ 99 ] :

first bar baz

second

one A 0.029399 - 1.575170

B - 0.542108 1.771208

two A 0.282696 0.816482

B - 0.087302 1.100230

数据透视表

查看数据透视表.

In [100]: df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3, .....: 'B' : ['A', 'B', 'C'] * 4, .....: 'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2, .....: 'D' : np.random.randn(12), .....: 'E' : np.random.randn(12)}) .....: In [101]: df Out[101]: A B C D E 0 one A foo 1.418757 -0.179666 1 one B foo -1.879024 1.291836 2 two C foo 0.536826 -0.009614 3 three A bar 1.006160 0.392149 4 one B bar -0.029716 0.264599 5 one C bar -1.146178 -0.057409 6 two A foo 0.100900 -1.425638 7 three B foo -1.035018 1.024098 8 one C foo 0.314665 -0.106062 9 one A bar -0.773723 1.824375 10 two B bar -1.170653 0.595974 11 three C bar 0.648740 1.167115

In [ 100 ] : df = pd . DataFrame ( { 'A' : [ 'one' , 'one' , 'two' , 'three' ] * 3 ,

. . . . . : 'B' : [ 'A' , 'B' , 'C' ] * 4 ,

. . . . . : 'C' : [ 'foo' , 'foo' , 'foo' , 'bar' , 'bar' , 'bar' ] * 2 ,

. . . . . : 'D' : np . random . randn ( 12 ) ,

. . . . . : 'E' : np . random . randn ( 12 ) } )

. . . . . :

In [ 101 ] : df

Out [ 101 ] :

A B C D E

0 one A foo 1.418757 - 0.179666

1 one B foo - 1.879024 1.291836

2 two C foo 0.536826 - 0.009614

3 three A bar 1.006160 0.392149

4 one B bar - 0.029716 0.264599

5 one C bar - 1.146178 - 0.057409

6 two A foo 0.100900 - 1.425638

7 three B foo - 1.035018 1.024098

8 one C foo 0.314665 - 0.106062

9 one A bar - 0.773723 1.824375

10 two B bar - 1.170653 0.595974

11 three C bar 0.648740 1.167115

我们可以从此数据非常容易的产生数据透视表:

In [102]: pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C']) Out[102]: C bar foo A B one A -0.773723 1.418757 B -0.029716 -1.879024 C -1.146178 0.314665 three A 1.006160 NaN B NaN -1.035018 C 0.648740 NaN two A NaN 0.100900 B -1.170653 NaN C NaN 0.536826

In [ 102 ] : pd . pivot_table ( df , values = 'D' , index = [ 'A' , 'B' ] , columns = [ 'C' ] )

Out [ 102 ] :

C bar foo

A B

one A - 0.773723 1.418757

B - 0.029716 - 1.879024

C - 1.146178 0.314665

three A 1.006160 NaN

B NaN - 1.035018

C 0.648740 NaN

two A NaN 0.100900

B - 1.170653 NaN

C NaN 0.536826

时间序列

pandas有易用,强大且高效的函数用于高频数据重采样转换操作(例如,转换秒数据到5分钟数据), 这是很普遍的情况，但并不局限于金融应用, 请参阅时间序列章节

In [103]: rng = pd.date_range('1/1/2012', periods=100, freq='S') In [104]: ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng) In [105]: ts.resample('5Min', how='sum') Out[105]: 2012-01-01 25083 Freq: 5T, dtype: int32

In [ 103 ] : rng = pd . date_range ( '1/1/2012' , periods = 100 , freq = 'S' )

In [ 104 ] : ts = pd . Series ( np . random . randint ( 0 , 500 , len ( rng ) ) , index = rng )

In [ 105 ] : ts . resample ( '5Min' , how = 'sum' )

Out [ 105 ] :

2012 - 01 - 01 25083

Freq : 5T , dtype : int32

时区表示

In [106]: rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D') In [107]: ts = pd.Series(np.random.randn(len(rng)), rng) In [108]: ts Out[108]: 2012-03-06 0.464000 2012-03-07 0.227371 2012-03-08 -0.496922 2012-03-09 0.306389 2012-03-10 -2.290613 Freq: D, dtype: float64 In [109]: ts_utc = ts.tz_localize('UTC') In [110]: ts_utc Out[110]: 2012-03-06 00:00:00+00:00 0.464000 2012-03-07 00:00:00+00:00 0.227371 2012-03-08 00:00:00+00:00 -0.496922 2012-03-09 00:00:00+00:00 0.306389 2012-03-10 00:00:00+00:00 -2.290613 Freq: D, dtype: float64

In [ 106 ] : rng = pd . date_range ( '3/6/2012 00:00' , periods = 5 , freq = 'D' )

In [ 107 ] : ts = pd . Series ( np . random . randn ( len ( rng ) ) , rng )

In [ 108 ] : ts

Out [ 108 ] :

2012 - 03 - 06 0.464000

2012 - 03 - 07 0.227371

2012 - 03 - 08 - 0.496922

2012 - 03 - 09 0.306389

2012 - 03 - 10 - 2.290613

Freq : D , dtype : float64

In [ 109 ] : ts_utc = ts . tz_localize ( 'UTC' )

In [ 110 ] : ts_utc

Out [ 110 ] :

2012 - 03 - 06 00 : 00 : 00 + 00 : 00 0.464000

2012 - 03 - 07 00 : 00 : 00 + 00 : 00 0.227371

2012 - 03 - 08 00 : 00 : 00 + 00 : 00 - 0.496922

2012 - 03 - 09 00 : 00 : 00 + 00 : 00 0.306389

2012 - 03 - 10 00 : 00 : 00 + 00 : 00 - 2.290613

Freq : D , dtype : float64

转换到其它时区

In [111]: ts_utc.tz_convert('US/Eastern') Out[111]: 2012-03-05 19:00:00-05:00 0.464000 2012-03-06 19:00:00-05:00 0.227371 2012-03-07 19:00:00-05:00 -0.496922 2012-03-08 19:00:00-05:00 0.306389 2012-03-09 19:00:00-05:00 -2.290613 Freq: D, dtype: float64

In [ 111 ] : ts_utc . tz_convert ( 'US/Eastern' )

Out [ 111 ] :

2012 - 03 - 05 19 : 00 : 00 - 05 : 00 0.464000

2012 - 03 - 06 19 : 00 : 00 - 05 : 00 0.227371

2012 - 03 - 07 19 : 00 : 00 - 05 : 00 - 0.496922

2012 - 03 - 08 19 : 00 : 00 - 05 : 00 0.306389

2012 - 03 - 09 19 : 00 : 00 - 05 : 00 - 2.290613

Freq : D , dtype : float64

转换不同的时间跨度

In [112]: rng = pd.date_range('1/1/2012', periods=5, freq='M') In [113]: ts = pd.Series(np.random.randn(len(rng)), index=rng) In [114]: ts Out[114]: 2012-01-31 -1.134623 2012-02-29 -1.561819 2012-03-31 -0.260838 2012-04-30 0.281957 2012-05-31 1.523962 Freq: M, dtype: float64 In [115]: ps = ts.to_period() In [116]: ps Out[116]: 2012-01 -1.134623 2012-02 -1.561819 2012-03 -0.260838 2012-04 0.281957 2012-05 1.523962 Freq: M, dtype: float64 In [117]: ps.to_timestamp() Out[117]: 2012-01-01 -1.134623 2012-02-01 -1.561819 2012-03-01 -0.260838 2012-04-01 0.281957 2012-05-01 1.523962 Freq: MS, dtype: float64

In [ 112 ] : rng = pd . date_range ( '1/1/2012' , periods = 5 , freq = 'M' )

In [ 113 ] : ts = pd . Series ( np . random . randn ( len ( rng ) ) , index = rng )

In [ 114 ] : ts

Out [ 114 ] :

2012 - 01 - 31 - 1.134623

2012 - 02 - 29 - 1.561819

2012 - 03 - 31 - 0.260838

2012 - 04 - 30 0.281957

2012 - 05 - 31 1.523962

Freq : M , dtype : float64

In [ 115 ] : ps = ts . to_period ( )

In [ 116 ] : ps

Out [ 116 ] :

2012 - 01 - 1.134623

2012 - 02 - 1.561819

2012 - 03 - 0.260838

2012 - 04 0.281957

2012 - 05 1.523962

Freq : M , dtype : float64

In [ 117 ] : ps . to_timestamp ( )

Out [ 117 ] :

2012 - 01 - 01 - 1.134623

2012 - 02 - 01 - 1.561819

2012 - 03 - 01 - 0.260838

2012 - 04 - 01 0.281957

2012 - 05 - 01 1.523962

Freq : MS , dtype : float64

转换时段并且使用一些运算函数, 下例中, 我们转换年报11月到季度结束每日上午9点数据

In [118]: prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV') In [119]: ts = pd.Series(np.random.randn(len(prng)), prng) In [120]: ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9 In [121]: ts.head() Out[121]: 1990-03-01 09:00 -0.902937 1990-06-01 09:00 0.068159 1990-09-01 09:00 -0.057873 1990-12-01 09:00 -0.368204 1991-03-01 09:00 -1.144073 Freq: H, dtype: float64

In [ 118 ] : prng = pd . period_range ( '1990Q1' , '2000Q4' , freq = 'Q-NOV' )

In [ 119 ] : ts = pd . Series ( np . random . randn ( len ( prng ) ) , prng )

In [ 120 ] : ts . index = ( prng . asfreq ( 'M' , 'e' ) + 1 ) . asfreq ( 'H' , 's' ) + 9

In [ 121 ] : ts . head ( )

Out [ 121 ] :

1990 - 03 - 01 09 : 00 - 0.902937

1990 - 06 - 01 09 : 00 0.068159

1990 - 09 - 01 09 : 00 - 0.057873

1990 - 12 - 01 09 : 00 - 0.368204

1991 - 03 - 01 09 : 00 - 1.144073

Freq : H , dtype : float64

分类

自版本0.15起, pandas可以在数据桢中包含分类. 完整的文档, 请查看分类介绍 and the API文档.

In [122]: df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

1	In [ 122 ] : df = pd . DataFrame ( { "id" : [ 1 , 2 , 3 , 4 , 5 , 6 ] , "raw_grade" : [ 'a' , 'b' , 'b' , 'a' , 'a' , 'e' ] } )

转换原始类别为分类数据类型.

In [123]: df["grade"] = df["raw_grade"].astype("category") In [124]: df["grade"] Out[124]: 0 a 1 b 2 b 3 a 4 a 5 e Name: grade, dtype: category Categories (3, object): [a, b, e]

In [ 123 ] : df [ "grade" ] = df [ "raw_grade" ] . astype ( "category" )

In [ 124 ] : df [ "grade" ]

Out [ 124 ] :

0 a

1 b

2 b

3 a

4 a

5 e

Name : grade , dtype : category

Categories ( 3 , object ) : [ a , b , e ]

重命令分类为更有意义的名称 (分配到Series.cat.categories对应位置!)

In [125]: df["grade"].cat.categories = ["very good", "good", "very bad"]

1	In [ 125 ] : df [ "grade" ] . cat . categories = [ "very good" , "good" , "very bad" ]

重排顺分类,同时添加缺少的分类(序列 .cat方法下返回新默认序列)

In [126]: df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"]) In [127]: df["grade"] Out[127]: 0 very good 1 good 2 good 3 very good 4 very good 5 very bad Name: grade, dtype: category Categories (5, object): [very bad, bad, medium, good, very good]

In [ 126 ] : df [ "grade" ] = df [ "grade" ] . cat . set_categories ( [ "very bad" , "bad" , "medium" , "good" , "very good" ] )

In [ 127 ] : df [ "grade" ]

Out [ 127 ] :

0 very good

1 good

2 good

3 very good

4 very good

5 very bad

Name : grade , dtype : category

Categories ( 5 , object ) : [ very bad , bad , medium , good , very good ]

排列分类中的顺序,不是按词汇排列.

In [128]: df.sort("grade") Out[128]: id raw_grade grade 5 6 e very bad 1 2 b good 2 3 b good 0 1 a very good 3 4 a very good 4 5 a very good

In [ 128 ] : df . sort ( "grade" )

Out [ 128 ] :

id raw_grade grade

5 6 e very bad

1 2 b good

2 3 b good

0 1 a very good

3 4 a very good

4 5 a very good

类别列分组,并且也显示空类别.

In [129]: df.groupby("grade").size() Out[129]: grade very bad 1 bad NaN medium NaN good 2 very good 3 dtype: float64

In [ 129 ] : df . groupby ( "grade" ) . size ( )

Out [ 129 ] :

grade

very bad 1

bad NaN

medium NaN

good 2

very good 3

dtype : float64

绘图

绘图文档.

In [130]: ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000)) In [131]: ts = ts.cumsum() In [132]: ts.plot() Out[132]:

In [ 130 ] : ts = pd . Series ( np . random . randn ( 1000 ) , index = pd . date_range ( '1/1/2000' , periods = 1000 ) )

In [ 131 ] : ts = ts . cumsum ( )

In [ 132 ] : ts . plot ( )

Out [ 132 ] : < matplotlib . axes . _subplots . AxesSubplot at 0xb02091ac >

在数据桢中,可以很方便的绘制带标签列:

In [133]: df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, .....: columns=['A', 'B', 'C', 'D']) .....: In [134]: df = df.cumsum() In [135]: plt.figure(); df.plot(); plt.legend(loc='best') Out[135]:

In [ 133 ] : df = pd . DataFrame ( np . random . randn ( 1000 , 4 ) , index = ts . index ,

. . . . . : columns = [ 'A' , 'B' , 'C' , 'D' ] )

. . . . . :

In [ 134 ] : df = df . cumsum ( )

In [ 135 ] : plt . figure ( ) ; df . plot ( ) ; plt . legend ( loc = 'best' )

Out [ 135 ] : < matplotlib . legend . Legend at 0xb01c9cac >

获取数据输入/输出

CSV

写入csv文件

In [136]: df.to_csv('foo.csv')

1	In [ 136 ] : df . to_csv ( 'foo.csv' )

读取csv文件

In [137]: pd.read_csv('foo.csv') Out[137]: Unnamed: 0 A B C D 0 2000-01-01 0.266457 -0.399641 -0.219582 1.186860 1 2000-01-02 -1.170732 -0.345873 1.653061 -0.282953 2 2000-01-03 -1.734933 0.530468 2.060811 -0.515536 3 2000-01-04 -1.555121 1.452620 0.239859 -1.156896 4 2000-01-05 0.578117 0.511371 0.103552 -2.428202 5 2000-01-06 0.478344 0.449933 -0.741620 -1.962409 6 2000-01-07 1.235339 -0.091757 -1.543861 -1.084753 .. ... ... ... ... ... 993 2002-09-20 -10.628548 -9.153563 -7.883146 28.313940 994 2002-09-21 -10.390377 -8.727491 -6.399645 30.914107 995 2002-09-22 -8.985362 -8.485624 -4.669462 31.367740 996 2002-09-23 -9.558560 -8.781216 -4.499815 30.518439 997 2002-09-24 -9.902058 -9.340490 -4.386639 30.105593 998 2002-09-25 -10.216020 -9.480682 -3.933802 29.758560 999 2002-09-26 -11.856774 -10.671012 -3.216025 29.369368 [1000 rows x 5 columns]

In [ 137 ] : pd . read_csv ( 'foo.csv' )

Out [ 137 ] :

Unnamed : 0 A B C D

0 2000 - 01 - 01 0.266457 - 0.399641 - 0.219582 1.186860

1 2000 - 01 - 02 - 1.170732 - 0.345873 1.653061 - 0.282953

2 2000 - 01 - 03 - 1.734933 0.530468 2.060811 - 0.515536

3 2000 - 01 - 04 - 1.555121 1.452620 0.239859 - 1.156896

4 2000 - 01 - 05 0.578117 0.511371 0.103552 - 2.428202

5 2000 - 01 - 06 0.478344 0.449933 - 0.741620 - 1.962409

6 2000 - 01 - 07 1.235339 - 0.091757 - 1.543861 - 1.084753

. . . . . . . . . . . . . . . . .

993 2002 - 09 - 20 - 10.628548 - 9.153563 - 7.883146 28.313940

994 2002 - 09 - 21 - 10.390377 - 8.727491 - 6.399645 30.914107

995 2002 - 09 - 22 - 8.985362 - 8.485624 - 4.669462 31.367740

996 2002 - 09 - 23 - 9.558560 - 8.781216 - 4.499815 30.518439

997 2002 - 09 - 24 - 9.902058 - 9.340490 - 4.386639 30.105593

998 2002 - 09 - 25 - 10.216020 - 9.480682 - 3.933802 29.758560

999 2002 - 09 - 26 - 11.856774 - 10.671012 - 3.216025 29.369368

[ 1000 rows x 5 columns ]

HDF5

读写HDF存储

写入HDF5存储

In [138]: df.to_hdf('foo.h5','df')

1	In [ 138 ] : df . to_hdf ( 'foo.h5' , 'df' )

读取HDF5存储

In [139]: pd.read_hdf('foo.h5','df') Out[139]: A B C D 2000-01-01 0.266457 -0.399641 -0.219582 1.186860 2000-01-02 -1.170732 -0.345873 1.653061 -0.282953 2000-01-03 -1.734933 0.530468 2.060811 -0.515536 2000-01-04 -1.555121 1.452620 0.239859 -1.156896 2000-01-05 0.578117 0.511371 0.103552 -2.428202 2000-01-06 0.478344 0.449933 -0.741620 -1.962409 2000-01-07 1.235339 -0.091757 -1.543861 -1.084753 ... ... ... ... ... 2002-09-20 -10.628548 -9.153563 -7.883146 28.313940 2002-09-21 -10.390377 -8.727491 -6.399645 30.914107 2002-09-22 -8.985362 -8.485624 -4.669462 31.367740 2002-09-23 -9.558560 -8.781216 -4.499815 30.518439 2002-09-24 -9.902058 -9.340490 -4.386639 30.105593 2002-09-25 -10.216020 -9.480682 -3.933802 29.758560 2002-09-26 -11.856774 -10.671012 -3.216025 29.369368 [1000 rows x 4 columns]

In [ 139 ] : pd . read_hdf ( 'foo.h5' , 'df' )

Out [ 139 ] :

A B C D

2000 - 01 - 01 0.266457 - 0.399641 - 0.219582 1.186860

2000 - 01 - 02 - 1.170732 - 0.345873 1.653061 - 0.282953

2000 - 01 - 03 - 1.734933 0.530468 2.060811 - 0.515536

2000 - 01 - 04 - 1.555121 1.452620 0.239859 - 1.156896

2000 - 01 - 05 0.578117 0.511371 0.103552 - 2.428202

2000 - 01 - 06 0.478344 0.449933 - 0.741620 - 1.962409

2000 - 01 - 07 1.235339 - 0.091757 - 1.543861 - 1.084753

. . . . . . . . . . . . . . .

2002 - 09 - 20 - 10.628548 - 9.153563 - 7.883146 28.313940

2002 - 09 - 21 - 10.390377 - 8.727491 - 6.399645 30.914107

2002 - 09 - 22 - 8.985362 - 8.485624 - 4.669462 31.367740

2002 - 09 - 23 - 9.558560 - 8.781216 - 4.499815 30.518439

2002 - 09 - 24 - 9.902058 - 9.340490 - 4.386639 30.105593

2002 - 09 - 25 - 10.216020 - 9.480682 - 3.933802 29.758560

2002 - 09 - 26 - 11.856774 - 10.671012 - 3.216025 29.369368

[ 1000 rows x 4 columns ]

Excel

读写MS Excel

写入excel文件

In [140]: df.to_excel('foo.xlsx', sheet_name='Sheet1')

1	In [ 140 ] : df . to_excel ( 'foo.xlsx' , sheet_name = 'Sheet1' )

读取excel文件

In [141]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA']) Out[141]: A B C D 2000-01-01 0.266457 -0.399641 -0.219582 1.186860 2000-01-02 -1.170732 -0.345873 1.653061 -0.282953 2000-01-03 -1.734933 0.530468 2.060811 -0.515536 2000-01-04 -1.555121 1.452620 0.239859 -1.156896 2000-01-05 0.578117 0.511371 0.103552 -2.428202 2000-01-06 0.478344 0.449933 -0.741620 -1.962409 2000-01-07 1.235339 -0.091757 -1.543861 -1.084753 ... ... ... ... ... 2002-09-20 -10.628548 -9.153563 -7.883146 28.313940 2002-09-21 -10.390377 -8.727491 -6.399645 30.914107 2002-09-22 -8.985362 -8.485624 -4.669462 31.367740 2002-09-23 -9.558560 -8.781216 -4.499815 30.518439 2002-09-24 -9.902058 -9.340490 -4.386639 30.105593 2002-09-25 -10.216020 -9.480682 -3.933802 29.758560 2002-09-26 -11.856774 -10.671012 -3.216025 29.369368 [1000 rows x 4 columns]

In [ 141 ] : pd . read_excel ( 'foo.xlsx' , 'Sheet1' , index_col = None , na_values = [ 'NA' ] )

Out [ 141 ] :

A B C D

2000 - 01 - 01 0.266457 - 0.399641 - 0.219582 1.186860

2000 - 01 - 02 - 1.170732 - 0.345873 1.653061 - 0.282953

2000 - 01 - 03 - 1.734933 0.530468 2.060811 - 0.515536

2000 - 01 - 04 - 1.555121 1.452620 0.239859 - 1.156896

2000 - 01 - 05 0.578117 0.511371 0.103552 - 2.428202

2000 - 01 - 06 0.478344 0.449933 - 0.741620 - 1.962409

2000 - 01 - 07 1.235339 - 0.091757 - 1.543861 - 1.084753

. . . . . . . . . . . . . . .

2002 - 09 - 20 - 10.628548 - 9.153563 - 7.883146 28.313940

2002 - 09 - 21 - 10.390377 - 8.727491 - 6.399645 30.914107

2002 - 09 - 22 - 8.985362 - 8.485624 - 4.669462 31.367740

2002 - 09 - 23 - 9.558560 - 8.781216 - 4.499815 30.518439

2002 - 09 - 24 - 9.902058 - 9.340490 - 4.386639 30.105593

2002 - 09 - 25 - 10.216020 - 9.480682 - 3.933802 29.758560

2002 - 09 - 26 - 11.856774 - 10.671012 - 3.216025 29.369368

[ 1000 rows x 4 columns ]

陷阱

如果尝试这样操作可能会看到像这样的异常:

>>> if pd.Series([False, True, False]): print("I was true") Traceback ... ValueError: The truth value of an array is ambiguous. Use a.empty, a.any() or a.all().

>>> if pd . Series ( [ False , True , False ] ) :

print ( "I was true" )

Traceback

. . .

ValueError : The truth value of an array is ambiguous . Use a . empty , a . any ( ) or a . all ( ) .

查看对照获取解释和怎么做的帮助

也可以查看陷阱.

你可能感兴趣的:(Python_量化投资)

安装多个版本python_在Windows下安装多个版本的Python weixin_39687192 安装多个版本python
我們先假設使用者，已經在python官方網站下載各版本的WindowsInstaller並安裝在預設路徑下：python2.6：C:\Python26python2.7：C:\Python27python3.2：C:\Python32我們希望在commandline輸入python26就是執行C:\Python26\python.exe；輸入python32就是執行C:\Python32\pyth
手撕python_手撕Python! 模块、包和库一分钟搞定! weixin_39806779 手撕python
Python模块Python模块(Module)，是一个Python文件，以.py结尾，包含了Python对象定义和Python语句。。#Hello模块defprint_func(name):print"Hello:",namereturn那么，为什么要搞模块呢？如果没有模块，难道在写代码的时候所有的功能都要自己去实现么？那样，效率也太低了。我们把一些功能相关的代码写到一个模块里。这样，当你需要用
matlab调用python_从 MATLAB 调用 Python weixin_39692253 matlab调用python
调用Python函数使文本在段落内换行MATLAB具有Python标准库的大量等效功能，但并非全部。例如，textwrap是一个模块，它可使用回车和其他便捷方式格式化文本块。MATLAB同样提供了一个textwrap函数，但该函数只允许文本为适应UI控件而换行。创建一个文本段落来进行测试。T='MATLAB(R)isahigh-levellanguageandinteractiveenvironm
latex转word python_分分钟甩Word几条街，Python编辑公式竟可以如此简单 weixin_39553904 latex转word python
点击上方"Python人工智能技术"关注，星标或者置顶22点24分准时推送，第一时间送达来自：公众号机器之心|编辑：真经君Python人工智能技术(ID:coder_experience)第221次推文图源:百度上一篇：华科博士201万，西安交大本科生100万！华为「天才少年」校招薪资曝光正文用Word写PDE公式简直是找虐。我们在Word中编辑文本时，遇到超复杂的公式，想想就令人头大，一个不小心
cv2 python_【cv2模块 python3】正定幢 cv2 python
Pythonopencv模块cv2安装和部分函数使用前几天做了一下验证码识别，在这里分享一下用到的opencv模块cv2部分函数的使用方法，也是给自己加深一下记忆。一、cv2模块安装在这里提醒一下这里有坑欧你如果直接用pipinstallcv2会报错欧往下看解决办法可以通过pipinstallopencv-python来进行安装如果pip不能安装还可以通过https://pypi.tuna.tsi
数据分析--07：金融量化十束多多良^_^ 区块链概率论
데이터분석--07:재무수량화一、金融介绍1、金融2、金融工具1.期货2.黄金3.外汇4.投资基金5.股票股票的作用3、股票分类1.收益分类2.上市地区分类3.股票市场的构成4.影响股票的因素5.A股买卖4、金融分析1.基本面分析2.技术面分析5、金融量化投资1.为什么需要量化交易？2.量化交易3.量化交易的价值一、金融介绍1、金融金融就是对现有资源进行重新整合之后，实现价值和利润的等效流通。2、
偏微分 python_基于Python求解偏微分方程的有限差分法.doc weixin_39612220 偏微分 python
基于Python求解偏微分方程的有限差分法.doc基于Python求解偏微分方程的有限差分法(西安石油大学电子工程学院光电油气测井与检测教育部重点实验室，陕西西安710065)摘要：偏微分方程的求解是很多科学技术问题的关键难点。随着计算机性能的不断提高，数值解法能够解复杂的偏微分方程并将计算结果图形化。相对于昂贵的科学计算软件，Python是一种免费的面向对象、动态的程序设计语言。有限差分法以其概
【机器学习】————在金融市场分析方面的应用爱吃蔬菜不挑食人工智能
目录1.高频交易1.1概述1.2应用1.3实例2.风险管理2.1概述2.2应用2.3实例3.量化投资3.1概述3.2应用3.3实例4.情感分析4.1概述4.2应用4.3实例5.欺诈检测5.1概述5.2应用5.3实例结论金融市场分析是一项复杂且关键的任务，涉及大量的数据处理和分析。传统方法在面对海量数据和复杂模型时往往力不从心，随着技术的进步，机器学习在金融市场分析中的应用越来越广泛。本文将深入探讨
Python_函数以及递归 CharGer. Python基础 python 开发语言
函数基础概念自己创建的函数被称为用户自定义函数。Python通过使用def关键字来定义函数。Python函数可以有输入参数，这些参数在函数被调用时传递给函数。Python函数可以有一个返回值，这个值可以是任何Python支持的数据类型。函数通过return语句返回值。函数调用：定义了函数之后，你可以通过函数名和传递相应的参数来调用它。用例：#一个简单的函数定义，名为greet，接受一个参数name
Python_随机数函数 yddydd520 Python python pycharm
随机数可以用于数学，游戏，安全等领域中，还经常被嵌入到算法中，用以提高算法效率，并提高程序的安全性。在python中用于生成随机数的模块是random,在使用前需要import，下面介绍几个常用的随机数方法random.random()random.random()用于生成一个0到1的随机实数:0<=n<1.0importrandomprint(random.random())#1print(ra
python_获取共享文件里的内容阿_焦 python
python3如何获取和复制局域网内远端windows共享文件夹局域网内的A电脑开放一个共享文件夹，需要密码访问。这种情况下python如何实现从A电脑的共享文件中复制目录及文件至目标B电脑。选中共享的文件夹，点击鼠标用右键，选择映射到网络驱动器，选择一个盘符例如Z,然后就跟访问本地路径一样，访问Z盘就可以了，例如os.system(‘copyZ:\abc.’)还可以在命令中实现上述步骤例如：im
【python_高效公办】python用于查验人数，查验未提交文件的名单，代码问题解决拾贰_C 高效办公 python 开发语言
解决一些高效办公问题的话，我们可能会使用到GPT问题：报错部分提示：inimport_optional_dependencyraiseImportError(msg)ImportError:Missingoptionaldependency'o解决：未安装openpyxldf=pd.read_excel(sorce_file,engine=‘openpyxl’,sheet_name=‘Sheet1
苹果手机怎么学python_我是如何在 Python 内使用深度学习实现 iPhone X 的 FaceID 的... weixin_39693437 苹果手机怎么学python
雷锋网按：本文为AI研习社编译的技术博客，原标题HowIimplementediPhoneX'sFaceIDusingDeepLearninginPython，作者为SHIVAMBANSAL。翻译|陶玉龙余杭校对|Lamaric整理|MY在最近推出的iPhoneX中，它被讨论最多的特点之一是它采用了新的解锁方法，即TouchID：FaceID。在研发出无边框手机后，苹果公司想开发一种新的方法来快捷
信息安全 python_一种基于Python的信息安全情报收集工具 weixin_39637646 信息安全 python
邵云蛟吴丽莎张凯吴屏摘要：目前，公司信息安全情报收集工作主要依靠人工方式进行。主要由运维人员每日登陆相关信息安全资讯网站或接收由绿盟、启明等安全厂商发送的信息安全情报信息，这种方式效率低下，耗时耗力。关键词：Python；终端监控；安全管理中图分类号：TP391文献标识码：A文章编号：1671-2064(2018)13-0019-01为了提升公司信息安全情报的收集效率，实时掌握网络安全态势[1]，
基于人工智能的期权量化交易阿岛格人工智能.量化投资人工智能机器学习大数据强化学习
基于人工智能的期权量化交易基于人工智能的期权量化交易基于人工智能的期权量化交易该文基于人工智能AI的深度强化学习,进行股票期权的量化投资策略研究及回测评估。作者建立了人工智能学习及交易系统。基于实时/历史期权行情大数据挖掘,通过自行开发的人工智能多agent强化学习模型及评估系统(基于Python/Linux),对接实时交易接口进行了实盘环境的交易回测和评估。专题：人工智能.量化投资纲要：一、前言
打开量化投资黑箱-v2-黑箱结构 zhaohui24 Reading 量化金融其他
文章目录1.量化交易原则1.1研究宽客原因1.2何为宽客1.3量化交易系统的典型结构2.阿尔法模型2.1阿尔法模型：宽客如何盈利2.2理论驱动型阿尔法模型2.2.1基于价格数据的交易策略2.2.1.1趋势跟随策略2.2.1.2均值回复策略2.2.1.3技术情绪型策略2.2.2依托基本面数据的策略2.2.2.1价值型/收益型策略2.2.2.2成长型策略2.2.2.3品质型策略2.3数据驱动型阿尔法模
[转载] Python_正则表达式匹配Word文档 ey_snail
参考链接：Python中的正则表达式2(搜索，匹配和查找全部)使用正则表达式匹配Word文档中的所有字符1、原文内容如下：2、期望得到的结果：3、源码：//fromdocximportDocumentimportrepattern=re.compile("\d{6}[\u4e00-\u9fff]+")#正则表达式#pattern=re.compile("\d{6}[^A-Za-z0-9\!\%\[
ai人工智能python_人工智能与Python –游戏 cunzai1985 游戏算法人工智能 python java
ai人工智能python人工智能与Python–游戏(AIwithPython–Gaming)Gamesareplayedwithastrategy.Everyplayerorteamwouldmakeastrategybeforestartingthegameandtheyhavetochangeorbuildnewstrategyaccordingtothecurrentsituation(s
量化投资--量化干货分享小丁丁_ddxdd 应用层-算法应用
来源链接：http://blog.csdn.net/dipolar/article/details/50752839/http://www.newsmth.net/nForum/#!article/Python/128763最近程序化交易很热，量化也是我很感兴趣的一块。国内量化交易的平台有几家，我个人比较喜欢用的是JoinQuant，里面有篇干货贴分享给大家，希望对各位有帮助。==========
怎么看电脑安装python_查看电脑有没有安装Python的方法南洋浪客怎么看电脑安装python
查看电脑有没有安装Python的方法发布时间：2020-07-0816:33:27来源：亿速云阅读：78作者：清晨这篇文章主要介绍查看电脑有没有安装Python的方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！如何查看自己的电脑是否安装了Python以及Python的版本，下面是详细的步骤：1、打开电脑，按windows+r，弹出运行窗口。2、在输入框中输入“cmd”，点
刺猬教你量化投资(十五):自行计算复权价刺猬偷腥
以天齐锂业为例子下面我们尝试运用此前介绍的各个知识点，尝试自行计算天齐锂业的后复权及前复权价格。编写代码importpandasaspd#pd.set_option('expand_frame_repr',False)#导入行情数据df=DataAPI.MktEqudGet(secID=u"",ticker=u"002466",tradeDate=u"",beginDate=u"",endDate
pyqt5优秀项目python_用了PyQt5、tk、wxPython等数十个Python GUI模块后，我总结出了……... weixin_39613208 pyqt5优秀项目python
最近，我一直在尝试各种设计PythonGUI界面的模块，花了不少时间配置和使用它们。通过对他们的使用，总结出Python中各种GUI模块的如下优缺点（个人观点，不喜勿喷，欢迎留言讨论）：PyQt5：我日常的主力GUI设计工具，几乎所有项目都会用它。PyQt5功能非常强大，可以用Qt开发出多漂亮的界面，就可以用PyQt5开发出多漂亮的界面；另外，它最赞的一点是支持可视化界面设计，对于Python小白
投机和投资到底有什么区别？ hmisty
考虑量化投资这个business和开家粥店这个business，前者通常意义上叫做投机生意（speculationbusiness），后者则是投资生意（investmentbusiness）。但是，两者都是建立一个system，把钱输入到这个系统里，然后期待输出更多的钱。只是因为前者的预期回报时间更短、倍数更大吗？好像并不是。是因为前者风险高，后者风险低吗？好像也不是。本质区别是，你获取回报是导致
基于第一性原理投资曹博士
图片发自App张教授打造丹华资本，致力于用第一性原理来指导风险投资。所谓第一性原理，就是基于最基本的自然法则，而且通常是可以用数学来表达并且在物理上首先验证。比如熵法则，量子原理，概率统计框架，等。不过从实际效果来看，2013起步的丹华资本，业绩很差。基本上成了反面案例。这个类似由诺贝尔经济学获奖者组建的量化投资公司长期资本，本来希望用量化的方式做套利投资，结果一个俄罗斯的黑天鹅事件，就让其折戟沉
指数量化投资 #36 - 指数样本股调整 JingDC
1指数样本股调整每年6月和12月，是指数定期调整样本股的时间。日前，上海证券交易所和中证指数有限公司陆续宣布2018年第一次定期调整样本股公告，大家熟知的上证50、沪深300、中证500样本股都会发生调整。其中上证50更换5只股票，沪深300更换27只，中证500更换50只，更换股票数占总样本股数比例分别为10%，9%，10%。指数样本股调整，对估值有什么影响呢？从历史上来看，在上证50的43次样
Python_多目标优化遗传算法_多输入进阶夭夭耀优化算法 python 算法
目录前言代码正文结果展示写在最后前言之前写过多目标优化的情况，算是一个最基础的版本吧，只考虑了两个变量作为输入，绝对谈不上多个输入，今天这篇在之前的基础上，将输入量增加至6个，同时对交叉、变异函数进行封装，提升代码的规范性和可读性。基础版多目标优化代码入门：Python_多目标遗传算法_多输入代码实现Python_多目标遗传算法_入门学习+代码实现阅读本文之前默认大家已经具备了基本遗传算法的知识了
基于python开发的股市行情看板 weixin_34273479 python
近期股市又骚动起来，回忆起昔日炒股经历，历历在目，悲惨经历让人黯然神伤，去年共投入4000元入市，最后仅剩1000多，无奈闭关修炼，忘记股市，全身心投入代码世界，享受代码带来的乐趣。近日，当看到别人用python进行量化投资暴富的消息，顿时振奋，立刻学习起python数据分析之道，开发了一个股市行情看板，希望借python之力，早日实现财务自由，达到人生巅峰，演示地址：https://stock.
如何利用python在股市赚钱？我用python开发了股市行情看板 weixin_33973600 python
个人博客：mypython.me近期股市又骚动起来，回忆起昔日炒股经历，历历在目，悲惨经历让人黯然神伤，去年共投入4000元入市，最后仅剩1000多，无奈闭关修炼，忘记股市，全身心投入代码世界，享受代码带来的乐趣。近日，当看到别人用python进行量化投资暴富的消息，顿时振奋，立刻学习起python数据分析之道，开发了一个股市行情看板，希望借python之力，早日实现财务自由，达到人生巅峰，演示地
python_蓝桥杯刷题记录_笔记_全AC代码_入门5 Hooray11 刷题笔记笔记
前言关于入门地刷题到现在就结束了。题单目录1.P1579哥德巴赫猜想（升级版）2.P1426小鱼会有危险吗1.P1579哥德巴赫猜想（升级版）一开始写的代码是三重循环，结果提交上去一堆地TLE，然后我就给减少了一层循环，然后就好了哈哈哈哈。n=int(input())importmathflag=0a3=0defisPrime(num):ifnum==2:returnTrueforiinrange
Python_百度贴吧评论情感分析 Y-yll python 爬虫开发语言
一、评论爬取以百度贴吧中“美团骑手吧”为例，对页面中的帖子评论进行爬取，并将结果以json的格式保存到本地中。fromlxmlimportetreeimportrequestsimportjson#根据网页url获取评论defGetComments(url):#使用requests库发送GET请求，获取网页内容，并将响应内容编码设置为utf-8response=requests.get(url)r
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本