yingyujianmo

10分钟入门pandas

本文是对pandas的一个入门介绍，仅仅针对初学者。如果需要更详细的内容，请移步Cookbook.

首先，导入所需要的python包：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

创建对象

pandas中的数据结构包括Series、DataFrame、Panel、Pannel4D等，详细介绍移步数据结构介绍.
常用的数据结构是前两个：Series和DataFrame。
通过传入一个已有的python列表（list）对象来创建一个Series对象。

s = pd.Series([1,3,4,np.nan,6,8])

0    1.0
1    3.0
2    4.0
3    NaN
4    6.0
5    8.0
dtype: float64

通过传入一个numpy数组来构建一个DataFrame对象。使用时间序列作为每行的索引，并为每列数据分配一个列名。

dates = pd.date_range('20130101', periods=6)

dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

# 创建DataFrame对象，并指定索引index和列名columns
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

df

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197

通过传入一个python字典对象来创建一个DataFrame对象。

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20160102'),
                    'C': pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D': np.array([3]*4, dtype='int32'),
                    'E': pd.Categorical(['test','train','test','train']),
                    'F': 'foo'})

df2

	A	B	C	D	E	F
0	1.0	2016-01-02	1.0	3	test	foo
1	1.0	2016-01-02	1.0	3	train	foo
2	1.0	2016-01-02	1.0	3	test	foo
3	1.0	2016-01-02	1.0	3	train	foo

# DataFrame 中每列的数据类型可以不同
df2.dtypes

A float64 B datetime64[ns] C float32 D int32 E category F object dtype: object 在ipython中可以使用“Tab”键对DataFrame的列名和公共属性进行自动补全。

查看对象中的数据

查看DataFrame的前几行或最后几行

df.head()

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950

df.tail()

	A	B	C	D
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197

df.head(3)

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457

获取DataFrame的索引、列名、数据（值）。

df.index

DatetimeIndex([‘2013-01-01’, ‘2013-01-02’, ‘2013-01-03’, ‘2013-01-04’, ‘2013-01-05’, ‘2013-01-06’], dtype=’datetime64[ns]’, freq=’D’)

df.columns

Index([u’A’, u’B’, u’C’, u’D’], dtype=’object’)

df.values

array([[-0.28589413, 0.49001051, 0.17112101, -1.54980655], [-0.06837701, -0.45280422, -0.39189213, -0.85252018], [ 1.30438846, -1.80848416, -0.28648908, -0.43745725], [ 1.44781215, -1.86212061, 0.11594994, -0.66413402], [ 0.5204089 , -1.4027399 , -0.35604882, 0.4609499 ], [-0.40489995, 0.58541997, -0.07392295, -0.5011969 ]]) 使用“describe”获取数据的统计信息。

df.describe()

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	0.418906	-0.741786	-0.136880	-0.590694
std	0.808192	1.112849	0.244213	0.652884
min	-0.404900	-1.862121	-0.391892	-1.549807
25%	-0.231515	-1.707048	-0.338659	-0.805424
50%	0.226016	-0.927772	-0.180206	-0.582665
75%	1.108394	0.254307	0.068482	-0.453392
max	1.447812	0.585420	0.171121	0.460950

将DataFrame进行转置。

df.T

	2013-01-01 00:00:00	2013-01-02 00:00:00	2013-01-03 00:00:00	2013-01-04 00:00:00	2013-01-05 00:00:00	2013-01-06 00:00:00
A	-0.285894	-0.068377	1.304388	1.447812	0.520409	-0.404900
B	0.490011	-0.452804	-1.808484	-1.862121	-1.402740	0.585420
C	0.171121	-0.391892	-0.286489	0.115950	-0.356049	-0.073923
D	-1.549807	-0.852520	-0.437457	-0.664134	0.460950	-0.501197

df

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197

对坐标轴进行排序。

df.sort_index(axis=1, ascending=False)

	D	C	B	A
2013-01-01	-1.549807	0.171121	0.490011	-0.285894
2013-01-02	-0.852520	-0.391892	-0.452804	-0.068377
2013-01-03	-0.437457	-0.286489	-1.808484	1.304388
2013-01-04	-0.664134	0.115950	-1.862121	1.447812
2013-01-05	0.460950	-0.356049	-1.402740	0.520409
2013-01-06	-0.501197	-0.073923	0.585420	-0.404900

df.sort_index(axis=0, ascending=False)

	A	B	C	D
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-01	-0.285894	0.490011	0.171121	-1.549807

对值进行排序。

df.sort_values(by='B')

	A	B	C	D
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197

df.sort_values(by='B',ascending=False)

	A	B	C	D
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134

选择数据

pandas中对数据的选择可以使用标准的python/numpy方式。

df['A']

2013-01-01 -0.285894 2013-01-02 -0.068377 2013-01-03 1.304388 2013-01-04 1.447812 2013-01-05 0.520409 2013-01-06 -0.404900 Freq: D, Name: A, dtype: float64

# 选择一个单独的列，将产生一个Series，此时df['A']等价于df.A
df.A

2013-01-01 -0.285894 2013-01-02 -0.068377 2013-01-03 1.304388 2013-01-04 1.447812 2013-01-05 0.520409 2013-01-06 -0.404900 Freq: D, Name: A, dtype: float64 对行进行切片操作。

df[0:3]

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457

df['20130103':'20130105']

	A	B	C	D
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950

使用标准的python/numpy方法获取数据的方式很直观，但是对于工业级的代码，建议使用优化的pandas数据获取方法，包括：.at,.iat,.iloc和.ix

df

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197

dates

DatetimeIndex([‘2013-01-01’, ‘2013-01-02’, ‘2013-01-03’, ‘2013-01-04’, ‘2013-01-05’, ‘2013-01-06’], dtype=’datetime64[ns]’, freq=’D’)

df.loc[dates[0]]

A -0.285894 B 0.490011 C 0.171121 D -1.549807 Name: 2013-01-01 00:00:00, dtype: float64 按类标选择多坐标轴的数据。

df.loc[:,['A','B']]

	A	B
2013-01-01	-0.285894	0.490011
2013-01-02	-0.068377	-0.452804
2013-01-03	1.304388	-1.808484
2013-01-04	1.447812	-1.862121
2013-01-05	0.520409	-1.402740
2013-01-06	-0.404900	0.585420

# 在对数据进行切片操作时，两端都会包含，不像python中只含前端不含后端
df.loc['20130102':'20130104',['A','B']]

	A	B
2013-01-02	-0.068377	-0.452804
2013-01-03	1.304388	-1.808484
2013-01-04	1.447812	-1.862121

# 当只有一维的时候，返回的数据维数会自动缩减
df.loc['20130105',['A','B']]

A 0.520409 B -1.402740 Name: 2013-01-05 00:00:00, dtype: float64

df.loc['20130105','A']

0.52040890430486719

# 相对于.loc,.at是一种更快地获取一个标量数据的方法
df.at[dates[0],'A']

-0.28589413005579967 按位置进行选择，传入整数，返回数据。

df

	A	B	C	D
2013-01-01	-0.285894	0.490011	0.171121	-1.549807
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197

df.iloc[3]

A 1.447812 B -1.862121 C 0.115950 D -0.664134 Name: 2013-01-04 00:00:00, dtype: float64

df.iloc[3:5,0:2]

	A	B
2013-01-04	1.447812	-1.862121
2013-01-05	0.520409	-1.402740

按整数位置进行数据选取或切片时，方法同python/numpy，从0开始索引，包含前端不含后端。

df.iloc[[1,2,4],[0,2]]

	A	C
2013-01-02	-0.068377	-0.391892
2013-01-03	1.304388	-0.286489
2013-01-05	0.520409	-0.356049

# 对行进行切片
df.iloc[1:3,:]

	A	B	C	D
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457

# 对列进行切片
df.iloc[:,1:3]

	B	C
2013-01-01	0.490011	0.171121
2013-01-02	-0.452804	-0.391892
2013-01-03	-1.808484	-0.286489
2013-01-04	-1.862121	0.115950
2013-01-05	-1.402740	-0.356049
2013-01-06	0.585420	-0.073923

df.iloc[1,1]

-0.45280421688689004

# .iat 比 .iloc 具有更快的速度
df.iat[1,1]

-0.45280421688689004 使用布尔值进行索引。

df[df.A > 0]

	A	B	C	D
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457
2013-01-04	1.447812	-1.862121	0.115950	-0.664134
2013-01-05	0.520409	-1.402740	-0.356049	0.460950

df[df > 0]

	A	B	C	D
2013-01-01	NaN	0.490011	0.171121	NaN
2013-01-02	NaN	NaN	NaN	NaN
2013-01-03	1.304388	NaN	NaN	NaN
2013-01-04	1.447812	NaN	0.115950	NaN
2013-01-05	0.520409	NaN	NaN	0.46095
2013-01-06	NaN	0.585420	NaN	NaN

使用isin()方法进行过滤。

df2 = df.copy()

df2['E'] = ['one','one','two','three','four','three']

df2

	A	B	C	D	E
2013-01-01	-0.285894	0.490011	0.171121	-1.549807	one
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520	one
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457	two
2013-01-04	1.447812	-1.862121	0.115950	-0.664134	three
2013-01-05	0.520409	-1.402740	-0.356049	0.460950	four
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197	three

df2[df2['E'].isin(['one','four'])]

	A	B	C	D	E
2013-01-01	-0.285894	0.490011	0.171121	-1.549807	one
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520	one
2013-01-05	0.520409	-1.402740	-0.356049	0.460950	four

设置数据

设置一个新列，自动按索引分配数据。

s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102',periods=6))

s1

2013-01-02 1 2013-01-03 2 2013-01-04 3 2013-01-05 4 2013-01-06 5 2013-01-07 6 Freq: D, dtype: int64

df['F'] = s1

df

	A	B	C	D	F
2013-01-01	-0.285894	0.490011	0.171121	-1.549807	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520	1.0
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457	2.0
2013-01-04	1.447812	-1.862121	0.115950	-0.664134	3.0
2013-01-05	0.520409	-1.402740	-0.356049	0.460950	4.0
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197	5.0

因为s1是从‘20130102’开始的，所以‘20130101’对应的F列值为‘NaN’

df.at[dates[0],'A'] = 0

df

	A	B	C	D	F
2013-01-01	0.000000	0.490011	0.171121	-1.549807	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	-0.852520	1.0
2013-01-03	1.304388	-1.808484	-0.286489	-0.437457	2.0
2013-01-04	1.447812	-1.862121	0.115950	-0.664134	3.0
2013-01-05	0.520409	-1.402740	-0.356049	0.460950	4.0
2013-01-06	-0.404900	0.585420	-0.073923	-0.501197	5.0

df.iat[0,1] = 0

df.loc[:,'D'] = np.array([5] * len(df))

df

	A	B	C	D	F
2013-01-01	0.000000	0.000000	0.171121	5	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0
2013-01-04	1.447812	-1.862121	0.115950	5	3.0
2013-01-05	0.520409	-1.402740	-0.356049	5	4.0
2013-01-06	-0.404900	0.585420	-0.073923	5	5.0

df2 = df.copy()

df2[df2 > 0] = -df2

df2

	A	B	C	D	F
2013-01-01	0.000000	0.000000	-0.171121	-5	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	-5	-1.0
2013-01-03	-1.304388	-1.808484	-0.286489	-5	-2.0
2013-01-04	-1.447812	-1.862121	-0.115950	-5	-3.0
2013-01-05	-0.520409	-1.402740	-0.356049	-5	-4.0
2013-01-06	-0.404900	-0.585420	-0.073923	-5	-5.0

缺失数据

pandas主要使用”np.nan“表示缺失数据，默认是不参与计算的。
“reindex”使我们可以对某个轴上的索引进行增删改操作。这种操作返回的是数据的一个备份。

df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E'])

df1.loc[dates[0]:dates[1],'E'] = 1

df1

	A	B	C	D	F	E
2013-01-01	0.000000	0.000000	0.171121	5	NaN	1.0
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0	NaN
2013-01-04	1.447812	-1.862121	0.115950	5	3.0	NaN

# 将含有缺失数据的行全部去掉
df1.dropna(how='any')

	A	B	C	D	F	E
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0	1.0

# 对缺失数据进行填补
df1.fillna(value=5)

	A	B	C	D	F	E
2013-01-01	0.000000	0.000000	0.171121	5	5.0	1.0
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0	5.0
2013-01-04	1.447812	-1.862121	0.115950	5	3.0	5.0

# 获得缺失值的布尔mask
pd.isnull(df1)

	A	B	C	D	F	E
2013-01-01	False	False	False	False	True	False
2013-01-02	False	False	False	False	False	False
2013-01-03	False	False	False	False	False	True
2013-01-04	False	False	False	False	False	True

df1

	A	B	C	D	F	E
2013-01-01	0.000000	0.000000	0.171121	5	NaN	1.0
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0	NaN
2013-01-04	1.447812	-1.862121	0.115950	5	3.0	NaN

运算

运算通常不含缺失值。

# 统计运算
df

	A	B	C	D	F
2013-01-01	0.000000	0.000000	0.171121	5	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0
2013-01-04	1.447812	-1.862121	0.115950	5	3.0
2013-01-05	0.520409	-1.402740	-0.356049	5	4.0
2013-01-06	-0.404900	0.585420	-0.073923	5	5.0

df.mean()

A 0.466555 B -0.823455 C -0.136880 D 5.000000 F 3.000000 dtype: float64

df.mean(1)

2013-01-01 1.292780 2013-01-02 1.017385 2013-01-03 1.241883 2013-01-04 1.540328 2013-01-05 1.552324 2013-01-06 2.021319 Freq: D, dtype: float64 在具有不同维度的对象之间进行运算时，需要进行对其。pandas会自动沿着特定维度进行扩展操作。

s = pd.Series([1,3,5,np.nan,6,8], index=dates)

2013-01-01 1.0 2013-01-02 3.0 2013-01-03 5.0 2013-01-04 NaN 2013-01-05 6.0 2013-01-06 8.0 Freq: D, dtype: float64

s = s.shift(2)

2013-01-01 NaN 2013-01-02 NaN 2013-01-03 1.0 2013-01-04 3.0 2013-01-05 5.0 2013-01-06 NaN Freq: D, dtype: float64

df

	A	B	C	D	F
2013-01-01	0.000000	0.000000	0.171121	5	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0
2013-01-04	1.447812	-1.862121	0.115950	5	3.0
2013-01-05	0.520409	-1.402740	-0.356049	5	4.0
2013-01-06	-0.404900	0.585420	-0.073923	5	5.0

df.sub(s,axis='index')

	A	B	C	D	F
2013-01-01	NaN	NaN	NaN	NaN	NaN
2013-01-02	NaN	NaN	NaN	NaN	NaN
2013-01-03	0.304388	-2.808484	-1.286489	4.0	1.0
2013-01-04	-1.552188	-4.862121	-2.884050	2.0	0.0
2013-01-05	-4.479591	-6.402740	-5.356049	0.0	-1.0
2013-01-06	NaN	NaN	NaN	NaN	NaN

sub()是减运算，df减去s时s的维度会自动进行扩展。

apply运算
apply运算将函数作用于数据。

df.apply(np.cumsum)

	A	B	C	D	F
2013-01-01	0.000000	0.000000	0.171121	5	NaN
2013-01-02	-0.068377	-0.452804	-0.220771	10	1.0
2013-01-03	1.236011	-2.261288	-0.507260	15	3.0
2013-01-04	2.683824	-4.123409	-0.391310	20	6.0
2013-01-05	3.204233	-5.526149	-0.747359	25	10.0
2013-01-06	2.799333	-4.940729	-0.821282	30	15.0

df

	A	B	C	D	F
2013-01-01	0.000000	0.000000	0.171121	5	NaN
2013-01-02	-0.068377	-0.452804	-0.391892	5	1.0
2013-01-03	1.304388	-1.808484	-0.286489	5	2.0
2013-01-04	1.447812	-1.862121	0.115950	5	3.0
2013-01-05	0.520409	-1.402740	-0.356049	5	4.0
2013-01-06	-0.404900	0.585420	-0.073923	5	5.0

np.cumsum是求元素累加和，上述操作将每行数据依次累加到下一行上。

df.apply(lambda x: x.max()-x.min())

A 1.852712 B 2.447541 C 0.563013 D 0.000000 F 4.000000 dtype: float64 柱状图统计每个数据出现的次数。

# 随机生成0~7之间的10个整数
s = pd.Series(np.random.randint(0,7,size=10))

0 1 1 5 2 0 3 4 4 3 5 5 6 6 7 6 8 5 9 1 dtype: int64

s.value_counts()

5 3 6 2 1 2 4 1 3 1 0 1 dtype: int64 字符串方法

s = pd.Series(['A','B','C','Aaba','Baca',np.nan, 'CABA', 'dog', 'cat'])

s.str.lower()

0 a 1 b 2 c 3 aaba 4 baca 5 NaN 6 caba 7 dog 8 cat dtype: object

数据融合

pandas提供了多种工具可以将Series、DataFrame和Panel对象按照多种逻辑结合起来。

使用concat()连接pandas对象

df = pd.DataFrame(np.random.randn(10,4))

df

	0	1	2	3
0	0.526889	2.038465	-0.564220	0.263579
1	-0.987904	-0.306195	1.805246	0.030639
2	1.288416	-0.514634	0.450702	0.671194
3	0.209680	-0.868604	0.553508	0.173013
4	-0.443213	-0.998113	-0.237519	-0.401295
5	0.595207	0.845315	-0.914725	1.471180
6	-0.539326	-0.681776	0.491664	2.022497
7	1.083012	0.518738	0.707878	-0.337114
8	-1.322083	0.495178	-0.223462	-1.511751
9	-0.105515	-0.256568	1.591926	0.755486

# 将df切成片
pieces = [df[:3], df[3:7], df[7:]]

pieces

[ 0 1 2 3 0 0.526889 2.038465 -0.564220 0.263579 1 -0.987904 -0.306195 1.805246 0.030639 2 1.288416 -0.514634 0.450702 0.671194, 0 1 2 3 3 0.209680 -0.868604 0.553508 0.173013 4 -0.443213 -0.998113 -0.237519 -0.401295 5 0.595207 0.845315 -0.914725 1.471180 6 -0.539326 -0.681776 0.491664 2.022497, 0 1 2 3 7 1.083012 0.518738 0.707878 -0.337114 8 -1.322083 0.495178 -0.223462 -1.511751 9 -0.105515 -0.256568 1.591926 0.755486]

pd.concat(pieces)

	0	1	2	3
0	0.526889	2.038465	-0.564220	0.263579
1	-0.987904	-0.306195	1.805246	0.030639
2	1.288416	-0.514634	0.450702	0.671194
3	0.209680	-0.868604	0.553508	0.173013
4	-0.443213	-0.998113	-0.237519	-0.401295
5	0.595207	0.845315	-0.914725	1.471180
6	-0.539326	-0.681776	0.491664	2.022497
7	1.083012	0.518738	0.707878	-0.337114
8	-1.322083	0.495178	-0.223462	-1.511751
9	-0.105515	-0.256568	1.591926	0.755486

join
SQL风格的数据融合。

left = pd.DataFrame({'key':['foo','foo'],'lval':[1,2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

left

	key	lval
0	foo	1
1	foo	2

right

	key	rval
0	foo	4
1	foo	5

pd.merge(left, right, on='key')

	key	lval	rval
0	foo	1	4
1	foo	1	5
2	foo	2	4
3	foo	2	5

append
为dataframe增加行。

df = pd.DataFrame(np.random.randn(8,4), columns=['A','B','C','D'])

df

	A	B	C	D
0	-0.346194	-1.878628	0.257169	0.445530
1	1.098394	-1.127943	-1.251522	-0.653498
2	1.296878	-0.757345	-2.423548	-2.233024
3	0.857649	-0.320409	0.267631	-1.337814
4	0.090567	1.460739	0.212409	-0.308281
5	0.951721	1.305034	0.721996	0.669566
6	0.104395	1.904366	-0.132059	0.436476
7	0.552328	-1.344539	0.459006	1.713434

s = df.iloc[3]

df.append(s, ignore_index=True)

	A	B	C	D
0	-0.346194	-1.878628	0.257169	0.445530
1	1.098394	-1.127943	-1.251522	-0.653498
2	1.296878	-0.757345	-2.423548	-2.233024
3	0.857649	-0.320409	0.267631	-1.337814
4	0.090567	1.460739	0.212409	-0.308281
5	0.951721	1.305034	0.721996	0.669566
6	0.104395	1.904366	-0.132059	0.436476
7	0.552328	-1.344539	0.459006	1.713434
8	0.857649	-0.320409	0.267631	-1.337814

分组

“group by” 表示以下步骤中的一步或多步操作。
- 将数据按照某些标准分为多组
- 对每个组进行一个函数运算
- 将结果结合成一个数据结构

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})

df

	A	B	C	D
0	foo	one	0.460761	-0.001011
1	bar	one	2.001010	0.282712
2	foo	two	-1.171306	-0.085701
3	bar	three	0.723922	1.013934
4	foo	two	0.566774	-0.654899
5	bar	two	0.653483	1.013699
6	foo	one	0.072918	-0.590657
7	foo	three	-0.161579	-0.485670

df.groupby('A').sum()

	C	D
A
bar	3.378415	2.310345
foo	-0.232432	-1.817937

df.groupby(['A','B']).sum()

		C	D
A	B
bar	one	2.001010	0.282712
	three	0.723922	1.013934
	two	0.653483	1.013699
foo	one	0.533679	-0.591667
	three	-0.161579	-0.485670
	two	-0.604532	-0.740600

Reshaping

stack

tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))

tuples

[(‘bar’, ‘one’), (‘bar’, ‘two’), (‘baz’, ‘one’), (‘baz’, ‘two’), (‘foo’, ‘one’), (‘foo’, ‘two’), (‘qux’, ‘one’), (‘qux’, ‘two’)]

index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

index

MultiIndex(levels=[[u’bar’, u’baz’, u’foo’, u’qux’], [u’one’, u’two’]], labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]], names=[u’first’, u’second’])

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

df

		A	B
first	second
bar	one	0.055334	0.953745
bar	two	1.719361	0.419879
baz	one	0.180238	0.844578
baz	two	0.233350	-1.366278
foo	one	-0.285023	-0.353144
foo	two	-1.531769	-0.146243
qux	one	-0.419270	0.308597
qux	two	0.763019	0.631118

df2 = df[:4]

df2

		A	B
first	second
bar	one	0.055334	0.953745
bar	two	1.719361	0.419879
baz	one	0.180238	0.844578
baz	two	0.233350	-1.366278

stacked = df2.stack()

stacked

first second bar one A 0.055334 B 0.953745 two A 1.719361 B 0.419879 baz one A 0.180238 B 0.844578 two A 0.233350 B -1.366278 dtype: float64 stack()方法将DataFrame的列压缩了一个级别对于一个以MultiIndex为索引的stacked DataFrame或Series,stack()的逆操作是unstack().

stacked.unstack()

		A	B
first	second
bar	one	0.055334	0.953745
bar	two	1.719361	0.419879
baz	one	0.180238	0.844578
baz	two	0.233350	-1.366278

stacked.unstack(0)

	first	bar	baz
second
one	A	0.055334	0.180238
one	B	0.953745	0.844578
two	A	1.719361	0.233350
two	B	0.419879	-1.366278

stacked.unstack(1)

	second	one	two
first
bar	A	0.055334	1.719361
bar	B	0.953745	0.419879
baz	A	0.180238	0.233350
baz	B	0.844578	-1.366278

数据透视表Pivot Tables

df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})

df

	A	B	C	D	E
0	one	A	foo	0.353420	-0.570327
1	one	B	foo	1.090713	-0.046794
2	two	C	foo	-0.160874	0.595251
3	three	A	bar	0.884684	-0.027981
4	one	B	bar	0.379335	-0.387736
5	one	C	bar	0.045674	1.210791
6	two	A	foo	0.264520	-1.120149
7	three	B	foo	1.149012	0.213768
8	one	C	foo	-0.965242	-0.232711
9	one	A	bar	-0.464023	0.799239
10	two	B	bar	0.186186	-0.889300
11	three	C	bar	0.177992	1.352036

pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

	C	bar	foo
A	B
one	A	-0.464023	0.353420
	B	0.379335	1.090713
	C	0.045674	-0.965242
three	A	0.884684	NaN
	B	NaN	1.149012
	C	0.177992	NaN
two	A	NaN	0.264520
	B	0.186186	NaN
	C	NaN	-0.160874

时间序列

pandas具有简单、强大、高效的用于频率变换的重采样操作（例如将季节性数据变为以5分钟为间隔的数据）。

rng = pd.date_range('1/1/2012', periods=100, freq='S')

ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

rng

DatetimeIndex([‘2012-01-01 00:00:00’, ‘2012-01-01 00:00:01’, ‘2012-01-01 00:00:02’, ‘2012-01-01 00:00:03’, ‘2012-01-01 00:00:04’, ‘2012-01-01 00:00:05’, ‘2012-01-01 00:00:06’, ‘2012-01-01 00:00:07’, ‘2012-01-01 00:00:08’, ‘2012-01-01 00:00:09’, ‘2012-01-01 00:00:10’, ‘2012-01-01 00:00:11’, ‘2012-01-01 00:00:12’, ‘2012-01-01 00:00:13’, ‘2012-01-01 00:00:14’, ‘2012-01-01 00:00:15’, ‘2012-01-01 00:00:16’, ‘2012-01-01 00:00:17’, ‘2012-01-01 00:00:18’, ‘2012-01-01 00:00:19’, ‘2012-01-01 00:00:20’, ‘2012-01-01 00:00:21’, ‘2012-01-01 00:00:22’, ‘2012-01-01 00:00:23’, ‘2012-01-01 00:00:24’, ‘2012-01-01 00:00:25’, ‘2012-01-01 00:00:26’, ‘2012-01-01 00:00:27’, ‘2012-01-01 00:00:28’, ‘2012-01-01 00:00:29’, ‘2012-01-01 00:00:30’, ‘2012-01-01 00:00:31’, ‘2012-01-01 00:00:32’, ‘2012-01-01 00:00:33’, ‘2012-01-01 00:00:34’, ‘2012-01-01 00:00:35’, ‘2012-01-01 00:00:36’, ‘2012-01-01 00:00:37’, ‘2012-01-01 00:00:38’, ‘2012-01-01 00:00:39’, ‘2012-01-01 00:00:40’, ‘2012-01-01 00:00:41’, ‘2012-01-01 00:00:42’, ‘2012-01-01 00:00:43’, ‘2012-01-01 00:00:44’, ‘2012-01-01 00:00:45’, ‘2012-01-01 00:00:46’, ‘2012-01-01 00:00:47’, ‘2012-01-01 00:00:48’, ‘2012-01-01 00:00:49’, ‘2012-01-01 00:00:50’, ‘2012-01-01 00:00:51’, ‘2012-01-01 00:00:52’, ‘2012-01-01 00:00:53’, ‘2012-01-01 00:00:54’, ‘2012-01-01 00:00:55’, ‘2012-01-01 00:00:56’, ‘2012-01-01 00:00:57’, ‘2012-01-01 00:00:58’, ‘2012-01-01 00:00:59’, ‘2012-01-01 00:01:00’, ‘2012-01-01 00:01:01’, ‘2012-01-01 00:01:02’, ‘2012-01-01 00:01:03’, ‘2012-01-01 00:01:04’, ‘2012-01-01 00:01:05’, ‘2012-01-01 00:01:06’, ‘2012-01-01 00:01:07’, ‘2012-01-01 00:01:08’, ‘2012-01-01 00:01:09’, ‘2012-01-01 00:01:10’, ‘2012-01-01 00:01:11’, ‘2012-01-01 00:01:12’, ‘2012-01-01 00:01:13’, ‘2012-01-01 00:01:14’, ‘2012-01-01 00:01:15’, ‘2012-01-01 00:01:16’, ‘2012-01-01 00:01:17’, ‘2012-01-01 00:01:18’, ‘2012-01-01 00:01:19’, ‘2012-01-01 00:01:20’, ‘2012-01-01 00:01:21’, ‘2012-01-01 00:01:22’, ‘2012-01-01 00:01:23’, ‘2012-01-01 00:01:24’, ‘2012-01-01 00:01:25’, ‘2012-01-01 00:01:26’, ‘2012-01-01 00:01:27’, ‘2012-01-01 00:01:28’, ‘2012-01-01 00:01:29’, ‘2012-01-01 00:01:30’, ‘2012-01-01 00:01:31’, ‘2012-01-01 00:01:32’, ‘2012-01-01 00:01:33’, ‘2012-01-01 00:01:34’, ‘2012-01-01 00:01:35’, ‘2012-01-01 00:01:36’, ‘2012-01-01 00:01:37’, ‘2012-01-01 00:01:38’, ‘2012-01-01 00:01:39’], dtype=’datetime64[ns]’, freq=’S’)

ts

2012-01-01 00:00:00 244 2012-01-01 00:00:01 57 2012-01-01 00:00:02 2 2012-01-01 00:00:03 175 2012-01-01 00:00:04 486 2012-01-01 00:00:05 71 2012-01-01 00:00:06 71 2012-01-01 00:00:07 430 2012-01-01 00:00:08 276 2012-01-01 00:00:09 283 2012-01-01 00:00:10 358 2012-01-01 00:00:11 465 2012-01-01 00:00:12 358 2012-01-01 00:00:13 20 2012-01-01 00:00:14 296 2012-01-01 00:00:15 397 2012-01-01 00:00:16 485 2012-01-01 00:00:17 358 2012-01-01 00:00:18 429 2012-01-01 00:00:19 148 2012-01-01 00:00:20 166 2012-01-01 00:00:21 333 2012-01-01 00:00:22 43 2012-01-01 00:00:23 352 2012-01-01 00:00:24 180 2012-01-01 00:00:25 79 2012-01-01 00:00:26 97 2012-01-01 00:00:27 344 2012-01-01 00:00:28 271 2012-01-01 00:00:29 434 … 2012-01-01 00:01:10 294 2012-01-01 00:01:11 22 2012-01-01 00:01:12 352 2012-01-01 00:01:13 383 2012-01-01 00:01:14 175 2012-01-01 00:01:15 62 2012-01-01 00:01:16 62 2012-01-01 00:01:17 32 2012-01-01 00:01:18 16 2012-01-01 00:01:19 110 2012-01-01 00:01:20 110 2012-01-01 00:01:21 302 2012-01-01 00:01:22 268 2012-01-01 00:01:23 342 2012-01-01 00:01:24 39 2012-01-01 00:01:25 346 2012-01-01 00:01:26 461 2012-01-01 00:01:27 305 2012-01-01 00:01:28 435 2012-01-01 00:01:29 370 2012-01-01 00:01:30 319 2012-01-01 00:01:31 376 2012-01-01 00:01:32 97 2012-01-01 00:01:33 437 2012-01-01 00:01:34 287 2012-01-01 00:01:35 335 2012-01-01 00:01:36 334 2012-01-01 00:01:37 106 2012-01-01 00:01:38 295 2012-01-01 00:01:39 122 Freq: S, dtype: int64

ts.resample('5Min').sum()

2012-01-01 24806 Freq: 5T, dtype: int64

rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')

ts = pd.Series(np.random.randn(len(rng)), rng)

ts

2012-03-06 0.954522 2012-03-07 0.944713 2012-03-08 1.299799 2012-03-09 1.766374 2012-03-10 -0.703189 Freq: D, dtype: float64

ts_utc = ts.tz_localize('UTC')

ts_utc

2012-03-06 00:00:00+00:00 0.954522 2012-03-07 00:00:00+00:00 0.944713 2012-03-08 00:00:00+00:00 1.299799 2012-03-09 00:00:00+00:00 1.766374 2012-03-10 00:00:00+00:00 -0.703189 Freq: D, dtype: float64

# 转为另一个时区
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00 0.954522 2012-03-06 19:00:00-05:00 0.944713 2012-03-07 19:00:00-05:00 1.299799 2012-03-08 19:00:00-05:00 1.766374 2012-03-09 19:00:00-05:00 -0.703189 Freq: D, dtype: float64

类别（Categoricals）

从0.15版本起，pandas可以在DataFrame中包含类别数据。

df = pd.DataFrame({"id":[1,2,3,4,5,6], 
                   "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

df["grade"] = df["raw_grade"].astype("category")

df["grade"]

0 a 1 b 2 b 3 a 4 a 5 e Name: grade, dtype: category Categories (3, object): [a, b, e]

# Series.cat.categories 可以将类别重命名为更有意义的名字
df["grade"].cat.categories = ["very good", "good", "very bad"]

df

	id	raw_grade	grade
0	1	a	very good
1	2	b	good
2	3	b	good
3	4	a	very good
4	5	a	very good
5	6	e	very bad

df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"])

df

	id	raw_grade	grade
0	1	a	very good
1	2	b	good
2	3	b	good
3	4	a	very good
4	5	a	very good
5	6	e	very bad

df.sort_values(by="grade")

	id	raw_grade	grade
5	6	e	very bad
1	2	b	good
2	3	b	good
0	1	a	very good
3	4	a	very good
4	5	a	very good

按类别对数据进行排序

# 统计每个类别出现的次数
df.groupby("grade").size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

画图

# Series
ts = pd.Series(np.random.randn(1000), 
               index=pd.date_range('1/1/2000', periods=1000))

ts = ts.cumsum()

%matplotlib inline
ts.plot()

<matplotlib.axes._subplots.AxesSubplot at 0x7f7584dafc90>

# DataFrame
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, 
                  columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
plt.figure(); df.plot(); 
plt.legend(loc='best') #自动调整在最佳位置放置legend图标

<matplotlib.legend.Legend at 0x7f7574834e50>




<matplotlib.figure.Figure at 0x7f7584daf310>

读取和保存数据

CSV:
df.to_csv(‘foo.csv’)
pd.read_csv(‘foo.csv’)

HDF5:
df.to_hdf(‘foo.h5’,’df’)
pd.read_hdf(‘foo.h5’,’df’)

Excel:
df.to_excel(‘foo.xlsx’, sheet_name=’Sheet1’)
pd.read_excel(‘foo.xlsx’, ‘Sheet1’, index_col=None, na_values=[‘NA’])

附录

本文是对pandas 0.18.1 documentation进行学习的一次学习记录。
原文见10 Minutes to pandas。虽然号称10分钟入门，但也只限于水过地皮湿的理解程度或作为手头的应急查阅文件。我在jupyter-notebook中一步一步按照代码敲下来，边学边理解大概需要四个小时。

你可能感兴趣的:(pandas,series,dataFrame)

222222222222222 智能与优化开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas是基于Nu
python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例 weixin_39955149 python pandas 读取数据库
Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins
python把oracle的查询结果导出为insert语句优游的鱼 oracle python 数据库开发语言
可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor
记一次从mysql数据迁移到oralce （基于python和pandas） qq_36532060 mysql oracle pandas python
记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最
【Python-ML】SKlearn库性能指标ROC-AUC fjssharpsword Big data python专栏
#-*-coding:utf-8-*-'''Createdon2018年1月19日@author:Jason.F@summary:ROC(receiveroperatorcharacteristic，基于模型真正率和假正率等性能指标评估分类模型'''importpandasaspdfromsklearn.preprocessingimportLabelEncoderfromsklearn.cros
使用Python导出Oracle数据库数据表目录 SeanData Python 数据分析 python oracle 数据目录导出
###Oracle数据库数据表目录导出###导入包importpandasaspdimportcx_Oracle###数据库信息username='xxx'password='yyy'ipaddr='100.28.60.132'port='1521'service_name='service_name'connect_string=ipaddr+":"+port+"/"+service_name#
使用Python或R语言重新拟合模型 pk_xz123456 python 算法 python r语言开发语言
以下分别给出使用Python和R语言完成该任务的示例代码，假设我们有一个包含被试编号、实验条件和反应时的数据，并且要拟合一个线性回归模型。Python实现importpandasaspdimportnumpyasnpimportstatsmodels.apiassm#生成示例数据data={'subject':np.repeat(range(1,11),5),'condition':np.tile
Pandas逐行读取DataFrame数据以及修改对应数据 Zswdhy python python
逐行读取数据，并修改对应数据#remove_data，为一个DataFrame对象forindexsinremove_data.index:#逐行查看，values可以用int型索引remove_data.loc[indexs].values[0:-1]#逐行修改列值remove_data.loc[indexs,"Norm_peptide"]=norm_protein#也可以用loc方法查看指定元
试试deepseek写策略 iron911911 python 开发语言
以下是为PTrade平台优化的量化策略代码，结合原有策略逻辑进行改进并适配PTradeAPI接口特性：```python#导入PTrade核心库importpandasaspdimportnumpyasnpfromptrade.apiimport*fromdatetimeimporttime#策略参数配置classConfig:#选股参数MAX_MARKET_CAP=50e8#流通市值上限TURN
基于Pandas库封装Excel工具类忆想不到的晖 python pandas github excel 工具类
引言Excel是一种广泛使用的电子表格软件，它提供了大量的数据处理和计算功能，被广泛应用于数据分析和报告中。在Python中，我们可以使用pandas库来读写和处理Excel文件。但是，为了更方便和快速地操作Excel文件，我们可以封装一个Excel工具类，提供常用的读写操作方法，以提高开发效率。本文将介绍如何使用Python封装Excel操作工具类，并提供相应的例子说明。1、列表转Excel文件
【Pandas】pandas Series backfill liuweidong0802 Pandas Series pandas
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.backfill(*[,axis,inplace,limit,…])用于填充Series中缺失值（NaN）的方法pandas.Series.backfillpandas.Series.backfill是用于填充Series中缺失值（NaN）的方法，它会用后面最近的有效观测值来填充当前的缺失值
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
【Pandas】pandas Series add_prefix liuweidong0802 Pandas Series pandas python 机器学习
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.align(other[,join,axis,level,…])用于将两个Series对齐，使其具有相同的索引Series.case_when(caselist)用于根据条件列表对Series中的元素进行条件判断并返回相应的值Series.drop([labels,axis,index,co
【Pandas】pandas Series reindex liuweidong0802 Pandas Series pandas 数据库大数据
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.align(other[,join,axis,level,…])用于将两个Series对齐，使其具有相同的索引Series.case_when(caselist)用于根据条件列表对Series中的元素进行条件判断并返回相应的值Series.drop([labels,axis,index,co
pandas中Series的map函数详解现实、狠残酷 Pandas pandas 深度学习 python 算法
Series的map函数Series的map方法可以接受一个函数或含有映射关系的字典型对象。使用map是一种实现元素级转换以及其他数据清理工作的便捷方式。DataFrame中对应的是applymap()函数，当然DataFrame还有apply()函数1.字典映射例如，对数据的某个字段进行数字编码的时候：字段’diagnosis’中的值均为：M或者Bdf['diagnosis']=df['diag
pandas使用Timeseries初步记录 qq_22254539 Pandas使用 pandas timeseries
1、获取到的数据转为pd.timestamp2、转换数据日期时遇到时区问题3、数据转换清理start_time=1541347200end_time=start_time+86400*7filters={'occur_time__gte':start_time,'occur_time__lt':end_time,}objs=AcLogin.objects.filter(**filters).exc
Pandas使用 Zhang_newbie pandas python ai
文章目录安装pandas内置数据结构SeriesDataFrameSeries创建Series对象使用有序一元容器对象创建ndarray对象创建字典对象创建标量创建Series常用属性Series常用方法head()和tail()isnull()和notnull()DataFarme创建DataFarmed对象列表创建字典创建Series创建列索引使用获取数据添加数据修改数据行索引操作loc方法i
【Pandas】pandas Series filter liuweidong0802 Pandas Series pandas python 机器学习
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.align(other[,join,axis,level,…])用于将两个Series对齐，使其具有相同的索引Series.case_when(caselist)用于根据条件列表对Series中的元素进行条件判断并返回相应的值Series.drop([labels,axis,index,co
【小白必看！Python 从 0 到 1 数据处理与图形绘制应用全流程案例】生活De°咸鱼 python 开发语言
1.环境准备首先，你需要安装必要的Python库，这里主要用到pandas进行数据处理，matplotlib和seaborn进行图形绘制。可以使用以下命令进行安装：pipinstallpandasmatplotlibseaborn2.数据准备假设我们有一个包含电商销售信息的CSV文件sales_data.csv，文件内容可能如下：date,product,category,sales2024-01
通过Python编程语言实现“机器学习”小项目教程案例指尖下的技术 DeepSeek python 机器学习开发语言
以下为你提供一个使用Python实现简单机器学习项目的教程案例，此案例将使用鸢尾花数据集进行分类任务，运用经典的支持向量机（SVM）算法。步骤1：环境准备首先，你要确保已经安装了必要的Python库，像scikit-learn、pandas、matplotlib和seaborn。可以使用以下命令进行安装：pipinstallscikit-learnpandasmatplotlibseaborn步骤
解析Excel表表头 Only* excel python 开发语言
常见的一级表头表头通常位于Excel文件的第一行，包含了每一列的名称。在Excel文件中，第一行的单元格内容通常定义了每一列的字段名称，这些字段名称就是表头。importpandasaspd#加载Excel文件file_path="Test.xlsx"#替换为你的文件路径df=pd.read_excel(file_path)#获取表头headers=df.columns.tolist()#打印表头
mrmr学习笔记 luojiaao 机器学习降维特征提取
mrmr是最大相关最小冗余pymrmr库最大化特征与标签的关系（信息增益也就是分类之后的商与分类之前的熵之差）最小化特征之间的重复特征（互信息，公式）（单纯地通过固定算法来判断信息的强度与冗余是有可能把一些细节上的特征给分数打低了）#pd=pandas.read_csv("./X_train.csv")#result=pymrmr.mRMR(pd,"MIQ",30)输入文件形式：label,f0,
echarts找不到了？echarts社区最新地址秋刀鱼不做梦疑难杂症 echarts 前端 javascript
前言：在之前使用echarts的时候，还可以通过上边的导航栏找到echarts社区，但是如今的echarts变更之后，就找不到echarts社区了。✨✨✨这里是秋刀鱼不做梦的BLOG✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-CSDN博客如今的echarts社区变成了这样：——会发现根本找不到echarts社区了。。。echarts社区最新地址echarts社区最新地址：series-ma
开发区界址点文件生成代码罖忞財 python
#-*-coding:utf-8-*-importgeopandasasgpdfromshapely.geometryimportPoint,PolygonimportsysfromPyQt5.QtWidgetsimportQApplication,QWidget,QVBoxLayout,QHBoxLayout,QPushButton,QLabel,QComboBox,QFileDialog,QM
Python爬虫实战：电商数据爬取与价格趋势分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言零售 mongodb 人工智能
摘要本文详细介绍了如何使用Python编写爬虫程序，从电商网站抓取商品数据，并对价格趋势进行分析。我们将使用最新的爬虫技术和数据分析工具，包括Selenium、BeautifulSoup、Pandas和Matplotlib等。通过本文，读者将学习到如何构建一个完整的电商数据爬取与分析系统，并掌握相关技术在实际项目中的应用。关键词Python爬虫、电商数据、价格趋势分析、Selenium、Beaut
Python常见库的使用浪子西科 Python python 开发语言
文章目录人工智能与机器学习1.NumPy2.Pandas3.Scikit-learn4.TensorFlow5.PyTorch数据可视化1.Matplotlib2.Seaborn网络请求与爬虫1.Requests2.Scrapy自动化测试1.unittest2.pytest自然语言处理1.NLTK2.SpaCy数据库操作1.SQLite32.SQLAlchemy日期和时间处理1.datetime2
python中的join函数连接dataframe_Python Pandas pandas.DataFrame.join函数方法的使用 weixin_39597868
DataFrame.join(other,on=None,how='left',lsuffix='',rsuffix='',sort=False)源代码在索引或键列上与其他DataFrame连接列。通过传递列表，有效地通过索引连接多个DataFrame对象。参数：other：DataFrame，具有名称字段集的Series，或DataFrame列表索引，应该类似于此列中的一列。如果传递了Serie
【Pandas】DataFrame操作函数 Jonina Beyang Pandas pandas
目录1.批量处理函数-apply()参数funcaxisrawresult_typeargsby_row应用(1).LeetCode-1873.计算特殊奖金2.分组函数groupby()参数by/axis/level/as_indexaxisas_index应用(1).LeetCode-184.部门工资最高的员工(2).LeetCode-1741.查找每个员工花费的总时间3.透视函数melt()参
Pandas——DataFrame对象用法 William.csj 编程语言 pandas
Pandas——DataFrame对象用法一、创建pandas的DataFrame对象二、使用pandas读取excel文件三、访问pandasDataFrame中的元素四、获取DataFrame的行数和列数五、交换行六、访问和修改元素七、转置一、创建pandas的DataFrame对象Pandas学习笔记二——创建pandas的DataFrame对象的3种方法二、使用pandas读取excel文
2024年Python最全Python爬取Boss直聘，帮你获取全国各类职业薪酬榜(1) 2301_82242474 程序员 python 开发语言
代码importrequestsfrombs4importBeautifulSoupimportcsvimportrandomimporttimeimportargparsefrompyecharts.chartsimportLineimportpandasaspdclassBossCrawler:definit(self,query):self.query=queryself.filename=
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在