暴走的鹏鹏哥哥

pandas快速入门相关操作和基础用法

初识Pandas

pandas是以NumPy为基础，在其之上提供了更加易用的数据结构和数据分析工具。
因此即使不使用pandas，也不会使得数据分析或机器学习任务无法完成，但是pandas可以使得你的工作效率更加高。

首先，pandas重点提供了两种数据结构：

Series
序列，一维数据。是对NumPy的一维数组的封装，但是相较于NumPy使用整型下标，我们可以使用自定义(比如具有意义的字符串)的索引(index)。
DataFrame
数据框，二维数据。是对NumPy的二维数组的封装，但是相较于NumPy使用整型下标，它可以使用自定义的索引(index)和列名(column)。

这两种数据结构对于日常工作的数据工作是最常用的，而是用具有意义的字符串来访问数据相较于使用数字则更加方便。
而在使用索引、列名之外，这两个封装额外还附带了更多的趁手的方法，比如：

describe —— 快速地计算数据的各种描述性统计值(均值、总和、中位数、四分位数等)
unique —— 数据的独立值列表(比如想知道某个特征的所有取值可能)
value_count —— 各个值的计数
hist —— 直接绘制直方图
plot —— 对matplotlib进行了简单的封装，可以快速地进行简单的数据绘图

总之，pandas尽力抽象出最经常用的一维数组、二维数组的工作，将它们编写成现成的方法，为你节省时间。

其次，pandas本身还提供了很多非常有用的处理数据时的小工具，比如：

便捷的I/O —— 提供了直接读取Excel、CSV等常见的数据文件工具
媲美SQL的功能 —— 提供了groupby, join等功能
媲美Excel的功能 —— 透视表(pivot table)功能
极其方便的日期相关功能 —— 直观到像自然语言，不必费劲去理解Python自带的日期库

最后，pandas的文档非常丰富，更新频繁，社区十分活跃。

因此，对于从事数据相关工作的人，pandas应该是你工具箱中最趁手的工具之一。

这是一个面向pandas新手、简短的教程。
通过这个教程，我们将大略地领略下pandas能提供的核心功能。

首先我们来导入需要用的模块：

In [2]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

创建对象(Object Creation)

通过传入一个列表数据，我们的pandas可以创建一个使用默认整型作为索引的Series对象。

In [3]:

s = pd.Series([1,3,5,np.nan,6,8])
s

Out[3]:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

我们可以构建一个使用日期和标签作为索引的DataFrame对象:

In [4]:

dates = pd.date_range('20171026', periods=6)
dates

Out[4]:

DatetimeIndex(['2017-10-26', '2017-10-27', '2017-10-28', '2017-10-29',
               '2017-10-30', '2017-10-31'],
              dtype='datetime64[ns]', freq='D')

In [5]:

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=tuple('ABCD')) # tuple('ABCD') is short for ('A', 'B', 'C', 'D')
df

Out[5]:

	A	B	C	D
2017-10-26	-0.721239	0.095539	0.056906	0.785019
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	-0.455952	-0.602184	0.185776
2017-10-29	1.263669	-0.799012	0.765561	1.731729
2017-10-30	0.249711	-0.074355	-0.277041	1.138278
2017-10-31	-1.409005	0.020601	0.008270	-0.464991

我们也可以使用一个字典(dict)来创建一个DataFrame对象，而且它会自动应用NumPy的广播：

In [6]:

df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20171026'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2

Out[6]:

	A	B	C	D	E	F
0	1.0	2017-10-26	1.0	3	test	foo
1	1.0	2017-10-26	1.0	3	train	foo
2	1.0	2017-10-26	1.0	3	test	foo
3	1.0	2017-10-26	1.0	3	train	foo

In [7]:

df2.dtypes

Out[7]:

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

In [8]:

df2.C # 直接使用标签来选择列，等价于df2['C']

Out[8]:

0    1.0
1    1.0
2    1.0
3    1.0
Name: C, dtype: float32

实际上，所有的列都可以通过标签名来访问，如"A", "B", "C", "D", "E", "F"。
相较于NumPy的二维数组a[:,3]，df.D表意能力更强，而且大家就不需要计所需要的数据是第几列了。

查看数据(viewing data)

比如我们想看看一个frame的头部和尾部:

In [9]:

df.head()

Out[9]:

	A	B	C	D
2017-10-26	-0.721239	0.095539	0.056906	0.785019
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	-0.455952	-0.602184	0.185776
2017-10-29	1.263669	-0.799012	0.765561	1.731729
2017-10-30	0.249711	-0.074355	-0.277041	1.138278

In [10]:

df.tail(3)

Out[10]:

	A	B	C	D
2017-10-29	1.263669	-0.799012	0.765561	1.731729
2017-10-30	0.249711	-0.074355	-0.277041	1.138278
2017-10-31	-1.409005	0.020601	0.008270	-0.464991

我们也可以看看索引、列名、以及底层的numpy数据都是什么样：

In [11]:

df.index

Out[11]:

DatetimeIndex(['2017-10-26', '2017-10-27', '2017-10-28', '2017-10-29',
               '2017-10-30', '2017-10-31'],
              dtype='datetime64[ns]', freq='D')

In [12]:

df.columns

Out[12]:

Index([u'A', u'B', u'C', u'D'], dtype='object')

In [ ]:

df.values

而且我们可以通过describe()方法来快速地看看数据的概括统计：

In [13]:

df.describe()

Out[13]:

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	0.172821	-0.056109	0.159190	0.572441
std	1.036059	0.567592	0.613838	0.799860
min	-1.409005	-0.799012	-0.602184	-0.464991
25%	-0.478501	-0.360553	-0.205713	0.090569
50%	0.496338	-0.026877	0.032588	0.485398
75%	0.868858	0.076805	0.588397	1.049964
max	1.263669	0.876526	1.003626	1.731729

In [14]:

df.T # 转置

Out[14]:

	2017-10-26 00:00:00	2017-10-27 00:00:00	2017-10-28 00:00:00	2017-10-29 00:00:00	2017-10-30 00:00:00	2017-10-31 00:00:00
A	-0.721239	0.742965	0.910823	1.263669	0.249711	-1.409005
B	0.095539	0.876526	-0.455952	-0.799012	-0.074355	0.020601
C	0.056906	1.003626	-0.602184	0.765561	-0.277041	0.008270
D	0.785019	0.058834	0.185776	1.731729	1.138278	-0.464991

也可以以某一个轴来排序，注意这是按照轴自己的值来排序，比如我们按照列名来排序：

In [15]:

df.sort_index(axis=1, ascending=False)

Out[15]:

	D	C	B	A
2017-10-26	0.785019	0.056906	0.095539	-0.721239
2017-10-27	0.058834	1.003626	0.876526	0.742965
2017-10-28	0.185776	-0.602184	-0.455952	0.910823
2017-10-29	1.731729	0.765561	-0.799012	1.263669
2017-10-30	1.138278	-0.277041	-0.074355	0.249711
2017-10-31	-0.464991	0.008270	0.020601	-1.409005

当然我们也可以按照数据的值来排序：

In [16]:

df.sort_values(by='B')

Out[16]:

	A	B	C	D
2017-10-29	1.263669	-0.799012	0.765561	1.731729
2017-10-28	0.910823	-0.455952	-0.602184	0.185776
2017-10-30	0.249711	-0.074355	-0.277041	1.138278
2017-10-31	-1.409005	0.020601	0.008270	-0.464991
2017-10-26	-0.721239	0.095539	0.056906	0.785019
2017-10-27	0.742965	0.876526	1.003626	0.058834

选择数据(Selection)

请注意，虽然用于选择/设置数据的标准Python和NumPy表达式很直观，而且对于交互式工作非常方便。但对于生产代码，我们还是推荐使用经过优化的pandas数据访问方法，如：.at, .iat, .loc, iloc以及.ix。

我们这里先给一下索引(index/selection)方法的概览:

操作	语法	结果类型
选择列	df[col]	Series
选择行	df.loc[label]	Series
选择列、行	df.loc[index, column]	DataFrame
使用位置选择行	df.iloc[loc]	Series
使用位置选择行、列	df.iloc[v_loc, h_loc]	DataFrame
行切片	df[5:10] / df[index1:index2]	DataFrame
使用布尔向量选择行	df[bool_vec]	DataFrame

访问数据(Getting)

选择某一列，会返回一个Series对象，等价于df.A:

In [17]:

df['A']

Out[17]:

2017-10-26   -0.721239
2017-10-27    0.742965
2017-10-28    0.910823
2017-10-29    1.263669
2017-10-30    0.249711
2017-10-31   -1.409005
Freq: D, Name: A, dtype: float64

我们也可以使用切片的方式获得某些行：

In [26]:

df[0:3]

Out[26]:

	A	B	C	D
2017-10-26	-0.721239	0.095539	0.056906	0.785019
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	-0.455952	-0.602184	0.185776

这种方法和NumPy的二维数组没什么差别，但是在pandas中我们可以直接使用索引的值，更加自然：

In [19]:

df['20171026':'20171028'] # 注意，使用这种索引值，结束值也会被返回。因为它们并不是整形数字

Out[19]:

	A	B	C	D
2017-10-26	-0.721239	0.095539	0.056906	0.785019
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	-0.455952	-0.602184	0.185776

使用标签选择数据

loc方法使用索引或者列标签来选择数据:

In [27]:

df.loc[dates[0]]

Out[27]:

A   -0.721239
B    0.095539
C    0.056906
D    0.785019
Name: 2017-10-26 00:00:00, dtype: float64

In [21]:

df.loc[:,['A','B']] # 指定要A, B两列

Out[21]:

	A	B
2017-10-26	-0.721239	0.095539
2017-10-27	0.742965	0.876526
2017-10-28	0.910823	-0.455952
2017-10-29	1.263669	-0.799012
2017-10-30	0.249711	-0.074355
2017-10-31	-1.409005	0.020601

In [22]:

df.loc['20171026':'20171028',['A','B']] # index是可以被切片的

Out[22]:

	A	B
2017-10-26	-0.721239	0.095539
2017-10-27	0.742965	0.876526
2017-10-28	0.910823	-0.455952

In [23]:

df.loc['20171026':'20171028','A':'B'] # columns也可以被切片

Out[23]:

	A	B
2017-10-26	-0.721239	0.095539
2017-10-27	0.742965	0.876526
2017-10-28	0.910823	-0.455952

In [24]:

df.loc[dates[0],'A'] # 获取特定位置的数据

Out[24]:

-0.7212387718995426

In [25]:

df.at[dates[0], 'A'] # 和上面一行等价

Out[25]:

-0.7212387718995426

使用位置来选择(selection by position)

iloc使用位置来选择数据，基本类似于NumPy的方法：

In [28]:

df.iloc[3]

Out[28]:

A    1.263669
B   -0.799012
C    0.765561
D    1.731729
Name: 2017-10-29 00:00:00, dtype: float64

In [29]:

df.iloc[3:5,0:2]

Out[29]:

	A	B
2017-10-29	1.263669	-0.799012
2017-10-30	0.249711	-0.074355

In [30]:

df.iloc[[1,2,4],[0,2]] # 选择1,2,4行，第0，2列

Out[30]:

	A	C
2017-10-27	0.742965	1.003626
2017-10-28	0.910823	-0.602184
2017-10-30	0.249711	-0.277041

In [31]:

df.iloc[1:3,:]

Out[31]:

	A	B	C	D
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	-0.455952	-0.602184	0.185776

In [32]:

df.iloc[:,1:3]

Out[32]:

	B	C
2017-10-26	0.095539	0.056906
2017-10-27	0.876526	1.003626
2017-10-28	-0.455952	-0.602184
2017-10-29	-0.799012	0.765561
2017-10-30	-0.074355	-0.277041
2017-10-31	0.020601	0.008270

iloc也可以某个特殊位置的数据值

In [33]:

df.iloc[1,1] # 等价于 df.iat[1,1]

Out[33]:

0.8765258678924436

布尔索引

这种方法也和NumPy很类似：

In [34]:

df[df.A > 0]

Out[34]:

	A	B	C	D
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	-0.455952	-0.602184	0.185776
2017-10-29	1.263669	-0.799012	0.765561	1.731729
2017-10-30	0.249711	-0.074355	-0.277041	1.138278

In [35]:

df[df > 0]

Out[35]:

	A	B	C	D
2017-10-26	NaN	0.095539	0.056906	0.785019
2017-10-27	0.742965	0.876526	1.003626	0.058834
2017-10-28	0.910823	NaN	NaN	0.185776
2017-10-29	1.263669	NaN	0.765561	1.731729
2017-10-30	0.249711	NaN	NaN	1.138278
2017-10-31	NaN	0.020601	0.008270	NaN

我们可以使用isin()(is in)方法来进行过滤，对于非数值型数据很有用：

In [36]:

df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
df2

Out[36]:

	A	B	C	D	E
2017-10-26	-0.721239	0.095539	0.056906	0.785019	one
2017-10-27	0.742965	0.876526	1.003626	0.058834	one
2017-10-28	0.910823	-0.455952	-0.602184	0.185776	two
2017-10-29	1.263669	-0.799012	0.765561	1.731729	three
2017-10-30	0.249711	-0.074355	-0.277041	1.138278	four
2017-10-31	-1.409005	0.020601	0.008270	-0.464991	three

In [37]:

df2[df2['E'].isin(['two','four'])]

Out[37]:

	A	B	C	D	E
2017-10-28	0.910823	-0.455952	-0.602184	0.185776	two
2017-10-30	0.249711	-0.074355	-0.277041	1.138278	four

赋值(setting)

In [79]:

s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20171027', periods=6))
s1

Out[79]:

2017-10-27    1
2017-10-28    2
2017-10-29    3
2017-10-30    4
2017-10-31    5
2017-11-01    6
Freq: D, dtype: int64

In [80]:

df['F'] = s1
df

Out[80]:

	A	B	C	D	F
2017-10-26	0.000000	0.000000	0.501078	5	NaN
2017-10-27	0.440487	0.716872	-2.013572	5	1.0
2017-10-28	0.563258	0.612541	1.214156	5	2.0
2017-10-29	-0.304800	1.262876	0.739776	5	3.0
2017-10-30	0.654254	-1.002900	1.236297	5	4.0
2017-10-31	-0.938760	1.302596	0.221423	5	5.0

In [81]:

df.at[dates[0],'A'] = 0
df

Out[81]:

	A	B	C	D	F
2017-10-26	0.000000	0.000000	0.501078	5	NaN
2017-10-27	0.440487	0.716872	-2.013572	5	1.0
2017-10-28	0.563258	0.612541	1.214156	5	2.0
2017-10-29	-0.304800	1.262876	0.739776	5	3.0
2017-10-30	0.654254	-1.002900	1.236297	5	4.0
2017-10-31	-0.938760	1.302596	0.221423	5	5.0

In [82]:

df.iat[0, 1] = 0
df

Out[82]:

	A	B	C	D	F
2017-10-26	0.000000	0.000000	0.501078	5	NaN
2017-10-27	0.440487	0.716872	-2.013572	5	1.0
2017-10-28	0.563258	0.612541	1.214156	5	2.0
2017-10-29	-0.304800	1.262876	0.739776	5	3.0
2017-10-30	0.654254	-1.002900	1.236297	5	4.0
2017-10-31	-0.938760	1.302596	0.221423	5	5.0

In [83]:

df.loc[:, 'D'] = np.array([5]*len(df))
df

Out[83]:

	A	B	C	D	F
2017-10-26	0.000000	0.000000	0.501078	5	NaN
2017-10-27	0.440487	0.716872	-2.013572	5	1.0
2017-10-28	0.563258	0.612541	1.214156	5	2.0
2017-10-29	-0.304800	1.262876	0.739776	5	3.0
2017-10-30	0.654254	-1.002900	1.236297	5	4.0
2017-10-31	-0.938760	1.302596	0.221423	5	5.0

缺失值

pandas一般使用np.nan来表示缺失值。默认情况下，它不会参与计算。

重建索引(reindexing)可以修改、增加、删除索引，而且会返回一份拷贝后的数据：

In [84]:

df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Out[84]:

	A	B	C	D	F	E
2017-10-26	0.000000	0.000000	0.501078	5	NaN	1.0
2017-10-27	0.440487	0.716872	-2.013572	5	1.0	1.0
2017-10-28	0.563258	0.612541	1.214156	5	2.0	NaN
2017-10-29	-0.304800	1.262876	0.739776	5	3.0	NaN

删除含有缺失值的所有行：

In [85]:

df1.dropna(how='any')

Out[85]:

	A	B	C	D	F	E
2017-10-27	0.440487	0.716872	-2.013572	5	1.0	1.0

使用指定的值来替换缺失值：

In [86]:

df1.fillna(value=5)

Out[86]:

	A	B	C	D	F	E
2017-10-26	0.000000	0.000000	0.501078	5	5.0	1.0
2017-10-27	0.440487	0.716872	-2.013572	5	1.0	1.0
2017-10-28	0.563258	0.612541	1.214156	5	2.0	5.0
2017-10-29	-0.304800	1.262876	0.739776	5	3.0	5.0

获取DataFrame中缺失值的掩码布尔矩阵：

In [87]:

pd.isnull(df1)

Out[87]:

	A	B	C	D	F	E
2017-10-26	False	False	False	False	True	False
2017-10-27	False	False	False	False	False	False
2017-10-28	False	False	False	False	False	True
2017-10-29	False	False	False	False	False	True

操作(operations)

统计(stats)

操作一般都不计缺失值：

In [88]:

df.mean()

Out[88]:

A    0.069073
B    0.481998
C    0.316526
D    5.000000
F    3.000000
dtype: float64

In [89]:

df.mean(1) # 在另一个轴上

Out[89]:

2017-10-26    1.375270
2017-10-27    1.028757
2017-10-28    1.877991
2017-10-29    1.939570
2017-10-30    1.977530
2017-10-31    2.117052
Freq: D, dtype: float64

应用函数(apply)

对数据应用函数

In [90]:

df.apply(np.cumsum)

Out[90]:

	A	B	C	D	F
2017-10-26	0.000000	0.000000	0.501078	5	NaN
2017-10-27	0.440487	0.716872	-1.512494	10	1.0
2017-10-28	1.003745	1.329414	-0.298339	15	3.0
2017-10-29	0.698945	2.592289	0.441438	20	6.0
2017-10-30	1.353199	1.589389	1.677734	25	10.0
2017-10-31	0.414439	2.891985	1.899158	30	15.0

In [91]:

df.apply(lambda x: x.max() - x.min())

Out[91]:

A    1.593014
B    2.305497
C    3.249869
D    0.000000
F    4.000000
dtype: float64

计数(histogramming)

In [92]:

s = pd.Series(np.random.randint(0, 7, size=10))
s

Out[92]:

0    6
1    2
2    5
3    5
4    1
5    1
6    0
7    5
8    2
9    0
dtype: int64

In [93]:

s.value_counts()

Out[93]:

5    3
2    2
1    2
0    2
6    1
dtype: int64

合并(merge)

连接(concat)

pandas为了方便地将Series、DataFrame组合在一起，开发了各种各样的功能。

使用concat()来将pandas的对象连接在一起：

In [94]:

df = pd.DataFrame(np.random.randn(10, 4))
df

Out[94]:

	0	1	2	3
0	-0.122555	-1.577594	-0.162647	-1.223825
1	-1.660596	-2.031171	0.048468	-1.193978
2	0.604721	0.428738	-0.763315	-1.347055
3	-0.670626	-0.361797	-0.547268	-0.551849
4	0.039113	0.101693	0.886864	-1.587129
5	1.292044	-1.016282	-0.600570	-0.079083
6	0.739309	-0.626648	0.338591	-0.548946
7	-0.041177	-1.078038	-1.587588	0.086584
8	1.612034	-0.193076	-0.735807	0.335072
9	-1.049429	0.087083	0.977108	-0.596081

In [95]:

pieces = [df[:3], df[3:7], df[7:]]
pieces

Out[95]:

[          0         1         2         3
 0 -0.122555 -1.577594 -0.162647 -1.223825
 1 -1.660596 -2.031171  0.048468 -1.193978
 2  0.604721  0.428738 -0.763315 -1.347055,
           0         1         2         3
 3 -0.670626 -0.361797 -0.547268 -0.551849
 4  0.039113  0.101693  0.886864 -1.587129
 5  1.292044 -1.016282 -0.600570 -0.079083
 6  0.739309 -0.626648  0.338591 -0.548946,
           0         1         2         3
 7 -0.041177 -1.078038 -1.587588  0.086584
 8  1.612034 -0.193076 -0.735807  0.335072
 9 -1.049429  0.087083  0.977108 -0.596081]

In [96]:

pd.concat(pieces)

Out[96]:

	0	1	2	3
0	-0.122555	-1.577594	-0.162647	-1.223825
1	-1.660596	-2.031171	0.048468	-1.193978
2	0.604721	0.428738	-0.763315	-1.347055
3	-0.670626	-0.361797	-0.547268	-0.551849
4	0.039113	0.101693	0.886864	-1.587129
5	1.292044	-1.016282	-0.600570	-0.079083
6	0.739309	-0.626648	0.338591	-0.548946
7	-0.041177	-1.078038	-1.587588	0.086584
8	1.612034	-0.193076	-0.735807	0.335072
9	-1.049429	0.087083	0.977108	-0.596081

Join

SQL风格的操作。

In [97]:

left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

left

Out[97]:

	key	lval
0	foo	1
1	foo	2

In [98]:

right

Out[98]:

	key	rval
0	foo	4
1	foo	5

In [99]:

pd.merge(left, right, on='key')

Out[99]:

	key	lval	rval
0	foo	1	4
1	foo	1	5
2	foo	2	4
3	foo	2	5

另一个可能更能演示的例子：

In [100]:

left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

left

Out[100]:

	key	lval
0	foo	1
1	bar	2

In [101]:

right

Out[101]:

	key	rval
0	foo	4
1	bar	5

In [102]:

pd.merge(left, right, on='key')

Out[102]:

	key	lval	rval
0	foo	1	4
1	bar	2	5

追加(append)

向DataFrame追加行：

In [103]:

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
df

Out[103]:

	A	B	C	D
0	-1.959949	-0.294810	0.339831	0.515830
1	-0.377887	0.988353	-0.946725	1.028688
2	1.343592	0.566358	0.933397	-0.485905
3	0.518054	1.769740	-0.301971	1.188588
4	0.389517	-0.247958	-1.144920	1.669438
5	-0.288169	-0.773408	-1.850832	0.658924
6	-0.256120	-0.936557	0.067185	-0.669268
7	1.490088	0.913402	1.236560	-0.347774

In [104]:

s = df.iloc[3]
s

Out[104]:

A    0.518054
B    1.769740
C   -0.301971
D    1.188588
Name: 3, dtype: float64

In [106]:

df.append(s, ignore_index=True)

Out[106]:

	A	B	C	D
0	-1.959949	-0.294810	0.339831	0.515830
1	-0.377887	0.988353	-0.946725	1.028688
2	1.343592	0.566358	0.933397	-0.485905
3	0.518054	1.769740	-0.301971	1.188588
4	0.389517	-0.247958	-1.144920	1.669438
5	-0.288169	-0.773408	-1.850832	0.658924
6	-0.256120	-0.936557	0.067185	-0.669268
7	1.490088	0.913402	1.236560	-0.347774
8	0.518054	1.769740	-0.301971	1.188588

聚合(grouping)

"group by"这个的含义指的是涉及如下一个或多个步骤的一种处理过程：

根据某些条件将数据切分成一些组
对每个组独立地进行某种操作
将结果组合到一个数据结构中

实际上，如果你熟悉SQL的group by，那么你就完全能理解我们这里的聚合。

In [107]:

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                           'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

Out[107]:

	A	B	C	D
0	foo	one	0.416123	1.103077
1	bar	one	0.829122	1.060971
2	foo	two	-0.330427	-2.779396
3	bar	three	-0.044427	-0.916213
4	foo	two	0.400866	0.289545
5	bar	two	0.544435	-0.412748
6	foo	one	-0.670108	-0.356459
7	foo	three	0.110842	-0.378312

In [108]:

df.groupby('A').sum() # 等价于SQL中的 select A, sum(C), sum(D) from df group by A

Out[108]:

	C	D
A
bar	1.329130	-0.267990
foo	-0.072704	-2.121544

In [109]:

df.groupby(tuple('AB')).sum() # 等价于SQL中的 select A, B, sum(C), sum(D) from df group by A, B

/Users/sunkepeng/anaconda2/lib/python2.7/site-packages/ipykernel_launcher.py:1: FutureWarning: Interpreting tuple 'by' as a list of keys, rather than a single key. Use 'by=[...]' instead of 'by=(...)'. In the future, a tuple will always mean a single key.
  """Entry point for launching an IPython kernel.

Out[109]:

		C	D
A	B
bar	one	0.829122	1.060971
	three	-0.044427	-0.916213
	two	0.544435	-0.412748
foo	one	-0.253985	0.746618
	three	0.110842	-0.378312
	two	0.070439	-2.489850

变更形状(reshaping)

堆叠(stack)

In [110]:

tuples = list(zip(['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

df2 = df[:4]
df2

Out[110]:

		A	B
first	second
bar	one	0.148196	1.148491
bar	two	0.130791	-0.569285
baz	one	-0.498698	-0.631549
baz	two	-1.582463	-0.038371

stack()方法实际上是将DataFrame的某一级列转成行索引，它和我们在NumPy中学的stack不是一回事：

In [111]:

stacked = df2.stack()
stacked

Out[111]:

first  second   
bar    one     A    0.148196
               B    1.148491
       two     A    0.130791
               B   -0.569285
baz    one     A   -0.498698
               B   -0.631549
       two     A   -1.582463
               B   -0.038371
dtype: float64

如果一个DataFrame或者Series是堆叠的(它的索引是多重索引，即MultiIndex)，那么可以使用unstack()来将索引的某一层转成列，默认转最后一级索引：

In [112]:

stacked.unstack()

Out[112]:

		A	B
first	second
bar	one	0.148196	1.148491
bar	two	0.130791	-0.569285
baz	one	-0.498698	-0.631549
baz	two	-1.582463	-0.038371

In [113]:

stacked.unstack(1) # 指定转第二级(下标从0开始)

Out[113]:

	second	one	two
first
bar	A	0.148196	0.130791
bar	B	1.148491	-0.569285
baz	A	-0.498698	-1.582463
baz	B	-0.631549	-0.038371

In [114]:

stacked.unstack(0)

Out[114]:

	first	bar	baz
second
one	A	0.148196	-0.498698
one	B	1.148491	-0.631549
two	A	0.130791	-1.582463
two	B	-0.569285	-0.038371

数据透视表(Pivot Tables)

这个功能和Excel里面的数据透视表能够完成的功能几乎完全一样：选定维度来汇总数据，以从不同的视角来审视数据。

In [115]:

np.random.seed(1)
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df

Out[115]:

	A	B	C	D	E
0	one	A	foo	1.624345	-0.322417
1	one	B	foo	-0.611756	-0.384054
2	two	C	foo	-0.528172	1.133769
3	three	A	bar	-1.072969	-1.099891
4	one	B	bar	0.865408	-0.172428
5	one	C	bar	-2.301539	-0.877858
6	two	A	foo	1.744812	0.042214
7	three	B	foo	-0.761207	0.582815
8	one	C	foo	0.319039	-1.100619
9	one	A	bar	-0.249370	1.144724
10	two	B	bar	1.462108	0.901591
11	three	C	bar	-2.060141	0.502494

In [116]:

pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C']) # 对应于Excel，以A，B为行维度，以C为列维度，计算D列之和

Out[116]:

	C	bar	foo
A	B
one	A	-0.249370	1.624345
	B	0.865408	-0.611756
	C	-2.301539	0.319039
three	A	-1.072969	NaN
	B	NaN	-0.761207
	C	-2.060141	NaN
two	A	NaN	1.744812
	B	1.462108	NaN
	C	NaN	-0.528172

以上操作等价于在Excel中的操作：

绘图(plotting)

我们可以使用matplotlib来绘图，不过pandas也对matplotlib进行一定程度的封装，使得在一些场景下更方便用：

In [118]:

ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2017', periods=1000))
ts = ts.cumsum()
%matplotlib inline
ts.plot()

Out[118]:

对于DataFrame，plot()方法可以非常方便地对所有列进行绘图：

In [119]:

df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
df.plot();plt.legend(loc='best')

Out[119]:

对于更加丰富的信息，我们推荐大家多阅读pandas官方文档。

你可能感兴趣的:(pandas快速入门相关操作和基础用法)

云原生环境里Nginx的故障排查思路 AI云原生与云计算技术学院 AI云原生与云计算云原生 nginx 运维 ai
云原生环境里Nginx的故障排查思路关键词：云原生、Nginx、故障排查、容器化、Kubernetes摘要：本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用，Nginx作为常用的高性能Web服务器和反向代理服务器，在容器化和编排的环境中面临着新的故障场景和挑战。文章首先介绍云原生环境及Nginx的相关背景知识，接着阐述核心概念和联系，详细讲解故障排查的核心算法原理与操作步骤
手机兼职价格（手机兼职赚零花钱）趣闲赚手机做任务赚佣金
随着社会的发展，人们对于时间管理的需求越来越高。有很多人希望在无需离开家门的情况下，能够赚取一些零花钱或稳定的额外收入。近年来，随着智能手机的广泛普及，手机兼职成为了越来越多人的选择。本文将从手机兼职的价值、价格、方式、风险以及相关注意事项等几个要素入手，详细解析手机兼职的特点和运作方式，并且为读者提供全面的信息和实践建议。趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着
设计模式的详细介绍
目录六大原则（1）单一职责原则：（2）开闭原则：（3）里氏替换原则：（4）依赖倒置原则：（5）迪米特法则：（6）接口隔离原则：总结单例模式工厂模式简单工厂模式工厂方法模式抽象工厂模式建造者模式代理模式六大原则（1）单一职责原则：类的职责应该单一，一个方法只做一件事。职责划分清晰明了，每次改动到最小单位的类或者方法。使用建议：两个完全不一样的功能不能放在一个类中，一个类应该是一组相关性很高的函数、数
达梦分布式集群DPC_DPC线程深度解析_yxy yxy___ 达梦分布式集群分布式线程 DPC
达梦分布式集群DPC_DPC线程深度解析1.DPC专用线程体系1.1DPC线程池分类1.1.1底层公共线程池1.1.2上层专用线程池1.2线程管理模式1.2.1生产者-消费者模式1.2.2领导者跟随者模式2.DPC线程相关视图2.1THREADS2.2DPC_STASK_THRD2.3关键列解释3.DPC线程管理监控3.1sql卡顿，找出关键线程分析3.2完整sql执行示例1.DPC专用线程体系文
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
【C++基础】内存对齐原则与性能影响：面试高频考点与真题解析 byte轻骑兵 #C++深度探索与实战专栏面试职场和发展
在计算机系统中，内存对齐是影响程序性能和跨平台兼容性的重要因素。无论是校招还是社招，内存对齐相关问题几乎是C/C++、嵌入式开发、操作系统等岗位的必考题。掌握内存对齐的原理和应用，不仅能应对面试，更是理解现代计算机体系结构的关键。一、内存对齐的基本概念1.1什么是内存对齐？内存对齐是指数据在内存中存储时，其起始地址必须是某个特定值（通常是数据类型大小的倍数）。例如，4字节的int类型变量应存储在4
C++ 固有的不可移植特性
为了支持底层编程，C++定义了一些固有的不可移植的特性，即因机器而异的特性，当将含有不可移植特性的程序从一台机器转移到另一台机器上时，通常需要重新编写该程序。1位域类可以将其非静态数据成员定义成位域，在一个位域中含有一定数量的二进制位。当一个程序需要向其他程序或硬件设备传递二进制数据时，通常会用到位域。位域在内存中的布局是与机器相关的且位域的类型必须是整型或枚举类型。typedefunsi
C回调函数基础用法
定义：回调函数是通过函数指针传递给另一个函数的函数，这个被传进去的函数将在某个时刻被“回调”调用。换句话说：你定义一个函数A把函数A的地址（即函数指针）作为参数传给函数B函数B在合适的时机调用A（即“回调”）作用：用于“动态行为”、插件机制、自定义逻辑注入，非常常见于库函数、操作系统、图形界面、信号处理等场景。回调函数=把函数指针作为参数传进去，在“合适时机”通过这个指针调用你传进去的函数。cod
雪落无声，你的动静打扰了我们 VickyLi_文丽
早上起来，外面路上铺满了白色的雪花，来到学校白茫茫一片，孩子们很高兴。在第二节课后阳光活动，由于天气原因，没法进行跑操，所以有的班依然在上课。我在二班上课，隔壁的三班机几个男生大声喊叫，大声吵闹。我作为班主任赶紧回班看看发生了什么事情？原来，我们班孩子在没有老师的情况下，跃跃欲试，要出去玩雪。本身，喜欢玩耍是孩子的天性，如果是平时，出去玩也没事情。可是偌大的走廊上，另外的班在上课，只有我们班在吵闹
Conda 核心命令快速查阅表拉拉拉拉拉拉拉马 conda
本表旨在提供一个简洁、高效的Conda命令参考，专注于最常用功能的快速查找。1.环境管理(EnvironmentManagement)功能(Function)命令(Command)示例(Example)创建新环境condacreate-n[packages...]condacreate-nmyenvpython=3.9pandas激活环境condaactivatecondaactivatemyen
React教程(-一 ) -- 快速构建React开发环境嚣张.miner react react入门 react环境
React初接触一.react的安装1).使用方法可以直接下载使用http://facebook.github.io/react/下载最新2).直接使用BootCDN的ReactCDN库.在.html文件中直接引用-react.min.js-React的核心库-react-dom.min.js-提供与DOM相关的功能-babel.min.js-Babel可以将ES6代码转为ES5代码，这样我们就能
Python 模块化编程全解析：模块、包与第三方库管理指南 xw3373409564 java 前端数据库
模块与包模块化编程是什么？用生活例子秒懂想象你在搭乐高积木：每个小积木块都有特定功能（比如轮子、窗户、墙壁）——这就像模块（一个.py文件，封装了函数或类）。把相关的积木块装进一个盒子里，方便分类和取用——这就像包（一个文件夹，里面装多个模块和子包，带__init__.py标识）。模块化编程的核心思想是：把复杂代码拆成小而独立的"积木"，需要时直接拿来用，不用重复造轮子。1.模块的概念模块就是一个
基于R语言的极值统计学及其在相关领域中的实践技术应用科研的力量语言类课程极值统计学
受到气候变化、温室效应以及人类活动等因素的影响，自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁；在人类社会中，股市崩溃、金融危机等极端情况也时有发生；今年的新冠疫情就是非常典型的极端现象。研究此类极端现象需要新的统计学方法，该类统计学的理论和方法都与传统的基于高斯分布的统计学模型有极大的不同。极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的
2024年app拉新渠道怎么找？app拉新一手渠道商是最佳选择吗？ U客直谈APP
2024年赚钱还有哪些好项目？app拉新就是其中一个不错的项目选择。而对于刚接触app拉新行业的新手小白来说，弄清楚项目咋样再下手去做就十分重要。比如，app拉新渠道怎么找？传得神乎其神的App拉新一手渠道商是最佳选吗？本篇文章集中了一些相关问题的解答，如果你也想做app拉新项目赚钱，那么就快来阅读文章了解信息吧~2024年app拉新渠道怎么找？app拉新一手渠道商是最佳选择吗？一、app拉新项目
容器化技术：Kubernetes（k8s）、Pod、Docker容器人工干智能 Docker的高级知识 kubernetes docker 容器
三个相关的容器化技术Kubernetes（k8s）、Pod、Docker容器在容器化技术领域各自扮演着不同的角色，它们之间既存在区别又相互联系。Kubernetes（k8s）定义：Kubernetes是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。功能：提供了强大的工具和功能，如服务发现、负载均衡、自动伸缩、滚动更新等，帮助用户更高效地管理复杂的容器环境。架构：基于控制论和反馈
现代人的困境该如何是好？ Aangel晨
现代人面对的困境包括，市场经济带来的世俗化，使得人们过于重视物质生活，以至于让人失去了原本敬畏的传统神圣价值观，与此同时，科学和科技的进步，也冲击了原本的信仰。此外，都市化还带来了个人的孤独。“人际疏离与价值观失落，是现代都市人的通病。”针对现代人的困境，在观念和行为两个层面给出了自己的建议。在观念层面，我们可以发展下面三种理念。首先，人和大自然，大自然和宇宙，实际上是息息相关的网络。人和自然是一
2019.6.12 星之梦lyx
又是一个大热天，课间操散步继续，正所谓冬练三九夏练三伏，如果没有课间跑步，孩子们在室内待的时间太长，不能呼吸失败的新鲜空气，课间时间又长给老师的管理带来很大的麻烦，同样是跑步老师掌握好了节奏和时间不会出现其他问题。教育局领导，两次发来信息督促毕业班学生信息资料收集情况，并且对这项工作再次提出更高的要求说明追责的办法，此项工作难度很大，学校停掉某一老师的课，专门负责这项工作确保准确顺利。昨天对没有按
让无效的努力变得更加有效的方法更好时代
©文章由「更好时代」原创发布，保留所有权，全网违反相关法律的抄袭行为将受到更好时代专业法律团队相应的严重法律追责。有的人一天只睡不到五小时，以便有更多的时间处理事情，有的人利用吃饭的时间处理邮件，希望挤出一点时间去散步。人人都很忙碌，都希望通过自己的努力而改变人生，但是只有实现高效能，才能让你在长期的实践中获得源源不断的动力。关于时间管理，我们首先要在有限时间内完成重要的任务。最佳的方法是三目标法
使用Spire.Doc.Free在Python中为Word文档添加批注 Ven% python python word 批注
文章目录技术背景环境准备完整实现代码功能说明：注意事项：总结在文档协作和审阅过程中，批注是极其重要的功能。本文将详细介绍如何使用Python的Spire.Doc.Free库为Word文档添加批注，并提供一个完整的解决方案。技术背景Spire.Doc.Free是一个功能强大且免费的Python库，用于处理Word文档。虽然免费版本有一些限制（如文档处理页数限制等），但它提供了丰富的API用于文档操作
Flink 多流转换（三）CoProcessFunction合流操作案例 Alienware^ #Flink Flink
文章目录下面是CoProcessFunction的一个具体示例：我们可以实现一个实时对账的需求，也就是app的支付操作和第三方的支付操作的一个双流Join。App的支付事件和第三方的支付事件将会互相等待5秒钟，如果等不来对应的支付事件，那么就输出报警信息。程序如下：Gitee源代码如下publicclassBillCheckExample{publicstaticvoidmain(String[]
【python做接口测试的学习记录day6——pytest+yaml+allure自动化测试框架之URL拼接】小丫么小二郎~ 学习 pytest python 功能测试测试工具
在之前的测试框架中，可以发现的是，我们的yaml数据中所有的url中的除了路径不同外，其余都是相同的，我们想办法将这一部分自动化，这样的yaml中写用例url的时候就不用再每次都写上域名，只需要输入路径即可首先我们需要更改下之前的用例yaml文件中的url，将域名删除只留下路径即可，例如：接下来我们在根目录创建一个config.yam文件，用于存储我们的URL中的公共部分，这里由于公司相关，我隐藏
编程语言与API函数库速查字典大全一一MIO一一
本文还有配套的精品资源，点击获取简介：《Delphi、VB、TC、API函数库速查字典1.0》提供了一个全面的编程语言参考资源，涵盖了Delphi、VB、TurboC以及WindowsAPI的函数库。它包括一个名为"lib"的文件，用于快速查询和理解不同编程语言和API的相关函数。Delphi以其组件库和面向对象的特性受到青睐，VB则因其易用性而广受欢迎，而TC作为经典的C编译器，API函数库则提
高效休息法（二） GAI2012
正念呼吸法1、采取基本坐姿，坐在座椅上（稍微挺直背部，背部离开椅背）。腹部放松，双手放在大腿上，双腿不交叉，闭上眼睛（如果采用睁着眼睛的方式，则双眼不聚焦地望向前方2米左右的位置）2、有意识地关注身体的感觉，感受与周围环境的接触（脚底与地板，臀部与座椅，手与大腿等）、身体被重力吸引的感觉。3、关注呼吸，关注与呼吸相关的感觉（通过鼻腔的空气，因空气出入而引起的胸部和腹部的起伏，呼吸与呼吸之间的停顿，
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
快速入门--Linux常用指令实操（1） small_jimmy 服务器 linux 运维
操作步骤命令示例设置root密码sudopasswdroot创建新目录mkdirproject进入project目录cdproject查看当前路径pwd查看目录内容ls-l创建temp目录mkdirtemp删除空目录temprmdirtemp文件查看相关分页查看文件morehello.txt高级分页查看lesshello.txt查看文件结尾tailhello.txt编辑文件gedithello.t
Paimon：Range Partition and Sort优化无主键表（Append-Only Table）查询 lifallen Paimon 数据库大数据数据结构 java apache
这个优化是通过对数据进行全局排序，从而让查询时能够跳过大量不相关的数据文件（DataSkipping），极大地减少I/O，提升查询速度。只需要在执行INSERT语句时，通过OPTIONSHint来启用和配置这个功能即可。RangePartitionAndSortForUnawareBucketTableITCase测试文件本身就是最好的例子。比如测试中的这句SQL：INSERTINTOtest_t
Paimon 删除向量 lifallen Paimon 数据库大数据 java 数据结构 apache
RowKind可以标记删除，但它和DeletionVector（删除向量）是为解决不同场景下的问题而设计的两种机制，它们工作在不同的层面。简单来说：RowKind是“逻辑层”的变更指令，主要用于primary-key表的LSM-Tree合并过程。DeletionVector是“物理层”的读时过滤优化，用于在不重写数据文件的前提下，快速地“标记”某些行为无效，极大地提升了DELETE/UPDATE操
Linux基础学习---文件相关命令
文件操作命令命令作用语法格式参数案例touch创建文件touch文件名-t时间：手动指定时间戳（格式：YYMMDDhhmm[.ss]）touchfile1.txt:在当前目录下创建file1.txttouchfile1.txtfile2.txtfile3.txt:创建多个文件touch-t202501011230.45file.txt:指定时间戳（设为2025年1月1日12:30:45）cp（co
Perl数组用法详细解析架构 ExogFix perl scala 开发语言架构
Perl是一种功能强大的编程语言，广泛应用于各种领域。其中，数组是Perl中一种常用的数据结构，用于存储和操作一系列相关的数据。本文将详细解析Perl数组的用法，并提供相应的源代码示例。创建数组在Perl中，可以使用以下方式创建数组：#直接初始化数组my@array=(1,2,3,4,5)
Flink双流实时对账
在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算成功，我们得确认平台账户上是否到账了。针对上述的场景，我们可以采用批处理，或离线计算等技术手段，通过定时任务，每天结束后，扫描数据库中的数据，核对当天的支付数据和交易数据，进行对账。想要达到实时对账的效果，比如有的用户支付成功但是并没
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数