Raymone_

数据聚合和分组操作

数据聚合与分组操作

1. GroupBy 机制：拆分-应用-联合

1.1 遍历各分组
1.2 选择一列或所有列的子集
1.3 使用字典和 Series 分组
1.4 使用函数分组
1.5 根据索引层级分组

2. 数据聚合

2.1 逐列及多函数应用
2.2 返回不含行索引的聚合数据

3. 应用：通用拆分 - 应用 - 联合

3.1 压缩分组键
3.2 分位数与桶分析
3.3 示例：使用指定分组值填充缺失值
3.4 示例：随机采样与排列
3.5 示例：分组加权平均和相关性
3.6 逐组线性回归

4. 数据透视表与交叉表

4.1 数据透视表
4.2 交叉表：crosstab

1. GroupBy 机制：拆分-应用-联合

数据包含在 pandas 对象中（Series/DataFrame 或其他数据结构），之后根据一个或多个键，在特定的轴上将数据分离到各组中，分组后一个函数应用到各组中产生新的值，并联合为一个结果对象；
分组键：与需要分组的轴向长度一致的值列表或数组；DataFrame 的列名的值；可以将分组轴向上的值和分组名称相匹配的字典或 Series；可以在轴索引或索引中的单个标签上调用的函数；

分组键为 Series：

import numpy as np
import pandas as pd
df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],
                  'key2': ['one', 'two', 'one', 'two', 'one'],
                  'data1': np.random.randn(5),
                  'data2': np.random.randn(5)})
# 根据 key1 标签计算 data1 列的均值
grouped = df['data1'].groupby(df['key1'])

df:

	key1	key2	data1	data2
0	a	one	-0.556877	0.300878
1	a	two	0.873811	0.742571
2	b	one	1.997530	-0.632550
3	b	two	0.966659	-1.091297
4	a	one	-0.199236	-0.990511

grouped：grouped 是一个 GroupBy 对象，还未进行任何的计算

grouped.mean()          # 调用 mean 方法计算分组的均值

key1
a    0.039233
b    1.482094
Name: data1, dtype: float64

means = df['data1'].groupby([df['key1'], df['key2']]).mean()
# 将多个数组作为列表传入

means: 结果为含多层索引的 Series

key1  key2
a     one    -0.378057
      two     0.873811
b     one     1.997530
      two     0.966659
Name: data1, dtype: float64

means.unstack()       # 拆分为 DataFrame

key2	one	two
key1
a	-0.378057	0.873811
b	1.997530	0.966659

分组键为正确长度的任何数组：


# 使用正确长度的任何数组作为分组键
states = np.array(['Ohio', 'California', 'California', 'Ohio', 'Ohio'])
years = np.array([2005, 2005, 2006, 2005, 2006])
df['data1'].groupby([states, years]).mean()

California  2005    0.873811
            2006    1.997530
Ohio        2005    0.204891
            2006   -0.199236
Name: data1, dtype: float64

分组键为 DataFrame 的列名：

df.groupby('key1').mean()                          # 传递列名作为分组键

	data1	data2
key1
a	0.039233	0.017646
b	1.482094	-0.861923

df.groupby(['key1', 'key2']).mean()

		data1	data2
key1	key2
a	one	-0.378057	-0.344816
a	two	0.873811	0.742571
b	one	1.997530	-0.632550
b	two	0.966659	-1.091297

1.1 遍历各分组

GroupBy 对象支持迭代，会生成一个包含组名和数据块的2维元组序列

for name, group in df.groupby('key1'):
    print(name)
    print(group)

a
  key1 key2     data1     data2
0    a  one -0.556877  0.300878
1    a  two  0.873811  0.742571
4    a  one -0.199236 -0.990511
b
  key1 key2     data1     data2
2    b  one  1.997530 -0.632550
3    b  two  0.966659 -1.091297

在多个分组键的情况下，元组中的第一个元素是键值的元组

for (k1, k2), group in df.groupby(['key1', 'key2']):
    print((k1, k2))
    print(group)

('a', 'one')
  key1 key2     data1     data2
0    a  one -0.556877  0.300878
4    a  one -0.199236 -0.990511
('a', 'two')
  key1 key2     data1     data2
1    a  two  0.873811  0.742571
('b', 'one')
  key1 key2    data1    data2
2    b  one  1.99753 -0.63255
('b', 'two')
  key1 key2     data1     data2
3    b  two  0.966659 -1.091297

pieces = dict(list(df.groupby('key1')))     # 计算出数据块的字典
pieces

{'a':   key1 key2     data1     data2
 0    a  one -0.556877  0.300878
 1    a  two  0.873811  0.742571
 4    a  one -0.199236 -0.990511, 'b':   key1 key2     data1     data2
 2    b  one  1.997530 -0.632550
 3    b  two  0.966659 -1.091297}

pieces['b']        # 字典的值为 DataFrame

	key1	key2	data1	data2
2	b	one	1.997530	-0.632550
3	b	two	0.966659	-1.091297

默认情况下，groupby 在 axis=0 的轴上分组，使用 axis=1 对列进行分组

grouped = df.groupby(df.dtypes, axis=1)
for dtype, group in grouped:
    print(dtype)
    print(group)

float64
      data1     data2
0 -0.556877  0.300878
1  0.873811  0.742571
2  1.997530 -0.632550
3  0.966659 -1.091297
4 -0.199236 -0.990511
object
  key1 key2
0    a  one
1    a  two
2    b  one
3    b  two
4    a  one

1.2 选择一列或所有列的子集

将从 DataFrame 创建的 GroupBy 对象用列名称或列名称的数组进行索引时，会产生用于聚合的列子集的效果，即下面两种方法产生的结果是一样的：

df.groupby(['key1', 'key2'])[['data2']].mean()
df[['data2']].groupby([df['key1'],df['key2']]).mean()

		data2
key1	key2
a	one	-0.344816
a	two	0.742571
b	one	-0.632550
b	two	-1.091297

如果传递的是列表或数组，则此索引操作返回的对象是分组的 DataFrame（如上），如果只有单个列名作为标量传递，则为分组的 Series（如下）：

s_grouped = df.groupby(['key1', 'key2'])['data2']
s_grouped.mean()

key1  key2
a     one    -0.344816
      two     0.742571
b     one    -0.632550
      two    -1.091297
Name: data2, dtype: float64

1.3 使用字典和 Series 分组

分组信息可能会以非数组形式存在，考虑如下示例：

people = pd.DataFrame(np.random.randn(5, 5),
                     index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'],
                     columns=['a', 'b', 'c', 'd', 'e'])
people.iloc[2:3, [1, 2]] = np.nan
people

	a	b	c	d	e
Joe	0.635451	-0.146126	-0.403298	-1.305932	0.049308
Steve	-0.343671	-1.237591	0.765479	-0.123180	0.095394
Wes	-0.969406	NaN	NaN	0.083540	-0.497828
Jim	1.758974	-0.234628	-0.631201	1.326421	0.075890
Travis	0.413102	1.506319	-0.899817	0.630404	-1.457132

假设拥有各列的分组对应关系，并且想把各列按组累加

mapping = {'a': 'red', 'b': 'red', 'c': 'blue',
          'd': 'blue', 'e': 'red', 'f': 'orange'}
by_column = people.groupby(mapping, axis=1)
by_column.sum()                    # f 键表明未用的分组键也是没问题的

	blue	red
Joe	-1.709229	0.538633
Steve	0.642299	-1.485868
Wes	0.083540	-1.467234
Jim	0.695220	1.600236
Travis	-0.269413	0.462289

Series 也有相同的功能，可以视为固定大小的映射：

map_series = pd.Series(mapping)
people.groupby(map_series, axis=1).count()

	blue	red
Joe	2	3
Steve	2	3
Wes	1	2
Jim	2	3
Travis	2	3

1.4 使用函数分组

作为分组键传递的函数将会按照每个索引值调用一次，同时返回值会被用作分组名称。如下示例为根据上述 DataFrame 中人的名字的长度进行分组：

people.groupby(len).sum()

	a	b	c	d	e
3	1.425019	-0.380754	-1.034499	0.104029	-0.372630
5	-0.343671	-1.237591	0.765479	-0.123180	0.095394
6	0.413102	1.506319	-0.899817	0.630404	-1.457132

将函数与数组、字典或Series混合并不困难，所有的对象都会在内部转换为数组：

key_list = ['one', 'one', 'one', 'two', 'two']
people.groupby([len, key_list]).min()

		a	b	c	d	e
3	one	-0.969406	-0.146126	-0.403298	-1.305932	-0.497828
3	two	1.758974	-0.234628	-0.631201	1.326421	0.075890
5	one	-0.343671	-1.237591	0.765479	-0.123180	0.095394
6	two	0.413102	1.506319	-0.899817	0.630404	-1.457132

1.5 根据索引层级分组

分层索引能够在索引的某个层级上进行聚合：

columns = pd.MultiIndex.from_arrays([['US', 'US', 'US', 'JP', 'JP'],
                                    [1, 3, 5, 1, 3]],
                                   names=['cty', 'tenor'])
hier_df = pd.DataFrame(np.random.randn(4, 5), columns=columns)
hier_df.groupby(level='cty', axis=1).count()

cty	JP	US
0	2	3
1	2	3
2	2	3
3	2	3

2. 数据聚合

聚合是指根据数组产生标量值的数据转换过程，常见的聚合如下表：

函数名	描述
count	分组中的非 NA 值的数量
sum	非 NA 值的累和
mean	非 NA 值的均值
median	非 NA 值的算术中位数
std, var	无偏的 (n-1 分母)标准差和方差
min, max	非 NA 值的最小值、最大值
prod	非 NA 值的乘积
first, last	非 NA 值的第一个和最后一个值

除上述常用聚合外，还可以使用自制的聚合，如下使用 quantile 计算样本分位数，虽然 quantile 不是显式地为 GroupBy 对象实现的，但它是 Series 的方法，因此也可用于聚合。在内部，GroupBy 有效地对 Series 进行切片，为每一块调用 piece.quantile(0.9)，然后将这些结果一起组装到结果对象中：

df：

	key1	key2	data1	data2
0	a	one	-0.556877	0.300878
1	a	two	0.873811	0.742571
2	b	one	1.997530	-0.632550
3	b	two	0.966659	-1.091297
4	a	one	-0.199236	-0.990511

grouped = df.groupby('key1')
grouped['data1'].quantile(0.9)
# quantile 计算 Series 或 DataFrame 列的样本分位数

key1
a    0.659202
b    1.894443
Name: data1, dtype: float64

要使用自己的聚合函数，需要将函数传递给 aggregate 或 agg 方法

def peak_to_peak(arr):
    return arr.max() - arr.min()
grouped.agg(peak_to_peak)

	data1	data2
key1
a	1.430689	1.733082
b	1.030872	0.458747

2.1 逐列及多函数应用

回到之前的小费数据集，我们增加一列小费比例列，然后根据各列同时使用多个函数进行聚合：

tips = pd.read_csv(r'C:/Users/Raymone/Data Analysis/examples/tips.csv')
# 添加总账单的小费比例
tips['tip_pct'] = tips['tip'] / tips['total_bill']
# 根据 Day 和 Smoker 来分组
grouped = tips.groupby(['day', 'smoker'])
grouped_pct = grouped['tip_pct']
grouped_pct.agg(['mean', 'std', peak_to_peak])

		mean	std	peak_to_peak
day	smoker
Fri	No	0.151650	0.028123	0.067349
Fri	Yes	0.174783	0.051293	0.159925
Sat	No	0.158048	0.039767	0.235193
Sat	Yes	0.147906	0.061375	0.290095
Sun	No	0.160113	0.042347	0.193226
Sun	Yes	0.187250	0.154134	0.644685
Thur	No	0.160298	0.038774	0.193350
Thur	Yes	0.163863	0.039389	0.151240

默认结果中使用函数名作为列名，可以使用传递元组的列表的方式来指定结果的列名：

grouped_pct.agg([('foo', 'mean'), ('bar', np.std)])

		foo	bar
day	smoker
Fri	No	0.151650	0.028123
Fri	Yes	0.174783	0.051293
Sat	No	0.158048	0.039767
Sat	Yes	0.147906	0.061375
Sun	No	0.160113	0.042347
Sun	Yes	0.187250	0.154134
Thur	No	0.160298	0.038774
Thur	Yes	0.163863	0.039389

对于 DataFrame，如下方式可以指定应用到所有列上的函数列表

# 将函数应用到多个列
functions = ['count', 'mean', 'max']
result = grouped['tip_pct', 'total_bill'].agg(functions)
result

		tip_pct			total_bill
		count	mean	max	count	mean	max
day	smoker
Fri	No	4	0.151650	0.187735	4	18.420000	22.75
Fri	Yes	15	0.174783	0.263480	15	16.813333	40.17
Sat	No	45	0.158048	0.291990	45	19.661778	48.33
Sat	Yes	42	0.147906	0.325733	42	21.276667	50.81
Sun	No	57	0.160113	0.252672	57	20.506667	48.17
Sun	Yes	19	0.187250	0.710345	19	24.120000	45.35
Thur	No	45	0.160298	0.266312	45	17.113111	41.19
Thur	Yes	17	0.163863	0.241255	17	19.190588	43.11

将不同的函数应用到一个或多个列上，需要将含有列名与函数关系的字典传递给 agg

grouped.agg({'tip_pct': ['min', 'max', 'mean', 'std'], 'size': 'sum'})

		tip_pct				size
		min	max	mean	std	sum
day	smoker
Fri	No	0.120385	0.187735	0.151650	0.028123	9
Fri	Yes	0.103555	0.263480	0.174783	0.051293	31
Sat	No	0.056797	0.291990	0.158048	0.039767	115
Sat	Yes	0.035638	0.325733	0.147906	0.061375	104
Sun	No	0.059447	0.252672	0.160113	0.042347	167
Sun	Yes	0.065660	0.710345	0.187250	0.154134	49
Thur	No	0.072961	0.266312	0.160298	0.038774	112
Thur	Yes	0.090014	0.241255	0.163863	0.039389	40

2.2 返回不含行索引的聚合数据

通过 as_index 参数选择返回的数据是否包含行索引

tips.groupby(['day', 'smoker'], as_index=False).mean()

	day	smoker	total_bill	tip	size	tip_pct
0	Fri	No	18.420000	2.812500	2.250000	0.151650
1	Fri	Yes	16.813333	2.714000	2.066667	0.174783
2	Sat	No	19.661778	3.102889	2.555556	0.158048
3	Sat	Yes	21.276667	2.875476	2.476190	0.147906
4	Sun	No	20.506667	3.167895	2.929825	0.160113
5	Sun	Yes	24.120000	3.516842	2.578947	0.187250
6	Thur	No	17.113111	2.673778	2.488889	0.160298
7	Thur	Yes	19.190588	3.030000	2.352941	0.163863

tips.groupby(['day', 'smoker']).mean()

		total_bill	tip	size	tip_pct
day	smoker
Fri	No	18.420000	2.812500	2.250000	0.151650
Fri	Yes	16.813333	2.714000	2.066667	0.174783
Sat	No	19.661778	3.102889	2.555556	0.158048
Sat	Yes	21.276667	2.875476	2.476190	0.147906
Sun	No	20.506667	3.167895	2.929825	0.160113
Sun	Yes	24.120000	3.516842	2.578947	0.187250
Thur	No	17.113111	2.673778	2.488889	0.160298
Thur	Yes	19.190588	3.030000	2.352941	0.163863

3. 应用：通用拆分 - 应用 - 联合

GroupBy 方法最常见的目的是 apply（应用），apply 将对象拆分为多块，然后在每一块上调用传递的函数，之后尝试将每一块拼接到一起。如下为选出之前的小费数据集中小费百分比最高的五组：

# 可以在特定列中选出最大值所在的行的函数
def top(df, n=5, column='tip_pct'):
    return df.sort_values(by=column)[-n:]
top(tips, n=5)

	total_bill	tip	smoker	day	time	size	tip_pct
183	23.17	6.50	Yes	Sun	Dinner	4	0.280535
232	11.61	3.39	No	Sat	Dinner	2	0.291990
67	3.07	1.00	Yes	Sat	Dinner	1	0.325733
178	9.60	4.00	Yes	Sun	Dinner	2	0.416667
172	7.25	5.15	Yes	Sun	Dinner	2	0.710345

然后按照 smoker 分组，并调用 apply，则 top 函数在 DataFrame 的每一行分组上被调用，之后用 pandas.concat 将函数结果粘贴在一起，并使用分组名作为各组的标签。

tips.groupby('smoker').apply(top)

		total_bill	tip	smoker	day	time	size	tip_pct
smoker
No	88	24.71	5.85	No	Thur	Lunch	2	0.236746
	185	20.69	5.00	No	Sun	Dinner	5	0.241663
	51	10.29	2.60	No	Sun	Dinner	2	0.252672
	149	7.51	2.00	No	Thur	Lunch	2	0.266312
	232	11.61	3.39	No	Sat	Dinner	2	0.291990
Yes	109	14.31	4.00	Yes	Sat	Dinner	2	0.279525
	183	23.17	6.50	Yes	Sun	Dinner	4	0.280535
	67	3.07	1.00	Yes	Sat	Dinner	1	0.325733
	178	9.60	4.00	Yes	Sun	Dinner	2	0.416667
	172	7.25	5.15	Yes	Sun	Dinner	2	0.710345

向 apply 传递其他参数或关键字：

tips.groupby(['smoker', 'day']).apply(top, n=1, column='total_bill')

			total_bill	tip	smoker	day	time	size	tip_pct
smoker	day
No	Fri	94	22.75	3.25	No	Fri	Dinner	2	0.142857
	Sat	212	48.33	9.00	No	Sat	Dinner	4	0.186220
	Sun	156	48.17	5.00	No	Sun	Dinner	6	0.103799
	Thur	142	41.19	5.00	No	Thur	Lunch	5	0.121389
Yes	Fri	95	40.17	4.73	Yes	Fri	Dinner	4	0.117750
	Sat	170	50.81	10.00	Yes	Sat	Dinner	3	0.196812
	Sun	182	45.35	3.50	Yes	Sun	Dinner	3	0.077178
	Thur	197	43.11	5.00	Yes	Thur	Lunch	4	0.115982

3.1 压缩分组键

通过 group_keys 参数决定是否允许分组键称为索引

tips.groupby('smoker', group_keys=False).apply(top)
# 禁用分组键成为索引

	total_bill	tip	smoker	day	time	size	tip_pct
88	24.71	5.85	No	Thur	Lunch	2	0.236746
185	20.69	5.00	No	Sun	Dinner	5	0.241663
51	10.29	2.60	No	Sun	Dinner	2	0.252672
149	7.51	2.00	No	Thur	Lunch	2	0.266312
232	11.61	3.39	No	Sat	Dinner	2	0.291990
109	14.31	4.00	Yes	Sat	Dinner	2	0.279525
183	23.17	6.50	Yes	Sun	Dinner	4	0.280535
67	3.07	1.00	Yes	Sat	Dinner	1	0.325733
178	9.60	4.00	Yes	Sun	Dinner	2	0.416667
172	7.25	5.15	Yes	Sun	Dinner	2	0.710345

3.2 分位数与桶分析

cut 和 qcut 与 groupby 方法一起使用可以对数据集更方便地进行分桶或分位分析。考虑一个简单的随机数据集和一个使用cut的等长桶分类：

frame = pd.DataFrame({'data1': np.random.randn(1000),
                     'data2': np.random.randn(1000)})
quartiles = pd.cut(frame.data1, 4)
# cut 返回的 Categorical 对象可以直接传递给 groupby
# 计算 data2 列的一个统计值集合
def get_stats(group):
    return {'min': group.min(), 'max': group.max(),
           'count': group.count(), 'mean': group.mean()}
grouped = frame.data2.groupby(quartiles)
grouped.apply(get_stats)

data1                  
(-3.745, -1.961]  count     27.000000
                  max        2.268562
                  mean      -0.071299
                  min       -1.510138
(-1.961, -0.185]  count    419.000000
                  max        3.113571
                  mean      -0.036838
                  min       -2.655437
(-0.185, 1.592]   count    491.000000
                  max        2.738569
                  mean      -0.010014
                  min       -2.702930
(1.592, 3.368]    count     63.000000
                  max        1.585453
                  mean      -0.131166
                  min       -2.354267
Name: data2, dtype: float64

grouped.apply(get_stats).unstack()

	count	max	mean	min
data1
(-3.745, -1.961]	27.0	2.268562	-0.071299	-1.510138
(-1.961, -0.185]	419.0	3.113571	-0.036838	-2.655437
(-0.185, 1.592]	491.0	2.738569	-0.010014	-2.702930
(1.592, 3.368]	63.0	1.585453	-0.131166	-2.354267

根据样本分位数计算出等大小的桶，需要使用 qcut(cut: 根据值的大小范围分箱；qcut：根据数量分箱（得到等数量的箱体）);
传递 labels=False 来获得分位数的数值（第几个箱，而不是箱区间）；

grouping = pd.qcut(frame.data1, 10, labels=False)
grouped = frame.data2.groupby(grouping)
grouped.apply(get_stats).unstack()

	count	max	mean	min
data1
0	100.0	2.508341	0.067957	-2.055184
1	100.0	2.045575	0.045618	-2.454061
2	100.0	3.113571	-0.092481	-2.655437
3	100.0	2.224693	-0.066634	-2.460681
4	100.0	2.361963	-0.245740	-2.305434
5	100.0	1.807228	-0.073544	-2.590441
6	100.0	2.738569	0.048381	-2.682698
7	100.0	2.443707	0.038001	-2.609242
8	100.0	2.696874	0.093630	-2.702930
9	100.0	1.828048	-0.120592	-2.492170

3.3 示例：使用指定分组值填充缺失值

使用平均值来填充NA值

s = pd.Series(np.random.randn(6))
s[::2] = np.nan
s.fillna(s.mean())

0    0.844620
1    0.985056
2    0.844620
3    0.075285
4    0.844620
5    1.473518
dtype: float64

需要填充值按组变化，一个方法是对数据分组后使用 apply，在每个数据块上都调用 fillna 函数

# 将美国分为东部地区和西部地区的样本数据
states = ['Ohio', 'New York', 'Vermont', 'Florida',
         'Oregon', 'Nevada', 'California', 'Idaho']
group_key = ['East'] * 4 + ['West'] * 4
data = pd.Series(np.random.randn(8), index=states)
data[['Vermont', 'Nevada', 'Idaho']] = np.nan
data.groupby(group_key).mean()
# 使用分组的平均值来填充NA值
fill_mean = lambda g: g.fillna(g.mean())
data.groupby(group_key).apply(fill_mean)

Ohio          1.875761
New York     -0.467642
Vermont      -0.243175
Florida      -2.137644
Oregon       -1.650985
Nevada       -0.738496
California    0.173993
Idaho        -0.738496
dtype: float64

另一种情况，若已经对每个分组预定义了填充值，可以使用每个分组内的 name 属性：

fill_values = {'East': 0.5, 'West': -1}
fill_func = lambda g: g.fillna(fill_values[g.name])
data.groupby(group_key).apply(fill_func)

Ohio          1.875761
New York     -0.467642
Vermont       0.500000
Florida      -2.137644
Oregon       -1.650985
Nevada       -1.000000
California    0.173993
Idaho        -1.000000
dtype: float64

3.4 示例：随机采样与排列

从大数据集中抽取随机样本，使用 series 的 sample 方法，如下构造一副扑克牌，并从中随机抽取 5 张:

# 构造一副英式扑克牌
# 红桃，黑桃，梅花，方块
suits = ['H', 'S', 'C', 'D']
card_val = (list(range(1, 11)) + [10] * 3) * 4                    # 牌的值，JKQ 均为 10
base_names = ['A'] + list(range(2, 11)) + ['J', 'K', 'Q']         # A+2~10+J+K+Q
cards = []                                                        # cards 为牌名
for suit in suits:
    cards.extend(str(num) + suit for num in base_names)
deck = pd.Series(card_val, index=cards)

# 从这副牌中随机拿出五张牌
def draw(deck, n=5):
    return deck.sample(n)
draw(deck)

3D    3
2H    2
3H    3
9S    9
2C    2
dtype: int64

从每个花色中随机抽取两张牌，由于花色是牌名的最后一个字符，可以基于这一点进行分组：

get_suit = lambda card: card[-1] # 最后一个字符为花色
deck.groupby(get_suit).apply(draw, n=2)

C  AC      1
   QC     10
D  10D    10
   5D      5
H  2H      2
   9H      9
S  9S      9
   4S      4
dtype: int64

# 不要花色索引
deck.groupby(get_suit, group_keys=False).apply(draw, n=2)

AC      1
10C    10
8D      8
5D      5
4H      4
QH     10
8S      8
10S    10
dtype: int64

3.5 示例：分组加权平均和相关性

DataFrame 的列间操作或两个Series之间的分组加权平均

# 使用一个包含分组键和权重值的数据集
df = pd.DataFrame({'category': ['a', 'a', 'a', 'a', 'b', 'b', 'b', 'b'],
                  'data': np.random.randn(8),
                  'weights': np.random.rand(8)})
# 通过 category 进行分组加权平均
grouped = df.groupby('category')
get_wavg = lambda g: np.average(g['data'], weights=g['weights'])
grouped.apply(get_wavg)

category
a    0.689109
b    0.066072
dtype: float64

df

	category	data	weights
0	a	0.932987	0.480867
1	a	-2.439921	0.291352
2	a	-0.593844	0.021750
3	a	2.441942	0.469114
4	b	-0.540927	0.473682
5	b	0.304671	0.353316
6	b	-0.479385	0.855175
7	b	1.361458	0.516976

另一个例子，一个包含标普500和股票的收盘价的数据，计算一个 DataFrame，它包含标普指数每日收益的年度相关性

close_px = pd.read_csv(r'C:/Users/Raymone/Data Analysis/examples/stock_px_2.csv', parse_dates=True, index_col=0)
# 计算一个DataFrame，它包含标普指数每日收益的年度相关性（通过百分比变化计算）
# 创建一个计算每列与‘SPX’列成对关联的函数
spx_corr = lambda x: x.corrwith(x['SPX'])
# 使用 pct_change计算close_px 百分比的变化（每日收益）
rets = close_px.pct_change().dropna()
# 按年对百分比变化进行分组，使用单行函数从每个行标签中提取每个datetime标签的year属性
get_year = lambda x: x.year
by_year = rets.groupby(get_year)
by_year.apply(spx_corr)

	AAPL	MSFT	XOM	SPX
2003	0.541124	0.745174	0.661265	1.0
2004	0.374283	0.588531	0.557742	1.0
2005	0.467540	0.562374	0.631010	1.0
2006	0.428267	0.406126	0.518514	1.0
2007	0.508118	0.658770	0.786264	1.0
2008	0.681434	0.804626	0.828303	1.0
2009	0.707103	0.654902	0.797921	1.0
2010	0.710105	0.730118	0.839057	1.0
2011	0.691931	0.800996	0.859975	1.0

close_px[-4:]

	AAPL	MSFT	XOM	SPX
2011-10-11	400.29	27.00	76.27	1195.54
2011-10-12	402.19	26.96	77.16	1207.25
2011-10-13	408.43	27.18	76.37	1203.66
2011-10-14	422.00	27.27	78.11	1224.58

# 计算内部列相关性，返回一个 Series
by_year.apply(lambda g: g['AAPL'].corr(g['MSFT']))

2003    0.480868
2004    0.259024
2005    0.300093
2006    0.161735
2007    0.417738
2008    0.611901
2009    0.432738
2010    0.571946
2011    0.581987
dtype: float64

3.6 逐组线性回归

只要函数返回一个pandas对象或标量值，就可以使用groupby执行更复杂的按组统计分析

# 使用statsmodels 计量经济学库定义 regress 回归函数
import statsmodels.api as sm
def regress(data, yvar, xvars):
    Y = data[yvar]
    X = data[xvars]
    X['intercept'] = 1.
    result = sm.OLS(Y, X).fit()
    return result.params
by_year.apply(regress, 'AAPL', ['SPX'])

	SPX	intercept
2003	1.195406	0.000710
2004	1.363463	0.004201
2005	1.766415	0.003246
2006	1.645496	0.000080
2007	1.198761	0.003438
2008	0.968016	-0.001110
2009	0.879103	0.002954
2010	1.052608	0.001261
2011	0.806605	0.001514

4. 数据透视表与交叉表

4.1 数据透视表

Python 中的 pandas 透视表是通过 groupby 工具以及使用分层索引的重塑操作实现的。DataFrame 有一个 pivot_table 方法，并且还有一个顶层的 pandas.pivot_table 函数。除了为 groupby 提供一个方便接口，pivot_table 还可以添加部分总计，也称作边距。
在之前的小费数据集中，计算一张在行方向上按 day 和 smoker 排列的分组平均值(默认的 pivot_table 聚合类型)的表

tips.pivot_table(index=['day', 'smoker'])

		size	tip	tip_pct	total_bill
day	smoker
Fri	No	2.250000	2.812500	0.151650	18.420000
Fri	Yes	2.066667	2.714000	0.174783	16.813333
Sat	No	2.555556	3.102889	0.158048	19.661778
Sat	Yes	2.476190	2.875476	0.147906	21.276667
Sun	No	2.929825	3.167895	0.160113	20.506667
Sun	Yes	2.578947	3.516842	0.187250	24.120000
Thur	No	2.488889	2.673778	0.160298	17.113111
Thur	Yes	2.352941	3.030000	0.163863	19.190588

只想在 tip_pct 和 size 上进行聚合，并根据 time 分组：

tips.pivot_table(['tip_pct', 'size'], index=['time', 'day'], columns='smoker')

		size		tip_pct
	smoker	No	Yes	No	Yes
time	day
Dinner	Fri	2.000000	2.222222	0.139622	0.165347
	Sat	2.555556	2.476190	0.158048	0.147906
	Sun	2.929825	2.578947	0.160113	0.187250
	Thur	2.000000	NaN	0.159744	NaN
Lunch	Fri	3.000000	1.833333	0.187735	0.188937
Lunch	Thur	2.500000	2.352941	0.160311	0.163863

通过传递 margins=True 来包含部分总计

tips.pivot_table(['tip_pct', 'size'], index=['time', 'day'], columns='smoker', margins=True)

		size			tip_pct
	smoker	No	Yes	All	No	Yes	All
time	day
Dinner	Fri	2.000000	2.222222	2.166667	0.139622	0.165347	0.158916
	Sat	2.555556	2.476190	2.517241	0.158048	0.147906	0.153152
	Sun	2.929825	2.578947	2.842105	0.160113	0.187250	0.166897
	Thur	2.000000	NaN	2.000000	0.159744	NaN	0.159744
Lunch	Fri	3.000000	1.833333	2.000000	0.187735	0.188937	0.188765
Lunch	Thur	2.500000	2.352941	2.459016	0.160311	0.163863	0.161301
All		2.668874	2.408602	2.569672	0.159328	0.163196	0.160803

若要使用不同的聚合函数，需将函数传递给 aggfunc

tips.pivot_table('tip_pct', index=['time', 'smoker'], columns='day', aggfunc=len, margins=True)

	day	Fri	Sat	Sun	Thur	All
time	smoker
Dinner	No	3.0	45.0	57.0	1.0	106.0
Dinner	Yes	9.0	42.0	19.0	NaN	70.0
Lunch	No	1.0	NaN	NaN	44.0	45.0
Lunch	Yes	6.0	NaN	NaN	17.0	23.0
All		19.0	87.0	76.0	62.0	244.0

填充空值

tips.pivot_table('tip_pct', index=['time', 'size', 'smoker'], 
	columns='day', aggfunc='mean', fill_value=0)

		day	Fri	Sat	Sun	Thur
time	size	smoker
Dinner	1	No	0.000000	0.137931	0.000000	0.000000
	1	Yes	0.000000	0.325733	0.000000	0.000000
	2	No	0.139622	0.162705	0.168859	0.159744
	2	Yes	0.171297	0.148668	0.207893	0.000000
	3	No	0.000000	0.154661	0.152663	0.000000
	3	Yes	0.000000	0.144995	0.152660	0.000000
	4	No	0.000000	0.150096	0.148143	0.000000
	4	Yes	0.117750	0.124515	0.193370	0.000000
	5	No	0.000000	0.000000	0.206928	0.000000
	5	Yes	0.000000	0.106572	0.065660	0.000000
	6	No	0.000000	0.000000	0.103799	0.000000
Lunch	1	No	0.000000	0.000000	0.000000	0.181728
	1	Yes	0.223776	0.000000	0.000000	0.000000
	2	No	0.000000	0.000000	0.000000	0.166005
	2	Yes	0.181969	0.000000	0.000000	0.158843
	3	No	0.187735	0.000000	0.000000	0.084246
	3	Yes	0.000000	0.000000	0.000000	0.204952
	4	No	0.000000	0.000000	0.000000	0.138919
	4	Yes	0.000000	0.000000	0.000000	0.155410
	5	No	0.000000	0.000000	0.000000	0.121389
	6	No	0.000000	0.000000	0.000000	0.173706

pivot_table 选项：

选项名	描述
values	需要聚合的列名，默认情况下聚合所有数值型的列
index	在结果透视表的行上进行分组的列名或其他分组键
columns	在结果透视表的列上进行分组的列名或其他分组键
aggfuc	聚合函数或函数列表（默认情况下是 ‘mean’）可以是 groupby 上下文的任意有效函数
fill_value	在结果表中替换缺失值的值
dropna	若为 True，将不含所有条目均为 NA 的列
margins	添加行/列小计和总计，默认为 False

4.2 交叉表：crosstab

交叉表是数据透视表的一种特殊情况，计算的是分组中的频率（计数）：

data = pd.DataFrame({'Sample': np.arange(10), 
                     'Nationality': ['USA', 'Japan', 'USA', 'Japan', 'Japan', 'Japan', 'USA', 'USA', 'Japan', 'USA'],
                    'Handedness': ['Right-handed', 'Left_handed', 'Right-handed', 'Right-handed', 'Left_handed', 'Right-handed', 
                                   'Right-handed', 'Left_handed', 'Right-handed', 'Right-handed']})
pd.crosstab(data.Nationality, data.Handedness, margins=True)

Handedness	Left_handed	Right-handed	All
Nationality
Japan	2	3	5
USA	1	4	5
All	3	7	10

crosstable 的前两个参数可以是数组，Series 或数组的列表，如在小费数据中可以这么做：

pd.crosstab([tips.time, tips.day], tips.smoker, margins=True)

	smoker	No	Yes	All
time	day
Dinner	Fri	3	9	12
	Sat	45	42	87
	Sun	57	19	76
	Thur	1	0	1
Lunch	Fri	1	6	7
Lunch	Thur	44	17	61
All		151	93	244

你可能感兴趣的:(数据分析学习)

《数据分析学习进阶：如何用Tableau和Power BI提升可视化能力？》
《从Excel民工到数据分析师：我的500小时逆袭实操手册》写在前面：被Excel支配的恐惧2019年寒冬，作为某互联网大厂HR的我，正在经历职业生涯最魔幻的场景——凌晨两点，会议室里飘着六盒冷掉的饺子，我和同事盯着满屏VLOOKUP公式的Excel表，试图从3万条招聘数据中找到“为什么技术岗离职率飙升42%”的答案。领导推门进来只说了一句话：“我要的是洞见，不是表格美容报告。”正是这次暴击，让我
数据分析学习目录且行且安~ 数据分析进阶之路 #数据分析目录数据分析
在未来5个月里，将会陪伴大家一起来学习关于数据分析的相关内容，包括从数据思维，数据工具（Excel，Mysql，Hive，Python），数据方法论，数据展示（Tableau,BI），数据挖掘、数据实战项目一整套的内容，同步会将可能用到的以及有用的知识点整理出来。内容会慢慢更新。如下为数据分析的整个目录一、数据分析思维与方法论1.1、从0-1搭建指标体系、用户标签体系1.1.1、指标体系搭建-专项
【演奏的船长】数据分析学习记录W11——关于指标的定义演奏的船长
本周主要进行数据分析比赛，未思考更多，仅整理几个基本概念：原子指标：描述业务、产品的最小数据单元，比如一条条原始记录衍生指标：某个度量结合在某个维度下的聚合值，主要是为了提升复合指标运算效率和便于分析；复合指标：根据CSF（关键成功因素）拆解出的关键衡量基准，衍生指标计算后结果。CSF（关键成功因素）：对企业成功起作用的战略目标的定性描述。
大数据分析学习第十五课自建云服务器集群离线安装Ambari2.7.5和HDP3.1.5(一) 猫头鹰数据分析大数据 Java Hive hadoop ambari 大数据 centos hdfs
之前了解了很多关于大数据平台一站式部署管理的工具，比如ApacheAmbari和CDH，目前最新的CDH已经没有了社区版，也就是说以后使用新版本的ClouderaManager和CDH都是要收费的，这对于很多小公司来说，可能无法承受。转向Ambari是他们的一个可选项。Ambari是Apache的一个顶级开源项目，开源是其最大的优势，开源也意味着Ambari可以灵活地进行扩展，集成更多的数据组件，
速看，关于Python的17个学习网站，从基础到机器学习【建议收藏】帅帅的Python python 学习机器学习
目录一、基础学习网站Python官方教程Python官方安装包地址PyCharm下载地址anaconda3清华开源下载地址二、爬虫学习网站requests官方学习网站BeautifulSoup文档网站selenium官方学习网站scrapy中文学习网站三、数据分析学习网站numpy官方文档网站pandas官方文档网站sklearn官方文档网站四、数据可视化学习网站matplotlib官方学习网站p
数据分析学习心得游遍星辰99
一未知，已知我的工作就是发现别人不知道的。——福尔摩斯作为一个推理小说迷，我初中时就把父亲书架上、学校图书馆里的上百本推理小说全部看完。在我看来，推理的迷人之处在于它是一个从已知信息中发现未知的过程。案件发生，当前信息只有犯罪现场的痕迹，若干人的证词，他们每个人都有犯罪动机和作案时间，他们的证词里面有真话、假话，还有他们以为是真话，其实不过是个误解。侦探要做的事情就是辨别真伪，循着线索找到真凶。只
数据分析学习计划-1216 七七biubiu
拖了好久的学习计划今天才交，希望之后拖延症能改改，组织不要抛弃我5551、excel跟着知乎上秦璐的专栏，把数据分析中excel的常用操作过了一遍，比如数据透视图、vlookup、一些快捷键、常用工具等。后面还需要加强学习和熟练。2、SQLSQL必知必会和MYSQL必知必会各看了有差不多两遍，题目自己上网找着做了应该有上百道。后面计划多做题，尤其是和实际比较相关的题。3、Python在跟着SOTO
python交互式数据可视化_python数据可视化工具 weixin_39612677 python交互式数据可视化
熟知python的人都知道，python上常用的一款数据可视化工具是Matplotlib，但是Matplotlib是静态的。那么，Python中除了matplotlib外，还有哪些数据可视化工具呢？其实，在Python中，将数据可视化有多种选择，正是因为这种多样性，python才更能发挥出数据分析的好处。本文从从数据分析学习以及工作业务的角度，去梳理一下Python常用的数据可视化工具。一、pyt
数据分析学习Day2---商务与统计（第五章） ghostdogss
1.参数统计量表示样本，而参数表示总体2.有偏估计与无偏估计但统计量都是无偏估计时，应该考虑方差即分散程度，选取最小方差的无偏估计。3.抽样分布的性质4.中心极限定理5.样本比例的抽样分布（即二项分布）
数据分析学习反思静意
最近开始学习数据分析的课程，想要通过数据分析能力帮助自己提升工作效率、获得更多工作产出。用数据来解决问题主要体现在三步上：发现问题、处理数据、呈现结论。一、发现问题所谓问题，其实就是目标和现实之间的差距。找到真正的问题并不容易，首先的一个挑战是，需要找到可以衡量工作任务的数据，然后才能通过运算找到差距，而且难点也往往在于不知道哪些数据可以衡量自己的工作结果。第二个挑战，是很多问题发现的时候为时已晚
如何应对各种业务场景（秦路数据分析学习）小结 Eline_569f
作为一名数据分析新学习新人，形成适合自己的业务分析思维是很重要的，如何搭建好的业务模型或者业务分析框架，总结下来，主要分为以下几步。Step1：练习要结合生活场景，多练习。足够练习后，思维分析有一定的熟悉度，再开始动手熟悉业务背景，搭建分析框架。Step2：熟悉业务不同的框架，有不同的业务背景，比如电商，找到比较喜欢的电商，阅读咨询，社交网络的app，看下能不能搭出分析框架，强化下业务方面的sen
python大数据分析学习基础篇（1）——初识Python Tiramisu1104 Python大数据分析 python
1、代码注释方法（1）在一行中，“#”后的语句不被执行，表示被注释。（2）如果要进行大段的注释，可以使用3个单引号（‘’‘)或者三个双引号（“”“）将注释内容包围。2、用缩进表示分层Python的语句块是使用代码缩进4个空格来表示分层，当然也可以使用一个Tab键代替四个空格，但不要Tab和空格同时使用，这会使程序在跨平台时不能正常运行。3、语句断行一般来说，Python的一条语句占一行，在每条语句
数据分析学习Day3---商务与统计（第六章） ghostdogss
1.置信区间是指以很高的置信度包含目标参数的一个数字范围。2.总体均值的大样本（30个以上）置信区间：大样本根据中心极限定理可知其均值分布服从正太分布，因此以95%的置信水平可得，均值的置信区间：（ps：但总体的sigma未知时，可以用样本的标准差来替代）其中的sigma是总体的标准差，sigmax是样本的标准误p2083.总体均值的大样本（30个以下）置信区间（t统计量）：自由度=n-1大样本数
python数据分析学习积极向上的zzz 学习数据分析
python数据分析一、Matplotlib基本使用1.1、基础绘图1.2、改进生成的图像1.2.1、设置图片大小1.2.2、保存1.2.3、修改轴的刻度1.2.4、设置中文设置1.2.5、给图形添加描述信息1.2.6、添加图例1.3、不同图像二、Numpy基本使用2.1、产生数组2.2、数组属性2.3、索引与切片2.4、花式索引注：2.5、where语句2.6、astype函数2.7、数组操作s
数据分析学习笔记1 Andytl的世界
最近在学习极客时间APP中的《数据分析实战45讲》,每天学一点，积累起来是一座高高的壁垒。以下是每天学习的笔记。《数据分析实战45讲》每日打卡开篇词，你为什么需要数据分析能力？数据是未来的石油，谁掌握了数据分析能力，谁就拥有了财富。如何学习数据分析呢？作者以前招过一个实习生，一年内从3k月薪到1.3w，总结起这个实习生的学习方法概括为：MAS方法。Multi-Dimension：想要掌握一个事物，
如何利用R语言实现logistic逐步回归吃一口小肉丸
导语在日常学习或工作中经常会使用线性回归模型对某一事物进行预测，例如预测房价、身高、GDP、学生成绩等，发现这些被预测的变量都属于连续型变量。然而有些情况下，被预测变量可能是二元变量，即成功或失败、流失或不流失、涨或跌等，对于这类问题，线性回归将束手无策。这个时候就需要另一种回归方法进行预测，即Logistic回归。欢迎关注我的个人微信公众号：全哥的学习生涯，获取更多R语言与数据分析学习知识。在实
Python数据分析学习路线个人总结，建议收藏！程序员二飞 python 数据分析学习人工智能 chatgpt 爬虫数据挖掘
数据分析人人都有必要掌握一点，哪怕只是思维也行。下面探讨Python数据分析需要学习的知识范畴，结合自己的经历和理解，总结的学习大纲，有些章节带有解释，有些没有。当然，关于学习范畴，可能每个人的理解都不太一样，以下仅供参考。1数据分析思维数据分析属于分析思维的一个子类，有专门的数据方法论。只有先养成正确的分析思维，才能使用好数据。大多数人的思维方式都依赖于生活和经验做出直觉性的判断，最直观的体现是
成功笔记谪仙狂客
复习完传感器全部内容看完《叹息桥》进行了一个小时的python数据分析学习完成部分仪器设计论文与老爸探讨了一些想法明日期望：仪器设计论文除设计部分外全部弄完开始过程控制论文继续python学习（结合excel）复习20个英语单词复习《激荡2020》观后感《小狗钱钱》读书笔记阅读至少一小时。写完《叹息桥》，并润色投稿。
为什么学习大数据，大数据专家写给大数据分析学习者的10个理由大数据学习01
因为大数据爆发，因此出现了大数据开发、大数据分析这两大主流的工作方向，目前这两个方向是很热门，不少人已经在开始转型往这两个方向发展，相较而言，转向大数据分析的人才更多一点，而同时也有不少人在观望中，这边小编收集了十个为什么要学习大数据分析的十个理由。下面我们一起来看看大数据专家写给大数据分析学习者的10个理由这里还是要推荐下小编的大数据学习QQ裙:532218147，不管你是小白还是大牛，小编我都
python中操作mysql数据库CRUD（增删改查）追梦小乐
python高级应用与数据分析学习笔记051、mysql的安装官网下载地址：https://www.mysql.com/嫌麻烦的话，也可以从从我的百度云下载：https://pan.baidu.com/s/1nvnBfgHimage.png安装成功是这样子的安装2、pymysql的安装一如既往的使用Ancoda来安装python软件，image.pngimage.png3、使用NaviCat创建数
微软杀疯了，系列第 4 弹，又开源了 1 个入门课程开源前哨
【导语】：微软开源的初学者数据分析学习课程。这是本系列第四弹！《微软开源的机器学习课程》《微软开源的Web开发课程》《微软开源的物联网学习课程》简介Data-Science-For-Beginners是微软开源的数据分析入门教程，在10周的20节课程中学习数据分析，了解如何使用关系型数据库，再是现在流行的NoSQL数据、数据可视化，最后教你如何做数据分析。每节课都包括课前与课后测验、完成课程的书面
python爬虫基础与数据分析及可视化基础一、Python基础二、Python爬虫三、数据分析基础四、数据可视化基础 wx1871428 Python 数据分析
python基础、爬虫、数据分析学习笔记一、Python基础*I.基本数据类型*i.int、float、str、bool数据类型的定义ii.tuple(元组)：iii.list(列表)iv.set(集合)：v.dict(字典)II.基本控制结构*i.if-elif-else语句：ii.for语句：iii.while语句iv.in，and，or，break，contiue语句III.函数定义:IV.
python数据分析学习day03:切片索引和统计函数 weixin_44748589 nlp学习笔记 numpy
1.切片索引1.1切片和索引ndarray对象的内容可以通过索引或切片来访问和修改，与Python中list的切片操作一样。ndarray数组可以基于0-n的下标进行索引。注意：pythonlist切片操作后赋值，修改不会改变原数组的值，而numpy数组切片是原始数组视图（这就意味着，如果做任何修改，原始都会跟着更改）。这也意味着，如果不想更改原始数组，我们需要进行显式的复制，从而得到它的副本（.
一篇文章说清Python数据分析，这个学习路线绝了 Python_入门教程数据分析 python 数据分析学习经验分享 python入门
近年来，数据分析师的需求非常大，90%的岗位技能需要掌握Python作为数据分析工具。2023年史上最全Python数据分析学习路线，从语言基础、数据工具、商业分析、到机器学习，一篇文章帮你搞定，奥利给！话不多说，新手自学Python数据分析的4大阶段，直接开始。第一阶段：Python语言基础数据分析的第一步就是先玩明白Python语言。Python语言简洁，入门容易，包括语言基础、常用数据结构、
0基础转行数据分析学习指南爱数据_橙子
在转行数据分析的过程中，相信很多小伙伴都有这样的困惑：面对五花八门的学习资料，不知道从哪儿入手不了解学习到什么程度才可以去找工作没有数据分析项目经验，害怕找工作被拒为了让小伙伴们在转行过程中少走一些弯路，今天我们就来聊聊0基础入职数据分析究竟要怎么找工作。本期我们将分别从学习方式、学习内容、面试准备这三项内容展开介绍，那么废话不多说，我们开始进入正题。一、学习方式橙子将学习方式划分为2类：①裸辞学
python数据分析学习心得 m0_74342615 python 数据分析机器学习数据挖掘开发语言
随着大数据技术和人工智能的不断发展，数据分析已经成为现代企业不可或缺的一部分。作为一名Python开发者，我也开始学习和探索数据分析的领域。在这篇文章中，我将分享我在学习Python数据分析方面所积累的经验。第一步是学习Python基础知识。数据分析需要处理大量的数据，因此Python的速度和内存管理功能使其成为数据分析领域中的一种通用工具。掌握Python的基础知识可以帮助我们更好地理解和应用数
大师兄的数据分析学习笔记(三十五）：总结 superkmi
大师兄的数据分析学习笔记(三十四）：模型评估（三）一、内容回顾上图包括了数据从获取到使用的全流程放，其中的包括数据获取、探索分析与可视化、预处理、分析建模和模型评估五部分。1.数据获取数据仓库监测与抓取用户填写日志埋点计算2.探索性数据分析与可视化2.1单因子探索分析异常值分析结构分析对比分析分布分析2.2多因子探索分析交叉分析分组分析钻取分析因子分析3.特征预处理特征使用特征获取特征处理异常值处
2020年2月7日晨间日记小美鱼
今天是什么日子起床：8：00就寝：10：00天气：冷心情：激动纪念日：为梦想努力奋斗的日子任务清单昨日完成的任务，最重要的三件事：①得到任务学习②数据分析课程作业提交③个人微信公众号，碧水小鱼儿更文改进：整合，融会贯通习惯养成：全面学习，知识融会贯通周目标·完成进度待业中学习·信息·阅读学习数据分析学习文案健康·饮食·锻炼大吃大喝人际·家人·朋友跟欧巴，妈妈在一起工作·思考待业中最美好的三件事1.
pandas的基本功能与常用的数学统计方法追梦小乐
python高级应用与数据分析学习笔记131、pandas的基本功能1）数据文件读取文本数据读取2）索引、选取和数据过滤3）算术运算和数据对齐4）函数的应用和映射5）重置索引2、数据文件读取文本数据读取2.1直接读取文本数据data01.csv文件name,age,source张伊曼,27,90张巧玲,27,90张诗诗,27,90张思思,27,90data02.txt文件张伊曼:27:90张巧玲:
文章复现-全外显子数据分析学习7-bam文件载入igv可视化 jiarf
whatisbambam（或者是sam，cram）文件，是比对后拿到的文件，sam文件是纯文本，非常占用存储空间，bam是sam的二进制格式，cram则是进一步压缩后的格式，这三者所记录的内容是一致的，但是bam文件是最常用的。记录了每一条reads比对到参考基因组的结果，主要有11列比较重要的信息（每一列以制表符分开）：bam文件的格式，如今我们的染色体那一列没有chr了，只有数字更多的说明可以
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。