Schanappi

【学习笔记】《深入浅出Pandas》第6章：Pandas分组聚合

分组聚合非常常见，我们的数据是扁平化的，没有任何分组信息。比如我们一周多次去同一家便利店，每次会产生一条购买记录，便利店要想统计每个人这周的购买情况，就需要以人来进行分组，然后将每个人的所有金额相加。

文章目录

6.1 概述
- 6.1.1 原理
- 6.1.2 groupby语法
- 6.1.3 DataFrame应用分组
- 6.1.4 Series应用分组
6.2 分组
- 6.2.1 分组对象
- 6.2.2 按标签分组
- 6.2.3 表达式
- 6.2.4 函数分组
- 6.2.5 多种方法混合
- 6.2.6 用pipe调用分组方法
- 6.2.7 分组器Grouper
- 6.2.8 索引
- 6.2.9 排序
- 6.2.10 小结
6.3 分组对象的操作
- 6.3.1 选择分组
- 6.3.2 迭代分组
- 6.3.3 选择列
- 6.3.4 应用函数apply()
- 6.3.5 管道方法pipe()
- 6.3.6 转换方法transform()
- 6.3.7 筛选方法filter()
- 6.3.8 其他功能
- 6.3.9 小结
6.4 聚合统计
- 6.4.1 描述统计
- 6.4.2 统计函数
- 6.4.3 聚合方法agg()
- 6.4.4 时序重采样方法resample()
- 6.4.5 组内头尾值
- 6.4.6 组内分位数
- 6.4.7 组内差值
- 6.4.8 小结
6.5 数据分箱
- 6.5.1 定界分箱pd.cut()
- 6.5.2 等宽分箱pd.qcut()
- 6.5.3 小结
6.6 分组可视化
- 6.6.1 绘图方法plot()
- 6.6.2 直方图hist()
- 6.6.3 箱线图boxplot()
6.7 本章小结

6.1 概述

在常规的数据探索方法中，我们将数据集按一定的粒度进行划分，然后以此粒度的聚合数据来了解数据的聚集趋势，以便解决问题。
本节将介绍数据分组的原理及简单操作。

6.1.1 原理

6.1.2 groupby语法

df.groupby()可以按指定字段对DataFrame进行分组，生成一个分组器对象。
df.groupby(by=None, axis=0, level=None, as_index: bool = True, sort: bool = True,
	group_keys: bool = True, observed: bool = False, dropna: bool = True,
	) -> 'DataFrameGroupBy'

分组操作会按制定规则对数据进行拆分，groupby完成的就是拆分的工作。groupby也能对Series完成分组操作。各个参数意义如下：

by：代表分组的依据和方法。如果by是一个函数，则会在数据的索引的每个值去调用它，从而产生值，按照这些值来确定分组。如果传递dict或Series，则将使用dict或Series的值来确定组；如果传递的是ndarray，则按原样使用这些值来确定组。传入字典，键为原索引名，值为分组名。
axis：沿行（0）或列（1）进行拆分。也可传入index或columns，默认是0。
level：如果轴是多层索引，则按一个或多个特定的层级进行拆分，支持数字、层名及序列。
as_index：数据分组聚合输出，默认返回带有组标签的对象作为索引，传False则不会。
sort：是否对分组进行排序。默认会排序，传False会让数据分组中第一个出现的值在前。
group_keys：调用函数时，将组键添加到索引中进行识别。
observed：仅当分组是分类数据时才适用。如果为True，仅显示分类分组数据的显示值；如果为False，显示分类分组数据的所有值。
dropna：如果为True，并且组键包含NA值，则NA值及行/列将被删除；如果为False，则NA值也将被视为组中的键。

以上大多参数也适用于Series，如果对DataFrame进行分组，会返回DataFrame-Groupby对象，对Series分组会返回SeriesGroupby对象。

6.1.3 DataFrame应用分组

# 按team分组对应列相加
df.groupby('team').sum()

# 对不同列采用不同的聚合计算方法
df.groupby('team').agg({'Q1': sum, 'Q2': 'count', 'Q3': 'mean', 'Q4': max})

# 对同一列使用不同的计算方法
df.groupby('team').agg({'Q1': [sum, 'std', max],
						'Q2': 'count', 'Q3': 'mean', 'Q4': max})

6.1.4 Series应用分组

# 对df.Q1（Series）按team分组，求和
df.Q1.groupby(df.team).sum()

6.2 分组

本节将针对分组对象介绍什么是分组对象，分组对象的创建可以使用哪些方法。

6.2.1 分组对象

groupby方法最终输出的是一个分组对象，DataFrameGroupBy和SeriesGroupBy都是分组对象。

接下来介绍创建分组对象的一些方法：

6.2.2 按标签分组

# 指定DataFrame的一列，按这列的去重数据分组
grouped = df.groupby('col')
grouped = df.groupby('col', axis='columns') # 按行

grouped = df.groupby(['col1', 'col2']) # 多列

# get_group查看分组对象单个分组的内容
grouped = df.groupby('team')
grouped.get_group('D') # 查看D组

6.2.3 表达式

通过行和列的表达式，生成一个布尔数据的序列，从而将数据分为True和False两组。

# 索引值是否为偶数，分成两组
df.groupby(lambda x:x%2==0).sum()
df.groupby(df.index%2==0).sum() # 同上
"""
		  Q1	  Q2	  Q3	 Q4
False	2322	2449	2823	2699
True	2598	2806	2444	2579
"""

6.2.4 函数分组

by参数可以调用函数来通过计算返回一个分组依据。

# 有一个时间列，按年进行分组，提取年份
df.groupby(df.time.apply(lambda x:x.year)).count()

如果DataFrame和Series函数接收到的参数是数值，想要传入其他列的值，可以使用apply来调用。

# 按照姓名首字母为元音、辅音分组：
def get_letter_type(letter):
	if letter[0].lower() in 'aeiou':
		return '元音'
	else:
		return '辅音'
df.set_index('name').groupby(get_letter_type).sum() # 需要设置name为索引index
"""
		  Q1	  Q2	  Q3	  Q4
元音	1462	1440	1410	1574
辅音	3458	3815	3857	3704
"""

6.2.5 多种方法混合

# eg:先按team分组，再按姓名首字母是否为元音分组
df.groupby(['team', df.name.apply(get_letter_type)]).sum()
# 这里没有先设置索引name，因此需要通过apply来调用
"""
			Q1	 Q2  Q3	 Q4
team name				
 A	 元音	274	197	141	199
	 辅音	792	442	734	584
 B	 元音	309	291	269	218
     辅音	666	927	933	918
 C	 元音	473	488	453	464
	 辅音	583	706	615	663
 D	 元音	273	333	409	486
	 辅音	587	858	832	713
 E	 元音	133	131	138	207
	 辅音	830	882	743	826
"""

6.2.6 用pipe调用分组方法

df.pipe()管道方法，可以调用函数对DataFrame进行处理。而Pandas的groupby是一个函数：

# 使用pipe调用分组函数
df.pipe(pd.DataFrame.groupby, 'team').sum()
"""
		Q1		Q2		Q3		Q4
team				
A		1066	639		875		783
B		975		1218	1202	1136
C		1056	1194	1068	1127
D		860		1191	1241	1199
E		963		1013	881		1033
"""

以此类推。可以传入更多参数。

6.2.7 分组器Grouper

# 分组器语法
pandas.Grouper(key=None, level=None, freq=None, axis=0, sort=False)

df.groupby(pd.Grouper('team'))
# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000021CD49D0E10>

# eg
df.groupby('team')
df.groupby(pd.Grouper('team')).sum()

# 如果是时间，可以60s一分组
df.groupby(Grouper(key='date', freq='60s'))

# 轴方向
df.groupby(Grouper(level='data', freq='60s', axis=1))
# 按索引
df.groupby(Grouper(level=1)).sum()
# 多列
df.groupby([pd.Grouper(freq='1M', key='Date'), 'Buyer']).sum()
df.groupby([pd.Grouper('dt', freq='D'), pd.Grouper('other_column')])

# 按轴层级
df.groupby([pd.Grouper(level='second'), 'A']).sum()
df.groupby([pd.Grouper(level=1), 'A']).sum()

6.2.8 索引

groupby操作后分组字段会成为索引，如果不想让它成为索引，可以使用as_index=False进行设置：

df.groupby('team', as_index=False).sum() #team仍然是表头
"""
	team	Q1		Q2		Q3		Q4
0	 A		1066	639		875		783
1	 B		975		1218	1202	1136
2	 C		1056	1194	1068	1127
3	 D		860		1191	1241	1199
4	 E		963		1013	881		1033
"""

6.2.9 排序

groupby操作后分组字段会成为索引，数据会对索引进行排序，如果不想排序，可以使用sort=False进行设置，不排序的情况下会按索引出现的顺序排列：

df.groupby('team', sort=False).sum()
"""
		Q1		Q2		Q3		Q4
team				
E		963		1013	881		1033
C		1056	1194	1068	1127
A		1066	639		875		783
D		860		1191	1241	1199
B		975		1218	1202	1136
"""

6.2.10 小结

groupby可以简单总结为拆开数据、应用数据和合并数据。Pandas提供了很多分组方法，能够灵活自由地进行分组。
另外，对于时序数据的分组， Pandas提供了df.resample()的方法，将会在14章介绍。

6.3 分组对象的操作

上一节完成了分组对象的创建，接下来对分组对象进行操作，获取其相关信息，为最后的数据聚合统计打好基础。

# 创建分组对象
grouped = df.drop('name', axis=1).groupby('team') # 为方便介绍，删去name列

# 应用聚合函数
grouped.sum() # 数据被分为A-E五组

6.3.1 选择分组

分组对象的groups方法会生成一个字典，包含分组名称和分组的内容索引列表，可以使用字典的.keys()方法取出分组名称：

# 查看分组内容
df.groupby('team').groups
# {'A': [2, 7,...], 'B': [6, ...], 'C': [1, ...，], 'D': [4, ...], 'E': [0,...}

# 查看分组名
df.groupby('team').groups.keys()
# dict_keys(['A', 'B', 'C', 'D', 'E'])

多层索引：

# 用团队和姓名的首字母分组
grouped2 = df.groupby(['team', df.name.str[0]])
# 选择B组、姓名以A开头的数据
grouped2.get_group(('B', 'A')) 
"""
	name	team	Q1	Q2	Q3	Q4
6	Acob	B		61	95	94	8
83	Albert0	B		85	38	41	17
"""

grouped.indices返回一个字典，其键为组名，值为本组索引的array格式，可以实现对单分组数据的选取：

# 获取分组字典数据
grouped.indices

# 选择A组
grouped.indices['A']
# array([ 2,  7,  9, 16, 17, 20, 22, 34, 40, 42, 51, 67, 70, 71, 75, 79, 88],
      dtype=int64)

6.3.2 迭代分组

分组对象grouped的每个迭代元素是一个元组，每个元素又是由分组名和分组数据内容组成的元组：

# 迭代
for g in grouped：
	print(type(g))
# <class 'tuple'>

# 迭代元素的数据类型
for name, group in grouped:
	print(type(name))
	print(type(group))
# <class 'str'>
# <class 'pandas.core.frame.DataFrame'>

6.3.3 选择列

# 选择数据分组后的某一列，和DataFrame选择列操作一样
grouped.Q1
grouped['Q1'] # 同上

# 选择多列
grouped[['Q1', 'Q2']]

6.3.4 应用函数apply()

分组对象使用apply()调用一个函数，传入的是DataFrame，返回一个经过函数计算后的DataFrame、Series或标量，然后再把数据组合。
对每一列单独操作

# eg1：将数据中的所有元素*2 
df.groupby('team').apply(lambda x: x*2)
"""
	name		team	Q1	Q2	Q3	Q4
0	LiverLiver	EE		178	42	48	128
1	ArryArry	CC		72	74	74	114
2	AckAck		AA		114	120	36	168
3	EorgeEorge	CC		186	192	142	156
4	OahOah		DD		130	98	122	172
...	...			...		...	...	...	...
98	EliEli		EE		22	148	116	182
99	BenBen		EE		42	86	82	148
100 rows × 6 columns
"""

# eg2:实现每组Q1成绩最高的三个
def first_3(df_, c):
	return df_[c].sort_values(ascending=False).head(3)
# 调用函数
df.set_index('name').groupby('team').apply(first_3, 'Q1')	
"""
team  name     
A     Aaron        96
      Henry        91
      Nathan       87
B     Elijah       97
      Harrison     89
      Michael      89
C     Lincoln4     98
      Eorge        93
      Alexander    91
D     Mason        80
      Albie1       79
      Ethan        79
E     Max          97
      Ryan         92
      Liver        89
Name: Q1, dtype: int64
"""

6.3.5 管道方法pipe()

类似于DataFrame的管道方法，分组对象的管道方法接收之前的分组对象，将同组的所有数据应用在方法中，最后返回的是经过函数处理过的返回数据格式。

# eg1:每组最大值和最小值的和
df.groupby('team').pipe(lambda x: x.max()+ x.min())
"""
		name			Q1		Q2		Q3		Q4
team					
A		TylerAaron		105		91		113		105
B		ThomasAcob		99		103		111		101
C		WilliamAdam		99		109		88		118
D		Theodore3Aiden	85		104		105		110
E		ZacharyArlo8	101		99		100		101
"""

# eg2：定义了A组和B组平均值的差值
def mean_diff(x):
    return x.get_group('A').mean() - x.get_group('B').mean()

df.groupby('team').pipe(mean_diff)
"""
Q1    18.387701
Q2   -17.775401
Q3    -3.165775
Q4    -5.577540
dtype: float64
"""

pipe和apply的区别：
pipe接收的是分组对象；而apply接收的是DataFrame。

6.3.6 转换方法transform()

transform()类似于agg()，但不同的是，transform返回的是一个与原始数据形状相同的DataFrame，会将每个数据原来的值一一替换为统计后的值。
使用函数时，分别传入每个分组的子DataFrame的每一列，经过计算后每列返回一个结果，然后再将每组的这列所有值都替换为计算结果，最后以原DataFrame的形式显示所有数据。

# eg：将所有数据替换成分组中的平均成绩
df.groupby('team').transform(np.mean)
"""
		Q1			Q2			Q3			Q4
0	48.150000	50.650000	44.050000	51.650000
1	48.000000	54.272727	48.545455	51.227273
2	62.705882	37.588235	51.470588	46.058824
3	48.000000	54.272727	48.545455	51.227273
4	45.263158	62.684211	65.315789	63.105263
...	...	...	...	...
95	48.000000	54.272727	48.545455	51.227273
96	48.000000	54.272727	48.545455	51.227273
97	48.000000	54.272727	48.545455	51.227273
98	48.150000	50.650000	44.050000	51.650000
99	48.150000	50.650000	44.050000	51.650000
100 rows × 4 columns
"""

6.3.7 筛选方法filter()

使用filter对组作为整体进行筛选，如果满足条件，则整个组会被显示。传入它调用函数中的默认变量为每个分组的DataFrame，经过计算，最终返回一个布尔值（不是布尔序列），为真的DataFrame全部显示。

# 筛选出所在组平均分大于51的成员 （通过计算后只有B、D两组，即显示出B、D组的所有成员）
df.groupby('team').filter(lambda x: x.mean(1).mean() > 51)
"""
	name	team	Q1	Q2	Q3	Q4
4	Oah	D	65	49	61	86
6	Acob	B	61	95	94	8
8	Reddie	D	64	93	57	72
10	Leo	B	17	4	33	79
11	Logan	B	9	89	35	65
.....
"""

6.3.8 其他功能

df.groupby('team').first() # 组内第一个
df.groupby('team').last() # 组内最后一个
df.groupby('team').ngroups # 5 分组数
df.groupby('team').ngroup() # 分组序号

grouped.backfill()
grouped.bfill()
df.groupby('team').head() # 每组显示前5个
grouped.tail(1) # 每组最后一个
grouped.rank() # 排序值
grouped.fillna(0)
grouped.indices() # 组名：序列组成的字典

# 分组中的第几个值
gp.nth(1) # 第一个
gp.nth(-1) # 最后一个

# 第n个非空项
gp.nth(0， dropna='all') 
gp.nth(0， dropna='any') 

df.groupby('team').shift(-1) # 组内移动
grouped.tshift(1) # 按时间周期移动

# 返回布尔序列
df.groupby('team').any()
df.groupby('team').all()

df.groupby('team').rank() # 每个成员在组内的排名

# 仅SeriesGroupBy可用
df.groupby("team").Q1.nlargest(2) # 每组最大的两个
df.groupby("team").Q1.nsmallest(2) # 每组最小的两个
df.groupby("team").Q1.nunique() # 每组去重数量
df.groupby("team").Q1.unique() # 每组去重值
df.groupby("team").Q1.value_counts() # 每组去重值及数量
df.groupby("team").Q1.is_monotonic_increasing # 每组值是否单调递增
df.groupby("team").Q1.is_monotonic_decreasing # 每组值是否单调递减

# 仅DataFrameGroupBy可用
df.groupby("team").corrwith(df2) # 相关性

6.3.9 小结

本节介绍了对分组的基本操作和一些函数方法，特别注意分辨以下三个方法：

apply：最为灵活，可以对数据完成操作后返回各种形式的数据；
transform：对数据完成操作后返回原型形状的数据，可以类比为对一个汽车不改变结构，只重新进行涂装；
filter：每个分组传入后，通过计算返回这个分组的真假值，真的留下，作为最终结果。

其中transform和filter计算的都是每个分组的整体结果。

6.4 聚合统计

本节主要介绍对分组完的数据的统计工作，这是分组聚合的最后一步。通过最终数据的输出，可以观察到业务变化情况。

6.4.1 描述统计

分组对象如同df.describe()，也支持.describe()，用来对数据的总体进行描述：

# 描述统计，由于列过多，进行转置
df.groupby('team').describe().T
"""
team			A			B			C			D			E
Q1	count	17.000000	22.000000	22.000000	19.000000	20.000000
	mean	62.705882	44.318182	48.000000	45.263158	48.150000
	std		24.155136	32.607896	31.000768	25.886166	33.242767
	min		9.000000	2.000000	1.000000	5.000000	4.000000
	25%		52.000000	11.000000	21.750000	18.000000	11.750000
	50%		64.000000	48.000000	46.000000	50.000000	48.000000
	75%		78.000000	66.000000	77.250000	64.500000	73.250000
	max		96.000000	97.000000	98.000000	80.000000	97.000000
Q2	count	17.000000	22.000000	22.000000	19.000000	20.000000
...
"""

6.4.2 统计函数

对分组对象直接使用统计函数，对分组内的所有数据进行计算，最终以DataFrame形式显示数据。

grouped.mean()
"""
			Q1			Q2			Q3			Q4
team				
A		62.705882	37.588235	51.470588	46.058824
B		44.318182	55.363636	54.636364	51.636364
C		48.000000	54.272727	48.545455	51.227273
D		45.263158	62.684211	65.315789	63.105263
E		48.150000	50.650000	44.050000	51.650000
"""

# 常用的统计方法
df.groupby('team').describe() # 描述性统计
df.groupby('team').sum() 
df.groupby('team').count() # 每组数量，不包括缺失值
df.groupby('team').max()
df.groupby('team').min()
df.groupby('team').size() # 分组数量
df.groupby('team').mean() 
df.groupby('team').median()	# 中位数
df.groupby('team').std()
df.groupby('team').var()
grouped.corr() # 相关性系数
grouped.sem() # 标准误差
grouped.prod() # 乘积
grouped.cummax() # 每组的累计最大值  
grouped.cumsum() # 累加
grouped.mad() # 平均绝对偏差

6.4.3 聚合方法agg()

分组对象的方法.aggregate简写为.agg。它的作用是将分组后的对象给定统计方法，也支持按字段分别给定不同的统计方法。
单个统计方法实现与上个小节相同的功能：

df.groupby('team').aggregate(sum)
df.groupby('team').agg(sum)
grouped.agg(np.size)
grouped['Q1'].agg(np.mean)

使用它主要是为了实现一个字段使用多种统计方法，不同字段使用不同方法：

# 每个字段使用多个计算方法
grouped[['Q1', 'Q3']].agg([np.sum, np.mean, np.std])
"""
		Q1								Q3
		sum		mean		std			sum		mean		std
team						
A		1066	62.705882	24.155136	875		51.470588	27.171027
B		975		44.318182	32.607896	1202	54.636364	29.981813
C		1056	48.000000	31.000768	1068	48.545455	27.921194
D		860		45.263158	25.886166	1241	65.315789	21.916642
E		963		48.150000	33.242767	881		44.050000	21.808919
"""

# 不同列使用不同计算方法，且一列用多个计算方法
df.groupby('team').agg({'Q1': ['min', 'max'], 'Q2': 'sum'})
	Q1			Q2
	min	max		sum
team			
A	9	96		639
B	2	97		1218
C	1	98		1194
D	5	80		1191
E	4	97		1013

类似于之前学过的增加新列的方法df.assign()，agg()可以指定新列名字：

# 指定列名，列表是原列和方法
df.groupby('team').Q1.agg(Mean='mean', Sum='sum')
df.groupby('team').agg(Mean=('Q1', 'mean'), Sum=('Q2', 'sum'))
df.groupby('team').agg(
    Q1_max=pd.NamedAgg(column='Q1', aggfunc='max'),
    Q2_sum=pd.NamedAgg(column='Q2', aggfunc='sum'))

如果列名不是有效的Python变量格式，则可以使用以下方法：

df.groupby('team').agg(**{
	'1_max':pd.NamedAgg(column='Q1', aggfunc='max')})

统计方法可以使用函数。在使用函数时，分别传入每个分组后的子DataFrame，会按子DataFrame把这组的所有列组成的序列传到函数里进行计算，最终返回一个固定值。

# 聚合结果使用函数
# lambda/函数，所有方法都可以使用
def max_min(x)：
	return x.max() - x.min()
# 定义函数
df.groupby('team').Q1.agg(Mean='mean', Sum='sum', Diff=lambda x:x.max()-x.min(), Max_min=max_min)

如果对同一列全使用同一函数，直接写函数名即可：

df.groupby('team').agg(max_min)

6.4.4 时序重采样方法resample()

针对时间序列数据，resample将分组后的时间索引按周期进行聚合计算。14章会详细介绍。

# eg:
idx = pd.date_range(start='1/1/2020', periods=100, freq='T')
df2 = pd.DataFrame(data={'a':[0, 1]*50, 'b':1}, index=idx)
df2
"""
						a	b
2020-01-01 00:00:00		0	1
2020-01-01 00:01:00		1	1
2020-01-01 00:02:00		0	1
2020-01-01 00:03:00		1	1
2020-01-01 00:04:00		0	1
...	...	...
2020-01-01 01:35:00		1	1
2020-01-01 01:36:00		0	1
2020-01-01 01:37:00		1	1
2020-01-01 01:38:00		0	1
2020-01-01 01:39:00		1	1
100 rows × 2 columns
"""

索引是一个时序数据，接下来按a列进行分组，然后按20分钟（由于1分钟是一个周期T，我们传入20T）对b进行求和计算：

# 每20分钟聚合一次
df2.groupby('a').resample('20T').sum()
"""
							a	b
a			
0	2020-01-01 00:00:00		0	10
	2020-01-01 00:20:00		0	10
	2020-01-01 00:40:00		0	10
	2020-01-01 01:00:00		0	10
	2020-01-01 01:20:00		0	10
1	2020-01-01 00:00:00		10	10
	2020-01-01 00:20:00		10	10
	2020-01-01 00:40:00		10	10
	2020-01-01 01:00:00		10	10
	2020-01-01 01:20:00		10	10
"""

6.4.5 组内头尾值

在一个组内，如果希望取第一个值和最后一个值，可以使用以下方法。当然，定义第一个和最后一个需要事先完成。

# 每组第一个
df.groupby('team').first()
"""
		name	Q1	Q2	Q3	Q4
team					
A		Ack		57	60	18	84
B		Acob	61	95	94	8
C		Arry	36	37	37	57
D		Oah		65	49	61	86
E		Liver	89	21	24	64
"""

6.4.6 组内分位数

中位数是二分位，如果在分组中需要看指定分位数据，使用.quantile()来实现。

# 以下均为二分位
df.groupby('team').median() 
df.groupby('team').quantile()
df.groupby('team').quantile(0.5)

6.4.7 组内差值

和DataFrame的diff()一样，分组对象的diff()方法会在组内进行前后数据的差值计算，并以原DataFrame形状返回数据：

grouped.diff()

6.4.8 小结

本节介绍的功能是将分组的结果最终统计并展示出来。我们需要掌握常见的数学统计函数，也可以使用Numpy的大量统计方法。

6.5 数据分箱

数据分箱（离散组合或数据分桶）是一种数据预处理技术，将原始数据分成几个区间，即bin（小箱子），是一种量子化形式。数据分箱可以最大限度减小观察误差的影响。落入给定区间的原始数据值被代表该区间的值（通常是中心值）替换。然后将其替换为针对该区间计算的常规值。具有平滑输入数据的作用，并且在小数据集的情况下还可以减少过拟合。
Pandas主要基于以下两个函数实现连续数据的离散化处理：

pandas.cut：根据指定分界点对连续数据进行分箱处理。
pandas.qcut：根据指定区间数量对连续数据进行等宽分箱处理。等宽指的是每个区间中的数据量相同。

6.5.1 定界分箱pd.cut()

pd.cut()可以指定区间将数字进行划分。

# eg：将Q1成绩换60分及以上、60分以下进行分类
pd.cut(df.Q1, bins=[0, 60, 100])
"""
0     (60, 100]
1       (0, 60]
2       (0, 60]
3     (60, 100]
4     (60, 100]
        ...    
95      (0, 60]
96      (0, 60]
97    (60, 100]
98      (0, 60]
99      (0, 60]
Name: Q1, Length: 100, dtype: category
Categories (2, interval[int64]): [(0, 60] < (60, 100]]
"""

将分箱结果应用到groupby分组中：

# Series使用
df.Q1.groupby(pd.cut(df.Q1, bins=[0, 60, 100])).count()
"""
Q1
(0, 60]      57
(60, 100]    43
Name: Q1, dtype: int64
"""

# DataFrame使用 
df.groupby(pd.cut(df.Q1, bins=[0, 60, 100])).count()
"""
			name	team	Q1	Q2	Q3	Q4
Q1						
(0, 60]		57		57		57	57	57	57
(60, 100]	43		43		43	43	43	43
"""

以下显示了每个分组的数据。其他参数示例如下：

# 不显示区间，使用数字作为每个箱子的标签，形式如0，1，2，n
pd.cut(df.Q1, bins=[0, 60, 100], labels=False)
# 指定标签名
pd.cut(df.Q1, bins=[0, 60, 100], labels=['不及格', '及格'])
# 包含最低部分
pd.cut(df.Q1, bins=[0, 60, 100], include_lowest=True)
# 是否为右闭区间
pd.cut(df.Q1, bins=[0, 60, 100], right=False)

6.5.2 等宽分箱pd.qcut()

pd.qcut()可以指定所分区间的数量，Pandas会自动进行分箱：

# 按Q1成绩分为两组
pd.qcut(df.Q1, q=2)
"""
0      (51.5, 98.0]
1     (0.999, 51.5]
2      (51.5, 98.0]
3      (51.5, 98.0]
4      (51.5, 98.0]
          ...      
95    (0.999, 51.5]
96    (0.999, 51.5]
97     (51.5, 98.0]
98    (0.999, 51.5]
99    (0.999, 51.5]
Name: Q1, Length: 100, dtype: category
Categories (2, interval[float64]): [(0.999, 51.5] < (51.5, 98.0]]
"""

# 查看分组区间
pd.qcut(df.Q1, q=2).unique()
"""
[(51.5, 98.0], (0.999, 51.5]]
Categories (2, interval[float64]): [(0.999, 51.5] < (51.5, 98.0]]
"""

应用到分组中：

# Series使用
df.Q1.groupby(pd.qcut(df.Q1, q=2)).count()
"""
Q1
(0.999, 51.5]    50
(51.5, 98.0]     50
Name: Q1, dtype: int64
"""

# DataFrame使用
df.groupby(pd.qcut(df.Q1, q=2)).count()
"""
	name	team	Q1	Q2	Q3	Q4
Q1						
(0.999, 51.5]	50	50	50	50	50	50
(51.5, 98.0]	50	50	50	50	50	50
"""

其他参数如下：

# 0-5， 4个区间
pd.qcut(range(5), 4)
"""
[(-0.001, 1.0], (-0.001, 1.0], (1.0, 2.0], (2.0, 3.0], (3.0, 4.0]]
Categories (4, interval[float64]): [(-0.001, 1.0] < (1.0, 2.0] < (2.0, 3.0] < (3.0, 4.0]]
"""
pd.qcut(range(5), 4, labels=False)	# array([0, 0, 1, 2, 3], dtype=int64)

# 指定标签名
pd.qcut(range(5), 3, labels=["good", "medium", "bad"])
# 返回箱子标签: array([ 1. , 51.5, 98. ]))
pd.qcut(df.Q1, q=2, retbins=True)
# 分箱位小数位数
pd.qcut(df.Q1, q=2, precision=3)
# 排名分三个层次
pd.qcut(df.Q1.rank(method='first'), 3)

6.5.3 小结

分箱也是一种数据分组方式，经常用于数据建模、机器学习中，更适合离散数据。

6.6 分组可视化

6.6.1 绘图方法plot()

数据分组对象也支持plot()，不过它以分组对象中每个DataFrame或Series为对象，绘制出所有分组图形。默认情况下，它绘制的是折线图。

# 分组，设置索引name
grouped = df.set_index('name').groupby('team')
# 绘制图形
grouped.plot()

"""
team
A    AxesSubplot(0.125,0.125;0.775x0.755)
B    AxesSubplot(0.125,0.125;0.775x0.755)
C    AxesSubplot(0.125,0.125;0.775x0.755)
D    AxesSubplot(0.125,0.125;0.775x0.755)
E    AxesSubplot(0.125,0.125;0.775x0.755)
dtype: object
"""

生成如下图形：（这里只展示A组）

还可以通过plot.x()或者plot(kind=‘x’)的形式调用其他形状的图形：

plot.line：折线图
plot.pie：饼图
plot.bar：柱状图
plot.hist：直方图
plot.box：箱型图
plot.area：面积图
plot.scatter：散点图
plot.hexbin：六边形分箱图

6.6.2 直方图hist()

# 绘制直方图
grouped.hist()
"""
team
A    [[AxesSubplot(0.125,0.551739;0.336957x0.328261...
B    [[AxesSubplot(0.125,0.551739;0.336957x0.328261...
C    [[AxesSubplot(0.125,0.551739;0.336957x0.328261...
D    [[AxesSubplot(0.125,0.551739;0.336957x0.328261...
E    [[AxesSubplot(0.125,0.551739;0.336957x0.328261...
dtype: object
"""

共生成五组直方图（这里只展示A组的直方图）：

6.6.3 箱线图boxplot()

箱线图展示了各个字段的最大值、最小值、分位数等信息。

# 分组箱线图
grouped.boxplot(figsize=(15, 12))
"""
A         AxesSubplot(0.1,0.679412;0.363636x0.220588)
B    AxesSubplot(0.536364,0.679412;0.363636x0.220588)
C         AxesSubplot(0.1,0.414706;0.363636x0.220588)
D    AxesSubplot(0.536364,0.414706;0.363636x0.220588)
E             AxesSubplot(0.1,0.15;0.363636x0.220588)
dtype: object
"""

以上代码将按组显示一个箱线图矩阵（这里展示A、B两组）：

另外，DataFrame的boxplot()方法可以传入分组字段，绘制出每个字段在不同分组中的数据图像：

# 分组箱线图
df.boxplot(by='team', figsize=(15, 10))
"""
array([[<AxesSubplot:title={'center':'Q1'}, xlabel='[team]'>,
        <AxesSubplot:title={'center':'Q2'}, xlabel='[team]'>],
       [<AxesSubplot:title={'center':'Q3'}, xlabel='[team]'>,
        <AxesSubplot:title={'center':'Q4'}, xlabel='[team]'>]],
      dtype=object)
"""

以上代码会按team分组并返回箱线图：

6.7 本章小结

本章全面介绍了分组聚合的数据操作原理，依次可分为以下部分：

分拆（split）：将DataFrame或Series按照一定规则进行分组，生成分组对象，其中包含多个子DataFrame或Series。
应用（apply）：对每个组进行操作或数据统计，如算平均数，还可以使用函数进行复杂操作或计算。
合并（combine）：将每组的计算结果再拼合起来，最终得到一个DataFrame或Series，或者直接进行可视化显示。

你可能感兴趣的:(pandas,学习,python)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR