Datawhale

数据分析之Pandas分组操作总结

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：耿远昊，Datawhale成员

Pandas做分析数据，可以分为索引、分组、变形及合并四种操作。之前介绍过索引操作，现在接着对Pandas中的分组操作进行介绍：主要包含SAC含义、groupby函数、聚合、过滤和变换、apply函数。文章的最后，根据今天的知识介绍，给出了6个问题与2个练习，供大家学习实践。

在详细讲解每个模块之前，首先读入数据：

import numpy as np
import pandas as pd
df = pd.read_csv('data/table.csv',index_col='ID')
df.head()

SAC过程

1. 内涵

SAC指的是分组操作中的split-apply-combine过程。其中split指基于某一些规则，将数据拆成若干组；apply是指对每一组独立地使用函数；combine指将每一组的结果组合成某一类数据结构。

2. apply过程

在apply过程中，我们实际往往会遇到四类问题：

整合(Aggregation)：即分组计算统计量（如求均值、求每组元素个数）；
变换(Transformation)：即分组对每个单元的数据进行操作（如元素标准化）；
过滤(Filtration)：即按照某些规则筛选出一些组（如选出组内某一指标小于50的组）；
综合问题：即前面提及的三种问题的混合。

groupby函数

经过groupby后会生成一个groupby对象，该对象本身不会返回任何内容，只有当相应的方法被调用才会起作用。

1. 分组函数的基本内容：

根据某一列分组
根据某几列分组
组容量与组数
组的遍历
level参数(用于多级索引)和axis参数

a). 根据某一列分组

grouped_single = df.groupby('School')

经过groupby后会生成一个groupby对象，该对象本身不会返回任何东西，只有当相应的方法被调用才会起作用。例如取出某一个组：

grouped_single.get_group('S_1').head()

b). 根据某几列分组

grouped_mul = df.groupby(['School','Class'])
grouped_mul.get_group(('S_2','C_4'))

c). 组容量与组数

调用的时候最好先根据size看下里面的内容，不然在get_group的时候可能会出错。

grouped_single.size()

grouped_mul.size()

grouped_single.ngroups
grouped_mul.ngroups

d). 组的遍历

for name,group in grouped_single:
    print(name)
    display(group.head())

e). level参数（用于多级索引）和axis参数

df.set_index(['Gender','School']).groupby(level=1,axis=0).get_group('S_1').head()

2. groupby对象的特点：

查看所有可调用的方法
分组对象的head 和first
分组依据
groupby的[]操作
连续型变量分组

a). 查看所有可调用的方法

由此可见，groupby对象可以使用相当多的函数，灵活程度很高

print([attr for attr in dir(grouped_single) if not attr.startswith('_')])

b). 分组对象的head和first

对分组对象使用head函数，返回的是每个组的前几行，而不是数据集前几行

grouped_single.head(2)

first显示的是以分组为索引的每组的第一个分组信息

grouped_single.first()

c). 分组依据

对于groupby函数而言，分组的依据是非常自由的，只要是与数据框长度相同的列表即可，同时支持函数型分组。

df.groupby(np.random.choice(['a','b','c'],df.shape[0])).get_group('a').head()
# 相当于将np.random.choice(['a','b','c'],df.shape[0])当做新的一列进行分组

从原理上说，我们可以看到利用函数时，传入的对象就是索引，因此根据这一特性可以做一些复杂的操作。

df[:5].groupby(lambda x:print(x)).head(0)

根据奇偶行分组。

df.groupby(lambda x:'奇数行' if not df.index.get_loc(x)%2==1 else '偶数行').groups

如果是多层索引，那么lambda表达式中的输入就是元组，下面实现的功能为查看两所学校中男女生分别均分是否及格。注意：此处只是演示groupby的用法，实际操作不会这样写。

math_score = df.set_index(['Gender','School'])['Math'].sort_index()
grouped_score = df.set_index(['Gender','School']).sort_index().\
            groupby(lambda x:(x,'均分及格' if math_score[x].mean()>=60 else '均分不及格'))
for name,_ in grouped_score:print(name)

d). groupby的[]操作

可以用[]选出groupby对象的某个或者某几个列，上面的均分比较可以如下简洁地写出：

df.groupby(['Gender','School'])['Math'].mean()>=60

用列表可选出多个属性列：

df.groupby(['Gender','School'])[['Math','Height']].mean()

e). 连续型变量分组

例如利用cut函数对数学成绩分组：

bins = [0,40,60,80,90,100]
cuts = pd.cut(df['Math'],bins=bins) #可选label添加自定义标签
df.groupby(cuts)['Math'].count()

聚合、过滤和变换

1. 聚合

常用聚合函数
同时使用多个聚合函数
使用自定义函数
利用NameAgg函数
带参数的聚合函数

a). 常用聚合函数

所谓聚合就是把一堆数，变成一个标量，因此mean/sum/size/count/std/var/sem/describe/first/last/nth/min/max都是聚合函数。为了熟悉操作，不妨验证标准误sem函数，它的计算公式是：组内标准差/组容量，下面进行验证：

group_m = grouped_single['Math']
group_m.std().values/np.sqrt(group_m.count().values)== group_m.sem().values

b). 同时使用多个聚合函数

group_m.agg(['sum','mean','std'])

利用元组进行重命名

group_m.agg([('rename_sum','sum'),('rename_mean','mean')])

指定哪些函数作用哪些列

grouped_mul.agg({'Math':['mean','max'],'Height':'var'})

c). 使用自定义函数

grouped_single['Math'].agg(lambda x:print(x.head(),'间隔'))
#可以发现，agg函数的传入是分组逐列进行的，有了这个特性就可以做许多事情

官方没有提供极差计算的函数，但通过agg可以容易地实现组内极差计算

grouped_single['Math'].agg(lambda x:x.max()-x.min())

d). 利用NamedAgg函数进行多个聚合

注意：不支持lambda函数，但是可以使用外置的def函数

def R1(x):
    return x.max()-x.min()
def R2(x):
    return x.max()-x.median()
grouped_single['Math'].agg(min_score1=pd.NamedAgg(column='col1', aggfunc=R1),
                           max_score1=pd.NamedAgg(column='col2', aggfunc='max'),
                           range_score2=pd.NamedAgg(column='col3', aggfunc=R2)).head()

e). 带参数的聚合函数

判断是否组内数学分数至少有一个值在50-52之间：

def f(s,low,high):
    return s.between(low,high).max()
grouped_single['Math'].agg(f,50,52)

如果需要使用多个函数，并且其中至少有一个带参数，则使用wrap技巧：

def f_test(s,low,high):
    return s.between(low,high).max()
def agg_f(f_mul,name,*args,**kwargs):
    def wrapper(x):
        return f_mul(x,*args,**kwargs)
    wrapper.__name__ = name
    return wrapper
new_f = agg_f(f_test,'at_least_one_in_50_52',50,52)
grouped_single['Math'].agg([new_f,'mean']).head()

2. 过滤 Filteration
filter函数是用来筛选某些组的（务必记住结果是组的全体），因此传入的值应当是布尔标量。

grouped_single[['Math','Physics']].filter(lambda x:(x['Math']>32).all()).head()

3. 变换 Transformation

传入对象
利用变换方法进行组内标准化
利用变换方法进行组内缺失值的均值填充

a). 传入对象

transform函数中传入的对象是组内的列，并且返回值需要与列长完全一致

grouped_single[['Math','Height']].transform(lambda x:x-x.min()).head()

如果返回了标量值，那么组内的所有元素会被广播为这个值

grouped_single[['Math','Height']].transform(lambda x:x.mean()).head()

b). 利用变换方法进行组内标准化

grouped_single[['Math','Height']].transform(lambda x:(x-x.mean())/x.std()).head()

c). 利用变换方法进行组内缺失值的均值填充

df_nan = df[['Math','School']].copy().reset_index()
df_nan.loc[np.random.randint(0,df.shape[0],25),['Math']]=np.nan
df_nan.head()

df_nan.groupby('School').transform(lambda x: x.fillna(x.mean())).join(df.reset_index()['School']).head()

apply函数

1. apply函数的灵活性

标量返回值
列表返回值
数据框返回值

可能在所有的分组函数中，apply是应用最为广泛的，这得益于它的灵活性：对于传入值而言，从下面的打印内容可以看到是以分组的表传入apply中。

df.groupby('School').apply(lambda x:print(x.head(1)))

apply函数的灵活性很大程度来源于其返回值的多样性：

a). 标量返回值

df[['School','Math','Height']].groupby('School').apply(lambda x:x.max())

b). 列表返回值

df[['School','Math','Height']].groupby('School').apply(lambda x:x-x.min()).head()

c). 数据框返回值

df[['School','Math','Height']].groupby('School')\
    .apply(lambda x:pd.DataFrame({'col1':x['Math']-x['Math'].max(),
                                  'col2':x['Math']-x['Math'].min(),
                                  'col3':x['Height']-x['Height'].max(),
                                  'col4':x['Height']-x['Height'].min()})).head()

2. 用apply同时统计多个指标

此处可以借助OrderedDict工具进行快捷的统计：

from collections import OrderedDict
def f(df):
    data = OrderedDict()
    data['M_sum'] = df['Math'].sum()
    data['W_var'] = df['Weight'].var()
    data['H_mean'] = df['Height'].mean()
    return pd.Series(data)
grouped_single.apply(f)

问题与练习

问题

问题1. 什么是fillna的前向/后向填充，如何实现？

import numpy as np
import pandas as pd
df = pd.read_csv('data/table.csv',index_col='ID')
df.head(3)

df_nan = df[['Math','School']].copy().reset_index()
df_nan.loc[np.random.randint(0,df.shape[0],25),['Math']]=np.nan
df_nan.head()

fillna 的method方法可以控制参数的填充方式，是向上填充：将缺失值填充为该列中它上一个未缺失值；向下填充相反
method : {‘backfill', ‘bfill', ‘pad', ‘ffill', None}, default None
pad / ffill: 向下自动填充
backfill / bfill: 向上自动填充

df_nan.Math=df_nan.Math.fillna(method='pad')
df_nan.head()

问题2. 下面的代码实现了什么功能？请仿照设计一个它的groupby版本。

s = pd.Series ([0, 1, 1, 0, 1, 1, 1, 0])
s1 = s.cumsum()
result = s.mul(s1).diff().where(lambda x: x < 0).ffill().add(s1,fill_value =0)

s1：将s序列求累加和 [0, 1, 2, 2, 3, 4, 5, 5]
s.mul(s1)：s 与s1累乘 [0, 1, 2, 0, 3, 4, 5, 0]
.diff() 求一阶差分 [nan, 1.0, 1.0, -2.0, 3.0, 1.0, 1.0, -5.0]
.where(lambda x: x < 0) 值是否小于0：[nan, nan, nan, -2.0, nan, nan, nan, -5.0]
.ffill()：向下填充 [nan, nan, nan, -2.0, -2.0, -2.0, -2.0, -5.0]
.add(s1,fill_value =0) 缺失值补0后与s1求和：[0.0, 1.0, 2.0, 0.0, 1.0, 2.0, 3.0, 0.0]

list(s.mul(s1).diff().where(lambda x: x < 0).ffill().add(s1,fill_value =0))


gp =df.groupby('School')
gp.apply(lambda x:x['Math'].mul(x['Math'].cumsum()).diff().where(lambda m: m < 0).ffill().add(x['Math'].cumsum(),fill_value =0)

问题3. 如何计算组内0.25分位数与0.75分位数？要求显示在同一张表上。

gp.apply(lambda x:pd.DataFrame({'q25':x.quantile(0.25),
                                  'q75':x.quantile(0.75)
                                       }))

问题4. 既然索引已经能够选出某些符合条件的子集，那么filter函数的设计有什么意义？

答：filter函数是用来筛选组的，结果是组的全体。

问题5. 整合、变换、过滤三者在输入输出和功能上有何异同？

整合（Aggregation）分组计算统计量：输入的是每组数据，输出是每组的统计量，在列维度上是标量。
变换（Transformation）：即分组对每个单元的数据进行操作（如元素标准化）：输入的是每组数据，输出是每组数据经过某种规则变换后的数据,不改变数据的维度。
过滤（Filtration）：即按照某些规则筛选出一些组:输入的是每组数据，输出的是满足要求的组的所有数据。

问题6. 在带参数的多函数聚合时，有办法能够绕过wrap技巧实现同样功能吗？

def f_test(s,low=50,high=52):
    return s.between(low,high).max()
grouped_single['Math'].agg([f_test,'mean']).head()
#这里需要理解的是，agg除了传入字符形式的np函数外，其他传入对象也应当是一个函数

练习

练习1 ：现有一份关于diamonds的数据集，列分别记录了克拉数、颜色、开采深度、价格，请解决下列问题：

df=pd.read_csv('data/Diamonds.csv')
df.head(3)

(a). 在所有重量超过1克拉的钻石中，价格的极差是多少？

df.groupby(lambda x : '>1克拉' if df.loc[x,'carat']>1.0 else '<=1克拉').price.agg(lambda x:x.max()-x.min()

(b). 若以开采深度的0.2\0.4\0.6\0.8分位数为分组依据，每一组中钻石颜色最多的是哪一种？该种颜色是组内平均而言单位重量最贵的吗？

bins=[df.depth.quantile(i) for i in [0,0.2,0.4,0.6,0.8,1]]
df['cuts']=pd.cut(df.depth,bins=bins)
df['unit_price']=df['price']/df['carat']df.groupby(['cuts','color'])['unit_price'].agg(['count','mean']).reset_index().groupby('cuts')\
    .apply(lambda x:pd.DataFrame({'cuts':x['cuts'],'color':x['color']
                                  ,'count':x['count'],'count_diff':x['count']-x['count'].max()
                                  , 'mean':x['mean'], 'mean_diff':x['mean']-x['mean'].max()})).sort_values(by='count_diff',ascending=False)
##有些是单位质量最贵的，有些不是(当count_diff与mean_diff同为0时，则是)

(c). 以重量分组(0-0.5,0.5-1,1-1.5,1.5-2,2+)，按递增的深度为索引排序，求每组中连续的严格递增价格序列长度的最大值。

bins=[0,0.5,1,1.5,2,6]
df['carat_cuts']=pd.cut(df.carat,bins=bins)
sorted_df=df.groupby('carat_cuts').apply(lambda x:x.sort_values('depth')).reset_index(drop=True)
#再求价格递增
tp=sorted_df.groupby('carat_cuts').apply(lambda x: pd.DataFrame({'carat_cuts':x['carat_cuts'],'price':x['price'],'is_f':x['price'].diff()>0,'continuous':((x['price'].diff()>0)!=(x['price'].diff()>0).shift()).cumsum()} ))
tp.loc[tp.is_f==True,:].groupby(['carat_cuts','continuous']).price.agg(['count']).reset_index().groupby('carat_cuts').max()


##因为没有计算序列第一个值。严格递增最大序列长度在max的基础上+1，结果如下.
#(0.0, 0.5]  8
#(0.5, 1.0]  8
#(1.0, 1.5]  7
#(1.5, 2.0]  11
#(2.0, 6.0]  7

(d). 请按颜色分组，分别计算价格关于克拉数的回归系数。（单变量的简单线性回归，并只使用Pandas和Numpy完成）

df['ones']=1
colors=['G','E','F','H','D','I','J']
for  c in colors:
    X=np.matrix( df.loc[ df.color==c, ['carat','ones']].values)
    Y=np.matrix( df.loc[ df.color==c, ['price']].values)
                    
    params=np.linalg.inv(X.T@X)@X.T@Y
    
    print('color {}的 参数为k={},b={}'.format(c,params[0],params[1]) )


# color G的 参数为k=[[8525.34577932]],b=[[-2575.52764286]]
# color E的 参数为k=[[8296.21278346]],b=[[-2381.04960038]]
# color F的 参数为k=[[8676.65834379]],b=[[-2665.80619085]]
# color H的 参数为k=[[7619.0983199]],b=[[-2460.41804636]]
# color D的 参数为k=[[8408.35312588]],b=[[-2361.01715228]]
# color I的 参数为k=[[7761.04116881]],b=[[-2878.15035558]]
# color J的 参数为k=[[7094.19209226]],b=[[-2920.60333719]]

练习2：有一份关于美国10年至17年的非法药物数据集，列分别记录了年份、州（5个）、县、药物类型、报告数量，请解决下列问题：

pd.read_csv('data/Drugs.csv').head()

(a). 按照年份统计，哪个县在哪年的报告数量最多？这个县所属的州在当年也是报告数最多的吗？

答：按照年份统计，HAMILTON在2017年报告数量最多，该县所属的州PA在当年不是报告数最多的。

df_ex2.groupby(['YYYY', 'COUNTY'])['DrugReports'].sum().sort_values(ascending = False

df_ex2['State'][df_ex2['COUNTY'] == 'HAMILTON'].unique()
array(['PA'], dtype=object)
df_ex2.loc[df_ex2['YYYY'] == 2017, :].groupby('State')['DrugReports'].sum().sort_values(ascending = False)

(b). 从14年到15年，Heroin的数量增加最多的是哪一个州？它在这个州是所有药物中增幅最大的吗？若不是，请找出符合该条件的药物。

答：从14年到15年，Heroin的数量增加最多的是OH，它在这个州是所有药物中增幅最大。

方法一

df_ex2_b_1 = df_ex2.loc[((df_ex2['YYYY'] == 2014) | (df_ex2['YYYY'] == 2015)) & (df_ex2['SubstanceName'] == 'Heroin'), :]
df_ex2_b_2 = df_ex2_b_1.groupby(['YYYY', 'State'])['DrugReports'].sum().to_frame().unstack(level=0)
(df_ex2_b_2[('DrugReports', 2015)] - df_ex2_b_2[('DrugReports', 2014)]).sort_values(ascending = False)

方法二

df_ex2_b_1 = df_ex2.loc[((df_ex2['YYYY'] == 2014) | (df_ex2['YYYY'] == 2015)) & (df_ex2['SubstanceName'] == 'Heroin'), :]
df_ex2_b_3 = df_ex2_b_1.groupby(['YYYY', 'State'])['DrugReports'].sum().to_frame()
df_ex2_b_3.groupby('State').apply(lambda x:x.loc[2015, :] - x.loc[2014, :]).sort_values(by = 'DrugReports', ascending = False)

df_ex2_b_1 = df_ex2.loc[((df_ex2['YYYY'] == 2014) | (df_ex2['YYYY'] == 2015)), :]
df_ex2_b_2 = df_ex2_b_1.groupby(['YYYY', 'State', 'SubstanceName'])['DrugReports'].sum().to_frame().unstack(level=0)
(df_ex2_b_2[('DrugReports', 2015)] - df_ex2_b_2[('DrugReports', 2014)]).sort_values(ascending = False)

本文电子版 后台回复 Pandas分组 获取

“在看，为沉迷学习点赞↓

你可能感兴趣的:(数据分析之Pandas分组操作总结)

什么是脚本，脚本有什么用，如何调用脚本？诸葛务农 java 编辑器
1.什么是脚本（Script）？脚本是一种由解释器直接执行的代码文件，无需编译成二进制文件。它通常用于自动化任务、简化操作流程或控制软件行为。脚本语言（如Python、JavaScript、Bash）相比编译型语言（如C++、Java）更灵活，但执行效率较低。2.脚本的常见用途自动化重复任务：批量重命名文件、定期备份数据、自动发送邮件等。系统管理：配置服务器、监控系统资源（如通过Bash/Powe
重磅！CMD命令大全数字隐士·赛博智者笔记
前言cmd是command的缩写.即命令行。虽然随着计算机产业的发展，Windows操作系统的应用越来越广泛，DOS面临着被淘汰的命运，但是因为它运行安全、稳定，有的用户还在使用，所以一般Windows的各种版本都与其兼容，用户可以在Windows系统下运行DOS，中文版WindowsXP中的命令提示符进一步提高了与DOS下操作命令的兼容性，用户可以在命令提示符直接输入中文调用文件。作为一个开发者
C++算法——贪心算法的讲解与实践不東工作室算法 c++贪心算法
目录引言贪心算法概述贪心算法的适用条件贪心算法的实现步骤C++实现贪心算法问题：硬币找零问题C++代码实现总结参考文献引言在算法的世界中，贪心算法是一种在每一步选择中都采取在当前状态下最好或最优的选择，从而希望导致结果是全局最好或最优的算法策略。这种算法简单易懂，且在某些问题上能够快速得到近似最优解。本文将通过C++语言对贪心算法进行讲解，并结合实际例子来展示其应用。贪心算法概述贪心算法在解决问题
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
RISC-V设计之Decoder的封装与函数(二)
RISC-V设计之封装与函数(SV)写在前面：今天去见了导师，他强烈要求我把设计中的decoder删去，去掉宏定义引入局部变量，使用封装的函数来取而代之。并在其他运算模块调用函数的返回值，提高代码简洁度和清晰度，避免全局变量污染环境，下面是根据导师的主页总结的设计笔记。-----2025/7/1示例代码：这个opcodes包是为一个简单的处理器设计的辅助模块，作用是封装指令解析相关的功能，供CPU
python汉语编程，将关键字与文言文对应 xinhuanjieyi 汉语编程 python
以下是将Python3.13的35个关键字与宋词中的典雅字词（或意象化表达）进行创意关联的版本，力求保留宋词意境的同时与关键字语义形成朦胧呼应：宋词风关键字映射谧（mì）-False（取自“静谧”，喻“假”之空寂，如“谧夜无痕”）缈（miǎo）-None（“缥缈”之虚，如“空山缈云踪”）瑧（zhēn）-True（“瑧”通“真”，喻“真”之确然，如“瑧意自昭昭”）俦（chóu）-and（“俦侣”喻“
一文讲清楚React中state和props的区别与联系许先森森 React react.js javascript 前端
文章目录一文讲清楚React中state和props的区别1.共同点2.异同点2.1state2.2props3.总结一文讲清楚React中state和props的区别1.共同点往上有各种关于state和props的解释，各式各样，我这里为了大家更好的理解，总结一句话，页面要变化，数据就得变化，数据变化的来源分为state和props也就是说，state和props的改变都能造成React组件的重
宽带选择大揭秘：200兆与1000兆，谁才是家庭真刚需？
目录一、宽带速度知多少二、200兆宽带：日常够用的性价比之选2.1适用场景2.2实际体验2.3成本优势三、1000兆宽带：高速网络的极致体验3.1高速需求场景3.2性能优势体现3.3未来拓展性四、影响选择的关键因素4.1网络使用习惯4.2家庭设备情况4.3经济预算考量五、做出明智选择一、宽带速度知多少在开始探讨200兆和1000兆宽带哪个更适合家用之前，我们先来明确一下它们的理论速度。这里的200
SQL语句全攻略：从基础到进阶的编程之旅奔跑吧邓邓子必备核心技能 sql 数据库基础语法高级应用
目录一、引言二、SQL基础语法2.1SQL语句写法顺序2.2关联查询2.3数据处理常用函数和运算符三、数据库和表的基本操作3.1创建数据库3.2使用数据库3.3创建表四、基础增删改查操作4.1插入数据（增）4.2查询数据（查）4.3更新数据（改）4.4删除数据（删）五、复杂关系操作5.1一对多关系操作5.2多对多关系操作六、SQL优化技巧6.1索引的使用6.2避免子查询6.3其他优化建议七、SQL
Python流星雨
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python@dataclass装饰器实践首尔的初雪是眼泪 python python windows
目录1.基本使用1.1示例：基本的数据类1.2__init__自动生成2.字段的默认值2.1带有默认值的字段2.2field()函数3.不可变数据类(frozen=True)4.比较与排序4.1支持排序的dataclass5.继承与dataclass5.1继承dataclass6.总结在Python中，@dataclass是一个非常有用的装饰器，它能够自动为类生成一些常见的方法，例如__init_
Python @dataclass 装饰器详解添财小哥 python 开发语言
1.用途和主要功能@dataclass是Python3.7引入的一个装饰器（位于标准库dataclasses模块中），用于简化“纯数据”类的定义。它自动为类生成常用的特殊方法（如init、repr、eq等），避免手动编写冗余模板代码。这样定义的数据类在代码量和可读性上都有显著优势，如便于维护、减少错误。使用@dataclass后，我们“可以直接创建和操作对象，而无需手动编写这些基础方法”。总体而言
腾讯云实名资质 “待补充后提交” 解决方法
目录一、引言二、为什么会出现“待补充后提交”状态三、需要补充的具体材料3.1营业执照3.2法人身份证相关3.3短信管理员资料3.4合规使用承诺函四、处理流程详细步骤4.1登录腾讯云控制台4.2进入实名资质相关页面4.3上传补充材料4.4提交审核五、注意事项5.1材料规范5.2时间节点5.3审核期间注意六、常见问题及解答6.1提交后长时间未审核怎么办6.2补充材料被驳回如何处理七、总结一、引言在数字
【Python】pyttsx3 宅男很神经 python 开发语言
Pythonpyttsx3库：从入门到精通的终极文本转语音指南第1部分：pyttsx3简介与核心概念第1章：pyttsx3概览1.1什么是pyttsx3？pyttsx3是一个跨平台的文本转语音(Text-To-Speech,TTS)Python库。它的显著特点是它完全离线运行，不需要互联网连接即可将文本转换为语音。pyttsx3作为一个封装层，可以与多种操作系统底层的TTS引擎进行交互。这意味着它
Mysql事务 clk6607 mysql 数据库
MySQL事务详解（超详细讲解）一、事务是什么？事务（Transaction）是数据库操作的最小执行单元。事务中包含多条SQL，这些SQL要么全部执行成功（提交COMMIT），要么在某条失败时全部撤销（回滚ROLLBACK）。✅你可以这样理解：就像Java中的try-catch-finally，只不过这里是在数据库层。二、事务的四大特性（ACID）特性含义示例A-原子性一组操作是不可分割的整体转账
JAVA集合框架面试篇 clk6607 java java 面试开发语言
✅一、集合框架基本结构1.Java集合框架的主要接口有哪些？它们的特点？接口特点Collection根接口，定义了集合的基本操作，如增删查等List有序、可重复元素，支持索引访问Set无序、不可重复元素Queue一种先进先出的集合，常用于任务调度Deque双端队列，既可作为队列也可作为栈Map键值对结构，不属于Collection，但常并列讨论✅二、List接口相关2.ArrayList和Link
C++/C#混合编程概览 lihaohello C++/C#混合编程 c++c#
原文地址：李浩的博客lihaohello.top混合编程的意义C++简介C++源代码编译后直接生成平台相关的二进制文件，运行效率极高；允许内存操作，适合底层系统开发；很多基础设施或大型软件都采用C++进行开发，这也促进了该语言的生态繁荣。优点很多，但C++为人诟病的缺点也不少，例如：灵活高效的指针也带来了很多麻烦、语言越来越复杂等。C#简介C#逐渐替代C++成为微软阵营的顶流语言，其市场份额逐渐增
Lynda.com软件教程英文字幕集锦 mater lai
本文还有配套的精品资源，点击获取简介：Lynda.com平台上的英文字幕文件汇集了从基础到高级的各类软件教程，涵盖AutodeskMaya、AdobeIllustrator、MicrosoftPowerPoint、AdobePhotoshop、Windows7操作系统、3dsMax、AutoCAD以及AdobeAfterEffects的使用和技巧。这些字幕文件为学习者提供了精准理解软件操作和技术术
全面提升游戏体验的雪域冰狐工具箱1.09 mater lai
本文还有配套的精品资源，点击获取简介：雪域冰狐工具箱1.09是一款专注于增强游戏玩家体验的实用工具集。它包含了诸如统一游戏菜单界面、自定义设置、性能优化、多种游戏辅助工具以及安全防护措施等功能。此外，工具箱提供良好的兼容性、用户友好的界面设计，并定期进行更新以满足用户需求。工具箱通过简化操作流程和提供安装与技术支持，旨在为用户提供安全、便捷的游戏辅助体验。1.游戏菜单界面设计的统一理念与实践1.1
PyMySQL连接池去追风，去看海 Python mysql python
背景在用python写后端服务时候，需要与mysql数据库进行一些数据查询或者插入更新等操作。启动服务后接口运行一切正常，隔了第二天去看服务日志就会报错，问题如下：pymysql.err.OperationalError:(2006,"MySQLserverhasgoneaway(BrokenPipeError(32,'Brokenpipe'))")MySQL默认的wait_timeout时间28
C++实现学生管理系统 lijiatu10086 C++c++
文章目录实验要求一、实验平台二、代码1.结构体以及相关变量2.相关函数实现过程（1）判断一个学生是否已经存在（2）从文件中读写学生信息（3）增加学生（4）删除学生（5）修改学生（6）查询学生（7）main函数的实现3.整体代码总结实验要求实验要求：将班上同学的信息（编号（001对应第一个，008对应第八个），姓名，性别，年龄，学校，年级，班级，爱好……），使用自己设计的结构体来存储。并在此基础上结
C#关于DataGridView控件的使用总结 fangyuan621 数据库 Microsoft Visual Studio c#
DataGridView常用方法：dataGridView1.ReadOnly=true;//全部单元格只读dataGridView1.Columns[1].ReadOnly=true;///指定单元格设置只读（列）第一列 dataGridView1.Rows[2].ReadOnly=true;///指定单元格设置只读（行）第二行 dataGridView1[1,2].ReadOnly=true;
Node.js特训专栏-实战进阶：11. Redis缓存策略与应用场景爱分享的程序员 Node.js 前端网络相关 javascript node.js 前端
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情Redis缓存策略与应用场景：从理论到实战的高性能解决方案一、Redis基础概述1.1Redis核心特性Redis作为高性能内存数据库，具备以下关键优势：1.1.1内存极速读写读写性能：基于纯内存操作，读写操作在微秒级完成，实测单节点QP
【unity游戏开发——网络】网络协议、TCP vs UDP 本质区别向宇it 【unity游戏开发——网络】网络网络协议 unity 游戏引擎 c#tcp/ip udp
注意：考虑到热更新的内容比较多，我将热更新的内容分开，并全部整合放在【unity游戏开发——网络】专栏里，感兴趣的小伙伴可以前往逐一查看学习。文章目录一、网络协议概述二、OSI七层模型三、TCP/IP四层模型四、核心传输协议对比1、TCPvsUDP本质区别2、TCP关键机制详解2.1三次握手建立连接2.2四次挥手断开连接五、常见面试题精要六、总结1、TCP:2、UDP:专栏推荐完结一、网络协议概述
Python Web开发之“基于flask的轻量级Web应用” 诚威_lol_中大努力中夏令营复习 python 前端 flask
参考文章1：https://cloud.tencent.com/developer/article/2373503参考文章2：基于Flask的自定义网站设计与实现（代码全文+讲解V1.0）_flask框架制作网页-CSDN博客参考文章3：Python+Flask+MysqL设计网页-李明惠-博客园(cnblogs.com)最基本的例子来源-参考文章1：说明：导入Flask类——>app=Flask
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
Java ArrayList 扩容机制笑衬人心。 JAVA学习笔记 java 开发语言笔记后端
一、ArrayList简介ArrayList是Java集合框架中基于数组实现的可变长度列表，其核心特性是：支持随机访问（通过索引）支持动态扩容插入/删除效率较低（非尾部操作）二、底层数据结构//JDK11+transientObject[]elementData;//实际存储元素的数组三、容量与初始状态默认构造函数publicArrayList(){this.elementData=DEFAULT
Ubuntu 22.04 庙算平台训练环境搭建指南笑衬人心。 ubuntu linux 深度学习
本文记录了基于Ubuntu22.04.3LTS的训练环境搭建过程，适用于需要部署庙算推演离线平台的用户，支持GPU（可选）。一、训练环境搭建●硬件要求操作系统：Linux（推荐Ubuntu22.04.3LTS）可选配置：NVIDIAGPU（CUDA支持）1.Linux环境搭建建议双系统安装Ubuntu，具体参考如下教程：参考教程：Windows和Ubuntu双系统的安装和卸载（哔哩哔哩）2.GPU
Unity——网络游戏通信方案缘笙箫196 unity——网络 tcp/ip 网络协议网络
目录弱联网和强联网游戏弱联网游戏强联网游戏弱联网游戏代表强联网游戏代表长连接和短连接游戏短连接游戏通信特点通信方式长连接游戏通信特点通信方式Socket、HTTP、FTPSocketHttp/HttpsFTP总结弱联网和强联网游戏弱联网游戏：这种游戏不会频繁的进行数据通信，客户端和服务端之间每次连接只处理一次请求，服务端处理完客户端的请求后返回数据后就断开连接了强联网游戏：这种游戏会频繁的和服务端
如何快速开发一个鸿蒙app 深山技术宅鸿蒙 harmonyos 华为
快速开发一个鸿蒙（HarmonyOS）App的关键在于利用好官方提供的工具链、模板和资源。以下是一个高效且实用的步骤指南，帮助你快速上手：核心步骤概览：环境搭建创建项目（选择模板）理解核心概念&编写UI实现基础功能预览&调试编译&运行（可选）发布到AppGallery1.环境搭建（基础，必须）操作系统：Windows10(64位)/macOS10.13或更高版本。安装Node.js(>=14.19
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，