数象限

Pandas.DataFrame.groupby() 数据分组(数据透视、分类汇总) 详解含代码含测试数据集随Pandas版本持续更新

关于Pandas版本： 本文基于 pandas2.1.2 编写。

关于本文内容更新： 随着pandas的stable版本更迭，本文持续更新，不断完善补充。

Pandas稳定版更新及变动内容整合专题： Pandas稳定版更新及变动迭持续更新。

Pandas API参考所有内容目录

本节目录

Pandas.DataFrame.groupby()
- 语法：
- 返回值：
- 参数说明：
- - by 指定分组依据
  - axis 指定分割方向
  - level 指定多层索引的层级编号或层级名称
  - as_index 排序方法（升序或降序）
  - sort 是否对组名排序
  - group_keys 是否返回组键
  - observed 只显示观测值或显示所有值
  - dropna 其他排序置
- 相关方法：
- 示例：

Pandas.DataFrame.groupby()

DataFrame.groupby() 方法用于使用映射器或指定的列，对 DataFrame 进行数据分组，可以实现类似Excel的数据透视、分类汇总的效果。

DataFrame.groupby() 的底层逻辑是：
- 1、根据指定的规则（由 by 参数指定）分割 DataFrame 为 groupby 对象；
  - 此时只是完成了 DataFrame 分割,仅仅是一个 groupby 对象，还没有完成汇总。这意味着无法像观察 DataFrame 一样观察它：
  - 可以使用 for 循环观察groupby 对象。 ^例1
  - 用于分组的分类内容，默认会作为这个新 DataFrame 的索引(行索引，或列名，具体视汇总方向而定)。^例2-5
- 2、应用指定的方法，汇总、聚合被分割的数据。
  - 如果应用一种汇总计算方法，所有列都是用一种汇总方法进行聚合。^例2
  - 也可以通过 DataFrame.agg 指定不同的列使用不同的计算方法作为汇总方式。^例2-4
- 3、应用聚合方法之后，DataFrame.groupby() 会自动的将聚合后的数据合并为新的 DataFrame。
⚠️ 注意:

1、数据分割实际上是基于行索引进行的。

2、你指定的分割依据(分组依据)需要尽可能的，和行索引等长。

数据分组流程示意图

语法：

DataFrame.groupby (by=None, axis=_NoDefault.no_default, level=None, as_index=True, sort=True, group_keys=True, observed=_NoDefault.no_default, dropna=True)

返回值：

pandas.api.typing.DataFrameGroupBy
- 返回包含分组信息的 groupby 对象。

参数说明：

by 指定分组依据

**by:**mapping, function, label, pd.Grouper or list of such

by 参数用于指定分组的依据（即分割DataFrame的依据）：

label(列名):用于把某列指定为分组依据
- 当某列的数据具有分类特性，指定这个列的列名，作为分组依据 DataFrame 。^例1

mapping(映射):用于直接把行索引的值指定为分组依据
- dict(字典):适用于行索引的值可以拿来做分组（常用于分组名称的重命名） ^例3
  - 传递一个字典，字典的键是行索引里的可以作为分组的值，字典的值你自定义的分组名；
  - 注意！如果只传递字典，你需要提前准备好行索引。并且行索引里的值，应该是可以有效分组的。
- Series(序列):适用于你有一个和 DataFrame 行索引等长的 Series时 ^例4
  - 这个 Series 里的值，应该是可以有效分组的；
  - 这个 Series 建议和 DataFrame 行索引等长；
  - 如果这个Series 必须和 DataFrame 行索引不等长，会自动进行对齐（.align()），二者数据量如果差距太大，会产生很多缺失值，造成分组后计算不精准的结果。

function(函数): 函数将作用于行索引的每个值，并使用处理后的值，作为分组依据。 ^例5
- 行索引中被函数处理后的值，并不会影响计算前的 groupby 对象。^例5-1
- 行索引中被函数处理后的值，将展示在完成分组计算，合并后的 DataFrame。^例5-2

pd.Grouper:通常用于按照时间间隔分组，直接作用于行索引 ^例6

list of such:多个列构成多维度分组汇总
- 列名列表： 常用于多维度分组汇总，列表里的第1个列名，默认作为顶层行索引，和其他列名构成多层索引。 ^例7

axis 指定分割方向

axis: {0 or ‘index’, 1 or ‘columns’}, default 0

axis 参数用于指定分割方向（可以参照此图，了解什么是分割数据分组流程示意图）：
- 0 or ‘index’: 默认为按行索引分割。
- 1 or ‘columns’： 按列分割。
⛔ 弃用于 Pandas 2.1.0 :
- axis=1 在 Pandas 2.1.0 版本标记为弃用。使用以下替代方法实现：
  - 先转置再分组 frame.T.groupby(...) ^例8
- 这样做的目的是：使分组后数据尽可能的保持更多的操作性和可读性。

level 指定多层索引的层级编号或层级名称

level: int, level name, or sequence of such, default None ^例9

如果 DataFrame 具有多层索引，可以用level参数指定级别的编号或名称，不能和 by 参数同时使用。
- int:整数层级编号 可以用 整数层级编号 指定分组依据。^例9-2
- level name:层级名称 可以用层级名称，指定分组依据。^例9-2
- sequence of such:层级编号列表，或层级名称列表 可以用层级编号列表，或层级名称列表指定多个分组依据，类似于 by 参数传递列名列表。^例9-3

as_index 排序方法（升序或降序）

as_index: bool, default True ^例10

as_index 参数控制是否将组标签作为索引返回。
- 当 as_index=True 时，组标签将成为输出 DataFrame 的索引。
- 当 as_index=False 时，组标签不会成为索引，而是返回一个类似 SQL 风格的输出。

sort 是否对组名排序

sort: bool, default True ^例11

sort 参数用于控制是否对分组名进行排序，默认 sort=True 会对组名进行排序。此参数不会影响每个组内观察值的顺序：
- True: 对分组名进行排序。
- False： 关闭分组名排序，如果关闭，则组将按其在原始 DataFrame 中的顺序显示，可以获得更高的性能。
改动于 Pandas 2.0.0 :

自 Pandas2.0.0 开始，当使用 有序分类 数据进行分组，当 sort=False 将不再对其进行排序。

在之前的版本中（2.0.0 之前），即使设置了 sort=False，对于有序分类，仍然会对分类进行排序。而在 2.0.0 版本中，这个行为发生了变化，即设置 sort=False 不再影响有序分类的排序，保留原始顺序。

这个改动的目的是为了提供更一致的行为，使得在使用 sort=False 时，无论分类是否有序，都不再对分类进行排序，从而减少用户的困惑。

group_keys 是否返回组键

group_keys: bool, default True

分组的键指的是 groupby 对象 各分组的行索引。

当使用 groupby 调用 apply 与 by 参数生成分组结果时，并且 结果行索引数量 和 groupby 对象分组数量 不匹配（不匹配则意味着无法汇总），则默认会将 groupby 对象各分组的行索引 和 结果行索引 组合为多层行索引，以便观察。 ^例12
- 当 group_keys=True 时（默认值），分组的键会作为结果的索引。这意味着返回的对象会是一个带有分组键的多层次索引的 DataFrame（或者 Series，具体取决于你应用 groupby 的对象是 DataFrame 还是 Series）。
- 当 group_keys=False 时，分组的键不会作为索引，而是返回一个不带有分组键的普通 DataFrame（或者 Series）。 ^例12-3
**改动于 Pandas 1.5.0 :

当使用 groupby 调用 apply 与 by 参数生成分组结果时，并且结果行索引数量和 groupby 对象分组数量不匹配（不匹配则意味着无法汇总），则需要显式指定 group_keys 是否包含组键。

**改动于 Pandas 2.0.0 :

group_keys 默认为 True。

observed 只显示观测值或显示所有值

observed: bool, default False

观察值是指在实际数据中存在的唯一分类值。当应用 groupby 操作时，有时可能会遇到分类分组器中存在的分类值，但在实际数据中并未出现的情况。observed 参数允许你控制在分组操作中如何处理这些未观察到的分类值:
- True: 只显示分类分组器（groupers）的观察值（observed values），而不显示未观察到的值。
- False: 则显示所有分类分组器的可能值，包括未在实际数据中观察到的值。
⛔ 弃用于 Pandas 2.1.0 :

自2.1.0版本以来已弃用：在panda的未来版本中，默认值将更改为True。

dropna 其他排序置

dropna: bool, default True ^例13

dropna 用于控制 groupby 对象的行数索引是否可以包含缺失值：
- 如果为 True，并且组键包含缺失值，则将缺失值与行/列一起删除。
- 如果为 False，则保留缺失值。
⚠️ 注意 :

舍弃缺失值的动作，是在分组前完成的，也就是说，在生成 groupby 分组对象的时候，就已经没有缺失值了。^例13-2

示例：

测试文件下载：

本文所涉及的测试文件，如有需要，可在文章顶部的绑定资源处下载。

若发现文件无法下载，应该是资源包有内容更新，正在审核，请稍后再试。或站内私信作者索要。

例1：如果没有指定聚合计算方法，分组结果将是一个 groupby 对象，只能通过 for 循环观察数据内容

例1-1、准备演示数据

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员季度销售额.xlsx")
# 观察数据内容
df.sample(5)

	姓名	片区	1季度	2季度	3季度	4季度	year
18	邹小琴	华南	4038	6053	4691	1178	2023
4	左美华	华南	579	2944	3408	7365	2023
84	祝成云	华东	1186	3155	1975	1922	2023
47	紫薇	华北	1728	4802	1857	6988	2023
40	邹博文	华北	3434	5814	1334	9061	2023

例1-2、用 片区列 分组，但是不传递聚合计算方法

grouped = df.sample(5).groupby(by="片区")
grouped

由上面结果可以发现，无法直接观察 GroupBy 对象

例1-3、使用 for 循环观察分组内容

for group_name, group_data in grouped:
    print(f"Group: {group_name}")
    print(group_data)
    print("\n")

Group: 华中
     姓名  片区   1季度   2季度   3季度   4季度  year
73  庄海彬  华中  2534   968  4128  5454  2023
59  卓小珍  华中  3274  5837  3025  7993  2023


Group: 华北
     姓名  片区   1季度   2季度   3季度   4季度  year
95  张华丽  华北  4584  1072  3029  8976  2023
48   紫湉  华北  3046  3918  6908  6444  2023


Group: 华南
    姓名  片区  1季度   2季度   3季度   4季度  year
97  王娟  华南  661  6784  3660  8621  2023

例2：分组后，指定汇总计算方式，即可自动完成最终的合并过程，并生成新的 DataFrame

例2-1、构建演示数据并观察数据内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员季度销售额.xlsx")
# 观察数据内容
df.sample(5)

	姓名	片区	1季度	2季度	3季度	4季度	year
71	庄骏	华中	4713	2588	6480	6224	2023
27	邹立文	华北	1547	4927	4693	8526	2023
38	邹凤艳	华北	2055	5330	6468	7229	2023
0	左院梅	华南	1491	1083	5000	9461	2023
77	祝艳斌	华东	5161	1639	1291	7528	2023

例2-2、以片区列 作为分组依据，只传递一种求和的计算方法。

grouped = df.groupby(by="片区").sum()
grouped

	姓名	1季度	2季度	3季度	4季度	year
片区
华东	转身，泪倾城筑梦祝艳斌祝艳祝小娟祝仙花祝卫平祝玛拉初祝海英祝成云竹林听雨竹合竹猪哥传说诸子燕...	53720	62152	77185	85271	36414
华中	梓英籽艺子鱼子墨子岚子和子菡资格卓越卓小珍卓向吴追影追忆追梦状之元巍笑吧庄臻庄永奇庄晓运庄...	86249	119934	119501	153889	54621
华北	邹美金邹灵美邹林华邹立文邹黎邹娟利邹杰邹建军邹建华邹吉宏邹积杰邹海利邹贵滨邹广坤邹凤艳邹昌乐...	72776	125467	120002	186550	58667
华南	左院梅左艳艳左薇左娜左美华左梅香左火英左儿左成娟醉霖～棉花糖最终幻想走向幸福邹邹邹子龙邹忠珠...	60822	109654	89342	143896	52598

以片区为分组依据，并传递了求和方法后，姓名列因为是字符串，所以相当于拼接。1季度、2季度、3季度、4季度、year等列，完成了求和计算。

例2-3、指定计算方法，作为汇总方式，即可观察数据分组后的数据了。

grouped = df.groupby(by="片区").sum()
grouped

	姓名	1季度	2季度	3季度	4季度	year
片区
华东	转身，泪倾城筑梦祝艳斌祝艳祝小娟祝仙花祝卫平祝玛拉初祝海英祝成云竹林听雨竹合竹猪哥传说诸子燕...	53720	62152	77185	85271	36414
华中	梓英籽艺子鱼子墨子岚子和子菡资格卓越卓小珍卓向吴追影追忆追梦状之元巍笑吧庄臻庄永奇庄晓运庄...	86249	119934	119501	153889	54621
华北	邹美金邹灵美邹林华邹立文邹黎邹娟利邹杰邹建军邹建华邹吉宏邹积杰邹海利邹贵滨邹广坤邹凤艳邹昌乐...	72776	125467	120002	186550	58667
华南	左院梅左艳艳左薇左娜左美华左梅香左火英左儿左成娟醉霖～棉花糖最终幻想走向幸福邹邹邹子龙邹忠珠...	60822	109654	89342	143896	52598

例2-4、不同的列指定不同的汇总方式,没有指定汇总方式的列，不会出现在汇总结果。例如姓名列。

grouped = df.groupby(by="片区").agg(
    {"1季度": "max", "2季度": "mean", "3季度": "sum", "4季度": "min"}  # 最大值  # 平均值  # 总和
)  # 最小值
grouped

	1季度	2季度	3季度	4季度
片区
华东	5161	3452.888889	77185	1066
华中	5308	4442.000000	119501	1684
华北	4584	4326.448276	120002	1136
华南	5070	4217.461538	89342	1055

例2-5、用于分组的分类数据，在完成数据分组后，会作为索引使用（行索引或列名，具体视分组方向而定）

grouped.axes

[Index(['华东', '华中', '华北', '华南'], dtype='object', name='片区'),
 Index(['1季度', '2季度', '3季度', '4季度'], dtype='object')]

例3：使用字典数据分组(直接把行索引里的值用字典的方式，指定为分组依据)

例3-1、构建演示数据并观察数据内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员季度销售额.xlsx")
# 将 片区列，设置为索引
df.set_index("片区", inplace=True)
# 观察数据内容
df.sample(5)

	姓名	1季度	2季度	3季度	4季度	year
片区
华东	李先锋	4057	4953	6776	1723	2023
华南	邹小琴	4038	6053	4691	1178	2023
华中	子墨	3393	1562	3607	7273	2023
华北	邹娟利	3840	2815	6551	3217	2023
华南	邹秀珍	3205	1772	1534	6995	2023

例3-2、 by 参数传入字典，字典的键是 DataFrame 行索引里的值，字典的值是分组名；

grouped = df.groupby(by={"华东": "东部战区", "华南": "南部战区", "华北": "北部战区", "华中": "中部战区"}).agg(
    {"1季度": "max", "2季度": "mean", "3季度": "sum", "4季度": "min"}  # 最大值  # 平均值  # 总和
)  # 最小值
grouped

	1季度	2季度	3季度	4季度
片区
东部战区	5161	3452.888889	77185	1066
中部战区	5308	4442.000000	119501	1684
北部战区	4584	4326.448276	120002	1136
南部战区	5070	4217.461538	89342	1055

例4：使用Series数据分组（用Series替换当前行索引，并使用里面的值作为分组依据）

例4-1、构建演示数据并观察数据内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员季度销售额.xlsx")
# 观察数据内容
df.sample(5)

	姓名	片区	1季度	2季度	3季度	4季度	year
60	卓向吴	华中	4713	1691	2398	9270	2023
43	自在	华北	2354	4605	5928	8614	2023
63	追梦	华中	2689	6790	4247	7637	2023
17	邹秀珍	华南	3205	1772	1534	6995	2023
42	自在小英	华北	2100	2230	3409	3572	2023

例4-2、使用Series，构建数据分组。（为了方便，我们把片区列拿过来作为Series做演示）

# 提取片区列作为Series
s = df["片区"].copy(deep=True)

# 使用Series，构建数据分组
grouped = df.groupby(by=s).max()
grouped

	姓名	片区	1季度	2季度	3季度	4季度	year
片区
华东	转身，泪倾城	华东	5161	6753	6776	9284	2023
华中	邹世军	华中	5308	7377	7204	9270	2023
华北	邹黎	华北	4584	7421	6945	9230	2023
华南	醉霖～棉花糖	华南	5070	7412	5971	9461	2023

例5：使用函数数据分组（函数将作用于行索引的每个值）

例5-1、构建演示数据并观察数据内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员季度销售额.xlsx")
# 将 片区列，设置为索引
# df.set_index('片区',inplace=True)
# 观察数据内容
df.sample(5)

	姓名	片区	1季度	2季度	3季度	4季度	year
38	邹凤艳	华北	2055	5330	6468	7229	2023
35	邹海利	华北	3875	5799	4057	8344	2023
83	祝海英	华东	1018	1430	4845	7155	2023
92	邹世军	华中	4343	4866	2743	7617	2023
11	走向幸福	华南	4312	2189	4431	7493	2023

例5-1、当前行索引是自然索引，我想按照行索引的单数、双数进行分组，可以这样做：

# 定义区分单数双数的函数
def rename_index(index):
    if index % 2 == 0:
        return "双数"
    else:
        return "单数"


# 应用这个函数，处理行索引进行分组
grouped = df.sample(12).groupby(by=rename_index)

# 查看group对象里的内容
for group_name, group_data in grouped:
    print(f"Group: {group_name}")
    print(group_data)
    print("\n")

Group: 单数
      姓名  片区   1季度   2季度   3季度   4季度  year
37   邹广坤  华北  3015  5912  2120  3750  2023
77   祝艳斌  华东  5161  1639  1291  7528  2023
97    王娟  华南   661  6784  3660  8621  2023
89   诸子燕  华东  2454  1824  3306  4198  2023
79   祝小娟  华东  4419  6753  2838  1066  2023
11  走向幸福  华南  4312  2189  4431  7493  2023
63    追梦  华中  2689  6790  4247  7637  2023


Group: 双数
     姓名  片区   1季度   2季度   3季度   4季度  year
34  邹积杰  华北  2175  4902  4874  3110  2023
92  邹世军  华中  4343  4866  2743  7617  2023
8   左成娟  华南  1747  5823  1480  7025  2023
76   筑梦  华东  1856  3905  5808  6265  2023
98   刘贤  华东  3960  6437  3148  1517  2023

从上面这个结果可以发现，函数处理并没有影响到 groupby 对象

例5-2、函数处理行索引的结果，会展现在汇总计算后，合并的新 DataFrame 里

# 给分组对象一个计算方式，完成最终数据合并，并观察
grouped.max()

	姓名	片区	1季度	2季度	3季度	4季度	year
单数	邹广坤	华南	5161	6790	4431	8621	2023
双数	邹积杰	华南	4343	6437	5808	7617	2023

从上面可以发现，如果 by 参数传递了函数，被修改的 行索引 只会作为分组依据、和分组名称，出现在汇总计算后，合并的新 DataFrame 里。

例6：使用pd.Grouper分组

例6-1、构建演示数据并观察数据内容

from datetime import datetime

import numpy as np
import pandas as pd

# 创建一个包含时间序列的DataFrame
date_rng = pd.date_range(start="2022-01-01", end="2022-01-19", freq="D")
df = pd.DataFrame(date_rng, columns=["date"])

# 添加一列随机数值
df["value"] = np.random.randn(len(date_rng))

# 观察数据内容
df

	date	value
0	2022-01-01	0.632771
1	2022-01-02	1.218292
2	2022-01-03	-0.864251
3	2022-01-04	0.628204
4	2022-01-05	-0.625454
5	2022-01-06	1.021081
6	2022-01-07	0.685509
7	2022-01-08	1.096754
8	2022-01-09	-1.131979
9	2022-01-10	0.384067
10	2022-01-11	0.447377
11	2022-01-12	0.005861
12	2022-01-13	1.126507
13	2022-01-14	-0.153360
14	2022-01-15	0.447708
15	2022-01-16	0.470841
16	2022-01-17	-1.143815
17	2022-01-18	-0.407859
18	2022-01-19	0.308274

例6-2、构建以‘周’为周期的grouper对象，并观察其数据内容

# 创建grouper对象
grouper = pd.Grouper(key="date", freq="W")
grouper

TimeGrouper(key='date', freq=, axis=0, sort=True, dropna=True, closed='right', label='right', how='mean', convention='e', origin='start_day')

例6-3、按周进行分组，求每周的均值

# 按轴分组，并计算每组的均值
result = df.groupby(grouper).mean()
result

	value
date
2022-01-02	0.925532
2022-01-09	0.115695
2022-01-16	0.389857
2022-01-23	-0.414467

例7：by参数传递列名列表，构成多层索引，作为多维度的数据汇总

例7-1、构建演示数据并观察数据内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员日销售额.xlsx")

# 只保留需要的列
df = df[["职级", "片区", "业绩"]]

# 观察数据内容
df.sample(5)

	职级	片区	业绩
82	经理	华中	14494.9
14	经理	华南	27318.5
67	组长	华东	843.3
22	经理	华南	853.8
43	组长	华北	545.8

例7-2、传递列名列表，多维度数据分组汇总。观察各职级销售人员，在不同地区的销售表现

df.groupby(by=["职级", "片区"]).sum()

		业绩
职级	片区
组长	华东	17526.0
	华中	4043.1
	华北	6524.8
经理	华东	148805.5
	华中	125646.0
	华北	58211.8
	华南	1067600.6
销售员	华东	7896.9
	华中	11233.6
	华北	1772.2
	华南	8281.1

例8：先转置再分割，实现类似纵向分割 axis=1 的效果

例8-1、读取演示数据并观察内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员日销售额_用于转置.xlsx")

# 观察数据内容
df

	Unnamed: 0	0	1	2	3	4	5	6	7	8	...	90	91	92	93	94	95	96	97	98	99
0	职级	销售员	经理	经理	销售员	销售员	销售员	销售员	销售员	销售员	...	经理	经理	销售员	组长	销售员	销售员	销售员	经理	销售员	销售员
1	片区	华南	华南	华南	华南	华南	华南	华南	华南	华南	...	华中	华中	华中	华中	华中	华中	华中	华中	华中	华中
2	业绩	523.9	16647.5	825896.9	1051.1	672.5	1542.2	540.9	752.5	585	...	18261	8089	6825	1112.9	888.7	721.3	941.3	17740.2	692.1	1165.2

3 rows × 101 columns

可以发现，在这个演示数据中，如果需要分组，则需要 axis=1 , 但是这不符合Pandas新版本特性。

例8-2、先转置，再用片区分组

df.T.groupby(by=1).max()

	0	2
1
华东	销售员	99327.4
华中	销售员	18261
华北	销售员	9388
华南	销售员	825896.9
片区	职级	业绩

分组完毕，by=1 是因为片区的哪一列，此时列名就是1

例9：多层索引需要使用 level 参数传递层级信息指定分组依据

例9-1、读取演示数据，构建多层索引，观察数据内容

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员日销售额.xlsx")

# 只保留需要的列
df = df[["职级", "片区", "业绩"]]

# 构建多层索引
df.set_index(["片区", "职级"], inplace=True)

# 观察数据内容
df.sample(5)

		业绩
片区	职级
华中	经理	1459.4
华南	销售员	540.9
华南	销售员	773.4
华中	经理	744.0
华中	组长	1304.8

例9-2、只使用片区作为分组依据，则只需要传递层级编号，或层级名称即可。

df.groupby(level="片区").sum()

	业绩
片区
华东	174228.4
华中	140922.7
华北	66508.8
华南	1075881.7

df.groupby(level=0).sum()

	业绩
片区
华东	174228.4
华中	140922.7
华北	66508.8
华南	1075881.7

例9-3、如果需要使用多列内容，使用列表传递层级编号或层级名称即可（可以混用）

df.groupby(level=[0, "职级"]).sum()

		业绩
片区	职级
华东	组长	17526.0
	经理	148805.5
	销售员	7896.9
华中	组长	4043.1
	经理	125646.0
	销售员	11233.6
华北	组长	6524.8
	经理	58211.8
	销售员	1772.2
华南	经理	1067600.6
华南	销售员	8281.1

例10：分组名称不再作为索引，使用SQL风格展示分组后的数据

import pandas as pd

# 读取一个演示文件
df = pd.read_excel("../../../../数据集/团队成员日销售额.xlsx")

# 只保留需要的列
df = df[["职级", "片区", "业绩"]]

df
# 用片区进行分组，并关闭索引返回
df.groupby(by="片区", as_index=False).max()

	片区	职级	业绩
0	华东	销售员	99327.4
1	华中	销售员	18261.0
2	华北	销售员	9388.0
3	华南	销售员	825896.9

由上面结果可以发现，片区列，没有再作为行索引。

例11：sort参数对分组结果的影响

例11-1、默认情况下，数据分组后输出的 DataFrame 会开启组名排序

import pandas as pd

# 构建演示数据
df = pd.DataFrame({"cat": ["b", "b", "a", "a"], "value": [1, 3, 2, 4]})

# 用cat列构建分组，保持分组名排序开启，
grouped = df.groupby(by="cat").mean()
grouped

	value
cat
a	3.0
b	2.0

例11-2、当 sort=False 数据分组后输出的 DataFrame 不再对组名排序

# 用cat列构建分组，关闭分组名排序
grouped2 = df.groupby(by="cat", sort=False).mean()
grouped2

	value
cat
b	2.0
a	3.0

例12：应用apply，如果结果行数 > 分组数量，则无法完成汇总，各分组的行索引(组键)会和分组名组成多层索引

例12-1、首先来观察以下，各个分组的行索引

import pandas as pd

# 构建演示数据
df = pd.DataFrame({"cat": ["b", "b", "a", "a"], "value": [1, 3, 2, 4]})

# 用cat列构建分组，保持分组名排序开启，
grouped = df.groupby(by="cat")

# 打印每个组的内容
for name, group in grouped:
    print(f"Group {name}:")
    print(group)
    print("\n")

Group a:
  cat  value
2   a      2
3   a      4


Group b:
  cat  value
0   b      1
1   b      3

留意上面结果，a和b两个分组的行索引2、3、0、1。

例12-2、当调用 apply ，但是结果行数 > 分组数量时，会产生由分组名、各分组行索引构成的多层索引，

import pandas as pd

# 构建演示数据
df = pd.DataFrame({"cat": ["b", "b", "a", "a"], "value": [1, 3, 2, 4]})
# df['cat'] = df['cat'].astype('category')

# 用cat列构建分组，保持分组名排序开启，
grouped = df.groupby(by="cat").apply(lambda x: x)
grouped

		cat	value
cat
a	2	a	2
a	3	a	4
b	0	b	1
b	1	b	3

例12-3、当 group_keys=False 时，分组的键不会作为索引，而是返回一个不带有分组键的普通 DataFrame（或者 Series）。

import pandas as pd

# 构建演示数据
df = pd.DataFrame({"cat": ["b", "b", "a", "a"], "value": [1, 3, 2, 4]})
# df['cat'] = df['cat'].astype('category')

# 用cat列构建分组，保持分组名排序开启，
grouped = df.groupby(by="cat", group_keys=False).apply(lambda x: x)
grouped

	cat	value
0	b	1
1	b	3
2	a	2
3	a	4

例12-4、再来看一下，正常应该是什么样的

import pandas as pd

# 构建演示数据
df = pd.DataFrame({"cat": ["b", "b", "a", "a"], "value": [1, 3, 2, 4]})
# df['cat'] = df['cat'].astype('category')

# 用cat列构建分组，保持分组名排序开启，
grouped = df.groupby(by="cat").apply(lambda x: x.mean())
grouped

	value
cat
a	3.0
b	2.0

例13：组键（分组名、或可理解为结果的行索引、也可以理解为各分组的行索引）缺失值处理

例13-1 构建演示数据并观察

import pandas as pd

# 构建演示数据
l = [["a", 12, 12], [None, 12.3, 33.0], ["b", 12.3, 123], ["a", 1, 1]]
df = pd.DataFrame(l, columns=["a", "b", "c"])

df

	a	b	c
0	a	12.0	12.0
1	None	12.3	33.0
2	b	12.3	123.0
3	a	1.0	1.0

例13-2 在分组完成时，默认就已经舍弃了缺失值

grouped = df.groupby(by="a")

# 打印每个组的内容
for name, group in grouped:
    print(f"Group {name}:")
    print(group)
    print("\n")

Group a:
   a     b     c
0  a  12.0  12.0
3  a   1.0   1.0


Group b:
   a     b      c
2  b  12.3  123.0

由上面结果可以发现，当完成分组的时候，就已经没有缺失值了，这一步发生在合并每个分组产生结果之前。

例13-3 dropna=True 可以保留缺失值

grouped = df.groupby(by="a", dropna=False).mean()
grouped

	b	c
a
a	6.5	6.5
b	12.3	123.0
NaN	12.3	33.0

你可能感兴趣的:(Pandas,API参考,pandas,分类,大数据)

003：无人机概述 94_31762031 014-无人机航测无人机测绘无人机物流无人机巡检无人机航拍无人机系统无人机驾驶员
摘要：本文介绍无人机的定义和分类、无人机系统定义、民用无人机驾驶员分类和应用领域。一、无人机的定义和分类1.无人机定义无人机是一种能够在无人驾驶的条件下完成复杂空中飞行任务和各种负载任务的飞行器，可以被视为“空中机器人”。它利用先进的遥控、遥测技术和自备的程序控制装置，能够按照预定的航线或任务指令进行飞行和操作。2.无人机分类（1）按飞行平台构型分类固定翼无人机：类似于传统飞机，拥有一对固定的
【Docker】【Nacos】单机部署又言又语 Docker docker nacos 单机模式
【Docker】【Nacos】单机部署背景介绍环境步骤总结背景因国内访问DockerHub极不稳定，因此总结整理出本文，以便后续需要时方便查看。介绍本文介绍Docker安装Nacos并实现单机模式部署的方法及步骤。环境分类名称版本操作系统WindowsWindows11DockerDockerEngine25.0.3DockerDockerClient25.0.3DockerDockerDeskt
浅析数据中心机架配电母线的应用及监控产品选型安科瑞王兰电气安全电能管理能耗管理系统系统架构网络安全自动化能源
王兰安科瑞电气股份有限公司上海嘉定201801摘要：本文先分析配电母线槽创新点和优势，然后结合湛江数据中心302机房母线槽建设对配电母线槽和列头柜两种供电方式进行经济效益对比，最后总结推广应用建议，以期为相关工程技术人员提供参考。关键词：13641854052；机架配电母线；列头柜；数据中心1引言随着通信网络的快速发展，各地数据中心的建设变得越来越重要，供电优先与客户需求滞后的矛盾越来越突出。在数
【Docker】私有Docker仓库的搭建 RumIV 工具 docker eureka spring cloud
一、准备工作确保您的系统已安装Docker。如果没有安装，请参考Docker官方文档进行安装。准备一个用于存储仓库数据的目录，例如/registry_data/。二、拉取官方registry镜像首先，我们需要从DockerHub拉取官方的registry镜像。执行以下命令：dockerpullregistry三、启动私有Docker仓库接下来，我们使用以下命令启动私有仓库：dockerrun-d-
《Python 基础知识点解析--01》青柠小卖部 python 开发语言
在编程的世界里，Python以其简洁易懂的语法和强大的功能受到了广大开发者的喜爱。本文将为您详细介绍Python基础中的一些重要知识点。一、注释的作用与分类注释在代码中起着至关重要的作用，它可以帮助开发者更好地理解代码的功能和逻辑。单行注释：以#开头，其后的内容为注释。例如：#这是一个单行注释多行注释：使用三个单引号'''或三个双引号"""包裹注释内容。例如：'''这是一个多行注释'''注释可以用
使用numpy自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预辞落山 numpy tensorflow 逻辑回归
1.引言逻辑回归（LogisticRegression）是一种常见的分类算法，广泛应用于二分类问题。在本篇博客中，我们将使用numpy生成一个简单的自定义数据集，并使用TensorFlow框架构建和训练逻辑回归模型。训练完成后，我们会保存模型，并演示如何加载保存的模型进行预测。2.创建自定义数据集首先，我们使用numpy生成一个简单的二分类数据集，包含两个特征和对应的标签。标签0表示负类，标签1表
分类算法：梯度提升树(GBT)算法原理 kkchenjj 数据挖掘机器学习算法分类数据挖掘
分类算法：梯度提升树(GBT)算法原理1.简介1.1梯度提升树的起源与发展梯度提升树(GradientBoostingTree,GBT)是一种强大的机器学习算法，它基于提升方法的原理，通过迭代地构建一系列弱分类器并组合它们来形成一个强分类器。GBT的起源可以追溯到Freund和Schapire在1996年提出的AdaBoost算法，但真正将梯度提升应用于树模型的是JeromeH.Friedman在
【python】如何将字符串列表转换为数值列表资源存储库算法强化学习 python 开发语言
目录【python】如何将字符串列表转换为数值列表方法1：使用Python的map()和float()或int()方法2：使用列表推导式(ListComprehension)方法3：使用pandas转换方法4：使用numpy转换总结：【python】如何将字符串列表转换为数值列表要将字符串列表转换为数值列表，可以使用Python的内置方法和pandas或numpy等工具。下面是几种常见的方法来实现
梯度提升用于高效的分类与回归纠结哥_Shrek 分类回归数据挖掘
使用决策树（DecisionTree）实现梯度提升（GradientBoosting）主要是模拟GBDT（GradientBoostingDecisionTrees）的原理，即：第一棵树拟合原始数据计算残差（负梯度方向）用新的树去拟合残差累加所有树的预测值重复步骤2-4，直至达到指定轮数下面是一个纯Python+PyTorch实现GBDT（梯度提升决策树）的代码示例。1.纯Python实现梯度提升
ue4 vr连接_基于UE4的VR项目基础环境配置和Motion Controller控制配置深度智能 ue4 vr连接
原标题：基于UE4的VR项目基础环境配置和MotionController控制配置本文使用的VR硬件是HTCVIVE,本文分成两个部分，第一部分介绍了使用蓝图在UE4中进行基础环境配置时需要注意的渲染优化、后期处理、环境比例、HMD帧率优化设置等。第二部分是如何使用UE4蓝图对HTCVIVE的手柄进行配置的流程。适合刚学习VR的同学进行参考。一、VR基础环境配置UE4项目设置新建VR项目时，推荐使
【Pandas】pandas Series describe liuweidong0802 Pandas Series pandas
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.abs()用于计算Series中每个元素的绝对值Series.all()用于检查Series中的所有元素是否都为True或非零值（对于数值型数据）Series.any()用于检查Series中是否至少有一个元素为True或非零值（对于数值型数据）Series.autocorr()用于计算Se
外部网关路由协议-----BGP bugggggggg 外部网关路由协议 bgp
文章目录一、BGP定义1.1、概述1.2、特点1.3、分类1.4、工作原理1、五种报文2、六种状态机3、九个原则1.5、如何建立对等体1.6、相关配置二、实验三、BGP选路3.1、路径属性3.2、BGP选路原则一、BGP定义边界网关协议（BGP）是运行于TCP上的一种自治系统的路由协议。BGP是唯一一个用来处理像因特网大小的网络的协议，也是唯一能够妥善处理好不相关路由域间的多路连接的协议。BGP构
Java Stream API中的状态性操作与陷阱 2501_90323865 java python 开发语言个人开发
在Java编程中，StreamAPI为我们提供了一种高效且简洁的方式来处理集合数据。然而，在使用StreamAPI时，开发者常常会遇到状态性（stateful）操作和行为参数的问题。这些问题如果不加以注意，可能会导致代码的非确定性结果，甚至引发线程安全问题。本文将详细介绍状态性操作的原理、潜在问题以及如何避免这些问题，同时结合实例进行说明。一、状态性操作与无状态操作在StreamAPI中，操作可以
2920. 收集所有金币可获得的最大积分咔咔咔的 leetcode c++
2920.收集所有金币可获得的最大积分题目链接：2920.收集所有金币可获得的最大积分代码如下：//参考链接：https://leetcode.cn/problems/maximum-points-after-collecting-coins-from-all-nodes/solutions/2503152/shu-xing-dp-ji-yi-hua-sou-suo-by-endless-phzx
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
Python中selenium的玩法，小朋友看了都说学会了 2401_87361571 python selenium 开发语言
2.selenium的作用和工作原理利用浏览器原生的API，封装成一套更加面向对象的SeleniumWebDriverAPI，直接操作浏览器页面里的元素，甚至操作浏览器本身（截屏，窗口大小，启动，关闭，安装插件，配置证书之类的）webdriver本质是一个web-server，对外提供webapi，其中封装了浏览器的各种功能不同的浏览器使用各自不同的webdriver3.selenium的安装以及
python系列：如何在FastAPI中使用Pydantic的BaseModel上传文件和字典列表？坦笑&&life #python python fastapi windows
如何在FastAPI中使用Pydantic的BaseModel上传文件和字典列表？如何在FastAPI中使用Pydantic的BaseModel上传文件和字典列表？问题：回答：虽然`Pydantic模型`过去不允许使用`Query字段`，并且必须在单独的依赖类中实现查询`parameter-parsing`，如本答案和本答案所示，但这一点最近发生了变化，因此，可以使用`BaseModel类`将`Q
Go Gin 框架学习笔记「已注销」 Go Web restful golang json
GoGin框架学习笔记Gin描述轻量级httpweb框架，允许速度非常快最擅长的是Api接口的高并发入门创建默认的路由引擎r=gin.Default()启动http服务，默认在8080端口r.Run(":8000")返回字符串c.String(200,"我是新闻页面")c.String(200,"值：%v","你好gin")gin支持RestFulr.PUT()r.GET()r.POST()r.D
Python使用FastApi开发接口冉成未来 python fastapi 开发语言
文章目录python开发web框架简介FastApi安装安装依赖包代码编写创建数据库连接模块database.py创建数据库实体模块model.py创建实体类模型模块schemas.py创建操作数据库模块curd.py创建接收请求模块main.py创建运行模块run.py项目运行编写完以上代码，通过以下命令进行项目启动查看项目接口pyinstalle打包FastApi项目项目通过uvicorn运行
FastApi 练习之请求体子类模型之Set传参五指山西 python api
代码片段，注意tags是Set类型传参教程代码：fromtypingimportOptional,SetfromfastapiimportFastAPIfrompydanticimportBaseModelapp=FastAPI()classItem(BaseModel):name:strdescription:Optional[</
fastapi基本使用之：入参，返回值与异常处理 AI量化投资实验室 “一人企业”技术栈 fastapi flask python
fastapi针对前后端分离的api操作做了相当多的订制，对于体现在入参、返回值以及异常处理上。传入的参数可以有三种，路径参数，查询参数以及请求体。参数的自动匹配，类型转换：传统的web开发，需要开发同学自己从request.GET/POST里按字段去取值，然后自己转换类型。fastapi直接把这些值取出来，并转到位，尤其是可以生成类（结构体），直接访问就好。请求体classExtra(BaseM
Python FastAPI 多参数传递大数据东哥(Aidon) python fastapi python fastapi 参数传递 FastAPI参数传递路径/POST/GET参数传递
PythonFastAPI请求参数传递FastAPI多参数传递类型FastAPI通过模板来匹配URL中的参数列表，大致有如下三类方式传递参数：路径参数传递：获取自定义的构造URL中的参数GET参数传递：获取一个URL后面带的?param1=1¶m2=2这种类型参数POST参数传递：获取POST请求中的参数，因为POST是加密的，因此更加安全，但有额外开销，测试API使用额外工具或插件或者自
VUE项目使用高德地图进行精准定位高德地图API HhhDreamof_ 定位
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、高德地图API二、使用步骤1.引入key2.创建方法总结前言提示：以下是本篇文章正文内容，下面案例可供参考一、高德地图的准备工作1.注册高德地图管理者账号https://developer.amap.com/准备好key2.在index.htmlbody中引入高德地图定位二、创建方法1.methods代码如下（示例）：
基于vue实现九宫格大转盘抽奖 HhhDreamof_ vue html js
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基于vue实现九宫格大转盘抽奖二、使用步骤基于vue实现九宫格大转盘抽奖总结前言基于vue实现九宫格大转盘抽奖提示：以下是本篇文章正文内容，下面案例可供参考一、基于vue实现九宫格大转盘抽奖示例：为活动而写的一小段代码。二、使用步骤1.基于vue实现九宫格大转盘抽奖代码如下（示例）： javascript实现
基于最近邻数据进行分类纠结哥_Shrek 分类数据挖掘人工智能
完整代码：importtorchimportnumpyasnpfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.metricsimportaccuracy_scoreimportmatplotlib.pyplotasplt#生成一个简单的数据集(2个特征和2个分类)#X为输入特征，y为标签X=np.array([[1,2],[2,
Powershell无法激活Python虚拟环境 weixin_30681615 python shell
问题描述：Win10环境，亲测在cmd中可以激活，但是在Powershell中无法激活新建的conda环境。1.问题复现查看当前的环境，想从base切换到新建的scipython环境尝试激活但失败在cmd下尝试，成功2.寻根问底参考【1】，因为PowerShell默认不允许执行“*.ps1”脚本文件，所以首先需要开启权限。.ps1文件路径（...\envs\yourenv\Lib\venv\scr
编程语言发展史之：编程语言的未来趋势 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介概述计算编程语言发展的主要里程碑2.编程语言的历史2.1编程语言的出现2.2第一代编程语言——FORTRAN2.3第二代编程语言——COBOL2.4第三代编程语言——PASCAL2.5第四代编程语言——C++、Java、C#、Python、Ruby等2.6模块化编程语言2.7跨平台语言2.8编程语言的分类3.编程语言的发展阶段及其性质编程语言的发展阶段及
【SLAM】SLAM技术详解：同步定位与地图构建 steamedobun 计算机视觉 SLAM 深度学习人工智能目标检测机器学习
引言在机器人技术、自动驾驶、增强现实（AR）和无人机等前沿领域，SLAM（SimultaneousLocalizationandMapping）技术扮演着至关重要的角色。SLAM，即同时定位与地图构建，是一种通过传感器数据实时估计机器人或无人系统自身位置并构建环境地图的技术。本文将详细介绍SLAM技术的原理、应用场景、分类及其优缺点，并对SLAM技术的未来发展进行展望。SLAM技术概述定义与原理S
使用OpenSSL库接口，实现AES CBC加密，基于X509 base64编码证书的RSA非对称加密例子 GavinFj C语言相关工作学习总结算法数据安全
RSA加密的填充方式安全不一样，RSA算法PKCS1填充方式没有OAEP填充方式安全；同样的AES选择CBC模式更加安全。网上看了好多例子，都没有使用X509base64编码证书的RSAOAEP填充方式加密。研究记录下RSA、AES的加密，以供参考。话不多说，直接上demo。/*************************************************************
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

Pandas.DataFrame.groupby() 数据分组(数据透视、分类汇总) 详解 含代码 含测试数据集 随Pandas版本持续更新