Power Query中的Table.Group函数详细分析

在我们操作过程中,使用分组依据进行汇总计算的操作应该是非常的多的,我们对于这个函数还是非常有必要深入了解下。

Table.Group


按为每行指定的列 key 中的值对 table 的行进行分组。 对于每个组,将构造一条记录,其中包含键列(及其值)以及由 aggregatedColumns 指定的任何聚合列。 注意,如果多个键与比较器匹配,将返回不同的键。此函数无法保证返回固定的行顺序。 或者也可以指定 groupKind 和 comparer。

Table.Group(table as table, key as any, aggregatedColumns as list, optional groupKind as nullable number, optional comparer as nullable function) as table

示例:对表进行分组,同时添加一个聚合列 [total],其中包含价格总和("each List.Sum([price])")。

用法:Table.Group(Table.FromRecords({[CustomerID= 1, price = 20], [CustomerID= 2, price = 10], [CustomerID= 2, price = 20], [CustomerID= 1, price = 10], [CustomerID= 3, price = 20], [CustomerID= 3, price = 5]}), "CustomerID", {"total",each List.Sum([price])})

输出:Table.FromRecords({ [CustomerID= 1, total = 30], [CustomerID= 2, total = 30], [CustomerID= 3, total = 25]}, {"CustomerID", "total"})

以上是系统给出的这个函数的解释,初学者不一定能看得懂,那我们一步一步来分析这个函数。

此函数共有5个主要参数。Table.Group(Tablekey as ListaggregatedColumns as function,groupKind,comparer),其中只有3个是必填参数。

第一个必填参数:我们很好理解,是从哪个表进行操作。

第二个必填参数:是根据哪列数据进行分组,可以任意格式。参数必须要填写,但是可以是空列表{},只有在不需要值来计算时可以使用。例如_,Table.RowCount等

第三个必填参数:怎么进行分组操作,是一个函数公式。

第四个可选参数:1=全局分组;0=局部分组(分组到下一条不等值为止)

第五个可选参数:目前所知是有2个参数组成的函数(x,y)其中X为每次分组后的第一行;Y为X当前行及下面的每一行。通常用(x,y)=>Number.From()固定格式来处理所判断后的条件值。

第三参数aggregatedColumns书写格式

={{新标题}, each 函数 ,type 类型}

={{"新标题1",each 函数},{"新标题2", each 函数}}

={{"新标题1", each 函数, type 类型},{"新标题2",each 函数, type 类型}}

={{"求和", each List.Sum([成绩]), type number},{"计数", each List.Count([学科]), type number}}

我们来举几个例子:

分组汇总计算各学生的总分。


=Table.Group(源,"姓名",{"成绩", each List.Sum( [成绩]), type number})

如果需要对求和后的成绩做一个类型定义,可以这样写

=Table.Group(源,"姓名",{"成绩", each List.Sum( [成绩]), type number })

把这个原表作为一个table类型显示在新表里。

=Table.Group(源,{},{"新标题", each _})

除了普通的函数计算,还有很多其他的函数可以应用,例如格式转换。

=Table.Group(源,"姓名",{"考试科目", each Text.Combine([学科],"/")})

主要的3个必填参数使用我们基本已经了解,那我们来说下第四参数,全局分组和局部分组。默认省略的情况下是作为全局分组,参数为1。如果需要局部分组,参数为0的话,我们可以看下同样的数据源有什么样的变化。

我们可以看第三张图,如果第四参数选择0,张三这个姓名没有进行分组统计,而王五这个姓名有分组,这个是为什么呢?

全局分组=无重复汇总=参数为1

局部分组=连续汇总=参数为0

因为王五这个名字是连续一起的,所以局部分组的时候就进行了操作,而张三这个姓名因为是隔开的,所以就没有进行分组计算,所有分开的都作为单个分组依据。

第四参数的全局匹配和局部匹配我们了解后,那我们来看下第五个参数。

第五个参数是一个匹配函数,有2个参数,我们暂定为x,y。通常用(x,y)=>Number.From()固定格式来处理所判断后的条件值。

X代表每一个分组的第一行,Y为X当前行及下面的每一行。

我们来看下如果上面这个案例把第五参数填进去会发生什么?

我们先测试X参数,我们先把x="张三"这个条件放入进第五参数中。我们可以看到,如果把参数填写成张三,显示的结果是张三80,李四93.75。这个数据是怎么来的呢?

如果只匹配X的话,他的规则是从第一个开始连续匹配,如果不满足条件即结束。意思就是指X从第一个开始配,如果符合就显示并计算,同时再往下一个进行匹配;如果不符合则结束匹配,并显示所匹配的这行数据的匹配值,并把剩余的数据全部按公式计算。

X="张三"

X匹配到了第一个张三,则显示张三,并计算80分的平均值,显示80。

然后继续匹配下一条,结果不等于张三则计算剩余数据。显示这一行去匹配的数据"李四",并计算剩余数据的平均数(90+100+90+95)/4=93.75

X="李四"

X匹配第一个不等于李四,则返回显示李四并计算剩余数据的平均数(80+90+100+90+95)/5=91

我们可以看,只要是不配的数据,都是返回张三91

讲完了X我们再来看下Y参数

我们把y参数填写张三进行匹配

显示张三90和张三95,第一个张三是匹配到当前往下直到不满足条件为止计算所包含的数据(80+90+100+90)/4,第二个张三是匹配到最后一个张三,因为已经是最后一条,所以显示95。

我们把y参数填写成王五进行匹配

显示第一个张三85,第二个王五100,第三个王五92.5

因为第一个y显示王五的是在第三行,所以返回显示第一个匹配值张三,并计算显示截至匹配到王五位置的行之前的值(含匹配行)进行计算。(80+90)/2,找到王五匹配值后计算100/1,第三个王五匹配值后计算(90+95)/2

通过以上示例我们可以大致可以了解到Table.Group这个函数的用法

你可能感兴趣的:(Power Query中的Table.Group函数详细分析)