背景: 在统计学习中,有时候我们需要解决以下问题
序号 | 数值 |
---|---|
1 | 85 |
2 | 76 |
3 | 88 |
4 | 96 |
5 | 102 |
6 | 77 |
7 | 84 |
8 | 99 |
9 | 63 |
10 | 87 |
对以上数据,我们要计算相邻两点的平均值,即
编号 | 数值 |
---|---|
1.5 | 80.5 |
2.5 | 82 |
3.5 | 92 |
4.5 | 99 |
5.5 | 89.5 |
6.5 | 80.5 |
7.5 | 91.5 |
8.5 | 81 |
9.5 | 75 |
在R2016a以前,解决这个问题的方法是
t = 1 : 10;
A = [85 76 88 96 102 77 84 99 63 87];
R = (A(1:end-1) + A(2:end))/2
但这只是一种比较简单的情况,如果是相邻的 N 个点求平均呢?如果要计算当前点的邻域点(前 N1 个点,后 N2 个点)的平均值呢?如果要计算的不是均值,而是中值、标准差、方差呢?
R2016a引入了几个新的函数,为这一类问题提供了比较好的解决方案:
movmean—–移动窗口求平均值;
movstd——–移动窗口求标准差 ;
movvar——–移动窗口求方差 ;
movmedian–移动窗口求中值.
这几个函数的唯一不同只在于执行的局部运算不同,因此以下以movmean为例介绍此类函数的使用方法.
语法 Syntax
M = movmean(A, k)
M = movmean(A, [kb kf])
M = movmean( __, dim)
M = movmean( __, nanflag)
M = movmean( __, ‘Endpoints’, endptmethod)
描述
M = movmean(A,k) 返回一个计算局部k点均值的数组,其中每一个均值都是通过长度为k的滑动窗口对A点相邻几个元素进行划分所求得。
当k是奇数时,滑动窗口的中心就是当前的元素位置;
当k是偶数时,滑动窗口的中心是前一个元素和当前元素的中间位置。
当窗口中元素数量小于定义的窗口长度时,将自动截取在窗口长度范围内的元素作为区间端点;
当窗口中元素数量小于定义的窗口长度时,只对填满窗口位置的元素进行均值计算;
M的大小和A一致.
M = movmean(A, [kb kf])计算包含当前位置元素共kb+kf+1长度的窗口中的均值, kb个后向元素(k-backward),kf个前向元素(k-forward).
M = movmean( __, dim) 在前面几个语法的基础上计算沿dim维度方向的均值. 例如,如果A是一个矩阵(维度大于等于2),movmean(A,k,2)沿着A的列向计算, 即对每一列计算k元素滑动平均.
M = movmean( __, nanflag)在前面几个语法的基础上确定包含还是省略计算中NaN的值. movmean(A,k,’includenan’)包含所有 NaN值,而movmean(A,k,’omitnan’)则在计算中无视NaN值,既不计算个数,也不计算值.
M = movmean( __, ‘Endpoints’, endptmethod) 确定控制区间端点的方法,’Endpoints’的属性可在’shrink’,’discard’,’fill’三个值其中之一选择一个,或者一个标量或逻辑值. 例如, movmean(A,k,’Endpoints’,’discard’)只输出包含有k个元素的窗口均值,而不包括那些填不满的窗口.
举例及解析
A = [4 8 6 -1 -2 -3 -1 3 4 5];
M = movmean(A,3)
M =
Columns 1 through 7
6.0000 6.0000 4.3333 1.0000 -2.0000 -2.0000 -0.3333
Columns 8 through 10
2.0000 4.0000 4.5000
注意上例中,窗口宽度为3,则第一个窗和最后一个窗的长度均不足,所以第一个窗的元素只有(粗体元素为窗口的中心)
[ ] 4 8
有效元素个数为2,总和为12,所以均值计算为6;
而最后一个窗的元素只有
4 5 [ ]
有效元素个数也为2,总和为9,所以均值计算为4.5.
A = [4 8 6 -1 -2 -3 -1 3 4 5];
M = movmean(A,[2 0])
M =
Columns 1 through 7
4.0000 6.0000 6.0000 4.3333 1.0000 -2.0000 -2.0000
Columns 8 through 10
-0.3333 2.0000 4.0000
注意上例中,窗口宽度为3,窗口的中心位置(粗体元素)是第三个元素,窗口计算前2个后0个元素:
第一个窗口为
[ ] [ ] 4
均值为4
第二个窗口为
[ ] 4 8
均值为6
第三个窗口为
4 8 6
均值为6
最后一个窗口为
3 4 5
均值为4
movmean用于矩阵
A = [4 8 6; -1 -2 -3; -1 3 4]
M = movmean(A,3,2)
A =
4 8 6
-1 -2 -3
-1 3 4
M =
6.0000 6.0000 7.0000
-1.5000 -2.0000 -2.5000
1.0000 2.0000 3.5000
注意上例中,窗口长度为3,窗口是中心元素定位法,窗口的方向沿第2维度,即column方向.
行列 | 1 | 2 | 3 |
---|---|---|---|
1 | [ ] 4 8 | 4 8 6 | 8 6 [ ] |
2 | [ ] -1 -2 | -1 -2 -3 | -2 -3 [ ] |
3 | [ ] -1 3 | -1 3 4 | 3 4 [ ] |
A = [4 8 NaN -1 -2 -3 NaN 3 4 5];
M = movmean(A,3)
M =
Columns 1 through 7
6.0000 NaN NaN NaN -2.0000 NaN NaN
Columns 8 through 10
NaN 4.0000 4.5000
窗口中所有包含NaN的窗口,均值均被计算为NaN了.
M = movmean(A,3,'omitnan')
M =
Columns 1 through 7
6.0000 6.0000 3.5000 -1.5000 -2.0000 -2.5000 0
Columns 8 through 10
3.5000 4.0000 4.5000
注意所有含有NaN的窗口中,NaN都被省略了,既没有被当作有效元素个数,也没有占据平均时元素的个数.
特别注意的是,全是NaN的那个窗口中最终计算结果为0.
A = [4 8 6 -1 -2 -3 -1 3 4 5];
M = movmean(A,3,'Endpoints','discard')
M =
Columns 1 through 7
6.0000 4.3333 1.0000 -2.0000 -2.0000 -0.3333 2.0000
Column 8
4.0000
当’Endpoints’设置为’discard’时,未填满的窗口都被省略掉了.
k中心窗口
回到最初的问题,解决起来就非常容易了:
t = 1 : 10;
A = [85 76 88 96 102 77 84 99 63 87];
R = movmean(A,2,'Endpoints','discard')