Imageshop

CVPR论文《100+ Times Faster Weighted Median Filter (WMF)》的实现和解析（附源代码）。

　　四年前第一次看到《100+ Times FasterWeighted Median Filter (WMF)》一文时，因为他附带了源代码，而且还是CVPR论文，因此，当时也对代码进行了一定的整理和解读，但是当时觉得这个算法虽然对原始速度有不少的提高，但是还是比较慢。因此，没有怎么在意，这几天有几位朋友又提到这篇文章，于是把当时的代码和论文又仔细的研读了一番，对论文的思想和其中的实现也有了一些新的新的，再次做个总结和分享。

　　这篇文章的官网地址是：http://www.cse.cuhk.edu.hk/~leojia/projects/fastwmedian/，其中主要作者Jiaya Jia教授的官网地址是：http://jiaya.me/，根据Jiaya Jia的说法，这个算法很快将被OpenCv所收录，到时候OpenCv的大神应该对他还有所改进吧。

　　在百度上搜索加权中值模糊，似乎只有一篇博客对这个文章进行了简单的描述，详见：https://blog.csdn.net/streamchuanxi/article/details/79573302?utm_source=blogxgwz9。

　　由于作者只给出了最后的优化实现代码，而论文中还提出了各种中间过程的时间，因此本文以实现和验证论文中有关说法为主，涉及到的理论知识比较肤浅，一般是一笔而过。

　　根据论文中得说法，所谓的加权中值滤波，也是一种非线性的图像平滑技术，他取一个局部窗口内所有像素的加权中值来代替局部窗口的中心点的值。用较为数学的方法表示如下：

　　在图像I中的像素p，我们考虑以p为中心，半径为R的局部窗口，不同于普通的中值模糊，对于属于内每一个像素q，都有一个基于对应的特征图像的相似度的权重系数w_pq，如下式所示：

　　f(p)和f(q)是像素p和q在对应的特征图中得特征值。g是一个权重函数，最常用的即为高斯函数，反应了像素p和q的相似程度。

　　我们用I(q)表示像素点q的像素值，在窗口内的像素总数量用n表示，则n=(2r+1)*(2r+1)，那么窗口内像素值和权重值构成一个对序列，即，对这个序列按照I(q)的值进行排序。排序后，我们依次累加权重值，直到累加的权重大于等于所有权重值的一半时停止，此时对应的I(q)即作为本局部窗口中心点的新的像素值。

　　很明显，上面的过程要比标准的中值模糊复杂一些，在处理时多了特征图和权重函数项，而标准的中值模糊我们可以认为是加权中值模糊的特例，即所有局部窗口的权重都为1或者说相等。

　　在这里，特征图可以直接是源图像，也可以是其他的一些特征，比如原图像的边缘检测结果、局部均方差、局部熵或者其他的更为高级的特征。

　　按照这个定义，我们给出一段针对灰度数据的Brute-force处理代码：

int __cdecl ComparisonFunction(const void *X, const void *Y)        //    一定要用__cdecl这个标识符
{
    Value_Weight VWX = *(Value_Weight *)X;
    Value_Weight VWY = *(Value_Weight *)Y;
    if (VWX.Value < VWY.Value)
        return -1;
    else if (VWX.Value > VWY.Value)
        return +1;
    else
        return 0;
}

//    加权中值模糊，直接按照算法的定义实现。
//    Input        -    输入图像，灰度图，LevelV = 256级
//    FeatureMap    -    特征图像，灰度图，LevelF = 256级
//    Weight        -    特征的权重矩阵，大小是LevelF * LevelF
//    Output        -    输出图像，不能和Input为同一个数据。

int IM_WeightedMedianBlur_00(unsigned char *Input, unsigned char *FeatureMap, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((FeatureMap == NULL) || (Weight == NULL))                                    return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                              return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1))                                            　　　　　　　　　　return IM_STATUS_NOTSUPPORTED;

    const int LevelV = 256;                //    Value 可能出现的不同数量
    const int LevelF = 256;                //    Feature 可能出现的不同数量

    Value_Weight *VW = (Value_Weight *)malloc((2 * Radius + 1) * (2 * Radius + 1) * sizeof(Value_Weight));            //    值和特征序列对内存
    if (VW == NULL)    return IM_STATUS_OK;

    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePF = FeatureMap + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        for (int X = 0; X < Width; X++)
        {
            int CF_Index = LinePF[X] * LevelF;
            int PixelAmount = 0;
            float SumW = 0;
            for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
            {
                int Index = J * Stride;
                for (int I = IM_Max(X - Radius, 0); I <= IM_Min(X + Radius, Width - 1); I++)        //    注意越界
                {
                    int Value = Input[Index + I];                            //    值
                    int Feature = FeatureMap[Index  + I];                    //    特征
                    float CurWeight = Weight[CF_Index + Feature];            //    对应的权重
                    VW[PixelAmount].Value = Value;
                    VW[PixelAmount].Weight = CurWeight;                        //    保存数据
                    SumW += CurWeight;                                        //    计算累加数据
                    PixelAmount++;                                            //    有效的数据量    
                }
            }
            float HalfSumW = SumW * 0.5f;                                    //    一半的权重
            SumW = 0;
            qsort(VW, PixelAmount, sizeof VW[0], &ComparisonFunction);        //    调用系统的qsort按照Value的值从小到大排序，注意qsort的结果仍然保存在第一个参数中
            for (int I = 0; I < PixelAmount; I++)                            //    计算中值
            {
                SumW += VW[I].Weight;
                if (SumW >= HalfSumW)
                {
                    LinePD[X] = VW[I].Value;
                    break;
                }
            }
        }
    }
    free(VW);
    return IM_STATUS_OK;
}

　　很明显，这个函数的时间复杂度是o(radius * radius)，空间复杂度到时很小。

　　我们在一台 I5，3.3GHZ的机器上进行了测试，上述代码处理一副1000*1000像素的灰度图，半径为10（窗口大小21*21）时，处理时间约为27s，论文里给的Cpu和我的差不多，给出的处理one - metalpixel的RGB图用时90.7s，考虑到RGB的通道的数据量以及一些其他的处理，应该说论文如实汇报了测试数据。

　　那么从代码优化上面讲，上面代码虽然还有优化的地方，但是都是小打小闹了。使用VS的性能分析器，可以大概获得如下的结果：

　　可见核心代码基本都用于排序了，使用更快的排序有助于进一步提高速度。

　　针对这个情况，论文的作者从多方面提出了改进措施，主要有三个方面，我们简单的重复下。

　　一、联合直方图(Joint Histgram）

　　直方图优化在很多算法中都有应用，比如标准的中值滤波，现在看到的最快的实现方式还是基于直方图的，详见：任意半径中值滤波（扩展至百分比滤波器）O(1)时间复杂度算法的原理、实现及效果，但是在加权中值滤波中，传统的一维直方图已经无法应用，因为这个算法不仅涉及到原图的像素值，还和另外一幅特征图有关，因此，文中提出了联合直方图，也是一种二维直方图。

　　如果图像中的像素最多有LevelV个不同值，其对应的特征最多有LevelF个不同的值，那么我们定义一个宽和高分别为LevelV * LevelF大小的直方图。对于某一个窗口，统计其内部的(2r+1)*(2r+1)个像素和特征对的直方图数据，即如果某个点的像素值为V，对应的特征值为F，则相应位置的直方图数据加1。

　　如果我们统计出这个二维的直方图数据后，由于中心点的特征值是固定的，因此，对于直方图的每一个LevelF值，权重是一定的了，我们只需计算出直方图内每一个Value值所对应所有的Feature的权重后，就可方便的统计出中值所在的位置了。

　　那么如果每个像素点都进行领域直方图的计算，这个的工作量也是蛮大的，同一维直方图的优化思路一样，在进行逐像素行处理的时候，对直方图数据可以进行逐步的更新，去除掉移走的那一列的直方图信息，在加入即将进入那一列数据，而中间重叠部分则不需要调整。

　　按照论文中的Joint Histgram的布局，即行方向大小为LevelV，列方向大小为LevelF，编制Joint Histgram实现的加权中值算法代码如下所示：

//    加权中值模糊，基于论文中图示的内存布局设置的Joint Histgram。 
int IM_WeightedMedianBlur_01(unsigned char *Input, unsigned char *FeatureMap, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((FeatureMap == NULL) || (Weight == NULL))                                    return IM_STATUS_NULLREFRENCE;    
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3))                                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int LevelV = 256;                //    Value 可能出现的不同数量
    const int LevelF = 256;                //    Feature 可能出现的不同数量

    int *Histgram = (int *)malloc(LevelF * LevelV * sizeof(int));
    float *Sum = (float *)malloc(LevelV * sizeof(float));
    if ((Histgram == NULL) || (Sum == NULL))
    {
        Status = IM_STATUS_OUTOFMEMORY;
        goto FreeMemory;
    }
    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePF = FeatureMap + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, LevelF * LevelV * sizeof(int));
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[J * Stride + I];
                int Feature = FeatureMap[J * Stride + I];        //    统计二维直方图
                Histgram[Feature * LevelV + Value]++;
            }
        }
        for (int X = 0; X < Width; X++)
        {
            int Feature = LinePF[X];
            float SumW = 0, HalfSumW = 0;;
            for (int I = 0; I < LevelV; I++)
            {
                float Cum = 0;
                for (int J = 0; J < LevelF; J++)        //    计算每个Value列针对的不同的Feature的权重的累计值
                {
                    Cum += Histgram[J * LevelV + I] * Weight[J * LevelF + Feature];
                }
                Sum[I] = Cum;
                SumW += Cum;
            }
            HalfSumW = SumW / 2;
            SumW = 0;
            for (int I = 0; I < LevelV; I++)
            {
                SumW += Sum[I];
                if (SumW >= HalfSumW)                //    计算中值
                {
                    LinePD[X] = I;
                    break;
                }
            }
            if ((X - Radius) >= 0)                    //    移出的那一列的直方图
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X - Radius];
                    int Feature = FeatureMap[J * Stride + X - Radius];
                    Histgram[Feature * LevelV + Value]--;
                }
            }
            if ((X + Radius + 1) <= Width - 1)        //    移入的那一列的直方图
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    int Feature = FeatureMap[J * Stride + X + Radius + 1];
                    Histgram[Feature * LevelV + Value]++;
                }
            }
        }
    }
FreeMemory:
    if (Histgram != NULL)    free(Histgram);
    if (Sum != NULL)        free(Sum);
    return Status;
}

　　编译后测试，同样是21*21的窗口，one - metalpixel的灰度图像计算用时多达108s，比直接实现慢很多了。

　　分析原因，核心就是在中值的查找上，由于我们采用的内存布局方式，导致计算每个Value对应的权重累加存在的大量的Cache miss现象，即下面这条语句：

for (int J = 0; J < LevelF; J++)        //    计算每个Value列针对的不同的Feature的权重的累计值
{
    Cum += Histgram[J * LevelV + I] * Weight[J * LevelF + Feature];
}

　　我们换种Joint Histgram的布局，即行方向大小为LevelF，列方向大小为LevelV，此时的代码如下：

//    加权中值模糊，修改内存布局设置的Joint Histgram。 
int IM_WeightedMedianBlur_02(unsigned char *Input, unsigned char *FeatureMap, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((FeatureMap == NULL) || (Weight == NULL))                                    return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3))                                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int LevelV = 256;                //    Value 可能出现的不同数量
    const int LevelF = 256;                //    Feature 可能出现的不同数量

    int *Histgram = (int *)malloc(LevelF * LevelV * sizeof(int));
    float *Sum = (float *)malloc(LevelV * sizeof(float));
    if ((Histgram == NULL) || (Sum == NULL))
    {
        Status = IM_STATUS_OUTOFMEMORY;
        goto FreeMemory;
    }
    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePF = FeatureMap + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, LevelF * LevelV * sizeof(int));
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[J * Stride + I];
                int Feature = FeatureMap[J * Stride + I];
                Histgram[Value * LevelF + Feature]++;            //    注意索引的方式的不同
            }
        }
        for (int X = 0; X < Width; X++)
        {
            int IndexF = LinePF[X] * LevelF;
            float SumW = 0, HalfSumW = 0;;
            for (int I = 0; I < LevelV; I++)
            {
                float Cum = 0;
                int Index = I * LevelF;
                for (int J = 0; J < LevelF; J++)        //    核心就这里不同
                {
                    Cum += Histgram[Index + J] * Weight[IndexF + J];
                }
                Sum[I] = Cum;
                SumW += Cum;
            }
            HalfSumW = SumW / 2;
            SumW = 0;
            for (int I = 0; I < LevelV; I++)
            {
                SumW += Sum[I];
                if (SumW >= HalfSumW)
                {
                    LinePD[X] = I;
                    break;
                }
            }
            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X - Radius];
                    int Feature = FeatureMap[J * Stride + X - Radius];
                    Histgram[Value * LevelF + Feature]--;
                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    int Feature = FeatureMap[J * Stride + X + Radius + 1];
                    Histgram[Value * LevelF + Feature]++;
                }
            }
        }
    }
FreeMemory:
    if (Histgram != NULL)    free(Histgram);
    if (Sum != NULL)        free(Sum);
    return Status;
}

　　修改后，同样的测试条件和图片，速度提升到了17s，仅仅是更改了一个内存布局而已，原论文的图没有采用这种布局方式，也许只是为了表达算法清晰而已。

　　和原论文比较，原论文的joint histgram时间要比直接实现慢（156.9s vs 90.7s)，而我这里的一个版本比brute force的快，一个比brute force的慢，因此，不清楚作者在比较时采用了何种编码方式，但是这都不重要，因为他们的区别都还在一个数量级上。

由于直方图大小是固定的，因此，前面的中值查找的时间复杂度是固定的，而后续的直方图更新则是o(r)的，但是注意到由于LevelV和 LevelF通常都是比较大的常数（一般为256），因此实际上，中值查找这一块的耗时占了绝对的比例。

　二、快速中值追踪

　　寻找中值的过程实际上可以看成一个追求平衡的过程，假定当前搜索到的位置是V，位于V左侧所有相关值的和是W_l，位于V右侧所有相关值得和是W_r，则中值的寻找可以认为是下式：

　　后面的约束条件可以理解为第一次出现W_l大于W_r前。

如果我们之前已经寻找到了像素P处的中值，那么由于像素的连续性，像素P+1处的中值一般不会和P处的中值差异太大，大量的统计数据表明他们的差异基本在8个像素值之类（256色阶图），那么这个思想其实和任意半径中值滤波（扩展至百分比滤波器）O(1)时间复杂度算法的原理、实现及效果中讲到的是一致的。这种特性，我们也可以将他运用到加权中值滤波中。

　　考虑到加权中值滤波中联合直方图的特殊性，我们需要维护一张平衡表，论文中叫做Balance Counting Box(BCB)，这一块的解释比较拗口也比较晦涩，大家需要仔细的看论文和我下面提供的JointHist+MedianTracking代码。

//    加权中值模糊, Joint + MT
int IM_WeightedMedianBlur_03(unsigned char *Input, unsigned char *FeatureMap, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((FeatureMap == NULL) || (Weight == NULL))                                    return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3))                                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int LevelV = 256;                //    Value 可能出现的不同数量
    const int LevelF = 256;                //    Feature 可能出现的不同数量

    int *Histgram = (int *)malloc(LevelF * LevelV * sizeof(int));
    int *BCB = (int *)malloc(LevelF * sizeof(int));

    if ((Histgram == NULL) || (BCB == NULL))
    {
        Status = IM_STATUS_OK;
        return IM_STATUS_OUTOFMEMORY;
    }

    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePF = FeatureMap + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, LevelF * LevelV * sizeof(int));                        //    全部赋值为0
        memset(BCB, 0, LevelF * sizeof(int));
        int CutPoint = -1;
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[J * Stride + I];
                int Feature = FeatureMap[J * Stride + I];
                Histgram[Value * LevelF + Feature]++;    //    计算每行第一个点的二维直方图，直方图的水平方向为Feature坐标，垂直方向为Value坐标    
                BCB[Feature]--;                            //    此时的CutPoint初始化为-1，所以+方向的数据为0，所有的都在-方向        
            }
        }

        for (int X = 0; X < Width; X++)
        {
            float BalanceWeight = 0;
            int IndexF = LinePF[X] * LevelF;                                    //    中心点P的Value所对应的那一行Feature权重起始索引
            for (int I = 0; I < LevelF; I++)                                    //    BCB[I]中保存的是以CutPoint为分界线，Feature为I时，分界线左侧的所有Value[0-CutPoint]值的数量和分界线右侧所有的Value（CutPoint， LevelV - 1]值数量的差异
            {
                BalanceWeight += BCB[I] * Weight[IndexF + I];                    //    因为Feature为固定值时，如果中心点固定，那么不管与Feature对应的Value值时多少，Weight就是定值了。
            }
            if (BalanceWeight < 0)                                                //    第一个点的BalanceWeight必然小于0
            {
                for (; BalanceWeight < 0 && CutPoint != LevelV - 1; CutPoint++)
                {
                    int IndexH = (CutPoint + 1) * LevelF;                        //    新的直方图的位置
                    float CurWeight = 0;
                    for (int I = 0; I < LevelF; I++)
                    {
                        CurWeight += 2 * Histgram[IndexH + I] * Weight[IndexF + I];        //    左侧加右侧同时减，所以是2倍
                        BCB[I] += Histgram[IndexH + I] * 2;                        //    数量是同样的道理
                    }
                    BalanceWeight += CurWeight;
                }
            }
            else if (BalanceWeight > 0)                                    //    如果平衡值大于0，则向左移动中间值
            {
                for (; BalanceWeight > 0 && CutPoint != 0; CutPoint--)
                {
                    int IndexH = CutPoint * LevelF;
                    float CurWeight = 0;
                    for (int I = 0; I < LevelF; I++)
                    {
                        CurWeight += 2 * Histgram[IndexH + I] * Weight[IndexF + I];
                        BCB[I] -= Histgram[IndexH + I] * 2;
                    }

                    BalanceWeight -= CurWeight;
                }
            }
            LinePD[X] = CutPoint;

            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)        //    即将移出的那一列数据
                {
                    int Value = Input[J * Stride + X - Radius];
                    int Feature = FeatureMap[J * Stride + X - Radius];
                    Histgram[Value * LevelF + Feature]--;
                    if (Value <= CutPoint)                        //    如果移出的那个值小于当前的中值
                        BCB[Feature]--;
                    else
                        BCB[Feature]++;
                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    int Feature = FeatureMap[J * Stride + X + Radius + 1];
                    Histgram[Value * LevelF + Feature]++;
                    if (Value <= CutPoint)                        //    如果移出的那个值小于当前的中值
                        BCB[Feature]++;
                    else
                        BCB[Feature]--;
                }
            }
        }
    }
    free(Histgram);
    free(BCB);
}

　　代码也很简洁，主要是增加了一个BCB列表的维护，编译后测试，同样是21*21的窗口，one - metalpixel的灰度图像计算用420ms左右，比Brute-force版本的27s大约快了64倍，这个和论文的时间比例基本差不多(（156.9+0.4）/(2.2+0.5)=58)。提速也是相当的可观，而且算法速度和半径不是特别敏感，毕竟更新直方图的计算量在这里占的比例其实已经不多了。

　　三、Necklace Table

那么论文最后还提出了另外的进一步加速的方案，这是基于以下观察到的事实，即在直方图的数据中，存在大量的0值，这些值的计算其实对算法本身是没有任何作用的，但是占用了大量的计算时间。

　　比如上图是某个图像局部窗口的联合直方图和BCB值，在联合直方图中大部分区域都是0值对应的黑色，在BCB中大部分情况也是0值。

因此，作者构建了一个叫做Necklace Table的数据结构，这个数据结构可以方便快捷的记录下一个和上一个非0元素的位置，从而能有效的访问到那些真正有计算价值的部位，以及简单的删除和增加节点的功能，具体的实现细节详见论文或下面的JointHistgram + Necklace Table代码。

int IM_WeightedMedianBlur_04(unsigned char *Input, unsigned char *FeatureMap, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((FeatureMap == NULL) || (Weight == NULL))                                    return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3))                                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int LevelV = 256;                //    Value 可能出现的不同数量
    const int LevelF = 256;                //    Feature 可能出现的不同数量    const int LevelV = 256;
    
    int *Histgram = (int *)malloc(LevelF * LevelV * sizeof(int));
    int *ForwardH = (int *)malloc(LevelF * LevelV * sizeof(int));            //    forward link for necklace table
    int *BackWordH = (int *)malloc(LevelF * LevelV * sizeof(int));            //    forward link for necklace table
    float *Sum = (float *)malloc(LevelV * sizeof(float));
    if ((Histgram == NULL) || (ForwardH == NULL) || (BackWordH == NULL) || (Sum == NULL))
    {
        Status = IM_STATUS_OK;
        goto FreeMemory;
    }

    memset(ForwardH, 0, LevelF * LevelV * sizeof(int));
    memset(BackWordH, 0, LevelF * LevelV * sizeof(int));

    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePF = FeatureMap + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, LevelF * LevelV * sizeof(int));

        for (int X = 0; X < LevelV; X++)
        {
            ForwardH[X * LevelF] = 0;            //    其实每一个Feature对应一个完整的Necklace Table，需要把第一个元素置为0
            BackWordH[X * LevelF] = 0;
        }
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)    //    第一个元素
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[Index + I];
                int Feature = FeatureMap[Index + I];
                int Index = Value * LevelF;
                if (Histgram[Index + Feature] == 0 && Feature != 0)        // 直方图数据如果还是0并且FMap值不为0
                {
                    int T = ForwardH[Index];
                    ForwardH[Index] = Feature;
                    ForwardH[Index + Feature] = T;
                    BackWordH[Index + T] = Feature;
                    BackWordH[Index + Feature] = 0;
                }
                Histgram[Index + Feature]++;
            }
        }
        for (int X = 0; X < Width; X++)
        {
            int IndexF = LinePF[X] * LevelF;
            float SumW = 0, HalfSumW = 0;;
            for (int I = 0; I < LevelV; I++)
            {
                float Cum = 0;
                int Index = I * LevelF;
                int J = 0;
                do
                {
                    Cum += Histgram[Index + J] * Weight[IndexF + J];        //    跳过那些非0的元素
                    J = ForwardH[Index + J];
                } while (J != 0);
                Sum[I] = Cum;                            //    计算每一个Value对应的所有Featrue的权重累计和
                SumW += Cum;
            }
            HalfSumW = SumW / 2;
            SumW = 0;
            for (int I = 0; I < LevelV; I++)
            {
                SumW += Sum[I];
                if (SumW >= HalfSumW)
                {
                    LinePD[X] = I;
                    break;
                }
            }
            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X - Radius];
                    int Feature = FeatureMap[J * Stride + X - Radius];
                    int Index = Value * LevelF;
                    Histgram[Index + Feature]--;
                    if (Histgram[Index + Feature] == 0 && Feature != 0)
                    {
                        int T1 = BackWordH[Index + Feature];
                        int T2 = ForwardH[Index + Feature];
                        ForwardH[Index + T1] = T2;
                        BackWordH[Index + T2] = T1;
                    }

                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    int Feature = FeatureMap[J * Stride + X + Radius + 1];

                    int Index = Value * LevelF;
                    if (Histgram[Index + Feature] == 0 && Feature != 0)        // 直方图数据如果还是0并且FMap值不为0
                    {
                        int T = ForwardH[Index];
                        ForwardH[Index] = Feature;
                        ForwardH[Index + Feature] = T;
                        BackWordH[Index + T] = Feature;
                        BackWordH[Index + Feature] = 0;
                    }
                    Histgram[Index + Feature]++;
                }
            }
        }
    }
FreeMemory:
    if (Histgram != NULL)        free(Histgram);
    if (ForwardH != NULL)        free(ForwardH);
    if (BackWordH != NULL)        free(BackWordH);
    if (Sum != NULL)            free(Sum);
    return Status;
}

代码量不大，编译后测试，同样是21*21的窗口，one - metalpixel的灰度图像计算用1200ms左右，比Brute-force版本的27s大约快了22倍，由于这个算法和图像内容是由一定关系的，因此，和论文提供的数据直接比较的意义不大。

四、最终的结合体

　很自然的，我们想到要把Median Tracking 和 Necklace Table联合在一起，来进一步的提高速度，这个时候可以对Joint Histgram即BCB都使用 Necklace Table来记录非零元素，于是产生了以下的结合代码：

int IM_WeightedMedianBlur_05(unsigned char *Input, unsigned char *FeatureMap, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((FeatureMap == NULL) || (Weight == NULL))                                    return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3) && (Channel != 4))                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int LevelV = 256;
    const int LevelF = 256;

    int *Histgram = (int *)malloc(LevelF * LevelV * sizeof(int));
    int *BCB = (int *)malloc(LevelF * sizeof(int));
    int *ForwardH = (int *)malloc(LevelF * LevelV * sizeof(int));            //    forward link for necklace table
    int *BackWordH = (int *)malloc(LevelF * LevelV * sizeof(int));            //    forward link for necklace table
    int *ForwardBCB = (int *)malloc(LevelF * sizeof(int));                    //    forward link for necklace table
    int *BackWordBCB = (int *)malloc(LevelF * sizeof(int));                    //    forward link for necklace table
    if ((Histgram == NULL) || (BCB == NULL) || (ForwardH == NULL) || (BackWordH == NULL) || (ForwardBCB == NULL) || (BackWordBCB == NULL))
    {
        Status = IM_STATUS_OK;
        goto FreeMemory;
    }

    memset(ForwardH, 0, LevelF * LevelV * sizeof(int));
    memset(BackWordH, 0, LevelF * LevelV * sizeof(int));
    memset(ForwardBCB, 0, LevelF * sizeof(int));
    memset(BackWordBCB, 0, LevelF * sizeof(int));

    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePF = FeatureMap + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, LevelF * LevelV * sizeof(int));                        //    全部赋值为0
        memset(BCB, 0, LevelF * sizeof(int));
        for (int X = 0; X < LevelV; X++)
        {
            ForwardH[X * LevelF] = 0;
            BackWordH[X * LevelF] = 0;
        }
        ForwardBCB[0] = 0;
        BackWordBCB[0] = 0;

        int CutPoint = -1;
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[Index + I];
                int Feature = FeatureMap[Index + I];
                int Index = Value * LevelF;
                if (Histgram[Index + Feature] == 0 && Feature != 0)        // 直方图数据如果还是0并且FMap值不为0
                {
                    int T = ForwardH[Index];
                    ForwardH[Index] = Feature;
                    ForwardH[Index + Feature] = T;
                    BackWordH[Index + T] = Feature;
                    BackWordH[Index + Feature] = 0;
                }
                Histgram[Index + Feature]++;                //    计算每行第一个点的二维直方图，直方图的水平方向为Feature坐标，垂直方向为Value坐标        

                UpdateBCB(BCB[Feature], ForwardBCB, BackWordBCB, Feature, -1);        //    此时的CutPoint初始化为-1，所以+方向的数据为0，所有的都在-方向                                        
            }
        }

        for (int X = 0; X < Width; X++)
        {

            float BalanceWeight = 0;
            int IndexF = LinePF[X] * LevelF;                                    //    中心点P的Value所对应的那一行Feature权重起始索引
            int I = 0;
            do
            {
                BalanceWeight += BCB[I] * Weight[IndexF + I];                    //  按照当前BCB数据计算平衡值，BCB记录了相同的FMap值时按照之前的中间值左右两侧像素个数的差异值
                I = ForwardBCB[I];
            } while (I != 0);

            if (BalanceWeight < 0)                                                //    第一个点的BalanceWeight必然小于0
            {
                for (; BalanceWeight < 0 && CutPoint != LevelV - 1; CutPoint++)
                {
                    int IndexH = (CutPoint + 1) * LevelF;                        //    新的直方图的位置
                    float CurWeight = 0;
                    int I = 0;
                    do
                    {
                        CurWeight += 2 * Histgram[IndexH + I] * Weight[IndexF + I];        //    左侧加右侧同时减，所以是2倍
                        UpdateBCB(BCB[I], ForwardBCB, BackWordBCB, I, Histgram[IndexH + I] << 1);
                        I = ForwardH[IndexH + I];
                    } while (I != 0);
                    BalanceWeight += CurWeight;
                }
            }
            else if (BalanceWeight > 0)                                    //    如果平衡值大于0，则向左移动中间值
            {
                for (; BalanceWeight > 0 && CutPoint != 0; CutPoint--)
                {
                    int IndexH = CutPoint * LevelF;
                    float CurWeight = 0;
                    int I = 0;
                    do
                    {
                        CurWeight += 2 * Histgram[IndexH + I] * Weight[IndexF + I];        //    左侧加右侧同时减，所以是2倍
                        UpdateBCB(BCB[I], ForwardBCB, BackWordBCB, I, -(Histgram[IndexH + I] << 1));
                        I = ForwardH[IndexH + I];
                    } while (I != 0);
                    BalanceWeight -= CurWeight;
                }
            }
            LinePD[X] = CutPoint;

            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)        //    即将移出的那一列数据
                {
                    int Value = Input[J * Stride + X - Radius];
                    int Feature = FeatureMap[J * Stride + X - Radius];

                    int Index = Value * LevelF;
                    Histgram[Index + Feature]--;
                    if (Histgram[Index + Feature] == 0 && Feature != 0)
                    {
                        int T1 = BackWordH[Index + Feature];
                        int T2 = ForwardH[Index + Feature];
                        ForwardH[Index + T1] = T2;
                        BackWordH[Index + T2] = T1;
                    }
                    UpdateBCB(BCB[Feature], ForwardBCB, BackWordBCB, Feature, -((Value <= CutPoint) << 1) + 1);
                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    int Feature = FeatureMap[J * Stride + X + Radius + 1];
                    int Index = Value * LevelF;
                    if (Histgram[Index + Feature] == 0 && Feature != 0)        // 直方图数据如果还是0并且FMap值不为0
                    {
                        int T = ForwardH[Index];
                        ForwardH[Index] = Feature;
                        ForwardH[Index + Feature] = T;
                        BackWordH[Index + T] = Feature;
                        BackWordH[Index + Feature] = 0;
                    }
                    UpdateBCB(BCB[Feature], ForwardBCB, BackWordBCB, Feature, ((Value <= CutPoint) << 1) - 1);
                    Histgram[Index + Feature]++;

                }
            }
        }
    }
FreeMemory:
    if (Histgram != NULL)        free(Histgram);
    if (BCB != NULL)            free(BCB);
    if (ForwardH != NULL)        free(ForwardH);
    if (BackWordH != NULL)        free(BackWordH);
    if (ForwardBCB != NULL)        free(ForwardBCB);
    if (BackWordBCB != NULL)    free(BackWordBCB);
    return Status;
}

　　我们满怀期待的编译和执行他，结果出来了，同样是21*21的窗口，one - metalpixel的灰度图像计算用430ms左右，和Joint + MT的速度差不多，但是论文里给出的数据是Joint + MT + NT要比Joint + MT快3倍左右。这是怎么回事呢。

　　我们仔细检查论文里，在Implementation Notes节里有这样的语句：

Only a single thread is used without involving any SIMD instructions. Our system is implemented using C++.

　　第一，他也是用的C++和我一样，第二，他是单线程，也和我一样，第三，没有使用任何SIMD指令，似乎我也没有使用啊，都一样，为什么结果比对不一致，难道是大神他们作弊，鉴于他们的成就，我立即撤回我这逆天的想法，一定是其他地方有问题。我们试着反编译看看。

　　我们定位到Joint + MT的算法的下面一句代码看看：

    for (int I = 0; I < LevelF; I++)                                    //    BCB[I]中保存的是以CutPoint为分界线，Feature为I时，分界线左侧的所有Value[0-CutPoint]值的数量和分界线右侧所有的Value（CutPoint， LevelV - 1]值数量的差异
    {
         BalanceWeight += BCB[I] * Weight[IndexF + I];                    //    因为Feature为固定值时，如果中心点固定，那么不管与Feature对应的Value值时多少，Weight就是定值了。
    }

　　反编译结果为：

    for (int I = 0; I < LevelF; I++)                                    //    BCB[I]中保存的是以CutPoint为分界线，Feature为I时，分界线左侧的所有Value[0-CutPoint]值的数量和分界线右侧所有的Value（CutPoint， LevelV - 1]值数量的差异
            {
                BalanceWeight += BCB[I] * Weight[IndexF + I];                    //    因为Feature为固定值时，如果中心点固定，那么不管与Feature对应的Value值时多少，Weight就是定值了。
0FAF1B25  movdqu      xmm0,xmmword ptr [ecx]  
0FAF1B29  add         ecx,10h  
0FAF1B2C  cvtdq2ps    xmm1,xmm0  
0FAF1B2F  movups      xmm0,xmmword ptr [eax]  
0FAF1B32  add         eax,10h  
0FAF1B35  mulps       xmm1,xmm0  
0FAF1B38  addps       xmm2,xmm1  
0FAF1B3B  dec         edx  
0FAF1B3C  jne         IM_WeightedMedianBlur_03+1B5h (0FAF1B25h)  
            }

　　赤裸裸的SIMD指令啊。

　　为什么呢，只是因为VS的编译器即使在默认情况下的设置中，也会根据当前编译系统的情况，进行一定的向量化优化，加上现在的PC基本没有哪一个不能使用SIMD指令的。如下图所示，为C++默认编译选项：

　　在启用增强指令集选项里默认是未设置，但是未设置并不代表不使用，正如上述所言，测试编译器会根据系统状况优化编译。因此，虽然表面上代码没有使用SIMD指令，但是实际却使用了。

　　为了公平起见，我们禁用系统的SIMD优化，此时，可以在增强指令集的选项里选择“无增强指令/arch:IA32".

　编译后，对上述同样一段代码进行反编译，可以看到如下汇编码：

for (int I = 0; I < LevelF; I++)                                    //    BCB[I]中保存的是以CutPoint为分界线，Feature为I时，分界线左侧的所有Value[0-CutPoint]值的数量和分界线右侧所有的Value（CutPoint， LevelV - 1]值数量的差异
            {
                BalanceWeight += BCB[I] * Weight[IndexF + I];                    //    因为Feature为固定值时，如果中心点固定，那么不管与Feature对应的Value值时多少，Weight就是定值了。
0F8F1AF5  fild        dword ptr [ecx-4]  
0F8F1AF8  fmul        dword ptr [eax+4]  
0F8F1AFB  fild        dword ptr [ecx-8]  
0F8F1AFE  fmul        dword ptr [eax]  
0F8F1B00  faddp       st(2),st  
0F8F1B02  faddp       st(1),st  
0F8F1B04  fild        dword ptr [ecx]  
0F8F1B06  fmul        dword ptr [eax+8]  
0F8F1B09  faddp       st(1),st  
0F8F1B0B  fild        dword ptr [ecx+4]  
0F8F1B0E  fmul        dword ptr [eax+0Ch]  
0F8F1B11  faddp       st(1),st  
0F8F1B13  fild        dword ptr [ecx+8]  
0F8F1B16  fmul        dword ptr [eax+10h]  
0F8F1B19  faddp       st(1),st  
0F8F1B1B  fild        dword ptr [ecx+0Ch]  
0F8F1B1E  fmul        dword ptr [eax+14h]  
0F8F1B21  faddp       st(1),st  
0F8F1B23  fild        dword ptr [ecx+10h]  
0F8F1B26  fmul        dword ptr [eax+18h]  
0F8F1B29  faddp       st(1),st  
0F8F1B2B  fild        dword ptr [ecx+14h]  
0F8F1B2E  add         ecx,20h  
0F8F1B31  fmul        dword ptr [eax+1Ch]  
0F8F1B34  add         eax,20h  
0F8F1B37  faddp       st(1),st  
0F8F1B39  dec         edi  
0F8F1B3A  jne         IM_WeightedMedianBlur_03+1B5h (0F8F1AF5h)  
            }

　　这里是明显的普通的FPU代码，多说一句，针对这个循环，系统也进行了多路并行优化。

　为了比较方便，我们把禁用系统优化后的时间和未禁用是做一个整体的对比：

算法名称	执行时间
算法名称	禁用编译器优化	启用编译器优化
BruteForce	26875ms	27025ms
Joint Histgram	123432ms	108254ms
Joint Hist CacheFriend	55214ms	17325ms
Joint + MT	1075ms	420ms
Joint + NT	1286ms	1200ms
Joint + MT + NT	422ms	430ms

当禁用编译器优化后，可以明显的看到Joint + MT + NT的速度优势比较大，和论文里给出的数据也基本相当了。

但是我们还是稍作分析，为什么同样是开启编译器优化，Joint + MT的速度能从1075ms降低到420ms，而Joint + MT + NT确基本没有什么变化呢，这就要从代码本身说起。

我们注意到，在Joint + MT版本中，BalanceWeight和CurWeight等元素的计算都是通过一个简单的for循环进行的，计算过程中循环的次数是固定的，每次计算内部的循环变量取值也是按照内存顺序来的，这种代码非常适合编译器使用SIMD指令优化，他会自动编译一系列带P（Packet）字母的SIMD指令（例如mulps）进行单周期四指令的快速执行，相当于提高了4倍的通行能力，而那些计算在整个算法里占用的时间比例有比较大，这样对整个算法的提速表现贡献是很大的。

而在有了Necklace Table参与的版本中，由于BalanceWeight和CurWeight的更新使用do while循环，循环的次数是未知的，循环里的指针指向的位置也是变动的，因此，即使使用了SIMD指令，他也只能使用其中带S（Single）字母的SIMD指令（例如mulss），这种指令一次性也就是执行一条计算，相比普通的FPU指令提速非常有限甚至更慢，因此，优不优化速度基本没啥区别。另外一个重要的问题在论文中其实没有提及，那就是随着半径的增加，Joint Histgram中得非0元素会相对的变得越来越少（但整体比例还是很大的），但是在BCB中，只要某个固定Feature对应的LevelF个直方图元素中有一个不为0，那么他就会不为0，这个情况在大半径时发生的概率非常高，此时的更新Necklace Table的时间和后续减少计算的时间来说可能会本末倒置，反而会引起计算时间的增加。

　　基于这样一个分析，隐含着这样一个事实，当半径比较小时，由于计算过程中非零值的存在，Joint + MT + NT应该效果会更改，而随着半径的增加，非零值减小，NT带来的收益越来越小，甚至抵消了，我们实测了下面一组数据。

算法名称	不同半径时的执行时间（ms）
算法名称	1	3	5	8	10	15	20	40
Joint + MT	386	404	396	416	436	500	540	744
Joint + MT + NT	153	316	306	412	452	534	654	1091

也就是说，在容许进行SIMD优化的情况下，当半径大于10时，建议使用Joint + MT来获得更高的效率，半径小于10时，可通过Joint + MT + NT来提供更好的速度。

从代码的简练或者内存占用方面来说，毫无疑问Joint + MT更简单，也更加节省内存，如果在现在的PC上使用该算法，我更喜欢直接使用Joint + MT算法。

这样并不是说Necklace Table不好，我反到觉得这个数据结构也是由很高的利用价值，也许可以利用到我关心的其他一些算法上，会有这比较好的效果。

　　另外小声的说一下，似乎这里的最终优化的时间和Brute force的时间比并没有达到100:1。

五、后续关于Joint + MT进一步优化的几个尝试

　　既然选中Joint + MT，我们再仔细的构思下他还没有进一步优化的余地呢，第一想到的就是，我自行内嵌SIMD指令，代码中有好几个for循环使用SIMD指令应该很容易处理，但是，经过多次改写，发现这种非常简便的for循环，我们自己内嵌的SIMD指令很难超越编译器编译后的速度，毕竟写编译器的那些专家的优化水平，不是我等能够比拟的。第一步方向选择放弃。

那么如果考虑定点话呢，一般两个像素之间的权重值是个介于0和1之间的数据，如果我们把它放大一定倍数，转换为整形，那么整个计算过程就是整形的处理，而且现在整形也可以直接使用SSE处理，同样是一次性处理4个32位整形，同浮点相比，少了几次数据类型的转换，经过测试，这样处理后速度基本没有什么大的差异，这个方法也可以放弃。

第三个想法是直方图的更新，有一种常用的直方图更新方法是特例化处理图像整体最左上角的点，然后在水平方向移动时，去除最左侧的一列信息，加上最右侧的信息，当移动到第一行最右侧的像素点时，此时的更新方向不是直接跳到第二行首像素，而是从第二行尾像素向第二行手像素进行处理，这时我们可以充分利用第一行的最右侧像素的直方图数据，只要减去最上部一行的直方图信息，然后加上最下部一行的直方图的信息就可以了，在逆向移动时，直方图的更新则和第一行的更新相反，加上左侧的信息，然后减去右侧信息，当处理到第二行首地址像素后，我们又跳到第三行首地址，然后进行类似第一行的处理，这种处理方式能够减少对每行首像素进行全部直方图更新的计算量，在半径较大时有一定的加速作用，我们一般称之为蛇形算法。实验了一下，对算法的速度提升非常有限，而且会使得代码稍显繁琐。也需要放弃。

那么目前我想到的唯一的有可能对速度还有提升的就是定点化时不用32位的数据，适当的考虑数据的范围，如果能保证定点后的数据能在16位的有效范围，那么还是有可能进一步提高点速度的，毕竟这个时候可以使用SSE单指令一次性进行8个整数的加减乘法了，这个有待于进一步去测试。

　　六、特例优化

　　在有些情况下甚至很多情况下，我们使用的Feature是其自身，这种情况下因为数据的特殊性，我们可以做一些特殊处理，使得算法的速度更快。

　　当Feature等于Input本身时，我们注意到，联合直方图中只有45度的对角线中元素有值，其他部位都为0，因此，我们可以考虑联合直方图在形式上退化为一维直方图，这个时候一个简单的代码如下所示：

int IM_WeightedMedianBlur_Special(unsigned char *Input, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3) && (Channel != 4))                            return IM_STATUS_NOTSUPPORTED;

    const int Level = 256;
    
    int *Histgram = (int *)malloc(Level * sizeof(int));
    if (Histgram == NULL)    return IM_STATUS_OUTOFMEMORY;
    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePS = Input + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, Level * sizeof(int));                        //    全部赋值为0
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                Histgram[Input[Index + I]]++;
            }
        }
        for (int X = 0; X < Width; X++)
        {
            int IndexF = LinePS[X] * Level;
            float SumW = 0, HalfSumW = 0;;
            for (int I = 0; I < Level; I++)
            {
                SumW += Histgram[I] * Weight[IndexF + I];
            }

            HalfSumW = SumW / 2;
            SumW = 0;
            for (int I = 0; I < Level; I++)
            {
                SumW += Histgram[I] * Weight[IndexF + I];
                if (SumW >= HalfSumW)
                {
                    LinePD[X] = I;
                    break;
                }
            }
            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    Histgram[Input[J * Stride + X - Radius]]--;
                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    Histgram[Input[J * Stride + X + Radius + 1]]++;
                }
            }
        }
    }
    free(Histgram);
    return IM_STATUS_OK;
}

　　同样是21*21的窗口，one - metalpixel的灰度图像计算用367ms左右，比上述都要快。

　　同样的道理，我们也可以使用BCB技术来优化，但是此时的BCB来的更简单。

int IM_WeightedMedianBlur_Special_BCB(unsigned char *Input, float *Weight, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3))                                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int Level = 256;                

    int *Histgram = (int *)malloc(Level * sizeof(int));
    int *BCB = (int *)malloc(Level * sizeof(int));

    if ((Histgram == NULL) || (BCB == NULL))
    {
        Status = IM_STATUS_OK;
        goto FreeMemory;
    }

    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePS = Input + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, Level * sizeof(int));                        //    全部赋值为0
        memset(BCB, 0, Level * sizeof(int));
        int CutPoint = -1;
        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[J * Stride + I];
                Histgram[Value]++;                        //    计算每行第一个点的二维直方图，直方图的水平方向为Feature坐标，垂直方向为Value坐标    
                BCB[Value]--;                            //    此时的CutPoint初始化为-1，所以+方向的数据为0，所有的都在-方向        
            }
        }

        for (int X = 0; X < Width; X++)
        {
            float BalanceWeight = 0;
            int IndexF = LinePS[X] * Level;                                    //    中心点P的Value所对应的那一行Feature权重起始索引
            for (int I = 0; I < Level; I++)                                    //    BCB[I]中保存的是以CutPoint为分界线，Feature为I时，分界线左侧的所有Value[0-CutPoint]值的数量和分界线右侧所有的Value（CutPoint， LevelV - 1]值数量的差异
            {
                BalanceWeight += BCB[I] * Weight[IndexF + I];                    //    因为Feature为固定值时，如果中心点固定，那么不管与Feature对应的Value值时多少，Weight就是定值了。
            }
            if (BalanceWeight < 0)                                                //    第一个点的BalanceWeight必然小于0
            {
                for (; BalanceWeight < 0 && CutPoint != Level - 1; CutPoint++)
                {
                    int Index = CutPoint + 1;                        //    新的直方图的位置
                    BCB[Index] += Histgram[Index] * 2;                        //    数量是同样的道理
                    BalanceWeight += 2 * Histgram[Index] * Weight[IndexF + Index];
                }
            }
            else if (BalanceWeight > 0)                                    //    如果平衡值大于0，则向左移动中间值
            {
                for (; BalanceWeight > 0 && CutPoint != 0; CutPoint--)
                {
                    BCB[CutPoint] -= Histgram[CutPoint] * 2;
                    BalanceWeight -= 2 * Histgram[CutPoint] * Weight[IndexF + CutPoint];;
                }
            }
            LinePD[X] = CutPoint;

            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)        //    即将移出的那一列数据
                {
                    int Value = Input[J * Stride + X - Radius];
                    Histgram[Value]--;
                    if (Value <= CutPoint)                        //    如果移出的那个值小于当前的中值
                        BCB[Value]--;
                    else
                        BCB[Value]++;
                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    Histgram[Value]++;
                    if (Value <= CutPoint)                        //    如果移出的那个值小于当前的中值
                        BCB[Value]++;
                    else
                        BCB[Value]--;
                }
            }
        }
    }
FreeMemory:
    if (Histgram != NULL)    free(Histgram);
    if (BCB != NULL)        free(BCB);
    return Status;
}

　　同样是21*21的窗口，one - metalpixel的灰度图像计算用242ms左右。

　　如果我们进一步退化，将其退化为普通的中值滤波，即所有Weight都相同，则删减不需要的相关代码后，可以有如下过程：

int IM_MedianBlur(unsigned char *Input, unsigned char *Output, int Width, int Height, int Stride, int Radius)
{
    int Channel = Stride / Width;
    if ((Input == NULL) || (Output == NULL))                                        return IM_STATUS_NULLREFRENCE;
    if ((Width <= 0) || (Height <= 0) || (Radius <= 0))                                return IM_STATUS_INVALIDPARAMETER;
    if ((Channel != 1) && (Channel != 3))                                            return IM_STATUS_NOTSUPPORTED;
    int Status = IM_STATUS_OK;

    const int Level = 256;

    int *Histgram = (int *)malloc(Level * sizeof(int));
    if ((Histgram == NULL))
    {
        Status = IM_STATUS_OK;
        goto FreeMemory;
    }
    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePS = Input + Y * Stride;
        unsigned char *LinePD = Output + Y * Stride;
        memset(Histgram, 0, Level * sizeof(int));                        //    全部赋值为0
        int CutPoint = -1;
        int Balance = 0;

        for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
        {
            int Index = J * Stride;
            for (int I = IM_Max(0 - Radius, 0); I <= IM_Min(0 + Radius, Width - 1); I++)
            {
                int Value = Input[J * Stride + I];
                Histgram[Value]++;                        //    计算每行第一个点的二维直方图，直方图的水平方向为Feature坐标，垂直方向为Value坐标    
                Balance--;
            }
        }
        for (int X = 0; X < Width; X++)
        {    
            
            if (Balance < 0)                                                //    第一个点的Balance必然小于0
            {
                for (; Balance < 0 && CutPoint != Level - 1; CutPoint++)
                {            
                    Balance += 2 * Histgram[CutPoint + 1];
                }
            }
            else if (Balance > 0)                                    //    如果平衡值大于0，则向左移动中间值
            {
                for (; Balance > 0 && CutPoint != 0; CutPoint--)
                {
                    Balance -= 2 * Histgram[CutPoint];
                }
            }
            LinePD[X] = CutPoint;
            if ((X - Radius) >= 0)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)        //    即将移出的那一列数据
                {
                    int Value = Input[J * Stride + X - Radius];
                    Histgram[Value]--;
                    if (Value <= CutPoint)                        //    如果移出的那个值小于当前的中值
                        Balance--;
                    else
                        Balance++;
                }
            }
            if ((X + Radius + 1) <= Width - 1)
            {
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)
                {
                    int Value = Input[J * Stride + X + Radius + 1];
                    Histgram[Value]++;
                    if (Value <= CutPoint)                        //    如果移出的那个值小于当前的中值
                        Balance++;
                    else
                        Balance--;
                }
            }
        }
    }
FreeMemory:
    if (Histgram != NULL)    free(Histgram);
    return Status;
}

同样是21*21的窗口，one - metalpixel的灰度图像计算用140ms左右。

有兴趣的朋友还可以试下对上述中值模糊的代码在加上Necklace table优化，看看能得到什么样的结果。

在论文的最后，讲述了加权中值模糊的多个应用场景，比如在光流、立体匹配、JPG瑕疵修复、艺术特效等等方面，我测试下几个我能做的测试，确实有不错的效果，比如下面的JPG瑕疵修复。对简单的图处理后确实蛮好的，如果在结合我之前研究的MLAA去锯齿算法，恢复后的图像质量就更高了，如下所示：

　　　　　　　　　　　　原图　　　　　　　　　　　　　　　　　　　　　　　　　　　加权中值模糊（特征图为原图）　　　　　　　　　　　　　　　　　 MLAA后续处理后（边缘更平滑）

另外，WMF的保边特性感觉比其他的如导向滤波、双边滤波等等都要强烈的多，比如下图：

　　花朵的边缘，下面的文字等等处理都还特别清晰，不像其他的保边滤波器总有点模糊，这个特性也许用到一些增强上也会有很不错的效果。

　　按照上述文章的思路，我整理和编制一个简易的测试程序，用来论证论文和我博文中得一些数据，使用的VS2013编译的，用C++做的DLL，C#做的UI测试界面，不依赖于任何其他第三方库，目前只做了灰度图的方案，因为彩色的话也基本就是三个通道独立写，可以通过拆分然后调用灰度的来实现。我也测试了下作者分享的VS工程，应该比我提供的代码速度稍微慢一点。

　　源代码下载地址：https://files.cnblogs.com/files/Imageshop/WeightedMedianBlur.rar

　　后记：

　　写完文章后，对于Joint + MT算法总觉得应该还有可以继续改进的地方，这几日也还在琢磨这事，有以下几个收获可以进一步提高速度。

　　第一：正如前文所描述的是否可以考虑直方图数据用16位来表示呢，包括BCB都用16位。我们来简单分析下。

　　我们看到Joint Histgram中一共有LevelV * LevelF个元素，局部窗口内有n=(2r+1)*(2r+1)个元素，那么在最极端的情况下这n个元素值都相同，且其对应的n个feature值也相同，这样在histgram中元素的最大值就是n，只要这个n小于short能表示的最大的正数，则用short就可以完全表达完整的直方图信息，此时对应的r值约为90，完全能满足实际的需求了，而且这种极端情况基本不会发生。

　　同样对于BCB，也不太可能在一个局部出现其值超出short能表示的正负范围的。

　　那么对于权重值，我们也可以把他们定点化，一般权重都会在[0,1]范围内的一个数，即使不是，我们也可以把他们归一化，然后比如放大16384倍，使用一个short类型数据来保存。

　　这样做的好处就是，我们可以使用simd中关于16位的一些高级计算指令了，比如下面这段代码：

    int BalanceWeight = 0;
    for (int I = 0; I < LevelF; I++)                                    
    {
        BalanceWeight += BCB[I] * W[IndexF + I];                    
    }

　　则可以优化为：

    __m128i BW1 = _mm_setzero_si128();
    __m128i BW2 = _mm_setzero_si128();
    for (int I = 0; I < Block * BlockSize; I += BlockSize)
    {
        BW1 = _mm_add_epi32(BW1, _mm_madd_epi16(_mm_load_si128((__m128i *)(BCB + I)), _mm_load_si128((__m128i *)(W + IndexF + I))));
        BW2 = _mm_add_epi32(BW2, _mm_madd_epi16(_mm_load_si128((__m128i *)(BCB + I + 8)), _mm_load_si128((__m128i *)(W + IndexF + I + 8))));
    }
    int BalanceWeight = _mm_hsum_epi32(_mm_add_epi32(BW1, BW2));

　　其中int BlockSize = 16, Block = LevelF / BlockSize;

　　_mm_madd_epi16可以一次性的进行8个16位数据的乘法和加法计算，效率及其高效。

　　后面的BalanceWeight 中得校正代码的for循环也可以使用类似方法优化。

　　这样做还有个好处就是占用的内存小了，而且Y循环里的memset工作量也会少一半。

　　第二、我们在更新BCB的时候一段这样的小代码：

if (Value <= CutPoint)                    
    BCB[Feature]--;
else
    BCB[Feature]++;

　　别看很短小，由于他出现在直方图的更新里，因此执行的频率很高。我们看下他的反汇编：

if (Value <= CutPoint)                    
0F271E3D  mov         edi,dword ptr [esp+28h]  
0F271E41  cmp         ecx,dword ptr [esp+0Ch]  
0F271E45  jg          IM_WeightedMedianBlur_Joint_MT+495h (0F271E55h)  
    BCB[Feature]--;
0F271E47  mov         ecx,dword ptr [esp+38h]  
0F271E4B  dec         word ptr [edi+edx*2]  
                    Index += Stride;
0F271E4F  add         esi,dword ptr [Stride]  
0F271E52  inc         ecx  
0F271E53  jmp         IM_WeightedMedianBlur_Joint_MT+44Dh (0F271E0Dh)  
                for (int J = IM_Max(Y - Radius, 0); J <= IM_Min(Y + Radius, Height - 1); J++)        //    即将移出的那一列数据
0F271E55  mov         ecx,dword ptr [esp+38h]  
else
    BCB[Feature]++;
0F271E59  inc         word ptr [edi+edx*2]  
                    Index += Stride;
0F271E5D  add         esi,dword ptr [Stride]  
0F271E60  inc         ecx  
0F271E61  jmp         IM_WeightedMedianBlur_Joint_MT+44Dh (0F271E0Dh)  
                    Index += Stride;

　　很明显，里面有jmp跳转指令，以前我不觉得这个有什么速度影响，但是我们尝试着用一些其他代码技巧替代这段代码后，速度却有了质的提升。

BCB[Value] += -((Value <= CutPoint) << 1) + 1;

　　反汇编看下：

BCB[Value] += -((Value <= CutPoint) << 1) + 1;
0F93126B  mov         eax,1  
0F931270  mov         ecx,dword ptr [ebp-20h]  
0F931273  dec         word ptr [ecx+edx*2]  
0F931277  xor         ecx,ecx  
0F931279  cmp         edx,esi  
0F93127B  setle       cl  
0F93127E  add         cx,cx  
0F931281  sub         ax,cx  
0F931284  mov         ecx,dword ptr [ebp-40h]  
0F931287  add         word ptr [edi+edx*2],ax  
0F93128B  mov         eax,dword ptr [ebp-14h]  
0F93128E  inc         eax  
0F93128F  mov         dword ptr [ebp-14h],eax

　　里面没有了jmp跳转了。

　　第三：程序里的IM_Max有点多，可以提取到X的循环外面。

　　第四个尝试是，我们在更新直方图时是按列更新的，这种情况的Cache Miss相当严重，一种改进的方式是，我们备份一个原图和特征图的转置图，这个时候更新直方图时就是按照行方向读取数据了，此时会多一个转置的操作，但是转置已经可以使用SSE代码进行高度的优化，在这个算法里这个的耗时几乎可以忽略不计。实测在半径小于10时，对整体速度无啥影响，但是随着半径增大，这个的效果越来越明显了。

　　经过上述几个步骤的优化和处理，同样是21*21的窗口，one - metalpixel的灰度图像计算用时205ms左右，如果是彩色图像耗时大概在630ms左右，这个比作者提供的代码的执行速度快了大概3倍。

　　在Input和Feature相同的情况下，也可以做同样的优化，此时，同样是21*21的窗口，one - metalpixel的灰度图像计算用时125ms左右，如果是彩色图像耗时大概在340ms左右。

　　一个示例Demo可从：SSE_Optimization_Demo.rar处下载。

　　如果觉得本文对你有帮助，还请点个赞或者给我来杯小Coffee吧。

你可能感兴趣的:(CVPR论文《100+ Times Faster Weighted Median Filter (WMF)》的实现和解析（附源代码）。)

【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
早晨冥想15分钟，195天飞扬_7
今天早上5:00起床跑步，冥想15分钟，做了早餐。又看了一遍《赏识教育操作三字经》。金句195：作为父母，克服不了以前教育上的不良惯性，跳不过这些障碍，那只能迷茫依旧，困惑依旧。——《识教育操作三字经》
lua 表操作 o_瓜田李下_o lua lua
lua表操作表的初始化创建表#列表式：{value,value2,value3,...}t={1,2,3,4}#记录式：(key=value,key2=value2,key3=value3,...)#key为lua标识符（只能由字母、数字、下划线组成）时，可不用中括号#不符合lua标识符规范的，需要用中括号括起来t2={x='gtlx',y=2,z="hzw"}#混合使用列表示式、记录式：{val
Redis的协同和异步 weixin_43982809 redis 数据库缓存
Redispipline多条命令同时发给redisredis返回多个结果hiredis提供接口Redis的事务事务由程序员规定(多条连接共同操作)MuLTI事务开始EXEC事务提交Discard取消事务Watch检测变动乐观锁提交的时候才查看如果值被改变取消事务用lua的脚本实现事务lua代码执行多个命令scriptload编译lua并返回idevalshaid服务器启动时全部进行编译得到多个ha
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
旅行推荐：绍兴，不只是有师爷、鲁迅和女儿红海西派
一提到绍兴，不同的人会想到不同的事物和情境。文学爱好者，会想到鲁迅；美食爱好者，会想到绍兴的红烧肉；美酒爱好者，会想到绍兴的女儿红和状元红；历史爱好者，会想到绍兴的师爷。绍兴，浙江省上的辖地级市，位于浙江省北部和杭州湾南岸。是具有江南水乡特色的文化生态旅游城市，首批国家历史文化名城之一，也是著名的水乡、桥镇、酒乡、书法名镇。从黛瓦到乌篷船，从发黑的墙体、路面到幽黢的水面，对于艺术和旅行爱好者来说，
2023-05-26 谭大哥
当我第一次写作的时候，不知如何动笔，漫漫长夜久久无法入睡，想想白天发生的事情时时浮现脑海当中，心情久久不能平静，来深圳创业二十多年发生过种种事情，从失败到成功，遇各种挫折都一一克服。每遇到一件微机感，老婆都我加油打气甚至鼓励我，让我把每次都能一一化解度过难关，今天不知道什么勇气让我把二十年的心里话全部都说出来全部释放。心情久久不能平静无法入睡，好想努力创造一帆事业闯出一个新的天地，让家人过上更好的
微信小程序如何获取当前页面栈中有几个页面玄学大师
//获取当前页面栈的数量letarr=getCurrentPages();console.log('页面',arr.length);
抖音申诉失败还可能解封吗？抖音怎么申诉才能通过？优惠券高省
抖音怎么申诉才能成功？在使用抖音的过程中，有时候可能会遇到一些意外情况，导致账号被封禁或者限制。为了解决这样的问题，抖音提供了申诉功能，用户可以通过申诉来恢复被封禁的账号或解除限制。先给大家分享一个小编在做的网络项目，不用投资一分钱，只要淘宝、京东、拼多多等电商不倒，这个项目永久可做，而且收入稳定！抖音怎么申诉才能成功？申诉失败还可能解封吗？先给大家分享一个网购省钱又赚钱的方法，不用投资一分钱，只
为什么许多人坐月子都选择去月子中心？屁孩王木木
为什么许多人坐月子都选择去月子中心？整个月子坐下来，我觉得这些选择去月子中心的人太明智了！为啥会发出这样的感叹全来源于我不快乐的月子生活。因为我愚蠢的选择了让自己的妈妈来照顾我的月子，本来从孕期到生产一直很顺的，没想到所有的不快乐出现在了月子里，怪就怪我心疼去月子中心的花费。但其实算下来，我这个月子坐下来也没少花钱，爸妈来回飞机，其实就1万了。这里真心奉劝大家千万不要学我，即使是离的很近也不要，否
Web安全之CSP weixin_30649641 web安全开发工具网络
内容安全策略(Content-Security-Policy,简称CSP)概念：内容安全策略(CSP)是一种web应用技术用于帮助缓解大部分类型的内容注入攻击，包括XSS攻击和数据注入等，这些攻击可实现数据窃取、网站破坏和作为恶意软件分发版本等行为。该策略可让网站管理员指定客户端允许加载的各类可信任资源。浏览器支持：统计来源：caniuse.com/contentsecuritypolicy&Mo
从面试到晋升：美团技术专家的职业发展全记录 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶面试职场和发展 ai
从面试到晋升：美团技术专家的职业发展全记录关键词：美团技术专家、技术职级体系、面试准备、晋升路径、能力模型、技术管理、职业发展摘要：本文深度解析美团技术专家的职业发展路径，从面试准备阶段的简历优化、技术笔试、多轮面试策略，到晋升过程中的能力模型构建、项目实战经验、跨团队协作技巧，结合具体案例和实战经验，完整呈现从初级工程师到资深技术专家的成长轨迹。通过剖析美团独特的T序列职级体系、能力评估标准和考
java 求1_java 求1 2i 新智元 java 求1
1-2求斐波拉契数求斐波拉契数斐波拉契数为，Fib(N)=Fib(N-1)+Fib(N-2)F(0)=F(1)=1用Java编写能求Fib(N)的程序输入为N,须输出Fib(N)如输入3输出：3importjava.util.Scanner;publicclassMai...文章uiiuiiu2018-07-12903浏览量求字符串的len组合数(java程序)importjava.util.Li
第七节课后感想 3e35f508017b
这节课很有意思，老师让我们给别人和给自己画自画像。自画像:纸片拼贴还看了阿基里斯与龟的电影，讲述了命运坎坷的真知寿坚持不懈地走着艺术之路，最终得到最珍贵的宝物的故事。
转发【同频共振】木子阿娟
有人为了合群，总是逼自己参与到其他人的聊天中，连笑都要把握时机和节奏。有人曾为了融入一个圈子，努力模仿别人的穿着打扮、言行举止，最后把自己弄得既不像别人，也不像自己；还有人为了不被孤立，一直强迫自己参加一些并不喜欢的饭局，还假装很开心的样子。现实生活里，很多人都是如此，费尽心思讨好别人，委屈求全。但是，一味地讨好和迎合，换不来对应的尊重。人与人之间相处，比合群更重要的，是先找到能够同频共振的人。愚
2023-09-15 如鱼饮水2020
中原焦点团队坚持分享第1319天（20230915）昨晚就有些小兴奋，想象三个月不见的宝宝，会有哪些惊喜的变化。为迎接周岁生日回家的宝贝大扫除。早晨起来再次重新擦地板除尘，忽然听到微信里的消息是孩子发烧了，一瞬间脑子僵住了，怎么办？先上医院吧。除了牵挂之外，这边定好的宾馆、酒店、宴席、蛋糕等庆生活动以及旅游安排，如何更改？可能这些都无法成行。完全能理解孩子突发状况，内心还是有失落的，准备了这么多，
2022-08-30 君惕若
20220830星期二早。早哈。哈哈，心情不错呀。对。说说昨天的开心事。目标的完成，我很满意。确实。完成了整体的调整、背景更换和第一部分的逐字稿。虽然昨天真正开始执行目标已经比较晚了，但是效率很高。是的。昨天还把8月份的账对清楚了。真是吃不穷穿不穷，算计不到才受穷。这么些年，认认真真算账太少了，而且昨天想明白了一点。支出要每天思考的，不仅是钱，时间、能量都需要仔细计算，这样才能更有效利用资源。嗯。
练太极拳的不能有刀兵气玄同说太极
看倌：太极拳的形，干什么用的？玄同：就是为更好的理解气。例如金刚捣碓，其实捣的不是碓，是碓舀里的物件；太极拳的震脚，其实震的不是脚，是身体里的气。我们对气的下行不清晰，所以借一下：震脚。看倌：太极拳怎么看待呼吸？玄同：无论打拳还是不打拳，每一个呼吸都要走小肚子，这是太极拳的核心。慢慢的，懂了丹田的开合之后，再炼弹抖。太极拳的弹抖不是手抖，都是丹田的弹抖。丹田的弹抖，不能空，要逐渐增加负重。看倌：开
2018-05-19 史响庆
5.19日周六小雨庆妈妈263篇今天周末，我受生物钟影响，还是老时间就睡醒了，我蹑手蹑脚的走出卧室。洗刷结束去厨房开始做饭。心想：让孩子睡个懒觉吧，今天不上学！看到孩子的房门关着，以为她还在睡觉！昨天晚上睡觉前我和庆庆聊天：庆庆，见过美人鱼吗？妈妈，你说美人鱼是人还是鱼？我也不知道，你觉得呢？我也不知道！那你想看看吗？想看呀！你知道去哪能看到美人鱼？嗯，周末这两天都可以看，但是得……放心吧，妈妈，
教育者与教书匠啊大甘
教育者与教书匠教育是教师终身奉行的事业，也是必须负责的工作。因为我们面对的是人，是具有生命张力的个体。所以在教育中我一直也在区分教育家与教书匠的区别。一名教师有超高的教学能力，我认为不是叫教育家，而没有教学实践的积累的教师空有一套教学理论也走不到教育家的行列。纵观历史每一位教育专家是一步到位的。没有听说谁从师范院校出来就去了教育管理的岗位，教育容不得差错，教育也不是随便试试。教育需要付出实际行动，
博古通今的林总幸福的味道伊利酸奶
项红萍—学习打卡10.2【成长日记—成长是解决一切问题的根本答案】日期：2022年10月2日第126天/总180天静心3总1385经典:1总103大拜108总4*108+3觉悟人生奉献人生圆满人生恪守初心/勤学明辨/博学慎思/习礼化人/反求诸己/家族兴旺/国富民安觉：接受结果，种下善因，从因上发力发愿：愿天下父母皆得欢心、愿天下儿女皆成栋梁。【今日金句】1.什么人能认识心？明心见性，心光明的时候见
《左轮手枪》韩国电影资源【1080p超清中文字幕】免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云下载步骤全网优惠分享君
《左轮手枪》是一部充满悬疑与犯罪元素的韩国电影，由吴胜旭执导，汇集了全度妍、池昌旭、林智妍等实力派演员，于2024年8月7日在韩国上映。影片以其紧凑的剧情、深刻的角色塑造和紧张的氛围，吸引了众多观众的关注。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行故事围绕着背负所有罪责、被诬陷入狱的前警察河秀英（全度妍饰）展开。河秀英本是一位正直勇敢的警察，却因某种原因被栽赃陷害，失去了职业生涯
最新麦当劳优惠券折扣，怎么吃麦当劳最便宜，麦当劳优惠折扣技巧高省_飞智666600
麦当劳优惠券怎么获得？作为全球规模最大的快餐集团，麦当劳食品对人们具有十分强大的诱惑力，很多人都喜欢麦当劳食品，而麦当劳优惠券的使用自然受人们所关注。但是，麦当劳优惠券怎么获得呢？至于我为何用高省APP领取淘宝商城优惠卷返佣金呢，当然是高省佣金更高，模式更好。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码666888，注册送2皇冠会员。麦当劳优惠券怎
疯狂小杨哥推荐的产品如何购买更便宜？三只羊产品省钱秘籍！浮沉导师
在这个数字化浪潮汹涌澎湃的时代，经济的发展日新月异，平台化和数字化已然成为驱动经济增长的核心引擎。内容电商正如一颗璀璨的星辰，与各行各业深度交融，为解决社会民生问题释放出巨大的能量。疯狂小杨哥和三只羊，作为行业内的佼佼者，始终秉持着“有家的地方有工作”的神圣使命砥砺前行。众小二-微易购小程序的诞生，是这一使命的有力践行，它立志在五年内让四万人的年收入显著提升，为众多渴望改变生活的人带来了希望的曙光
？？？实现高可用的故障转移策略的工具——Keepalived（含数据库的主从复制、MHA高可用简单配置） Lotus 沈棋 Linux运维_架构运维架构 keepalived
文章目录一、高可用与keepalived介绍1、什么是高可用2、实现高可用的技术1).负载均衡器2).故障转移工具3).数据库高可用性4).存储高可用性5).监控与报警工具6).云服务高可用性3、Keepalived介绍0-1）Keepalived是什么、功能介绍：Keepalived的功能*注：Nginx和LVS在负载均衡上使用的区别：实际应用场景*注：具体如何使用Keepalived和LVS进
grafana10.x报错 Failed to upgrade legacy queries Datasource x was not found 每天靠近一点点 grafana
问题grafana从6.x升级到10.x后，导入json文件后报错，数据源x查询不到，grafana不显示数据；TemplatingFailedtoupgradelegacyqueriesDatasourcexwasnotfound解决方法可能grafana升级后数据源找不到，在面板上重新选择数据源保存后，点击Inspect中的PanelJSON文件，查看更新后数据源的uid，在导入的json文件
《局外人》罗小聪聪聪罗
世界是伪善的，表象的。大家都虚伪的追求形而上，你又凭什么如此真实坦诚？但是，因为不屈服故而存在才有价值。异己的世界里，你我皆为局外人。世界规则在默尔索之外运行，给你我带来一股浓浓的被遗弃感。荒诞、悲凉、孤独和排异来的如此简单而迅速，在沟通无果后，我们更加孤独，他人变为了我们的地狱。问题的关键在于，我们不能丧失对这个世界的希望和信心，英雄在认清生活的真相之后仍热爱生活，坚持自我的真实，才是存在或活着
为什么你越害怕发生的事情，越容易发生猴得住
美国人爱德华·墨菲是一名工程师，他曾参加过美国空军于1949年进行的MX981实验。这个实验的目的是为了测定人类对加速度的承受极限。其中有一个实验项目是将16个火箭加速度计悬空装置在受试者上方，当时有两种方法可以将加速度计固定在支架上，而不可思议的是，竟然有人有条不紊地将16个加速度计全部装在错误的位置。于是墨菲作出了“事情如果有变坏的可能，不管这种可能性有多小，它总会发生，并引起最大可能的损失”
【原创文集】最美逆行者教科院预文2班
分院:教育科学学院班级：预文2班姓名：潘奥樱2020年一场突如其来的疫情在武汉爆发，马上正值我国的春节，人员流动最大，每个工作者在这期间都想回家，因为这疫情非常严重，于2020年1月23日10时发布通告，城市、公交、地铁、轮渡、长途客运暂停运营，机场、火车站离汉通道暂时关闭，武汉迅速变成一座空城。在这国家危难的时候，出现了许多最美逆行者。他们不顾自己的安慰，冲在最前线抗击疫情，拯救武汉，拯救中国。
Lua的_G表里有啥？东北砍王 Lua lua
今天看xlua源码的时候发现了一个表_G，如图所示：那它到底啥呢？应该是保存了lua所有用到的全局变量和局部变量比如：这三种用法是一样的_G.print("测试")_G["print"]("测试")print("测试")那里面到底有啥呢？全部输出为：function:00007FFFFB9ECA60setfenvfunction:000001718A717510rawsetfunction:000
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S