算法的鲁棒性

     在机器学习领域,总是看到“算法的鲁棒性”这类字眼,比如这句--L1范数比L2范数鲁棒。

    “鲁棒”的英文是robustness,其是一个特别大的研究领域。最权威的著作当属稳健统计的2本厚书 文献[1]和[2],有志之士可作研究。

      本人的硕士论文对算法鲁棒性有所涉及,并偏向聚类算法的鲁棒性,但也只是学到了一点皮毛,考虑到网上的相关博文极少,故在此记录一番。


1.   Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念:

        一是模型具有较高的精度或有效性,这也是对于机器学习中所有学习模型的基本要求;

        二是对于模型假设出现的较小偏差,只能对算法性能产生较小的影响;   

               主要是:噪声(noise)

        三是对于模型假设出现的较大偏差,不可对算法性能产生“灾难性”的影响。  

              主要是:离群点(outlier)

2.   聚类算法的鲁棒性:

1)  定义

        对于聚类算法而言,鲁棒性意味着聚类结果不应受到模型中存在的数据扰动、噪声及离群点的太大影响

2)  综述文章

         文献[4] [5]


3.   提升 对离群点数据鲁棒性 的方法

1)lp范数,0

    文献[6]

    文献[7]  给出了 一种鲁棒化PCA的方法,采用了L1范数。本人在博文[机器学习]Lasso,L1范数,及其鲁棒性中分析了L1范数相对于L2范数的鲁棒性,引用了文献[7]。

2)采取鲁棒的数据模型

    被广泛使用的数据模型:


    u--干净簇中心向量,e--噪声向量。

    上述数据模型改造为:


    o--outlier。采用该数据模型,再在目标函数中引入关于o的惩罚项(如L1,L2范数),可提高算法鲁棒性。

   参考文献:聚类 -- 文献[8], PCA -- 文献[9]


4.   未来发展:

       TomDietterich教授表达了对人工智能鲁棒性的特别关注,参考文献[3] -- 一篇顶会的ppt


参考文献:

[1] Huber P J. Robust Statistics[J]. 1981. Wiley, New York.

[2] Hampel F R, Ronchetti E M, Rousseeuw P J, et al. Robust statistics: the approach based on influence functions[J]. 1986. Wiley, New York.

[3] http://web.engr.oregonstate.edu/~tgd/talks/dietterich-aaai-presidents-address-final.pdf

[4] Luis Angel García-Escudero, Alfonso Gordaliza, Carlos Matrán, et al. A review of robust clustering methods[J]. Advances in Data Analysis and Classification, 2010, 4(2-3):89-109.

[5] Dave R N, Krishnapuram R. Robust clustering methods: a unified view[J]. IEEE Transactions on Fuzzy Systems, 2002, 5(2):270-293.

[6] Nie F, Wang H, Cai X, et al. Robust Matrix Completion via Joint Schatten p-Norm and lp-Norm Minimization[C]// IEEE, International Conference on Data Mining. IEEE, 2013:566-574.

[7] Meng D, Zhao Q, Xu Z. Improve robustness of sparse PCA by L1-norm maximization[J]. Pattern Recognition, 2012, 45(1): 487-497.

[8] Forero P A, Kekatos V, Giannakis G B. Robust clustering using outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(8): 4163-4177.

[9] Mateos G, Giannakis G B. Robust PCA as bilinear decomposition with outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(10): 5176-5190.


你可能感兴趣的:(算法,算法)