在机器学习领域,总是看到“算法的鲁棒性”这类字眼,比如这句–L1范数比L2范数鲁棒。
“鲁棒”的英文是robustness,其是一个特别大的研究领域。最权威的著作当属稳健统计的2本厚书 文献[1]和[2],有志之士可作研究。
本人的硕士论文对算法鲁棒性有所涉及,并偏向聚类算法的鲁棒性,但也只是学到了一点皮毛,考虑到网上的相关博文极少,故在此记录一番。
一是模型具有较高的精度或有效性,这也是对于机器学习中所有学习模型的基本要求;
二是对于模型假设出现的较小偏差,只能对算法性能产生较小的影响;
主要是:噪声(noise)
三是对于模型假设出现的较大偏差,不可对算法性能产生“灾难性”的影响。
主要是:离群点(outlier)
1) 定义
对于聚类算法而言,鲁棒性意味着聚类结果不应受到模型中存在的数据扰动、噪声及离群点的太大影响。
2) 综述文章
文献[4] [5]
1)lp范数,0
文献[6]
文献[7] 给出了 一种鲁棒化PCA的方法,采用了L1范数。本人在博文[机器学习]Lasso,L1范数,及其鲁棒性中分析了L1范数相对于L2范数的鲁棒性,引用了文献[7]。
2)采取鲁棒的数据模型
被广泛使用的数据模型:
x i = u i + e i x_i=u_i+e_i xi=ui+ei
u–干净簇中心向量,e–噪声向量。
上述数据模型改造为:
x i = u i + o i + e i x_i=u_i+o_i+e_i xi=ui+oi+ei
o–outlier。采用该数据模型,再在目标函数中引入关于o的惩罚项(如L1,L2范数),可提高算法鲁棒性。
参考文献:聚类 – 文献[8], PCA – 文献[9]
TomDietterich教授表达了对人工智能鲁棒性的特别关注,参考文献[3] – 一篇顶会的ppt。
参考文献:
[1] Huber P J. Robust Statistics[J]. 1981. Wiley, New York.
[2] Hampel F R, Ronchetti E M, Rousseeuw P J, et al. Robust statistics: the approach based on influence functions[J]. 1986. Wiley, New York.
[3] http://web.engr.oregonstate.edu/~tgd/talks/dietterich-aaai-presidents-address-final.pdf
[4] Luis Angel García-Escudero, Alfonso Gordaliza, Carlos Matrán, et al. A review of robust clustering methods[J]. Advances in Data Analysis and Classification, 2010, 4(2-3):89-109.
[5] Dave R N, Krishnapuram R. Robust clustering methods: a unified view[J]. IEEE Transactions on Fuzzy Systems, 2002, 5(2):270-293.
[6] Nie F, Wang H, Cai X, et al. Robust Matrix Completion via Joint Schatten p-Norm and lp-Norm Minimization[C]// IEEE, International Conference on Data Mining. IEEE, 2013:566-574.
[7] Meng D, Zhao Q, Xu Z. Improve robustness of sparse PCA by L1-norm maximization[J]. Pattern Recognition, 2012, 45(1): 487-497.
[8] Forero P A, Kekatos V, Giannakis G B. Robust clustering using outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(8): 4163-4177.
[9] Mateos G, Giannakis G B. Robust PCA as bilinear decomposition with outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(10): 5176-5190.