机器学习基础(六十一)—— 范数及范数的微分

1 范数的微分

λs1

1 范数在 0 点不可微会影响梯度方法的应用。

解决方案:

  • (1)非梯度方法
  • (2)“平滑” 1 范数

    使用 x2+ϵ来代替 |x|,对1 范数进行平滑,其中 ϵ 是平滑参数(“smoothing parameter”)。

矩阵 F 范数

二范数和 F 范数是不同的概念。

矩阵的诱导 2 范数即为我们常说的 2 范数,其定义如下:

A2=maxeig(AHA)

而矩阵的 F=2 时的范数,却在实际优化领域中经常用到的范数,也称为 Frobenius 范数,其定义式即为其计算式:

AF=i,j|Aij|2=Tr(AAH)
a = magic(3);

b = a.^2;
fro_1 = sqrt(sum(b(:)))
fro_2 = sqrt(trace(a*a'))
fro_3 = norm(a, 'fro')

l2_1 = sqrt(max(eig(a'*a)))
l2_2 = norm(a, 2)

F 范数微分

矩阵的 Frobenius 范数及其求偏导法则

x 求偏导(自然仍然是向量):


机器学习基础(六十一)—— 范数及范数的微分_第1张图片

A 求偏导(自然仍然是矩阵):


机器学习基础(六十一)—— 范数及范数的微分_第2张图片

你可能感兴趣的:(机器学习)