主要解决上述三个问题:
1.问题1
F ( x , y ) = w 1 ∗ ϕ 1 ( x , y ) + w 2 ∗ ϕ 2 ( x , y ) + ⋯ F(x, y) = w_1*\phi_1(x,y) + w_2*\phi_2(x,y) + \cdots F(x,y)=w1∗ϕ1(x,y)+w2∗ϕ2(x,y)+⋯
即 F ( x , y ) = w ∗ ϕ ( x , y ) F(x,y) = w * \phi(x,y) F(x,y)=w∗ϕ(x,y)
其中 ϕ ( x , y ) \phi(x,y) ϕ(x,y)表示X内满足y的微特征,类似attribute,w为特征权重,有traindata训练得到。
2. 问题2
假设已经得到解决,那么问题三就成立
3. 问题三
特别注意:因为得到的最大值 y ˉ r \bar{y}^r yˉr不等于准确值 y ^ r \hat{y}^r y^r,只能慢慢更新w,使得 y ˉ r \bar{y}^r yˉr无限接近于所以 y ^ r \hat{y}^r y^r, w → w + ϕ ( x r , y ^ r ) − ϕ ( x r , y ˉ r ) w \to w + \phi(x^r,\hat{y}^r) - \phi(x^r,\bar{y}^r) w→w+ϕ(xr,y^r)−ϕ(xr,yˉr)。
这个时候我们会有一个问题w是否收敛,且需要迭代多少次才能使其收敛。
即:迭代 ( R δ ) 2 (\frac{\R}{\delta})^2 (δR)2。R = m a x F ( x , y ) , δ ≈ w ^ ∗ ϕ ( x r , y ^ r ) − w ^ ∗ ϕ ( x r , y ) max F(x,y),\delta \approx \hat w*\phi(x^r,\hat y^r)-\hat w*\phi(x^r,y) maxF(x,y),δ≈w^∗ϕ(xr,y^r)−w^∗ϕ(xr,y)
C n = max y [ w ∗ ϕ ∗ ( x n , y ) ] − w ∗ ϕ ( x n , y ^ n ) C^n =\max_y[w*\phi*(x^n,y)]-w*\phi(x^n,\hat y^n) Cn=ymax[w∗ϕ∗(xn,y)]−w∗ϕ(xn,y^n)
C = ∑ n = 1 N C n C =\sum^N_{n=1}C^n C=n=1∑NCn
因为每一个 y y y有比较接近KaTeX parse error: Expected group after '\hat' at end of input: \hat 也有比较原理的,所以error并不是都一样,应该考虑其的好坏,即 △ ( y ^ , y ) = m a r g i n \bigtriangleup(\hat y,y)=margin △(y^,y)=margin
这时:
y ~ n = a r g max y [ w ⋅ ϕ ( x n , y ) \tilde y^n =arg \max_y[w \cdot \phi(x^n,y) y~n=argymax[w⋅ϕ(xn,y)
变为
y ˉ n = a r g max y [ △ ( y ^ , y ) + w ⋅ ϕ ( x n , y ) ] \bar y^n =arg \max_y[\vartriangle(\hat y,y) +w \cdot \phi(x^n,y)] yˉn=argymax[△(y^,y)+w⋅ϕ(xn,y)]
▽ C n ( w ) = ϕ ( x n , y ~ n ) − ϕ ( x n , y ^ n ) \triangledown C^n (w)=\phi(x^n,\tilde y^n) - \phi(x^n,\hat y^n) ▽Cn(w)=ϕ(xn,y~n)−ϕ(xn,y^n)
变为
▽ C n ( w ) = ϕ ( x n , y ˉ n ) − ϕ ( x n , y ^ n ) \triangledown C^n (w)=\phi(x^n,\bar y^n) - \phi(x^n,\hat y^n) ▽Cn(w)=ϕ(xn,yˉn)−ϕ(xn,y^n)
因此: w = w − η ▽ C n w = w - \eta \triangledown C^n w=w−η▽Cn