以前谈过的一个问题.
比如经典的数字识别问题.
给定feature和对应的结果,实际上就是一个拟合问题.
当时基于的考虑和思路就是,即使给定feature空间并不是全息的.
或者说并不是事实上的对现实的足够描述.
但理论上也可以找到一个从低维空间project回高维空间的matrix.
同样的,在project回的高维表示下,就存在一个对output space的projector.
于是在这个思路下就变成了一个纯粹的解矩阵乘的问题了.
所以当时觉得activation function意义不是很大.
但这里有几个问题.
一个是project回高维的向量未必是正确或者说有意义的.
另一个是高维project回低维的时候也同样.
而且从等式层面来说,两者可以合并.
也就是说从结果上来说,即便有解,解也可能是无限的.
这样的话,其实就没意义了.
而且理论上来说,也不一定有解.
虽然对于output space的单一维度来说.
理解为一组weighted local minimum的方式也没什么太大的问题.
比如针对是否是数字0的一组regression.
但这里还是有个比较致命的隐含假设.
也就是因果性.
因为这个思路暗含的是output space是input space的一个因果性变换.
或者说在某种程度上,input是可以涵盖/推导出output的.
但实际上,对于手写数字识别这个来说,并不是.
它并不存在一个确定性的从手写到数字的映射关系.
更多的只是一种习惯性.
从人的直觉上来说,认为一个手写字体是数字几的过程实际上是一个认为它"应该"是几的过程.
所以本质上来说,这是一个概率问题.
更明确地说,是给定一组feature vector,如何把它变换到一个概率空间的问题.
也就是如何把一个向量变成一个概率描述.
所以多项式变化或者说某种标量化之后,再做某种density性质的函数分布变换就变地很有意义了.
因此从这个角度来说,training的过程不过是在给定的activation function的特性/density性质曲线上,把vector scale过去.
于是,从某种程度上来说,neural network本质上就是某种probability machine.
不同结构的neural network不过是概率组合思路的不同罢了.