对于一条曲线y=f(x).
给定区间R \in [x_left,x_right]内,df(x) = dy恒定的话.
则可以表示为y=f(x)=Wx+b的形式.
于是扩展下就是对于任意一条曲线,可以认为是由一组这样区间的f(x)构成的.
也就是分段的线性组合/集合S(f)构成.
考虑S(f)是个有限集合.
y=f(x)就可以表述为
y=f(x) = a_0f_0(x) + a_1f_1(x) + ... + a_nf_n(x)
其中f_i(x) \in S(f),a_i = {0,1}
->
y=f(x) = \sum a_if_i(x)
这个形式就有限眼熟了.
如果把a_i = {0,1}放宽一点,为[0,1]之类的话.
a_i = sigmoid(f_i(x))
也就是所谓的activation function的形式.
或者更换下符号
a_i = sigmoid(g_i(x))
->
y=f(x) = \sum sigmoid(g_i(x)) * f_i(x)
->
y=f(x) = \vec{sigmoid(g_i(x))} * \vec{f_i(x)}
->
y=f(x) = hidden(x) * output(x)
也就是说,某种程度上来说,multi layer/deep neural network更像是一组分段函数描述.
通过一种局部的简单近似取描述一条整体复杂的曲线.
从这个角度来说,DNN并不能算得上说是一种智能甚至说算法.
而只是一种某种形式的经验的累加.
它可以逼近现有已知的各种事实.
但对于事实外或者预见外的,就可能并不能存在所谓的有效性.
这里隐含的一个论调就是,这个世界的运作规则是有一些简洁有力的描述构成的.
就像y=ax+b足够描述一条,而不是把所以点"罗列"出来才能表达一样.
而且这里更深的一个隐含假设就是这种简洁的基本描述是有限的.
也就是说,只需要有限的几条公式就能够完整地描述各种状态和存在.
反过来说,即使这个世界确实是由一些既定的数学来描述的话.
如果这种数学的存在性是无限的,那也是没有意义的.
因为可能并不能通过罗列S(f)的方式来具体确定地描述一个东西.
而只能在一个子集内有限地逼近真实.
或者可能需要一种结构去描述这种无限状态构成的确定的具体概念?
就像泰勒展开一样.
如何系统地描述这种无限的表述空间.
或者可能这就是这个世界并不是某种模拟的结果的证据.
因为对于这个展开式,永远存在一个可以继续展开的无穷小精度.
也就是说,永远存在某种未发现的规律剂量,去表面还有未知的空间.
就像从引力印象一样.
在理论发展之前,这是一个不会被测量和考虑的某阶无穷小因素.
而在理论框架之后,又有了测量和确认的形式方式.
这么想的话,好像DNN也不是那么不堪.