(A,B)---m*n*k---(1,0)(0,1)
对于一个二分类网络可以将被分类的A和B分别理解为粒子和环境,因为粒子处于环境中。于是A和B之间的距离可以理解为0。因为t=s/v,则即便A和B之间的相互作用的速度小于光速,A和B之间仍然可以实现瞬时作用,并不违反理论。
( A, B, C )---m*n*k---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
对于一个三分类网络要完成3次形态的变换。A⇋B,A⇋C,B⇋C,每一次形态变换就是一次二分类,因此对于一个三分类网络可以理解为由3个二分类网络组成
(A,B)---m*n*k---(1,0)(0,1)
(A,C)---m*n*k---(1,0)(0,1)
(B,C)---m*n*k---(1,0)(0,1)
这就意味着存在3对瞬时作用,也就表明这3个粒子彼此之间的距离都是0.随着时间的推移网络的收敛误差会不断减小,而网络的分类准确率会不断变大。这个过程意味着A被错误的分成B和C的成分少了,同样B被错误的分成A和C,C被错误的分成A和B的成分也少了。
所以这个三分网络可以被解释为,3个距离为0的粒子不断的相互作用,随着时间的演化,最终变得越来越像自己。
而前面的实验表明相同收敛误差下,迭代次数取决于等位点差的绝对值的和,这次就继续验证这一猜测。
用的训练集是mnist的0,1,2,3,4,的第一张图片。用间隔取点的办法化成13*13.
( 0, 1, 2 )---169*30*3---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )这个网络简记为0*1*2.就只有3张图片不断循环往复,直到收敛。共进行了10组得到数据
1*3*4 |
2*3*4 |
0*3*4 |
0*1*4 |
0*1*3 |
1*2*4 |
1*2*3 |
0*1*2 |
0*2*3 |
0*2*4 |
|
δ |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
迭代次数n |
0.01 |
1763.1809 |
1626.5729 |
1672.4523 |
1635.9196 |
1596.7035 |
1620.407 |
1563.8945 |
1444.2915 |
1410.0302 |
1465.4171 |
0.001 |
13065.196 |
12674.945 |
12747.729 |
12386.216 |
12349.02 |
12282.201 |
12270.035 |
11338.477 |
10985.201 |
11015.503 |
9.00E-04 |
14352.452 |
14004.633 |
14062.829 |
13629.467 |
13613.362 |
13609.563 |
13530.322 |
12458.171 |
12176.362 |
12225.96 |
8.00E-04 |
16141.206 |
15611.101 |
15749.91 |
15264.98 |
15228.447 |
15207.628 |
15053.714 |
14044.729 |
13530.397 |
13654.678 |
7.00E-04 |
18194.397 |
17760.638 |
17743.578 |
17333.377 |
17293.874 |
17204.638 |
17058.809 |
15946.101 |
15491.266 |
15399.538 |
s |
130 |
218 |
198 |
206 |
204 |
218 |
220 |
204 |
220 |
216 |
将收敛误差为7e-4的迭代次数画成图
再将移位距离S的曲线画成图
在这组数据中s和n之间的反比关系依然存在。
移位距离假设
(A,B)---m*n*k---(1,0)(0,1)
用神经网络分类A和B,把参与分类的A和B中的数字看作是组成A和B的粒子,分类的过程就是让A和B中的粒子互相交换位置,寻找最短移位路径的过程。而熵H与最短移位距离S成正比,迭代次数n与S成反比。
移位规则汇总
移位距离就是等位点数值差的绝对值的和S=Σ|a-b|,如果训练集有多张图片取平均值,如果是多分类问题则移位距离为所有两两组合移位距离的和。
如对一组3*3的矩阵
S=s0+s1+,…,+s8=|a0-b0|+|a1-b1|+,…,+|a8-b8|
如果是3分类问题,就应该实现3个形态之间的两两分类,也就是要完成3对等位点之间的差。
因此移位距离
S=Sab+Sac+Sbc=
|a0-b0|+|a1-b1|+|a2-b2|+|a3-b3|+
|a0-c0|+|a1-c1|+|a2-c2|+|a3-c3|+
|b0-c0|+|b1-c1|+|b2-c2|+|b3-c3|