移位距离假设
(A,B)---m*n*k---(1,0)(0,1)
用神经网络分类A和B,把参与分类的A和B中的数字看作是组成A和B的粒子,分类的过程就是让A和B中的粒子互相交换位置,寻找最短移位路径的过程。而熵H与最短移位距离S成正比,迭代次数n与S成反比。
移位规则汇总
移位距离就是等位点数值差的绝对值的和S=Σ|a-b|,如果训练集有多张图片取平均值,如果是多分类问题则移位距离为所有两两组合移位距离的和。
如对一组3*3的矩阵
S=s0+s1+,…,+s8=|a0-b0|+|a1-b1|+,…,+|a8-b8|
如果是3分类问题,就应该实现3个形态之间的两两分类,也就是要完成3对等位点之间的差。
因此移位距离
S=Sab+Sac+Sbc=
|a0-b0|+|a1-b1|+|a2-b2|+|a3-b3|+
|a0-c0|+|a1-c1|+|a2-c2|+|a3-c3|+
|b0-c0|+|b1-c1|+|b2-c2|+|b3-c3|
这次继续验算这一假设,所用训练集为mnist的0,1,2,3,4的第一张图片,做一个3分类网络,来验证迭代次数和移位距离的关系
( A, B, C )---m*n*k---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
首先用间隔取点的办法把图片化成9*9,网络结构为
( A, B, C )---81*30*3---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
得到数据
9*9 |
δ |
0.01 |
0.001 |
9.00E-04 |
8.00E-04 |
7.00E-04 |
S平均 |
1*3*4 |
迭代次数n |
2248.477 |
15564.5 |
17165.27 |
19037.75 |
21613.02 |
52 |
2*3*4 |
迭代次数n |
2058.874 |
14731.81 |
16207.58 |
18052.38 |
20439.4 |
90 |
1*2*4 |
迭代次数n |
2041.126 |
14661.05 |
16110.55 |
17955.89 |
20321.21 |
82 |
0*3*4 |
迭代次数n |
1981.261 |
14410.76 |
15882.11 |
17717.5 |
20086.51 |
88 |
0*1*3 |
迭代次数n |
2011.693 |
14226.95 |
15649.56 |
17446.29 |
19849.48 |
82 |
0*1*4 |
迭代次数n |
1961.472 |
14246.09 |
15699.46 |
17460.94 |
19833.61 |
82 |
1*2*3 |
迭代次数n |
2005.533 |
14162.56 |
15554.51 |
17324.29 |
19712.56 |
86 |
0*1*2 |
迭代次数n |
1861.744 |
13256 |
14571.18 |
16156.77 |
18359.36 |
70 |
0*2*3 |
迭代次数n |
1774.553 |
12471.54 |
13759.03 |
15339.65 |
17300.2 |
82 |
0*2*4 |
迭代次数n |
1772.955 |
12289.27 |
13521.05 |
15107.41 |
17049.99 |
90 |
如1*2*3的意思为
( 1, 2, 3 )---81*30*3---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
将收敛误差为7e-4的迭代次数画成图
将移位距离S画成图
尽管S曲线的波动较大,但S和n之间的反比关系仍然是清晰的。
再一次验算将图片化成11*11,网络结构为
( A, B, C )---121*30*3---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
得到数据为
δ |
0.01 |
0.001 |
9.00E-04 |
8.00E-04 |
7.00E-04 |
S平均 |
|
1*3*4 |
迭代次数n |
1879.935 |
13735.02 |
15173.34 |
16891.76 |
19181.42 |
96 |
0*3*4 |
迭代次数n |
1789.307 |
13405.12 |
14714.66 |
16475.77 |
18591.92 |
146 |
2*3*4 |
迭代次数n |
1725.171 |
13303.93 |
14550.28 |
16220.5 |
18409.24 |
166 |
0*1*4 |
迭代次数n |
1740.226 |
12824.57 |
14240.37 |
15887.85 |
18000.18 |
156 |
0*1*3 |
迭代次数n |
1738.045 |
12944.04 |
14307.66 |
15907.33 |
17982.46 |
152 |
1*2*4 |
迭代次数n |
1722.628 |
12867.81 |
14121.82 |
15764.27 |
17889.45 |
168 |
1*2*3 |
迭代次数n |
1692.377 |
12826.67 |
14120.54 |
15755.62 |
17850.13 |
168 |
0*1*2 |
迭代次数n |
1565.814 |
11809.94 |
12998.81 |
14557.29 |
16571.86 |
158 |
0*2*4 |
迭代次数n |
1560.085 |
11508.12 |
12676.15 |
14163.69 |
16176.46 |
170 |
0*2*3 |
迭代次数n |
1547.613 |
11531.02 |
12737.23 |
14278.24 |
16147.87 |
168 |
画出s曲线和n曲线
可见s和n之间的反比关系很明显,s增加而n减小。
所以综合前面的实验,对两张图片的二分类问题s和n之间保持了一种很严格的反比关系。而对3张图片的二分类问题和3张图片的3分类问题s和n之间确只能做到近似相符,为什么会是这样?
( A,B )---m*n*k---(1,0)(0,1)
( 粒子,环境 )---m*n*k---(1,0)(0,1)
这件事或许可以做如下猜测,对于一个二分类网络,可以将分类的两个对象理解为粒子和环境,粒子处在环境中,而环境中只有这一个粒子。在这个物理环境中是没有时间的。因此这个粒子或者是静止或者做匀速直线运动,这个粒子的过去和未来没有任何区别,这等价于时间是静止的。这个粒子可以随意的穿梭到过去和未来。
或者理解为粒子在环境中,则粒子在任意时刻相对环境都有一个相对距离为0的状态,粒子和环境的相对距离为0,而t=s/v则无论粒子和环境之间如何相互作用,这种力的作用过程都将是瞬时的,耗时为0.所以无论用哪种方式理解在仅有1个粒子的环境中,没有时间变量。A和B是瞬时作用。
( A B,C )---m*n*k---(1,0)(0,1)
( 粒子A 粒子B,环境C )---m*n*k---(1,0)(0,1)
因此对3张图片的二分类问题,可以理解为是粒子A和粒子B与环境C二分类,这时在环境C中存在两个粒子,这时粒子A和B的运动的同时性就是相对的。这也就意味着这个环境中出现了一个新的变量,t时间。A和B运动的先后出现了时序问题。
( A, B, C )---m*n*k---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
( 粒子A, 粒子B, 环境C )---m*n*k---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
同样对于3分类问题,如果假设粒子和环境的作用是瞬时的,那粒子和粒子之间的相互作用也总有先后问题,同样会导致时序t的产生。
所以之所以在3张图片的二分类问题和3张图片的三分类问题中会有对称导致的不规则的结构耦合效应,是因为相对两张图片的二分类问题出现了一个新的物理量时序t。