统计直线上2个点的分布占比

直线上有6个格子,向格子里扔2个石子,共有5种可能。

1

1

0

0

0

0

0

1

1

0

0

0

0

0

1

1

0

0

0

0

0

1

1

0

0

0

0

0

1

1

第1种两个石子是连着的,共有5个

1

0

1

0

0

0

0

1

0

1

0

0

0

0

1

0

1

0

0

0

0

1

0

1

第2种两个石子间隔1个格子,有4个

1

0

0

1

0

0

0

1

0

0

1

0

0

0

1

0

0

1

两个石子间距为2,有3个

1

0

0

0

1

0

0

1

0

0

0

1

两个石子间距为3,有2个

1

0

0

0

0

1

两个石子间距4,只有1个。一共只有这15种可能。

15

%

5

0.333333

4

0.266667

3

0.2

2

0.133333

1

0.066667

所以两个石子间距越大,发生的概率越小。所以随机的向这6个格子里扔2个石子,有1/3的概率两个石子是连着的。

( A, B )---1*30*2---( 1, 0 )( 0, 1 )

做一个网络分类A和B,让B全是0,A训练集只有6张图片。

A

迭代次数

1

1

0

0

0

0

58609.84

首先分类1,1,0,0,0,0,得到平均收敛迭代次数为58609,因为差值结构的行可以按照1-2-3-4-5-6-1的顺序变换,所以

1

1

0

0

0

0

0

1

1

0

0

0

0

0

1

1

0

0

0

0

0

1

1

0

0

0

0

0

1

1

第一组5个结构的迭代次数都相同。

用同样的办法测量第2组和第3组

A

迭代次数

1

1

0

0

0

0

58609.84

1

0

1

0

0

0

61017.26

1

0

0

1

0

0

63229.15

得到表格,很明显间距是0,1,2的3组的迭代次数是逐渐增加的。因为间距是0,1,2的3组发生的概率是由大到小的,所以这里的迭代次数与结构A的发生概率成反比。发生概率越大,迭代次数越小。越容易被随机到,越容易收敛。

1

1

0

0

0

0

1

0

0

0

0

1

但在神经网络中因为差值结构的循环节长度是6,所以间距为0和间距为4的迭代次数是一样的。

1

0

1

0

0

0

1

0

0

0

1

0

同样间距为1和间距为3的迭代次数也是相同的。

所以只有3组不同的迭代次数。

所以网络

( A, B )---1*30*2---( 1, 0 )( 0, 1 )

的收敛过程等价于随机的向直线上的6个格子里扔石子,有的结构更容易收敛是因为这个结构在搜索范围内天然的占比更大。

随机验算,随机扔了500次,1000次

组合

15

%

500

%

1000

%

5

0.333333

172

0.344

323

0.323

4

0.266667

131

0.262

276

0.276

3

0.2

94

0.188

200

0.2

2

0.133333

66

0.132

137

0.137

1

0.066667

37

0.074

64

0.064

你可能感兴趣的:(用分类实现衰变,结构加法,结构分布概率)