attention is all you need 解读

 这几个超参数可变,但是也不能变得太多;

语言本身是复杂的,但可以按照多套语法体系来解剖语言现象,所以超参数是有一定可变的范围;

attention is all you need 解读_第1张图片

为什么是6层编码器和解码器呢?

人类的语言可以按照六个层次来组织:

词法,简单句法,复合句法,段内文法,章内文法,章间文法;

个人觉的7会更好,因为7是一个完全数;可能还存在一种语法关系,人类没有捕捉到;

为什么多头注意力要有8个head呢?

上面每一层次的语法,在本层类,都可以按照8个特征关系类来划分;

比如词法:动词,形容词,名词,代词,...

比如简单句法:主谓,主谓宾,主谓宾补,主系表,...

比如复合句法:转折,因果,让步,排比,...

后面三个更高级,但其内部一定有特征关系;

个人觉的7会更好,因为7是一个完全数;每层8关系似乎太多了

网络结构如何把低阶语法关系传递到高层上去的呢?

比如第一层的词法关系,如何传递到第二层的简单句法里去了呢?第二层的简单句法关系,又是如何编码并传递到复合句法层的呢?

你可能感兴趣的:(transformer)