深入解析PyTorch中MultiheadAttention的隐藏参数add_bias_kv与add_zero_attn
关键背景最近在学习pytorch中的源码尤其是nn.modules下算子的实现,针对activation.py下MultiheadAttention下有两个不常见的参数的使用比较有趣,因为时序领域很少使用这两个参数(add_bias_kv和add_zero_attn),但是其目的似乎很适配时序场景,尽管逻辑上听起来其直接简单,但是还是打算手动推导分析其具体的变换。以熟悉其具体的变换。参数作用源码中