BERT里MLM和NSP任务是在哪里训练的?

MLM和NSP分别在BERT哪个部分进行的啊,是在FFN里吗,还是多头注意力的时候就已经在训练了,查了好多资料都没有说过这个问题。

另外Bert训练的时候多个encoder是并行的,多个encoder输出结果怎么汇总呢?
感谢大佬们回复!

你可能感兴趣的:(bert,人工智能,深度学习)