BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记
主要结构仍是TransformerInput:a.WordPieceembeddingsb.learnedpositionalembeddings,upto512tokens。c.增加了一个特殊的token:[CLS],用于分类任务。这个token的deepfeature用于分类任务。d.Sentencepairs,两个句子合成一句,并用一个特殊的token:[SEP]隔开。同时增加两个可训练的s