BERT全称:Bidirectional Encoder Representations from Transformers,(来自“变形金刚” 的双向编码器),一种基于Transformer的用于NLP预训练机器学习技术。2018年由Google创建并发布[1]。
2019 年,谷歌宣布已开始在其搜索引擎中使用BERT[2]。
2020 年的一项文献调查得出的结论是,“在一年多一点的时间里,BERT 已成为 NLP 实验中无处不在的基线”,共有 150 多篇研究出版物分析和改进了该模型[3]。
BERT 使用掩码语言建模(MLM) 和 下一句预测两个无监督预测任务进行预训练。
GitHub地址:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT
论文地址:https://arxiv.org/pdf/1810.04805.pdf
他们的贡献:
BERT_BASE:L=12,hidden=768,heads=12,parameters=110M
BERT_LARGE:L=24,hidden=1024,heads=16,parameters=340M
(Bert_Base)
sentence = "my dog is cute, he likes playing"
大致流程:
宝藏讲解https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html
另一个宝藏讲解https://www.cnblogs.com/gczr/p/12393925.html
(1,11,768) = (batch_size,max_len,embedding)
bert base uncased vocab size:30522
可以对这些进行调参
[1] Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. https://doi.org/10.48550/arXiv.1810.04805
[2] BERT (language model). (2022, August 31). In Wikipedia. https://en.wikipedia.org/wiki/BERT_(language_model)
[3] Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403