BERT模型

BERT模型是Google推出的一个自编码语言模型,它基于Transformer架构,可以进行双向的语言理解。

BERT模型的基本原理是将token、segment、position进行embedding,然后将它们相加作为输入层,再通过Transformer做encoder进行处理。该模型采用两个任务进行预训练,分别是遮盖语言建模(Masked Language Modeling, MLM)和下一句预测(Next Sentence Prediction, NSP)。

BERT模型可以应用于多个NLP任务中,如情感分析、问答任务、命名实体识别等。在分类任务中,比如情感分析,只需要在Transformer的输出之上加一个分类层;在问答任务中,问答系统需要接收有关文本序列的问题,并且需要在序列中标记答案,可以使用BERT学习两个标记答案开始和结尾的向量来训练问答模型;在命名实体识别中,系统需要接收文本序列,标记文本中的各种类型的实体(人员、组织、日期等),可以用BERT将每个token的输出向量送到预测NER标签的分类层。

1.BERT模型的背景 

BERT模型_第1张图片

BERT模型_第2张图片

BERT模型_第3张图片

2.BERT模型的结构 

BERT模型_第4张图片

BERT模型_第5张图片

BERT模型_第6张图片

3. BERT模型的预训练

BERT模型_第7张图片

BERT模型_第8张图片

BERT模型_第9张图片

4.BERT模型的应用

BERT模型_第10张图片

BERT模型_第11张图片

BERT模型_第12张图片

附录:BERT模型_第13张图片

 

 

你可能感兴趣的:(#,智能客服__技术,bert,人工智能,深度学习,人机交互,语音识别,自然语言处理)