bert中文文本情感分类 微博评论挖掘之Bert实战应用案例-文本情感分类

bert中文文本情感分类 微博评论挖掘之Bert实战应用案例-文本情感分类_第1张图片
Bert模型全称Bidirectional Encoder Representations from Transformers,主要分为两个部分:1训练语言模型(language model)的预训练(pretrain)部分,2训练具体任务(task)的fine-tune部分。Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。

相比之前的Word Embedding模型,Bert 模型具有双向,多层,随机Mask,并且融合了自然语言处理前沿技术transformer 权重处理多种优点,可以说是ELMO、GPT、Word2Vec的集大成者。具体原理上的理解各位可以移步至张俊林博士解读BERT非常详尽清晰,有助于各位从理论上加深理解Bert的原理。本文主要从Bert实践角度,拎出实用的代码片段,来完成文本情感分类。

**数据准备:**七彩鹿互联网早教提供的微博“早教”热度话题评论数据源

首先下载Bert预训练模型:

google公布了一个参数较小的BERT预训练模型,点击下载。文件里有五个文件,其中bert_model.ckpt开头的文件是负责模型变量载入的,而vocab.txt是训练时中文文本采用的字典,最后bert_confi

你可能感兴趣的:(NLP,人工智能技术)