句子分类_Bert做新闻标题文本分类

句子分类_Bert做新闻标题文本分类_第1张图片

本文介绍一下如何使用bert_seq2seq框架很轻松的做文本分类任务~框架地址在:

https://github.com/920232796/bert_seq2seq​github.com

上面还有很多好玩的小例子,可以去自己尝试!

先来看下效果

这次是14分类

target = ["财经", "彩票", "房产", "股票", "家居", "教育", "科技", "社会", "时尚", "时政", "体育", "星座", "游戏", "娱乐"]

即输入一个句子,输出14类中概率最大的那一类~

输入:

句子分类_Bert做新闻标题文本分类_第2张图片

两个句子,让模型去预测分别属于哪一类。

输出:

eb6e0456d43d2cc219d4314a8bc8f1be.png

可以看到输出结果就是体育和房产!

其实文本分类任务应该算是稍微简单的任务了,只训练了一个epoch,大概两个小时,效果就已经非常不错了。

流程

具体流程也很简单

  1. 处理数据,首先把输入输出数据都处理好,输入即是一个个文本句子,输出呢,就是文本句子对应的类别,要把每一类(文本)转换为数字,比如14类,那么对应的target id 则为0 - 13.
  2. 下载好预训练模型和字典以后,便可以很轻松进行加载了~
self.bert_model = load_bert(word2idx, model_name=model_name, model_class="cls", target_size=len(target))
load_model_params(self.bert_model, model_path)

这是摘自文本分类例子里面的代码,使用第一行,一行代码即可加载bert模型,model-class=cls 表明我们要做文本分类任务,target-size 意思就是类别的总数。

第二行代码表示我们要加载bert的预训练参数,加载完参数便可以愉快的进行训练自己的任务了~

具体详细代码可以去github上面找下这个文本分类的例子,非常简单!

另外欢迎来自己的博客逛逛~blog另外欢迎来自己的博客逛逛~

blog​www.blog.zhxing.online

你可能感兴趣的:(句子分类)