章节五:RASA NLU组件介绍--语言模型和分词器


这里写目录标题

    • 一、前言
    • 二、语言模型组件
      • 1、MitieNLP
      • 2、SpacyNLP
    • 三、分词器
      • 1、WhitespaceTokenizer
      • 2、JiebaTokenizer
      • 3、MitieTokenizer
      • 4、SpacyTokenizer
      • 5、自定义分词器

一、前言

RASA在处理对话时,整体流程是pipeline结构,自然语言理解(NLU)、对话状态追踪(DST)以及对话策略学习(DPL)一系列流程处理下来,再判断执行下一个动作。其中,NLU组件主要是将用户的输入处理成结构化输出。该组件主要用途为实体抽取、意图分类、响应选择、预处理等。NLU组件也是一个可细分pipeline结构,过程是Tokenize->Featurize->NER Extract->Intent Classify。

二、语言模型组件

如果开发者想在pipline中使用预训练的词向量,以下组件会加载所需的预训练模型。RASA中间内置的预训练模型可以通过过以下组件进行加载。

1、MitieNLP

mitie 基于dlib库开发,dlib是一个c++高性能机器学习库。所以对性能有要求的信息抽取场景,可以考虑使用mitie。mitie现有的资料比较少,github最近更新也是五六年前了。从mitie代码中看到它的NER使用structural_sequence_labeling_trainer.实现的细节见https://www.aaai.org/Papers/ICML/2003/ICML03-004.pdf 文中指出,MITIE的NER是HMM 和SVM相结合做的。相比单纯的HMM,这种方法是基于最大margin 标准。这相比纯CRF或者最大熵的HMM有很多优势:
1)可以通过核函数学习非线性的判断关系
2)可以处理overlapping features.

但毕竟是基于传统机器学习的方式,相对于BERT这种海量语料预训练模型来说,效果还是稍差一点,这个可以使用RASA的NLU评估工具跑分试一下[NLU pipelines评估]。但MITIE有无可比拟的速度优势,在算力敏感的情况下自己权衡选择,RASA已经不做官方推荐了。

RASA中配置MitieNLP,需要在config.yml文件中pipline中配置。

pipeline:
 --name: "MitieNLP"
  # language model to load
  model: "data/total_word_feature_extractor.dat"

开发者还可以使用 MITIE 工具来训练自己的预训练语言模型。为此:

  1. 获取一个处理干净的语言语料库(维基百科转储作品)作为训练语料。
  2. 在语料库上运用MITIE Wordrep 工具。这可能需要几个小时/几天,具体取决于开发者的数据集和工作站。您需要 128GB 的 RAM 才能运行 wordrep – 是的,这很多:尝试扩展您的交换空间。
  3. 将新的路径设置为配置文件中组件 total_word_feature_extractor.dat的model参数。MitieNLP有关如何训练 MITIE 词向量的完整示例,请查看使用 Rasa NLU 构建自己的中文 NLU 系统,这是一篇从中文维基百科转储中创建 MITIE 模型的博文。

2、SpacyNLP

spaCy是一个用Python和Cython编写的高级自然语言处理的库。它跟踪最新的研究成果,并将其应用到实际产品。spaCy带有预训练的统计模型和单词向量,目前支持60多种语言。它用于标记任务,解析任务和命名实体识别任务的卷积神经网络模型,在非常快速的情况下,达到比较好的效果,并且易于在产品中集成应用。在github上接近24k的stars,并且更新比较活跃。最新发布的spaCy3.4也集成了Transformer相关模型。

使用spaCy时,文本字符串的第一步是将其传递给NLP对象。NLP对象本质上是由几个文本预处理操作组成的管道,输入文本字符串通过管道后,最终输出文档,完成各种功能。spacy的中文模型的下载地址:https://github.com/explosion/spacy-models。
Spacy工具在各大NLP任务中的效果如下:
在这里插入图片描述
RASA中配置spacynlp,需要在config.yml文件中pipline中配置。

pipeline:
- name: "SpacyNLP"
  # language model to load
  model: "en_core_web_md"

  # when retrieving word vectors, this will decide if the casing
  # of the word is relevant. E.g. `hello` and `Hello` will
  # retrieve the same vector, if set to `False`. For some
  # applications and models it makes sense to differentiate
  # between these two words, therefore setting this to `True`.
  case_sensitive: False

有关如何下载 spaCy 模型的更多信息,请转到 安装 SpaCy。

除了 SpaCy 的已有预训练语言模型,开发者还可以使用此组件添加自己训练好的 spaCy 模型。具体请参考Spacy的官方文档:Models & Languages · spaCy Usage Documentation 。

三、分词器

分词器主要是将文本拆分为token。如果开发者想将意图拆分为多个标签,例如用于预测多个意图或为分层意图结构建模,请将以下tag与任何分词器一起使用:

  • intent_tokenization_flag指示是否标记意图标签。将其设置为True,以便标签化意图标签。
  • intent_split_symbol 设置分割意图标签的分隔符字符串,默认为下划线(_)。

1、WhitespaceTokenizer

空格分词器,每个空格间隔的文本,都将分为一个token,典型英文句子的分词,主要作用于用户消息、响应(如果存在)和意图(如果指定)。该分词器不支持中文分词。

RASA主要是在config.yaml文件中配置,配置方式如下:

pipeline:
- name: "WhitespaceTokenizer"
  # Flag to check whether to split intents
  "intent_tokenization_flag": False
  # Symbol on which intent should be split
  "intent_split_symbol": "_"
  # Regular expression to detect tokens
  "token_pattern": None

intent_tokenization_flag 和 intent_split_symbol 是在nlu返回多意图的时候使用。当intent_tokenization_flag设置为False,nlu只返回一个置信度最高的意图。但有些时候,一句话包含多个意图,例如:

## intent: affirm+ask_transport
- Yes. How do I get there?
- Sounds good. Do you know how I could get there from home?

用户的回答包含2层意思,首先是同意我的建议,另外是询问怎么去。这时候,需要将intent_tokenization_flag设置为True,然后在训练数据里面编写多意图对应的话术,多个意图中间用intent_split_symbol去分割。在运行的时候,用户说“Sounds good. Do you know how I could get there from home?”,Rasa nlu就会返回affirmask_transport这个意图。

2、JiebaTokenizer

jieba分词器,仅可以在中文分词使用,支持自定义词库分词,主要作用于用户消息、响应(如果存在)和意图(如果指定)。词库的配置方法如下:

pipeline:
- name: "JiebaTokenizer"
  dictionary_path: "path/to/custom/dictionary/dir"
  # Flag to check whether to split intents
  "intent_tokenization_flag": False
  # Symbol on which intent should be split
  "intent_split_symbol": "_"
  # Regular expression to detect tokens
  "token_pattern": None

其中,dictionary_path是字典文件所在路径。

3、MitieTokenizer

开发者使用MitieNLP进行分词时,前提是需要配置Mitie语言模型,一般在使用全套MiteNLP的时候使用。开发者如果使用BERT进行Featurizer提取,那Tokenizer就可以任选一个,比如中文用Jieba,英文用空格分词就行。

pipeline:
- name:"MitieTokenizer"
  # Flag to check whether to split intents
  "intent_tokenization_flag":False
  # Symbol on which intent should be split
  "intent_split_symbol":"_"
  # Regular expression to detect tokens
  "token_pattern": None

4、SpacyTokenizer

开发者使用SpacyNLP进行分词时,前提是需要配置Spacy语言模型,一般在使用全套SpacyNLP的时候使用。

pipeline:
- name: "SpacyTokenizer"
  # Flag to check whether to split intents
  "intent_tokenization_flag": False
  # Symbol on which intent should be split
  "intent_split_symbol": "_"
  # Regular expression to detect tokens
  "token_pattern": None

5、自定义分词器

如果上述分词器不满足要求,可以自定义分词器。要实现自定义分词器,需要继承Tokenizer和Component类,需要重载的函数有:init,train,tokenize,具体模板如下:

class CustomTokenizer(Tokenizer, Component):
    provides = [MESSAGE_TOKENS_NAMES[attribute] for attribute in MESSAGE_ATTRIBUTES]
    
    def train(
        self, training_data: TrainingData, config: RasaNLUModelConfig, **kwargs: Any
    ) -> None:
    for example in training_data.training_examples:
    for attribute in MESSAGE_ATTRIBUTES: 
        if example.get(attribute) is not None:
            example.set(
                MESSAGE_TOKENS_NAMES[attribute],
                self.tokenize(example.get(attribute), attribute),
            )

            # 主要是要实现对应的tokenize
def tokenize(self, text: Text) -> List[Token]:
    pass

简单做个总结,需要加载语言模型的分词器有Mitie,SpaCy。其中Mitie没有中文预训练模型,如果实现中文对话系统,需要自行准备语料训练Mitie语言模型。其中SpaCy有现成的中文模型,可以直接加载使用。如果需要使用LanguageModelFeaturizer中的各种BERT大模型,在分词器阶段就可以任意配置一个分词器即可,一般中文配置jiebaTokenizer,英文配置WhitespaceTokenizer,但是必须需要配置。

你可能感兴趣的:(多轮对话,语言模型,人工智能)