无名之辈FTER

Rasa中文聊天机器人开发指南(2)：NLU篇

文章目录

1. 什么是NLU
2. NLU训练数据

2.1 NLU样本格式
2.2 验证数据有效性

2.2.1 使用命令
2.2.2 使用代码

2. Rasa NLU Components

2.1 词向量资源（Word Vector Sources）

2.1.1 MitieNLP
2.1.2 SpacyNLP

2.2 分词（Tokenizers）

2.2.1 WhitespaceTokenizer
2.2.2 JiebaTokenizer
2.2.3 MitieTokenizer
2.2.4 SpacyTokenizer
2.2.5 ConveRTTokenizer

2.3 文本特征化（Text Featurizers）

2.3.1 MitieFeaturizer
2.3.2 SpacyFeaturizer
2.3.3 ConveRTFeaturizer
2.3.4 RegexFeaturizer
2.3.5 CountVectorsFeaturizer

2.4 意图分类（Intent Classifiers）

2.4.1 MitieIntentClassifier
2.4.2 SklearnIntentClassifier
2.4.3 EmbeddingIntentClassifier
2.4.4 KeywordIntentClassifier

2.5 选择器（Selectors）

2.5 Response Selector

2.6 实体提取（Entity Extractors）

2.6.1 MitieEntityExtractor
2.6.2 SpacyEntityExtractor
2.6.3 EntitySynonymMapper
2.6.4 CRFEntityExtractor
2.6.5 DucklingHTTPExtractor

3. Rasa NLU Pipline

3.1 使用Template Pipline

3.1.1 pretrained_embeddings_spacy
3.1.2 supervised_embeddings
3.1.3 pretrained_embeddings_convert
3.1.4 MITIE

3.2 使用Custome Pipline

3.2.1 zh_jieba_mitie_sklearn
3.2.2 zh_crf_supervised_embeddings

4. 改进ChitChatAssistant项目

4.1 改进nlu.md
4.2 改进config.yml
4.3 效果演示

RASA 开发中文指南系列博文：

Rasa中文聊天机器人开发指南(1)：入门篇
Rasa中文聊天机器人开发指南(2)：NLU篇
Rasa中文聊天机器人开发指南(3)：Core篇
Rasa中文聊天机器人开发指南(4)：RasaX篇
Rasa中文聊天机器人开发指南(5)：Action篇

注：本系列博客翻译自Rasa官方文档，并融合了自己的理解和项目实战，同时对文档中涉及到的技术点进行了一定程度的扩展，目的是为了更好的理解Rasa工作机制。与本系列博文配套的项目GitHub地址：ChitChatAssistant，欢迎star和issues，我们共同讨论、学习！

1. 什么是NLU

自然语言理解技术（NLU，natural language understanding）是人机对话产品中的重要一环，是指机器能够理解执行人类所期望的某些语言功能，换句话说就是人与机器交流的桥梁。语言理解通常分为三个层次：词法分析、句法分析、语义分析，其中，词法分析是自然语言理解过程的第一层，它的性能直接影响到后面句法和语义分析的成果，主要包括自动分词、词性标注、中文命名实体标注三方面内容；句法分析的目标是自动推导出句子的句法结构，实现这个目标首先要确定语法体系，不同的语法体系会产生不同的句法结构，常见语法体系有短语结构语法、依存关系语法；语义分析就是指分析话语中所包含的含义，根本目的是理解自然语言。分为词汇级语义分析、句子级语义分析、段落／篇章级语义分析，即分别理解词语、句子、段落的意义。

（1）语义理解含义

语言理解主要包括以下方面内容：

能够理解句子的正确次序规则和概念，又能理解不含规则的句子；
知道词的确切含义、形式、词类及构词法；
了解词的语义分类、词的多义性、词的歧义性；
指定和不定特性及所有特性；
问题领域的结构知识和实践概念；
语言的语气信息和韵律表现；
有关语言表达形式的文字知识；
论域的背景知识。

（2）自然语言理解一般过程

注：该图来源于自然语言处理(NLP)的一般处理流程，还提供了百度脑图查看点击链接。

2. NLU训练数据

2.1 NLU样本格式

Rasa框架提供了两种NLU模型训练样本数据格式，即Markdown或JSON，我们可以将NLU训练数据保存到单独的文件或者多个文件的目录。由于JSON的可读性不是很好，通常我们使用Markdown来存储训练数据。

## intent:request_phone_business
- 查个手机号
- 查电话号码[19800222425](phone_number)
- [余额](business)
- 查下[腾讯视频流量包](mobile_data_package)
- 你好！请帮我查询一下电话[12260618425](phone_number)的[账户余额](business)
- 帮我查个手机号[19860612222](phone_number)的[话费](business)
- 查下号码[19860222425](phone_number)的[抖音免流包](mobile_data_package)

## synonym:余额
- 余额
- 话费
- 话费余额
- 账户余额

## regex:phone_number
- ((\d{3,4}-)?\d{7,8})|(((\+86)|(86))?(1)\d{10})

## lookup: mobile_data_package
data/lookup_tables/DataPackage.txt

nlu.md训练数据包含四部分：

（1）Common Examples

在NLU训练样本文件中，Common examples是唯一必须的，它是NLU模型的核心，也是训练NLU模型的基础。Common examples由三部分组成：intent、text和entities，其中，text表示用户自然语言文本，即用户Message；intent表示某个意图，它应于某些text相对应；entities表示将要被提取的目标实体，我们需要在text文本中标出(如果该text存在实体的话)。Common Examples一般格式如下：

## intent:你的意图名称
- text

注：text中可以不包括实体，但如果包含需要用[entityText](entityName)进行标志。

（2）synonyms

同义词，顾名思义，对于同义词来说，在实体提取时会统一被解析成同一个意思。比如：

## synonym:余额
- 余额
- 话费
- 话费余额
- 账户余额

在我们说账户余额、话费等词语时，NLU在提取实体时会能够成功被捕获，并被统一解析成余额。需要注意的是，为了在训练数据中使用同义词，需要pipeline中包含EntitySynonmMapper组件。

（3）Regular Expression Features

正则表达式特征有助于意图分类和实体提取，但是它并不参与实体和意图的定义，仅仅是提供规则来协助意图分类和实体提取，因此，在训练文本text中，该添加的实体和意图样本需要照样添加。比如当需要用户输入的手机号实体时，我们可以再nlu.md文件中添加正则表达式特征支持，当用户输入的Message包含符合手机号正则表达式规则的内容时，Rasa可以更加容易地将其提取出来。Regular Expression Features一般格式如下：

## regex:phone_number
- ((\d{3,4}-)?\d{7,8})|(((\+86)|(86))?(1)\d{10})

注意：phone_number表示的既不是实体名也不是意图名，它只是一个便于我们阅读的标志而已。除了实体识别，我们还可以编写符合意图分类的正则表达式，这里就不演示了。另外，需要注意的是，对于实体提取来说，目前只有CRFEntityExtractor 实体提取器支持正则特征，像``MitieEntityExtractor和SpacyEntityExtractor目前还不支持；对于意图分类器，目前均已支持正则特征。最后，为了使用正则特性，我们需要在pipline中添加RegexFeaturizer`组件。

（4）lookup tables

查找表有利于在加载训练数据时，生成与Regular Expression Features相同的正则特征。当在训练数据中提供查找表时，内容被组合成一个大型、不区分大小写的regex模式，该模式在训练示例中查找精确匹配。这些正则表达式匹配多个token，其处理与训练数据中直接指定的正则表达式模式相同。查找表可以包括在训练数据中，如果外部提供的数据必须要以换行进行分隔。比如data/lookup_tables/DataPackage.txt可以包含：

腾讯视频流量包
爱奇艺会员流量包
网易免流包
抖音免流包
流量月包
酷狗定向流量包

对该查找表在nlu.md文件中加载如下：

## lookup: mobile_data_package
data/lookup_tables/DataPackage.txt

注意：mobile_data_package表示实体名。为了查找表能够有效的被使用，训练数据中必须要有一些示例被匹配上。否则，模型不会使用查找表特征向查找表添加数据时必须小心，比如如果表中有误报或其他噪声，就会影响性能，因此请确保查找表包含干净的数据。

2.2 验证数据有效性

检查domian.yml、NLU data和Story data是否有错误。

2.2.1 使用命令

python m rasa data validate

参数说明：

usage: rasa data validate [-h] [-v] [-vv] [--quiet] [--fail-on-warnings]
                          [-d DOMAIN] [--data DATA]

optional arguments:
  -h, --help            show this help message and exit
  --fail-on-warnings    Fail validation on warnings and errors. If omitted
                        only errors will result in a non zero exit code.
                        (default: False)
  -d DOMAIN, --domain DOMAIN
                        Domain specification (yml file). (default: domain.yml)
  --data DATA           Path to the file or directory containing Rasa data.
                        (default: data)

Python Logging Options:
  -v, --verbose         Be verbose. Sets logging level to INFO. (default:
                        None)
  -vv, --debug          Print lots of debugging statements. Sets logging level
                        to DEBUG. (default: None)
  --quiet               Be quiet! Sets logging level to WARNING. (default:
                        None)

2.2.2 使用代码

import logging
from rasa import utils
from rasa.core.validator import Validator

logger = logging.getLogger(__name__)

utils.configure_colored_logging('DEBUG')

validator = Validator.from_files(domain_file='domain.yml',
                                 nlu_data='data/nlu_data.md',
                                 stories='data/stories.md')

validator.verify_all()

2. Rasa NLU Components

2.1 词向量资源（Word Vector Sources）

2.1.1 MitieNLP

MitieNLP	说明
Short:	MITIE initializer，即Mitie是MITIE initializer的简称。
Outputs:	无
Requires:	无
Description:	初始化mitie结构。每个mitie组件都依赖于此，因此应该将其放在任何使用mitie组件的每个管道(pipline)的开头
Configuration:	MITIE 需要一个语言模型(.dat)，且必须在configs.yml配置中指定。示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "MitieNLP"
  # 语言模型
  model: "data/total_word_feature_extractor_zh.dat"

2.1.2 SpacyNLP

SpacyNLP	说明
Short:	spacy language initializer，即spacy语言初始化
Outputs:	无
Requires:	无
Description:	初始化`spacy`结构。每个`spacy`组件都依赖于此，因此应该将其放在任何使用mitie组件的每个管道(pipline)的开头
Configuration:	Spacy需要配置语言模型，默认将使用配置的语言。如果要使用的spacy模型的名称不同于language标记(“en”、“de”等)，则可以使用配置变量指定模型名称，将名称将传递给模型：`space.load(name)`。示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "SpacyNLP"
  # 指定语言模型
  model: "en_core_web_md"
  # 设定在检索单词向量时，这将决定单词的大小写是否相关
  # 当为false时，表示不区分大小写。比如`hello` and `Hello`
  # 检索到的向量是相同的。
  case_sensitive: false

2.2 分词（Tokenizers）

2.2.1 WhitespaceTokenizer

WhitespaceTokenizer	说明
Short:	分词器以空格(`whitespaces`)作为分词间隔
Outputs:	无
Requires:	无
Description:	为每个以空格分隔的字符序列创建token，得到token可用于MITIE实体提取器。
Configuration:	如果想把意图分成多个标签，例如，为了预测多个意图或为分层的意图结构建模，使用`intent_split_symbol`标志。可以通过`case_sensitive`设置是否大小写敏感，默认true(敏感)。示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "WhitespaceTokenizer"
  # 指定是否大小写敏感，默认true为敏感
  case_sensitive: false

2.2.2 JiebaTokenizer

JiebaTokenizer	说明
Short:	使用Jieba作为 Tokenizer，对中文进行分词
Outputs:	无
Requires:	无
Description:	用于中文的Tokenizer，对于其他语种Jieba会如`WhitespaceTokenizer`般工作。JiebaTokenizer可为MITIE实体抽取器定义token。
Configuration:	用户的`自定义字典文件`可以通过特定的文件目录路径`dictionary_path`自动加载，但是需要在配置文件中进行配置。示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "JiebaTokenizer"
  # 指定自定义词典
  dictionary_path: "path/to/custom/dictionary/dir"

2.2.3 MitieTokenizer

MitieTokenizer	说明
Short:	使用Mitie进行分词
Outputs:	无
Requires:	需要先配置`MitieNLP`，参照`2.1.1`
Description:	用MITIE tokenizer创建tokens，从而服务于 MITIE 实体抽取
Configuration:	示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "MitieTokenizer"

2.2.4 SpacyTokenizer

SpacyTokenizer	说明
Short:	使用`Spacy`进行分词
Outputs:	无
Requires:	需要先配置`SpacyNLP`，参照`2.1.2`
Description:	用Spacytokenizer创建tokens，从而服务于Spacy 实体抽取
Configuration:	示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "SpacyTokenizer"

2.2.5 ConveRTTokenizer

SpacyNLP	说明
Short:	使用`ConveRt`进行分词
Outputs:	无
Requires:	无
Description:	用ConveRT Tokenizer创建tokens，从而服务于`ConveRTFeaturizer` 实体抽取
Configuration:	示例如下：

在configs.yml中应如下配置：

pipeline:
- name: "ConveRTTokenizer"

2.3 文本特征化（Text Featurizers）

2.3.1 MitieFeaturizer

MitieFeaturizer	说明
Short:	MITIE intent featurizer，即使用MITIE特征化意图信息
Outputs:	无，作为意图分类器的输入(例如`SklearnIntentClassifier`)
Requires:	需要先配置`MitieNLP`，参照`2.1.1`
Type：	稠密featurizer
Description:	使用MITIE featurizer为意图分类创建特征。需要注意的是：`MitieIntentClassifier`组件中并没有使用。目前，只有`SklearnIntentClassifier`能够使用预先计算的特性。

在configs.yml中应如下配置：

pipeline:
- name: "MitieFeaturizer"

2.3.2 SpacyFeaturizer

SpacyFeaturizer	说明
Short:	spacy intent featurizer，即使用Spacy特征化意图信息
Outputs:	无，作为意图分类器的输入(例如`SklearnIntentClassifier`)
Requires:	需要先配置`SpacyNLP`，参照`2.1.2`
Type:	稠密featurizer
Description:	使用spacy featurizer为意图分类创建特征。

在configs.yml中应如下配置：

pipeline:
- name: "SpacyFeaturizer"

2.3.3 ConveRTFeaturizer

ConveRTFeaturizer	说明
Short:	使用ConveRT模型创建用户消息和响应(如果指定的话)的向量表示
Outputs:	无，作为意图分类器和response selectors的输入，分别对应意图特征和响应特征。比如`EmbeddingIntentClassifier`和`ResponseSelector`
Requires:	需要配置`ConveRTTokenizer`，参见`2.2.5`小节
Type:	稠密featurizer
Description:	为意图分类和响应选择创建特征，使用默认签名来计算输入文本的向量表示。需要注意：(1)由于`ConveRT`模型仅在英语语料上训练，因此只有当训练数据是英语语言时才能使用这个featurizer。 (2)使用之前需要安装`tensorflow_text`和`tensorflow_hub`)，可以通过`pip install rasa[convert]`来安装。

在configs.yml中应如下配置：

pipeline:
- name: "ConveRTFeaturizer"

2.3.4 RegexFeaturizer

RegexFeaturizer	说明
Short:	创建`正则表达式特征`以支持`意图`和`实体`分类
Outputs:	`text_features` 和 `tokens.pattern`
Requires:	无
Type:	稀疏 featurizer
Description:	为实体提取和意图分类创建特征。在训练期间，regex intent featurizer 以训练数据的格式创建一系列正则表达式列表。对于每个正则，都将设置一个特征，标记是否在输入中找到该表达式，然后将其输入到intent classifier / entity extractor 中以简化分类(假设分类器在训练阶段已经学习了该特征集合，该特征集合表示一定的意图)。将Regex特征用于实体提取目前仅CRFEntityExtractor组件支持。注意：`在 regex featurizer 之前，需要先进行tokenizer操作`。

在configs.yml中应如下配置：

pipeline:
- name: "RegexFeaturizer"

2.3.5 CountVectorsFeaturizer

CountVectorsFeaturizer	说明
Short:	创建用户信息和标签(意图和响应)的词袋表征
Outputs:	无，用作意图分类器的输入，输入的意图特征以词袋表征(如`EmbeddingIntentClassifier`)
Requires:	无
Type:	稀疏 featurizer
Description:	为意图分类和 response selection创建特征。使用`sklearn`的`CountVectorizer`创建用户消息和标签特征的词袋表征。所有token仅由数字组成(如123和99，但不会存在a123d)将被分配到相同的功能。

在configs.yml中应如下配置：

pipeline:
- name: "CountVectorsFeaturizer"
  "use_shared_vocab": False,
  analyzer: 'word' 
  token_pattern: r'(?u)\b\w\w+\b'
  strip_accents: None  
  stop_words: None 
  min_df: 1 
  max_df: 1.0 
  min_ngram: 1  
  max_ngram: 1  
  max_features: None  
  lowercase: true
  OOV_token: None  
  OOV_words: []

2.4 意图分类（Intent Classifiers）

2.4.1 MitieIntentClassifier

MitieIntentClassifier	说明
Short:	MITIE intent classifier(使用text categorizer)
Outputs:	`intent`
Requires:	tokenizer 和 featurizer
Description:	该分类器使用MITIE进行意图分类。底层分类器使用的是具有稀疏线性核的多类线性支持向量机(可以查看MITIE trainer code)

在configs.yml中应如下配置：

pipeline:
- name: "MitieIntentClassifier"

输出示例：

{
    "intent": {"name": "greet", "confidence": 0.98343}
}

2.4.2 SklearnIntentClassifier

SklearnIntentClassifier	说明
Short:	sklearn intent classifier
Outputs:	`intent` 和 `intent_ranking`
Requires:	A featurizer
Description:	该sklearn意图分类器训练一个线性支持向量机，该支持向量机通过网格搜索得到优化。除了其他分类器，它还提供没有“获胜”的标签的排名。spacy意图分类器需要在管道中的先加入一个featurizer。该featurizer创建用于分类的特征。

在configs.yml中应如下配置：

pipeline:
- name: "SklearnIntentClassifier"
  # 指定SVM训练时要尝试的参数
  # 通过运行超参数搜索，以找到最佳的参数集
  C: [1, 2, 5, 10, 20, 100]
  # 指定C-SVM使用的内核
  # 它与GridSearchCV中的“C”超参数一起使用
  kernels: ["linear"]

输出示例：

	
{
    "intent": {"name": "greet", "confidence": 0.78343},
    "intent_ranking": [
        {
            "confidence": 0.1485910906220309,
            "name": "goodbye"
        },
        {
            "confidence": 0.08161531595656784,
            "name": "restaurant_search"
        }
    ]
}

2.4.3 EmbeddingIntentClassifier

EmbeddingIntentClassifier	说明
Short:	Embedding intent classifier
Outputs:	`intent` 和`intent_ranking`
Requires:	A featurizer
Description:	嵌入式意图分类器将用户输入和意图标签嵌入到同一空间中。Supervised embeddings通过最大化它们之间的相似性来训练。该算法基于StarSpace的。但是，在这个实现中，损失函数略有不同，添加了额外的隐藏层和dropout。该算法还提供了未“获胜”标签的相似度排序。在embedding intent classifier之前，需要在管道中加入一个featurizer。该featurizer创建用以embeddings的特征。建议使用CountVectorsFeaturizer，它可选的预处理有SpacyNLP和SpacyTokenizer。

在configs.yml中应如下配置：

pipeline:
- name: "EmbeddingIntentClassifier"
# Embedding算法的控制参数非常多
# 具体参照官方文档，这里以指定训练次数为例
  epochs: 500

输出示例：

{
    "intent": {"name": "greet", "confidence": 0.8343},
    "intent_ranking": [
        {
            "confidence": 0.385910906220309,
            "name": "goodbye"
        },
        {
            "confidence": 0.28161531595656784,
            "name": "restaurant_search"
        }
    ]
}

2.4.4 KeywordIntentClassifier

KeywordIntentClassifier	说明
Short:	简单的关键字匹配意图分类器，适于小型、短期的项目
Outputs:	`intent`
Requires:	nothing
Description:	该分类器通过搜索关键字的消息来工作。默认情况下，匹配是大小写敏感的，只精确匹配地搜索用户消息中关键字。意图的关键字是NLU训练数据中意图的例子。这意味着整个示例是关键字，而不是示例中的单个单词。注意：此分类器仅用于小型项目或入门级项目。如果你有很少的NLU训练数据，则可以试试管道选择中一个管道。

在configs.yml中应如下配置：

pipeline:
- name: "KeywordIntentClassifier"
  case_sensitive: True

输出示例：

{
    "intent": {"name": "greet", "confidence": 1.0}
}

2.5 选择器（Selectors）

2.5 Response Selector

Response Selector	说明
Short:	一个字典，关键字为`direct_response_intent`，`value`属性包含`response`和`ranking`
Outputs:	`intent`
Requires:	A featurizer
Description:	该分类器通过搜索关键字的消息来工作。默认情况下，匹配是大小写敏感的，只精确匹配地搜索用户消息中关键字。意图的关键字是NLU训练数据中意图的例子。这意味着整个示例是关键字，而不是示例中的单个单词。注意：此分类器仅用于小型项目或入门级项目。如果你有很少的NLU训练数据，则可以试试管道选择中一个管道。

在configs.yml中应如下配置：

pipeline:
- name: "KeywordIntentClassifier" 
  # 算法支持很多参数配置，详情见文档
  case_sensitive: True

输出示例：

{
    "text": "What is the recommend python version to install?",
    "entities": [],
    "intent": {"confidence": 0.6485910906220309, "name": "faq"},
    "intent_ranking": [
        {"confidence": 0.6485910906220309, "name": "faq"},
        {"confidence": 0.1416153159565678, "name": "greet"}
    ],
    "response_selector": {
      "faq": {
        "response": {"confidence": 0.7356462617, "name": "Supports 3.5, 3.6 and 3.7, 
                    							 +"recommended version is 3.6"},
        "ranking": [
            {"confidence": 0.7356462617, "name": "Supports 3.5, 3.6 and 3.7, 
             										+"recommended version is 3.6"},
            {"confidence": 0.2134543431, "name": "You can ask me about how 
             										+"to get started"}
        ]
      }
    }
}

2.6 实体提取（Entity Extractors）

Here is a summary of the available extractors and what they are used for:

Component	Requires	Model	Notes
`CRFEntityExtractor`	sklearn-crfsuite	conditional random field	good for training custom entities
`SpacyEntityExtractor`	spaCy	averaged perceptron	provides pre-trained entities
`DucklingHTTPExtractor`	running duckling	context-free grammar	provides pre-trained entities
`MitieEntityExtractor`	MITIE	structured SVM	good for training custom entities
`EntitySynonymMapper`	existing entities	N/A	maps known synonyms

2.6.1 MitieEntityExtractor

MitieEntityExtractor	说明
Short:	MITIE entity extraction (using a MITIE NER trainer)
Outputs:	`entities`
Requires:	需要先配置`MitieNLP`，参照`2.1.1`
Description:	用 MITIE entity extraction抽取语句中的实体。底层分类器使用具有稀疏线性核和自定义特征的多类线性支持向量机。该MITIE组件不提供实体置信值。

在configs.yml中应如下配置：

pipeline:
- name: "MitieEntityExtractor"

输出示例

{
    "entities": [{"value": "New York City",
                  "start": 20,
                  "end": 33,
                  "confidence": null,
                  "entity": "city",
                  "extractor": "MitieEntityExtractor"}]
}

2.6.2 SpacyEntityExtractor

SpacyEntityExtractor	说明
Short:	spaCy entity extraction
Outputs:	`entities`
Requires:	需要先配置`SpacyNLP`，参照`2.1.2`
Description:	该组件使用spaCy来预测消息的实体。spacy使用统计BILOU转移模型。到目前为止，该组件只能使用spacy内置的实体提取模型，不能进行再训练。此提取器不提供任何置信评分。配置spacy组件应该提取哪些维度，比如实体类型。可用维度的完整列表可以在spaCy文档中找到。不指定维度选项将提取所有可用维度。

在configs.yml中应如下配置：

pipeline:
- name: "SpacyEntityExtractor"
  # dimensions to extract
  dimensions: ["PERSON", "LOC", "ORG", "PRODUCT"]

输出示例

	
{
    "entities": [{"value": "New York City",
                  "start": 20,
                  "end": 33,
                  "entity": "city",
                  "confidence": null,
                  "extractor": "SpacyEntityExtractor"}]
}

2.6.3 EntitySynonymMapper

EntitySynonymMapper	说明
Short:	将同义词映射到同一个值
Outputs:	修改以前的实体提取组件找到的现有实体
Requires:	无
Description:	如果训练数据包含已定义的同义词(通过对实体示例使用`value`属性)。此组件将确保检测到的实体值映射到相同的值。

在configs.yml中应如下配置：

pipeline:
- name: "EntitySynonymMapper"

训练数据与实体提取示例

[{
  "text": "I moved to New York City",
  "intent": "inform_relocation",
  "entities": [{"value": "nyc",
                "start": 11,
                "end": 24,
                "entity": "city",
               }]
},
{
  "text": "I got a new flat in NYC.",
  "intent": "inform_relocation",
  "entities": [{"value": "nyc",
                "start": 20,
                "end": 23,
                "entity": "city",
               }]
}]

在上述例子中，该组件将实体New York City和NYC映射到nyc。即使消息包含NYC，实体提取将返回nyc。当该组件更改现有实体时，它将自己附加到该实体的处理器列表中。

2.6.4 CRFEntityExtractor

CRFEntityExtractor	说明
Short:	条件随机场实体抽取器
Outputs:	entities
Requires:	A tokenizer
Description:	此组件使用条件随机场来进行命名实体识别。CRFs可以被认为是一个无向的马尔可夫链，其中时间步长是单词，状态是实体类别。单词的特征(大写，词性标注POS，等等)给出了特定实体类别的概率，就像相邻实体标记之间的转换一样：然后计算并返回最可能的标记结果。如果使用POS功能(pos或pos2)，则必须安装spaCy。如果想使用额外的功能，如预训练的词嵌入，稠密的featurizer，则可以使用“text_dense_features”。确保在相应的featurizer中将“return_sequence”设置为True。

在configs.yml中应如下配置：

	
pipeline:
- name: "CRFEntityExtractor"
  features: [["low", "title"], ["bias", "suffix3"], ["upper", "pos", "pos2"]]
  # 决定是否使用BILOU_flag
  BILOU_flag: true
  # 在训练前将该参数设定给sklearn_crfcuite.CRF tagger
  max_iterations: 50
  # 指定L1正则化系数
  # 在训练前将该参数设定给sklearn_crfcuite.CRF tagger
  L1_c: 0.1
  # 指定L2正则化系数
  # 在训练前将该参数设定给sklearn_crfcuite.CRF tagger
  L2_c: 0.1

输出示例

{
    "entities": [{"value":"New York City",
                  "start": 20,
                  "end": 33,
                  "entity": "city",
                  "confidence": 0.874,
                  "extractor": "CRFEntityExtractor"}]
}

2.6.5 DucklingHTTPExtractor

DucklingHTTPExtractor	说明
Short:	借助Duckling可以提取诸如日期、金额、距离等常见实体，且适用于多种语言
Outputs:	entities
Requires:	无
Description:	为了使用该组件需要启动一个duckling server。最简单的选择是使用docker container：docker run -p 8000:8000 rasa/duckling。另外，也可以直接在机器上安装Duckling再启动服务。Duckling可以识别日期、数字、距离和其他结构化实体和规范。请注意,duckling 试图提取尽可能多的实体类型，但没有提供排名。例如，对于文本I will be there in 10 minutes。如果在duckling组件内同时指定number和time维度,则该组件将提取两个实体：10作为数字和10 minutes作为时间。在这种情况下,应用程序必须决定哪些实体类型是正确的。抽取器将始终返回1.0的置信度,因为这是一个基于规则的系统。

在configs.yml中应如下配置：

pipeline:
- name: "DucklingHTTPExtractor"
  # duckling server的url
  url: "http://localhost:8000"
  # 指定提取哪些维度，即实体类型
  dimensions: ["time", "number", "amount-of-money", "distance"]
  # 配置语言环境
  locale: "de_DE"
  # 指定时区
  timezone: "Europe/Berlin"
  # 访问ducking server超时时间
  timeout : 3

输出示例

{
    "entities": [{"end": 53,
                  "entity": "time",
                  "start": 48,
                  "value": "2017-04-10T00:00:00.000+02:00",
                  "confidence": 1.0,
                  "extractor": "DucklingHTTPExtractor"}]
}

3. Rasa NLU Pipline

在上一小节中，我们详细地介绍了Rasa NLU框架中提供的各种组件(Component)，本节将继续讲解如何使用这些组件将准备好的样本数据(nlu.md)训练得到NLU模型。在Rasa NLU模块中，提供了一种名为Pipline(管道)配置方式，传入的消息(Message)通过管道中一系列组件处理后得到最终的模型。管道(Pipline)由多个组件(Component)构成，每个组件有各自的功能，比如实体提取、意图分类、响应选择、预处理等，这些组件在管道中一个接着一个的执行，每个组件处理输入并创建输出，并且输出可以被该组件之后管道中任何组件使用。当然，有些组件只生成管道中其他组件使用的信息，有些组件生成Output属性，这些Output属性将在处理完成后返回。下图为"pipeline": ["Component A", "Component B", "Last Component"]训练时调用顺序：

在Rasa NLU模块中，已为我们提供了几种模板(Template) Pipline，比如pretrained_embeddings_spacy、supervised_embeddings等，每一种Pipline组件构成不同，可以根据训练数据的特性选择使用。当然，Pipline的配置非常的灵活，我们可以自定义Pipline中的组件，实现不同特性的Pipline。

3.1 使用Template Pipline

3.1.1 pretrained_embeddings_spacy

在config.yaml文件中配置如下：

language: "en"

pipeline: "pretrained_embeddings_spacy"

当然，上述配置等价于：

language: "en"

pipeline:
- name: "SpacyNLP"        # 预训练词向量        
- name: "SpacyTokenizer"  # 文本分词器          
- name: "SpacyFeaturizer" # 文本特征化  
- name: "RegexFeaturizer" # 支持正则表达式  
- name: "CRFEntityExtractor" # 实体提取器  
- name: "EntitySynonymMapper" # 实体同义词映射  
- name: "SklearnIntentClassifier" # 意图分类器

pretrained_embeddings_spacy管道使用GloVe或 fastText的预训练词向量，因此，它的优势在于当你有一个训练样本如I want to buy apples，Rasa会预测意图为get pears。因为模型已经知道“苹果”和“梨”是非常相似的。如果没有足够大的训练数据，这一点尤其有用。

3.1.2 supervised_embeddings

在config.yaml文件中配置如下：

language: "en"

pipeline: "supervised_embeddings"

当然，上述配置等价于：

language: "en"

pipeline:
- name: "WhitespaceTokenizer"   # 分词器
- name: "RegexFeaturizer"       # 正则
- name: "CRFEntityExtractor"	 # 实体提取器
- name: "EntitySynonymMapper"	 # 同义词映射
- name: "CountVectorsFeaturizer"  # featurizes文本基于词
- name: "CountVectorsFeaturizer"  # featurizes文本基于n-grams character，保留词边界 
  analyzer: "char_wb"
  min_ngram: 1
  max_ngram: 4
- name: "EmbeddingIntentClassifier"  # 意图分类器

supervised_embeddings 管道不使用任何的预训练词向量或句向量，而是针对自己的数据集特别做的训练。它的优势是面向自己特定数据集的词向量(your word vectors will be customised for your domain)，比如，在通用英语中，单词“balance” (平衡)与单词 “symmetry”(对称)意思非常相近，而与单词"cash"意思截然不同。但是，在银行领域(domain)，“balance”与"cash"意思相近，而supervised_embeddings训练得到的模型就能够捕捉到这一点。该pipline不需要任何指定的语言模型，因此适用于任何语言，当然，需要指定对应的分词器。比如默认使用WhitespaceTokenizer，对于中文可以使用Jieba分词器等等，也就是该Pipline的组件是可以自定义的。

3.1.3 pretrained_embeddings_convert

在config.yaml文件中配置如下：

language: "en"

pipeline: "pretrained_embeddings_convert"

当然，上述配置等价于：

language: "en"

pipeline:
- name: "ConveRTTokenizer"
- name: "ConveRTFeaturizer"
- name: "EmbeddingIntentClassifier"

pretrained_embeddings_convert使用预训练的句子编码模型ConveRT以抽取用户输入句子的整体向量表征。该pipeline使用ConveRT模型抽取句子表征，并将句子表征输入到EmbeddingIntentClassifier以进行意图分类。使用pretrained_embeddings_convert的好处是不独立地处理用户输入句子中的每个词，而是为完整的句子创建上下文向量表征。比如，句子can I book a car?Rasa 会预测意图为I need a ride from my place。由于这两个示例的上下文向量表征已经非常相似，因此对它们进行分类的意图很可能是相同的。如果没有足够大的训练数据，这也很有用。需要注意的是，由于ConveRT模型仅在英语语料上进行训练，因此只有在训练数据是英语时才能够使用该pipeline。

3.1.4 MITIE

在config.yaml文件中配置如下：

language: "en"

# 1. 使用SklearnIntentClassifier意图分类器
# 这里的模型为英文

pipeline:
- name: "MitieNLP"       # 预训练词向量
  model: "data/total_word_feature_extractor.dat"
- name: "MitieTokenizer"  # 分词器
- name: "MitieEntityExtractor" # 实体提取器
- name: "EntitySynonymMapper" # 同义词映射
- name: "RegexFeaturizer" # 正则
- name: "MitieFeaturizer" # 特征化
- name: "SklearnIntentClassifier" # 意图分类器

# 2. 使用MitieIntentClassifier意图分类器
# 数据量大的时候，训练非常慢(不推荐)

# pipeline:
# - name: "MitieNLP"
#   model: "data/total_word_feature_extractor.dat"
# - name: "MitieTokenizer"
# - name: "MitieEntityExtractor"
# - name: "EntitySynonymMapper"
# - name: "RegexFeaturizer"
# - name: "MitieIntentClassifier"

Rasa NLU模块支持在Pipline中使用Mitie，但是在使用前需要训练词向量，然后使用MitieNLP组件指定。MITIE后端对于小型数据集执行得很好，但是如果数据量超过几百个示例，则训练可能需要很长时间。Rasa官网不建议使用它，因为mitie支持在将来的版本中可能会被弃用。

3.2 使用Custome Pipline

3.2.1 zh_jieba_mitie_sklearn

language: "zh"

pipeline:
- name: "MitieNLP" # 使用中文词向量模型
  model: "data/total_word_feature_extractor_zh.dat"
- name: "JiebaTokenizer" # 使用jieba分词
- name: "MitieEntityExtractor"
- name: "EntitySynonymMapper"
- name: "RegexFeaturizer"
- name: "MitieFeaturizer"
- name: "SklearnIntentClassifier"

NLU识别结果示例：

Received user message '"广州明天的天气怎么样"' with 
intent 
	'{'name': 'request_weather', 'confidence': 0.5182071733645418}' 
and entities 
	'[{'entity': 'address', 'value': '广州', 'start': 1, 'end': 3, 
	'confidence': None, 'extractor': 'MitieEntityExtractor'}, 
	{'entity': 'date-time', 'value': '明天', 'start': 3, 'end': 5, 'confidence': 	
     	None,'extractor': 'MitieEntityExtractor'}]'
		confidence': None, 'extractor': 'MitieEntityExtractor'}
     ]'

由于Rasa NLU模块提供的模板Pipline主要适用于英文，假如我们需要训练中文NLU模型的话，就需要使用中文分词器，比如jieba分词器，因此，我们修改MITIE Pipline将分词器改为Jieba，并修改MitieNLP预训练词向量模型为中文模型，其他不变，如MitieEntityExtractor，SklearnIntentClassifier等。根据NLU识别结果可知，输入文本经过处理后输出的intent和entities，从而可知，intent意图识别和entities实体识别是相互独立的。

3.2.2 zh_crf_supervised_embeddings

language: "zh"

pipeline:
- name: "JiebaTokenizer"  # 使用jieba分词
- name: "RegexFeaturizer"
- name: "CRFEntityExtractor"
- name: "EntitySynonymMapper"
- name: "CountVectorsFeaturizer"
- name: "CountVectorsFeaturizer"
  analyzer: "char_wb"
  min_ngram: 1
  max_ngram: 4
- name: "EmbeddingIntentClassifier"

NLU识别结果示例1：

Received user message '"广州明天的天气怎么样"' with 
intent 
	'{'name': 'request_weather', 'confidence': 0.9965207576751709}' 
and entities 
	'[{'start': 1, 'end': 3, 'value': '广州', 'entity': 'address',
	'confidence': 0.4974091477686857, 'extractor': 'CRFEntityExtractor'}, 
	{'start': 3, 'end': 5, 'value': '明天', 'entity': 'date-time', 
     'confidence': 0.8807040793780636, 'extractor': 'CRFEntityExtractor'}]'

NLU识别结果示例2：

Received user message '"查下138383834381的账户余额"' with 
intent 
	'{'name': 'request_phone_business', 'confidence': 0.9994893074035645}' 
and entities 
	'[{'start': 3, 'end': 15, 'value': '138383834381', 'entity': 'phone_number', 
        'confidence': 0.5848492378103071, 'extractor': 'CRFEntityExtractor'},
		{'start': 16, 'end': 20, 'value': '余额', 'entity': 'business',
         'confidence': 0.9023286498337025, 'extractor': 'CRFEntityExtractor', 
         'processors': ['EntitySynonymMapper']}]'

该Pipline修改自模板管道supervised_embeddings，由于该模板默认支持英文，为了实现支持中文，我们将分词器由WhitespaceTokenizer改为JiebaTokenizer，其他配置不变。经过测试可知，在意图分类方面，CountVectorsFeaturizer、EmbeddingIntentClassifier组合意图提取置信度高于MitieFeaturizer、SklearnIntentClassifier组合；在实体提取方面。CRFEntityExtractor也优于MitieEntityExtractor。另外，supervised_embeddings不需要任何指定的语言模型，因此适用于任何语言，并且完全依赖于训练数据，因此训练得到的模型拥有更好的适应性，训练的时间也非常快。但是，目前我遇到的有一点就是，有可能在训练数据不足时，在实体提取时可能会出现无法提取到实体的问题，当然，这只是我的推测，有待进一步验证。

当然，除了对已有的模板Pipline进行重新组合，我们完全可以自定义Pipline中的组件，定制你想要的功能和改进每个环节，这或许就是Rasa的优秀之处，非常灵活。比如，我们只希望支持实体识别，不做意图分类，那么我们可以这样自定义一个Pipline：

pipeline:
- name: "SpacyNLP"
- name: "CRFEntityExtractor"
- name: "EntitySynonymMapper"

4. 改进ChitChatAssistant项目

4.1 改进nlu.md

...
## intent:request_phone_business
- 查电话[19820618425](phone_number)
- 我想知道电话号码为[19860612425](phone_number)
- 查[11160222425](phone_number)
- 查电话号码[19800222425](phone_number)
- [机主](business)
- 号码是[谁的](business)
- 这个号码是[属于谁](business)
- 谁是这个号码的[拥有者](business)
- 查下[机主信息](business)
- [机主](business)是谁
- 我要查这个号码的[账户余额](business)
- 帮我查[余额](business)
- 查[话费](business)
- 能告诉我现在的[话费余额](business)还剩多少
- 我想查电话号码[19860618422](phone_number)的[账户余额](business)
- 我要查下[19822618425](phone_number)的[机主](business)是谁
- 你好！请帮我查询一下电话[12260618425](phone_number)的[账户余额](business)
- 查一下手机号码[19862228425](phone_number)的[机主信息](business)
- 帮我查个手机号[19860612222](phone_number)的[余额](business)
- [19860222425](phone_number)是[谁的](business)
- 

## synonym:机主
- 机主信息
- 机主
- 拥有者
- 谁的
- 属于谁

## synonym:余额
- 余额
- 话费
- 话费余额
- 账户余额

## regex:phone_number
- ((\d{3,4}-)?\d{7,8})|(((\+86)|(86))?(1)\d{10})

相比于ChitChatAssistant V1.0.0.2020.02.15版本，我们在样本文件nlu.md中，演示了如何使用同义词synonym、正则表达式regex和查找表look-up table来改进我们的NLU训练样本数据，即使得构建NLU样本数据更加灵活，同时提高了实体提取和意图分类的命中率。

4.2 改进config.yml

language: "zh"
# zh_jieba_supervised_embeddings
pipeline:
- name: "JiebaTokenizer"
  dictionary_path: "data/dict"
- name: "RegexFeaturizer"    # 支持正则
- name: "CRFEntityExtractor"
- name: "EntitySynonymMapper" # 支持同义词识别
- name: "CountVectorsFeaturizer"
- name: "CountVectorsFeaturizer"
  analyzer: "char_wb"
  min_ngram: 1
  max_ngram: 4
- name: "EmbeddingIntentClassifier"

policies:
...

ChitChatAssistant v1.0使用的是Mitie pipline，经过上面的学习可以知道，Mitie将在未来会被Rasa弃用。因此，这里我们使用pipline模板supervised_embeddings，但该pipline默认分词器WhitespaceTokenizer，只适合于英文，这里我们将分词器改为jieba分词器，并添加自定义用户词典，通过dictionary_path指定。自定义用户词典的作用就是，分词器会把原来可能不是一个常规词的词，分成一个词。userdict.txt如下：

谁的 5 n
属于谁 5 n

4.3 效果演示

当Rasa Server、Action Server和Server.py运行后，在浏览器输入：

http://127.0.0.1:8088/ai?content="13870468866的话费余额还有多少"

或者在APP端调用接口，效果如下：

GitHub地址：ChitChatAssistant，欢迎star和issues，我们共同讨论、学习！

你可能感兴趣的:(【NLP】,【Rasa,Stack】)

Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
2025年AI编程工具推荐小猴崽 AI编程 AI编程 ai编程
以下基于2025年权威技术报告、开发者社区评测及厂商白皮书，对当前主流AI编程工具进行客观综述与推荐。数据来源包括IDC《2025中国生态告》、信通院《AI辅助编程技术成熟度评》、StackOverflow开发者调查及头部企业实测案例。一、国际主流AI编程工具GitHubCopilotX核心能力：基于GPT-4模型升级，支持37种编程语言（Python/Java/JS等），可解析数万行代码库的全局
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
嵌入式环境下的C++最佳实践 is0815 c++开发语言
目标：学习嵌入式环境下的C++最佳实践内存管理优化：避免动态分配为什么避免动态分配？堆内存分配（如malloc,new）开销大，速度慢。堆内存容易导致碎片化，增加内存压力。动态分配增加内存泄漏、使用后未释放等风险。实时、高性能系统（嵌入式、游戏引擎）尤其需要优化内存管理。栈vs堆的性能对比特性栈(stack)堆(heap)分配/释放速度极快(O(1))较慢(需管理分配表，O(logn)或更慢)生命
Python中np.vstack和np.hstack的应用解释
Python中np.vstack和np.hstack的应用解释用法说明对于np.vstack和np.hstack各自有两种用法•第1种：np.vstack((a,b))或np.hstack((a,b))，即常规用法，也就是两个维数相等的ndarray在对应的方向上进行合并•第2种：np.vstack(a)或np.hstack(a)，对一个ndarray在其内部对应的方向上进行合并，这种属于非常规用
python np.hstack gz153016 python语法总结
importnumpyasnparr1=np.array([1,2,3])arr2=np.array([4,5,6])#print('np.vstack((arr1,arr2)):',np.vstack((arr1,arr2)))print('np.hstack((arr1,arr2)):',np.hstack((arr1,arr2)))#np.hstack((arr1,arr2)):[12345
c++STL库与快速排序浪子小院基础精讲 c++算法开发语言数据结构
什么是STL库STL=StandardTemplateLibrary，标准模板库，是一系列软件的统称。从根本上说，STL是一些“容器”的集合，这些“容器”有list,vector,set,map等，STL也是算法和其他一些组件的集合。前面已经学习过的中sort函数、中string类都是STL的内容。STL库还有很多内容，比如：向量（vector）、栈（stack）、队列（queue）、优先队列（p
HarmonyOS NEXT仓颉开发语言实战案例：简约音乐播放页幽蓝计划开发语言 harmonyos
偶然间看到一个非常漂亮的音乐播放器设计图，忍不住想拿仓颉语言来练练手，当漂亮的设计图遇到优美的开发语言，简直是天作之合。看到这个页面，我们先做一个简单的分析。整个页面分为上中下三个部分，顶部为导航栏，底部是歌词工具栏，剩下的就是中间的歌曲信息和控制按钮部分。它们的部分方式是比较简单的纵向布局。页面大致结构代码如下：Column{//导航栏Stack{Text('NowPlaying').fontS
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
嵌入式开发中.su文件的作用小米人儿我的博客嵌入式
reference:https://interrupt.memfault.com/blog/measuring-stack-usagehttps://github.com/ttsiodras/checkStackUsage测试代码#includeintfoo_2(intc){intarray[4];array[1]=c;array[3]=c*c;returnarray[3]-array[1];}i
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
14. 栈五题（一道困难题） Mophead_Zarathustra Hot 100 Mophead的小白刷题笔记 leetcode python
14.栈五题（一道困难题）20.有效的括号-力扣（LeetCode）栈做法：classSolution:defisValid(self,s:str)->bool:stack=[s[0]]foriinrange(1,len(s)):ifstackand(s[i]==')'andstack[-1]=='('ors[i]==']'andstack[-1]=='['ors[i]=='}'andstack[
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
Jenkins JNLP与SSH节点连接方式对比及连接断开问题解决方案 tianyuanwo devops jenkins ssh 运维
一、JNLPvsSSH连接方式优缺点对比对比维度JNLP（JavaWebStart）SSH（SecureShell）核心原理代理节点主动连接Jenkins主节点，通过加密通道通信，支持动态资源分配。Jenkins通过SSH协议远程登录代理节点执行命令，需预先配置SSH服务。适用场景容器化环境（如Kubernetes）、需要跨平台或动态扩缩容的场景。传统物理机/虚拟机、静态节点或简单命令执行场景。安
swiftui TextEditor去除背景方法泓博 swiftui
去除TextEditor背景的方法使用.scrollContentBackground(.hidden)修饰符可以隐藏TextEditor的背景。该方法适用于iOS16及以上版本。TextEditor(text:$text).scrollContentBackground(.hidden).background(Color.clear)使用ZStack叠加透明背景通过ZStack将TextEdit
Java虚拟机栈（JVM Stack）详解与工作流程分析 empti_ Java基础 java jvm
Java虚拟机栈（JVMStack）详解与工作流程分析1.虚拟机栈核心概念基本特性线程私有：每个线程在创建时都会分配一个独立的栈存储内容：栈帧（StackFrame）：每个方法调用对应一个栈帧生命周期：与线程相同，线程结束时栈被销毁异常情况：StackOverflowError：栈深度超过限制（如无限递归）OutOfMemoryError：线程过多导致栈内存耗尽2.栈帧（StackFrame）结构
16.7 Prometheus+Grafana实战：容器化监控与日志聚合一站式解决方案少林码僧 prometheus grafana 人工智能 langchain llama 语言模型机器学习
《Prometheus+Grafana实战：容器化监控与日志聚合一站式解决方案》关键词：容器化监控、日志聚合、Prometheus、Grafana、ELKStack、用户反馈收集容器化监控与日志系统的架构设计在LanguageMentorAgent生产部署中，监控系统需要覆盖以下维度：
用AI写一个自动记录手机支付记录的小插件教程python
要实现一个自动记录手机支付记录的小插件，核心是利用AI技术解析支付通知短信/通知栏消息。以下是通过训练让AI写代码实现方案：基础方案：手动输入+AI分类（无需权限）#使用Python+Tkinter（界面）+简易NLP分类importtkinterastkfromdatetimeimportdatetimeimportreclassPaymentTracker:def__init__(self):
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
【炼丹炉】Conda环境离线迁移黑白象炼丹笔记自然语言处理 pip python anaconda linux
1.背景笔者所在公司最近要在局域网内部署NLP算法模型，由于需求方对数据安全有严格要求，新服务器所在局域网不能直接访问Internet，因此需要将模型所需的运行环境离线迁移到新服务器中。2.方案2.1conda-packconda-pack是一个命令行工具，用于打包conda环境。该命令会将坏境中安装的软件包的二进制文件进行打包。注：本方法不需要下载安装包，因此，conda-pack需要指定平台和
【Linux】：Linux 2.6内核调度队列和调度原理 stackY、 Linux系统编程 linux 调度队列调度原理
朋友们、伙计们，我们又见面了，本期来给大家解读一下有关Linux2.6内核调度队列和调度原理，如果看完之后对你有一定的启发，那么请留下你的三连，祝大家心想事成！C语言专栏：C语言：从入门到精通数据结构专栏：数据结构个人主页：stackY、C++专栏：C++Linux专栏：
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
小白的进阶之路系列之十六----人工智能从初步到精通pytorch综合运用的讲解第九部分金沙阳人工智能 pytorch python
从零开始学习NLP在这个由三部分组成的系列中，你将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。你将学习如何从零开始构建循环神经网络NLP的基本数据处理技术如何训练RNN以识别单词的语言来源。从零开始学自然语言处理：使用字符级RNN对名字进行分类我们将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。展示了如何预处理数据以建模NLP。特别是，这些教程展示了如何以
JavaScript 异步操作的深入解析与性能优化
JavaScript异步操作的深入解析与性能优化理解JavaScript异步操作的运行机制，需要深入掌握事件循环（EventLoop）、调用栈（CallStack）、任务队列（TaskQueue）等核心概念。这些机制共同协作，使单线程的JavaScript能够高效处理异步任务。一、JavaScript执行环境的基础组件1.1调用栈（CallStack）调用栈是JavaScript引擎执行代码的核心
鸿蒙HarmonyOS NEXT实战开发：折叠屏音乐播放器实现案例前端_王华QAQ 鸿蒙next实战鸿蒙 harmonyos 华为鸿蒙系统鸿蒙华为od
介绍本示例介绍使用ArkUI中的容器组件FolderStack在折叠屏设备中实现音乐播放器场景。效果图预览使用说明播放器预加载了歌曲，支持播放、暂停、重新播放，在折叠屏上，支持横屏悬停态下的组件自适应动态变更。实现思路采用MVVM模式进行架构设计，目录结构中区分展示层、模型层、控制层，展示层通过控制层与模型层沟通，展示层的状态数据与控制层进行双向绑定，模型层的变更通过回调形式通知给控制层，并最终作
鸿蒙5.0版开发：ArkTS容器组件（FolderStack）星星不闪包退1 鸿蒙5.0 ArkUI ArkTS harmonyos 华为 android 鸿蒙 ArkTS
往期鸿蒙全套实战文章必看：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）FolderStackFolderStack继承于Stack(层叠布局)控件，新增了折叠屏悬停能力，通过识别upperItems自动避让折叠屏折痕区后移到上半屏说明：该
鸿蒙 Stack 组件深度解析：层叠布局的核心应用与实战技巧谢道韫689 鸿蒙自定义组件 harmonyos 华为
一、引言：层叠布局的「视觉堆叠引擎」在鸿蒙应用开发中，Stack组件作为层叠布局的核心容器，通过「后入栈先显示」的堆叠机制，为开发者提供了创建复杂视觉层次的强大能力。这种类似「卡片堆叠」的布局模式，能够让子组件按照添加顺序依次层叠，后添加的组件覆盖先添加的组件，完美适配需要视觉叠加效果的场景，如浮层提示、图片蒙层、状态覆盖等。本文将从核心概念、接口属性、实战案例到性能优化，全面解析Stack组件的
剑指offer-5、两个栈实现⼀个队列后端java
题⽬描述⽤两个栈来实现⼀个队列，完成队列的Push和Pop操作。队列中的元素为int类型。思路及解答栈的特性是先进后出队列的特性是先进先出有两个栈stack1,stack2；如果有新的数据进⼊，那么我们可以直接push到stack1；如果需要取出数据，那么我们优先取出stack2的数据，如果stack2⾥⾯数据是空的，那么我们需要把所有的stack1的数据倒⼊stack2。再从stack2取数据。
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb