ぃ灵彧が

【自然语言处理（NLP）】基于ERNIE语言模型的文本语义匹配

作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建设专家委员会（TIPCC）志愿者，以及编程爱好者，期待和大家一起学习，一起进步~
.
博客主页：ぃ灵彧が的学习日志
.
本文专栏：人工智能
.
专栏寄语：若你决定灿烂，山无遮，海无拦
.

文章目录

【自然语言处理（NLP）】基于ERNIE语言模型的文本语义匹配
前言
- (一)、任务描述
- (二)、数据来源
一、PaddleHub加载自定义数据集
二、语义预训练模型ERNIE优化文本匹配
- (一)、PaddleHub一键加载ERNIE
- (二)、选择Tokenizer读取数据
- (三)、选择优化策略和运行配置
- (四)、选择运行配置
- (五)、组建Finetune Task
三、组建Task
四、开始Finetune
五、使用模型进行预测
总结

前言

(一)、任务描述

文本匹配一直是自然语言处理（NLP）领域一个基础且重要的方向，一般研究两段文本之间的关系。文本相似度计算、自然语言推理、问答系统、信息检索等，都可以看作针对不同数据和场景的文本匹配应用。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题，比如信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，复述问题可以归结为两个同义句的匹配，对话系统可以归结为前一句对话和回复的匹配，机器翻译则可以归结为两种语言的匹配。

(二)、数据来源

数据集为天池“公益AI之星”挑战赛-新冠疫情相似句对判定大赛提供的数据集。

面对疫情抗击，疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类仍然是一个有价值的问题。如识别患者相似问题，有利于理解患者真正诉求，帮助快速匹配准确答案，提升患者获得感；归纳医生相似答案，有助于分析答案规范性，保证疫情期间问诊规范性，避免误诊。

比赛主打疫情相关的呼吸领域的真实数据积累，数据粒度更加细化，判定难度相比多科室文本相似度匹配更高，同时问答数据也更具时效性。问题限制在20字以内，形成相对规范的句对。

数据集示例：

# 解压数据集
!tar -zxvf /home/aistudio/data/data48492/COVID19_sim_competition.tar.gz

# 查看数据集样例
!head -n 5 COVID19_sim_competition/train.tsv

输出结果如下图1所示：

数据集给出了文本对（text_a、text_b，text_a为query，text_b为title）以及类别（label）。其中label为1，表示text_a、text_b的文本语义相似，否则表示不相似。

PaddleHub 1.8.0版本之后内置了文本匹配任务。文本匹配任务可以分为pointwise和pairwise类型。

pointwise，每一个样本通常由两个文本组成（query，title）。类别形式为0或1，0表示query与title不匹配； 1表示匹配。
pairwise，每一个样本通常由三个文本组成（query，positive_title, negative_title)。positive_title比negative_title更加匹配query。

根据本数据集示例，该匹配任务为pointwise类型。

接下来本教程展示如何利用PaddleHub结合预训练模型ERNIE完成pointwise文本匹配任务。

Pairwise文本匹配任务可以参考教程:
https://aistudio.baidu.com/aistudio/projectdetail/709472

一、PaddleHub加载自定义数据集

加载文本匹配任务自定义数据集，用户仅需要继承TextMatchingDataset类，替换数据集存放地址即可。下面代码示例展示如何将自定义数据集加载进PaddleHub使用。这样我们只需要在小数据集上微调（Fine-tune）预训练模型即可。

# 安装PaddleHub 1.8.1版本
!pip install paddlehub==1.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

from paddlehub.dataset.base_nlp_dataset import TextMatchingDataset


class COVID19Competition(TextMatchingDataset):
    def __init__(self, tokenizer=None, max_seq_len=None):
        base_path = 'COVID19_sim_competition'
        super(COVID19Competition, self).__init__(
            is_pair_wise=False, # 文本匹配类型，是否为pairwise
            base_path=base_path,
            train_file="train.tsv", # 相对于base_path的文件路径
            dev_file="dev.tsv", # 相对于base_path的文件路径
            train_file_with_header=True,
            dev_file_with_header=True,
            label_list=["0", "1"],
            tokenizer=tokenizer,
            max_seq_len=max_seq_len)

二、语义预训练模型ERNIE优化文本匹配

如果你对预训练模型感兴趣，如谷歌的 BERT 模型，或者百度的 ERNIE 模型，也值得在自己的任务试一试效果。

百度的预训练模型ERNIE经过海量的数据训练后，其特征抽取的工作已经做的非常好。借鉴迁移学习的思想，我们可以利用其在海量数据中学习的语义信息辅助小数据集（如本示例中的医疗文本数据集）上的任务。

PaddleHub提供了丰富的预训练模型，并且可以便捷地获取PaddlePaddle生态下的所有预训练模型。下面展示如何使用PaddleHub一键加载ERNIE，优化文本匹配任务。

(一)、PaddleHub一键加载ERNIE

import paddlehub as hub

import paddle 
paddle.enable_static()

module = hub.Module(name="ernie")

# Pointwise任务需要: query, title_left (2 slots)
inputs, outputs, program = module.context(
trainable=True, max_seq_len=128, num_slots=2)

其中最大序列长度max_seq_len是可以调整的参数，建议值128，根据任务文本长度不同可以调整该值，但不要超过512。

num_slots: 文本匹配任务输入文本的数据量。pointwise文本匹配任务num_slots应为2，表示query和title。 pairtwise文本匹配任务num_slots应为3。

如果想尝试其他语义模型（如ernie_tiny, RoBERTa等），只需要更换Module中的name参数即可。

(二)、选择Tokenizer读取数据

tokenizer = hub.BertTokenizer(vocab_file=module.get_vocab_path(), tokenize_chinese_chars=True)

dataset = COVID19Competition(tokenizer=tokenizer, max_seq_len=128)

module.get_vocab_path() 会返回预训练模型对应的词表；

tokenize_chinese_chars 是否切分中文文本

NOTE:

如果使用Transformer类模型（如ERNIE、BERT、RoBerta等），则应该选择hub.BertTokenizer.
如果使用非Transformer类模型（如word2vec_skipgram、tencent_ailab_chinese_embedding_small等），则应该选择hub.CustomTokenizer
创建dataset对象时，max_seq_len必须与第一步中module.context接口max_seq_len保持一致。
在这里，取出一条数据打印出来看看，可以用 docs 获取数据的list，用 labels 获取数据的label值，打印出来对数据有一个初步的印象。

(三)、选择优化策略和运行配置

适用于ERNIE/BERT这类Transformer模型的迁移优化策略为AdamWeightDecayStrategy。

详情请查看Strategy。

AdamWeightDecayStrategy的参数：

learning_rate: 最大学习率
lr_scheduler: 有linear_decay和noam_decay两种衰减策略可选
warmup_proprotion: 训练预热的比例，若设置为0.1, 则会在前10%的训练step中学习率逐步提升到learning_rate
weight_decay: 权重衰减，类似模型正则项策略，避免模型overfitting

strategy = hub.AdamWeightDecayStrategy(
    weight_decay=0.01,
    warmup_proportion=0.1,
    learning_rate=5e-5)

PaddleHub提供了许多优化策略，如AdamWeightDecayStrategy、ULMFiTStrategy、DefaultFinetuneStrategy等，详细信息参见策略

(四)、选择运行配置

在进行Finetune前，我们可以设置一些运行时的配置，例如如下代码中的配置，表示：

use_cuda：设置为False表示使用CPU进行训练。如果您本机支持GPU，且安装的是GPU版本的PaddlePaddle，我们建议您将这个选项设置为True；
num_epoch：Finetune时遍历训练集的次数，；
batch_size：每次训练的时候，给模型输入的每批数据大小为32，模型训练时能够并行处理批数据，因此batch_size越大，训练的效率越高，但是同时带来了内存的负荷，过大的batch_size可能导致内存不足而无法训练，因此选择一个合适的batch_size是很重要的一步；
checkpoint_dir：训练的参数和数据的保存目录；
eval_interval：每隔100step在验证集上进行一次性能评估；
strategy：Fine-tune策略；

更多运行配置，请查看RunConfig

config = hub.RunConfig(
    eval_interval=300,
    use_cuda=True,
    num_epoch=3,
    batch_size=32,
    checkpoint_dir='ckpt_ernie_pointwise_matching',
    strategy=strategy)

(五)、组建Finetune Task

使用预训练模型ERNIE完成pointwise文本匹配任务，大家可能会想到将query和title文本拼接，之后输入ERNIE中，取CLS特征（pooled_output），之后输出全连接层，进行二分类。如下图BERT用于句对分类任务的用法：

然而，以上用法的问题在于，ERNIE的模型参数非常庞大，导致计算量非常大，预测的速度也不够理想。从而达不到线上业务的要求。针对该问题，PaddleHub内置文本匹配网络结果采用了sentence-bert的结构。

sentence-bert采用了双塔（Siamese）的网络结构。Query和Title分别输入ERNIE，共享一个ERNIE参数，得到各自的sequence_output特征。之后对sequence_output进行pooling（PaddleHub默认使用mean pooling操作。PaddleHub作者经过大量实验对比发现，mean_pooling和max_pooling对实验效果差异不大），之后输出分别记作u，v。之后将三个表征（u,v,|u-v|)拼接起来，进行二分类。网络结构如上图所示。

更多关于Sentence-BERT的信息可以参考论文：https://arxiv.org/abs/1908.10084

那么Sentence-BERT采用Siamese的网路结构，是如何提升预测速度呢？

Siamese的网络结构好处在于query和title分别输入同一套网络。如在信息搜索任务中，此时就可以将数据库中的title文本提前计算好对应sequence_output特征，保存在数据库中。当用户搜索query时，只需计算query的sequence_output特征与保存在数据库中的title sequence_output特征，通过一个简单的mean_pooling和全连接层进行二分类即可。从而大幅提升预测效率，同时也保障了模型性能。

关于匹配任务常用的Siamese网络结构可以参考：https://blog.csdn.net/thriving_fcl/article/details/73730552

三、组建Task

有了合适的预训练模型和准备要迁移的数据集后，我们开始组建一个Task。

获取module的上下文环境，包括输入和输出的变量，以及Paddle Program；
从输出变量中找到用于文本匹配的单词级特征sequence_output；
在sequence_output后面接入一个匹配网络，生成Task；

PointwiseTextMatchingTask的参数有：

dataset：数据；
query_feature：从预训练提取的query对应特征；
title_feature：从预训练提取的title对应特征；
tokenizer：数据处理器
config: 运行配置；

# 构建迁移网络，使用ERNIE的token-level输出
query = outputs["sequence_output"]
title = outputs['sequence_output_2']

# 创建pointwise文本匹配任务
pointwise_matching_task = hub.PointwiseTextMatchingTask(
    dataset=dataset,
    query_feature=query,
    title_feature=title,
    tokenizer=tokenizer,
    config=config)

四、开始Finetune

我们选择finetune_and_eval接口来进行模型训练，这个接口在finetune的过程中，会周期性的进行模型效果的评估，以便我们了解整个训练过程的性能变化。

run_states=pointwise_matching_task.finetune_and_eval()

五、使用模型进行预测

当Finetune完成后，我们使用模型来进行预测，整个预测流程大致可以分为以下几步：

构建网络
生成预测数据的Tokenizer
切换到预测的Program
加载预训练好的参数
运行Program进行预测

预测数据样例，代码如下：

# 预测数据样例
text_pairs = [
    [
        "小孩吃了百令胶囊能打预防针吗",  # query
        "小孩吃了百令胶囊能不能打预防针",  # title
    ],
    [
        "请问呕血与咯血有什么区别?",  # query
        "请问呕血与咯血异同？",  # title
    ]
]

results = pointwise_matching_task.predict(
    data=text_pairs,
    max_seq_len=128,
    label_list=dataset.get_labels(),
    return_result=True,
    accelerate_mode=False)
for index, text in enumerate(text_pairs):
    print("data: %s, prediction_label: %s" % (text, results[index]))

输出结果如下图2所示：

总结

本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟，其中代码均为基于百度飞桨开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

最后，引用本次活动的一句话，来作为文章的结语～(￣▽￣～)~：

【学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。】

ps：更多精彩内容还请进入本文专栏：人工智能，进行查看，欢迎大家支持与指教啊～(￣▽￣～)~

python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
Flink (十二) ：Table API & SQL (一) 概览 Leven199527 Flink flink sql 大数据
ApacheFlink有两种关系型API来做流批统一处理：TableAPI和SQL。TableAPI是用于Scala和Java语言的查询API，它可以用一种非常直观的方式来组合使用选取、过滤、join等关系型算子。FlinkSQL是基于ApacheCalcite来实现的标准SQL。无论输入是连续的（流式）还是有界的（批处理），在两个接口中指定的查询都具有相同的语义，并指定相同的结果。TableAP
[Qt]常用控件介绍-显示类控件-QLabel、QLCDNumber、QProgressBar、QCalendarWidget控件北顾南栀倾寒 Qt C++c++qt 开发语言
目录1.Label控件属性介绍三种文本格式的设置应用编辑图片与自动拉伸应用QLable伙伴设置2.LCDNumber控件属性Demo：倒计时程序多线程实现倒计时程序3.ProgressBar控件属性Demo：定时器--进度条随机增长Qt头文件的前置声明4.CalendarWidget控件属性重要的信号1.Label控件可以用来显示文本和图片内容，内部含有许多功能，但是在运行后只能用于显示文本和实现
震惊！996加班写教程？OUT了！我用Python+AI，一键自动生成，效率提升100倍！ lizhijianwill 人工智能 python 开发语言改行学it java javascript
导语：你是否还在为了撰写技术教程而苦苦挣扎？是否还在996的工位上，熬夜爆肝，只为输出一篇高质量的技术文档？醒醒吧！这个时代变了！今天，我就要告诉你一个颠覆传统的秘密武器，让你彻底告别低效的手工教程编写模式，拥抱AI，解放生产力，让效率飞起来！时代焦虑：AI浪潮来袭，你还在用“石器时代”的方法写教程？2024年，AI技术已经渗透到我们生活的方方面面。“AI智能体”、“思维链”、“生产力革命”这些词
基于Python的自然语言处理系列（2）：Word2Vec（负采样）会飞的Anthony 自然语言处理人工智能信息系统自然语言处理 word2vec 人工智能
在本系列的第二篇文章中，我们将继续探讨Word2Vec模型，这次重点介绍负采样（NegativeSampling）技术。负采样是一种优化Skip-gram模型训练效率的技术，它能在大规模语料库中显著减少计算复杂度。接下来，我们将通过详细的代码实现和理论讲解，帮助你理解负采样的工作原理及其在Word2Vec中的应用。1.Word2Vec（负采样）原理1.1负采样的背景在Word2Vec的Skip-g
如何运用python爬虫获取大型资讯类网站文章，并同时导出pdf或word格式文本？大懒猫软件深度学习 python 网络爬虫自然语言处理
这里，我们以比较知名的商业新知网站https://www.shangyexinzhi.com/为例进行代码编写，下面进行代码应用思路。第一部分，分析网站结构首先，我们来分析，要使用Python技术分析一个网站的结构，通常可以通过以下步骤实现：获取网站的HTML内容：使用requests库来获取网站的HTML源代码。解析HTML内容：使用BeautifulSoup库来解析HTML，提取网站的结构信息
图神经网络系列论文阅读DAY1：《Predicting Tweet Engagement with Graph Neural Networks》 feifeikon 神经网络论文阅读人工智能
摘要翻译：社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下，预测一篇帖子在互动方面是否会产生影响，对于推动这些媒体的盈利利用至关重要。在现有研究中，许多方法通过利用帖子的直接特征来解决这一问题，这些特征通常与文本内容以及发布该帖子的用户相关。在本文中，我们认为互动的增加还与另一个关键因素相关，即社交媒体用户发布的帖子之间的语义关联。因此，我们提出了一种基于图神经网络（GraphNeur
健康养生指南 yy0821yy 生活
在快节奏的现代生活中，健康养生愈发重要。它不仅能提升生活质量，还能让我们以更好的状态面对生活的挑战。饮食是健康养生的基石。合理搭配食物，确保营养均衡是关键。多吃蔬菜、水果，它们富含维生素、矿物质和膳食纤维，能增强免疫力，促进肠道蠕动。全谷物食品如糙米、燕麦，是优质碳水化合物的来源，能提供持久的能量。同时，要控制油脂、糖分和盐分的摄入，减少油炸食品、甜品和高盐食物的食用。适度运动是保持健康的秘诀。每
OpenCV实战技术应用 yzx991013 OpenCV基础全集 opencv 人工智能计算机视觉
10.0角点检测应用技术实现，使用SIFT算法进行特征点检测并绘制。结果：实现过程:解析过程：1.导入模块：importcv2：导入opencv库，用于图像处理操作，包括图像读取、特征提取、图像绘制、匹配等。importnumpyasnp：导入numpy库，用于处理数组数据，在特征描述符的存储和处理中可能会用到。2.函数定义：sift_tz()：功能：使用SIFT算法进行特征点检测并绘制。实现：i
【python】GUI框架——wxPython 草莓泰面包 python python 开发语言
文章目录GUIwxPython结构启动界面——wx.App代码遇到报错：wx.Frame()框架wx.Panel()容器布局——wx.SizerBox布局管理器（默认水平布局）控件statictext文本类字体格式Fonttextctrl输入文本类wx.Validator是用于验证用户输入的类，它允许您自定义输入验证规则和错误处理。Button按钮FileDialogMessageDialogEv
GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系 surfirst LLM ai 语言模型 chatgpt
简介近年来，人工智能技术飞速发展，特别是在自然语言处理领域。GPT-4是OpenAI推出的新一代大模型，而GPT-4O和GPT-4O-mini是其优化版本，专门为不同应用场景和计算资源需求进行调整。在这篇文章中，我们将详细比较GPT-4、GPT-4O和GPT-4O-mini的区别与联系，帮助开发者更好地选择适合的模型。GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适
使用Kotlin编写一个Http服务器后端kotlinhttp
首发于Enaium的个人博客引言在本文中，我们将使用Kotlin编写一个简单的HTTP服务器。我们将使用Java的ServerSocket类来实现这个服务器。我们将创建一个简单的服务器，它将监听端口8000，并在接收到请求时返回一个简单的响应。Http的格式HTTP请求和响应都是文本格式的。HTTP请求由请求行、请求头和请求体组成。HTTP响应由状态行、响应头和响应体组成。具体可以到MDN查看。代
适配器模式蓝田～适配器模式 python java
适配器模式（AdapterPattern）是一种结构型设计模式，它的主要目的是将一个类的接口转换成客户端所期待的另一种接口形式。这种模式使得原本由于接口不兼容而不能一起工作的类可以协同工作。适配器模式在软件开发中经常被用来使新的接口与老的接口能够一起工作，以利用现有的功能而不影响原有系统的稳定。实现方式‌类适配器‌通过多重继承对一个接口与另外一个接口进行匹配。具体来说，就是创建一个新类，这个新类既
日常小tip_Bat命令运行Java程序蓝田～小tips java 开发语言
批处理命令介绍文章目录介绍常用语法bat命令运行一个简单的Java程序介绍批处理命令一般是一个文本文件，文件的每一行命令都会在DOS中执行。一般用来处理需要重复性执行的命令。常用语法echo:表示显示此命令后的字符echooff:表示不显示此命令后的命令行本身的字符@:与echooff类似，但是这条命令加在命令行之前，表示不显示这一行的命令行字符call:调用另外一个批处理文件pause:暂停当前
Swift 周报第二十八期 Swift社区 Apple周刊 swift 开发语言 ios
文章目录前言新闻和社区外媒：iPhone的平均售价直逼1000美元创历史新高分析师：iPhone需求良好，苹果股价还能涨22%准备好迎接即将在5月9日推出的增强全球定价机制提案通过的提案正在审查的提案Swift论坛推荐博文话题讨论关于我们前言本期是Swift编辑组自主整理周报的第十九期，每个模块已初步成型。各位读者如果有好的提议，欢迎在文末留言。欢迎投稿或推荐内容。目前计划每两周周一发布，欢迎志同
讯飞绘镜（ai生成视频）技术浅析（一）爱研究的小牛 AIGC—视频 AIGC—技术综述人工智能 AIGC 深度学习
讯飞绘镜（也称为星火绘镜）是科大讯飞推出的一款基于人工智能技术的短视频创作平台，旨在通过先进的AI技术简化视频创作流程，让用户能够轻松将创意转化为高质量的视频内容。以下是对讯飞绘镜相关技术、工作原理及具体实现的详细介绍：一、核心技术讯飞绘镜的核心技术主要依托于科大讯飞的星火大模型，并结合了多种先进的AI技术，包括：1.大模型技术：基于讯飞星火大模型，为脚本生成、分镜生成等提供基础能力支持。该模型能
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
MATLAB中characterListPattern函数用法 jk_101 Matlab matlab 开发语言
目录语法说明示例在文本中查找元音字母提取在某字母范围内的字母查找以元音字母开头的单词将人名按字母顺序分组characterListPattern函数的功能是匹配列表中的字符。语法pat=characterListPattern(characters)pat=characterListPattern(startCharacter,endCharacter)说明pat=characterListPat
MATLAB中insertAfter函数用法 jk_101 Matlab matlab 开发语言
目录语法说明示例在子字符串后插入文本使用模式在路径的开头后插入文本在指定位置后插入子字符串在字符向量中的指定位置后插入文本insertAfter函数的功能是在指定的子字符串后插入字符串。语法newStr=insertAfter(str,pat,newText)newStr=insertAfter(str,pos,newText)说明newStr=insertAfter(str,pat,newTex
MATLAB中extractBetween函数用法 jk_101 Matlab matlab 开发语言
目录语法说明示例选择子字符串之间的文本使用模式提取标记之间的文本选择开始和结束位置之间的子字符串在包含或不包含边界的情况下选择文本选择字符向量中位置之间的文本extractBetween函数的功能是提取起点和终点之间的子字符串。语法newStr=extractBetween(str,startPat,endPat)newStr=extractBetween(str,startPos,endPos)
MATLAB中alphanumericsPattern函数用法 jk_101 Matlab matlab 开发语言
目录语法说明示例从文本中提取字母和数字匹配所设置数目的字母和数字匹配不同大小的字母和数字集合alphanumericsPattern函数的功能是匹配字母和数字字符。语法pat=alphanumericsPatternpat=alphanumericsPattern(N)pat=alphanumericsPattern(minCharacters,maxCharacters)说明pat=alphan
Coze，Dify，FastGPT，对比云连山 AI编程 AI编程
在当今AI技术迅速发展的背景下，AIAgent智能体成为了关键领域，Coze、Dify和FastGPT作为其中的佼佼者，各有千秋。平台介绍-FastGPT：由环界云计算公司发起，是基于大语言模型（LLM）的开源知识库问答系统。其亮点是支持Flow可视化工作流编排，在知识问答领域表现出色，拥有庞大用户群体，包括数百家企业付费客户等。网址为https://fastgpt.cn/。-Dify：苏州语灵人
Python3【字符串】：文本操作的瑞士军刀李智 - 重庆 Python 精讲精练 -从入门到实战 python 开发语言经验分享编程实战趣味编程编程技巧
Python3【字符串】：文本操作的瑞士军刀内容简介本系列文章是为Python3学习者精心设计的一套全面、实用的学习指南，旨在帮助读者从基础入门到项目实战，全面提升编程能力。文章结构由5个版块组成，内容层层递进，逻辑清晰。基础速通：n个浓缩提炼的核心知识点，夯实编程基础；经典范例：10个贴近实际的应用场景，深入理解Python3的编程技巧和应用方法；避坑宝典：10个典型错误解析，提供解决方案，帮助
MySQL 执行计划：优化查询性能 J老熊 MySQL 实战秘籍 mysql 数据库开发语言后端面试性能优化系统架构
一、什么是MySQL执行计划？MySQL执行计划（ExecutionPlan）是MySQL在执行SQL查询时，所采取的具体执行策略。它描述了查询如何从数据库中获取数据，执行的步骤顺序以及使用的索引等信息。通过执行计划，我们可以直观地看到查询语句的执行路径，从而判断是否可以优化。二、如何查看MySQL执行计划？查看执行计划有几种方式：EXPLAIN语句使用EXPLAIN可以查看单个查询的执行计划。例
7. 马科维茨资产组合模型+金融研报AI长文本智能体(Qwen-Long)增强方案（理论+Python实战） AI量金术师金融资产组合模型进化论人工智能金融 python 机器学习算法大数据线性回归
目录0.承前1.深度金融研报准备2.核心AI函数代码讲解2.1函数概述2.2输入参数2.3主要流程2.4异常处理2.5清理工作2.7get_ai_weights函数汇总3.汇总代码4.反思4.1不足之处4.2提升思路5.启后0.承前本篇博文是对前两篇文章，链接:5.马科维茨资产组合模型+政策意图AI金融智能体(Qwen-Max)增强方案（理论+Python实战）6.马科维茨资产组合模型+政策意图A
PointNet++改进策略：模块改进 | PointCAT，使用交叉注意力机制来提升3D点云任务中提升模型精度我是瓦力 PointNet++改进策略 3d 深度学习人工智能计算机视觉 transformer
论文题目：PointCAT:Cross-AttentionTransformerforPointCloud通讯地址：南京理工大学代码地址：https://github.com/xincheng-yang/PointCAT.PointCAT架构：PointCAT提出了一种基于交叉注意力机制的Transformer网络，专门用于点云表示。它通过两个不同的多尺度特征分支，利用交叉注意力机制来交换信息。通
开发基于WebRTC和OpenAI实时API的AI语音助手框架：技术解析与最佳实践花生糖@ AIGC学习资料库 webrtc 人工智能
随着人工智能（AI）和实时通信技术的发展，构建一个能够提供即时响应、多语言支持以及个性化用户体验的AI语音助手变得越来越重要。本文将深入探讨如何使用现代Web技术和先进的AI工具开发这样一个语音助手框架，具体来说，我们将基于Next.js、WebRTC和OpenAIAPI创建一个高效且用户友好的解决方案。技术架构主框架-Next.js选择Next.js作为主框架不仅因为它提供的服务端渲染（SSR）
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

【自然语言处理（NLP）】基于ERNIE语言模型的文本语义匹配

【自然语言处理（NLP）】基于ERNIE语言模型的文本语义匹配

文章目录

前言

(一)、任务描述

(二)、数据来源

一、PaddleHub加载自定义数据集

二、语义预训练模型ERNIE优化文本匹配

(一)、PaddleHub一键加载ERNIE

(二)、选择Tokenizer读取数据

(三)、选择优化策略和运行配置

(四)、选择运行配置

(五)、组建Finetune Task

三、组建Task

四、开始Finetune

五、使用模型进行预测

总结

你可能感兴趣的:(人工智能,自然语言处理,语言模型,人工智能,原力计划,文本语义匹配)