u013250861

NLP-生成模型-2019：TransformerXL【对Vanilla Transformer的改进：片段级递归机制、相对位置编码】【超出固定长度上下文的注意力语言模型】

《原始论文：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》

一、概述

一句话简介：Transformer-XL架构在vanilla Transformer的基础上引入了两点创新：循环机制（Recurrence Mechanism）和相对位置编码（Relative Positional Encoding），以克服vanilla Transformer的长距离获取弱的缺点。

要正确理解一篇文章，有时需要参考出现在几千个单词前面的一个单词或一个句子。这是一个长期依赖性(long-range dependence)的例子，这是序列数据中常见的现象，处理许多现实世界的任务都必须理解这种依赖。

虽然人类很自然地就会这样做，但是用神经网络建模长期依赖关系仍然很具挑战性。

基于Gating的RNN和梯度裁剪(gradient clipping)技术提高了对长期依赖关性建模的能力，但仍不足以完全解决这个问题。

应对这个挑战的一种方法是使用Transformers，它允许数据单元之间直接连接，能够更好地捕获长期依赖关系。

Transformer 是谷歌在 17 年做机器翻译任务的 “Attention is all you need” 论文中提出的，引起了相当大的反响，业内有“每一位从事 NLP 研发的同仁都应该透彻搞明白 Transformer”的说法。

1、Transformer结构特点：

全部用self-attention的自注意力机制。
在self-attention的基础上改进了Multi-Attention和Mask Multi-Attention两种多头注意力机制。
网络由多个层组成，每个层都由多头注意力机制和前馈网络构成。
由于在全局进行注意力机制的计算，忽略了序列中最重要的位置信息，添加了位置编码（Position Encoding），使用正弦函数完成，为每个部分的位置生成位置向量。

Transformer模型在输入时采用的是固定长度序列输入，且Transformer模型的时间复杂度和句子/序列长度的平方成正比（每一层的复杂度： $O(n^2·d)$ ， $n$ 为句子/序列长度， $d$ 为词向量维度），因此一般序列长度都限制在最大512，因为太大的长度，模型训练的时间消耗太大。

此外Transformer模型又不像RNN这种结构，可以将最后时间输出的隐层向量作为整个序列的表示，然后作为下一序列的初始化输入。所以用Transformer训练语言模型时，不同的序列之间是没有联系的，因此这样的Transformer在长距离依赖的捕获能力是不够的，此外在处理长文本的时候，若是将文本分为多个固定长度的片段，对于连续的文本，这无异于将文本的整体性破坏了，导致了文本的碎片化，这也是Transformer-XL被提出的原因。

2、Vanilla Transformer

Transformer 作为一种特征提取器，在NLP中有广泛的应用。但是 Transformer 需要对输入序列设置一个固定的长度，比如在BERT中，默认长度是512。如果文本序列长度短于固定长度，可以通过填充的方式来解决。如果序列长度超过固定长度，处理起来就比较麻烦。

一种处理方式，就是将文本划分为多个segments。

训练的时候，对每个segment单独处理，segments之间没有联系，如下图(a)所示。
在预测的时候，会对固定长度的segment做计算，一般取最后一个位置的隐向量作为输出。为了充分利用上下文关系，在每做完一次预测之后，就对整个序列向右移动一个位置，再做一次计算，如下图(b)所示，这导致计算效率非常低。

该模型容易发现有以下缺点：

上下文长度受限：字符之间的最大依赖距离受输入长度的限制，模型看不到出现在几个句子之前的单词。
上下文碎片：对于长度超过512个字符的文本，都是从头开始单独训练的。段与段之间没有上下文依赖性，会让训练效率低下，也会影响模型的性能。
推理速度慢：在测试阶段，每次预测下一个单词，都需要重新构建一遍上下文，并从头开始计算，这样的计算速度非常慢。
Vallina model不同segement对应的相同的位置如果采用同样的 positonal encoding就会导致难以区分。
Vallina model在预测的时候每次都只能预测一个postion 的概率，这样预测的效率低下。

在语言建模中，Transformers目前使用固定长度的上下文来实现，即将一个长的文本序列截断为几百个字符的固定长度片段，然后分别处理每个片段。

如下图所示，VanillaTransformer模型在训练时具有固定长度上下文:

这造成了两个关键的限制：

算法无法建模超过固定长度的依赖关系。
被分割的片段通常不考虑句子边界，导致上下文碎片化，从而导致优化低效。即使是对于长期依赖性不显著的较短序列，这也是特别麻烦的。

为了解决这些限制，谷歌提出一个新的架构：Transformer-XL，它使自然语言的理解超出了固定长度的上下文。Transformer-XL是基于Vanilla Transformer这个模型进行的改进。

3、TransformerXL的历史意义

Transformer-xl采用了片段级递归机制，从而提高了语言模型的长距离依赖，对长文本的编码更加有效。 Transformer-xl在文本生成任务上具有不错的效果。

Transformer在获取长度依赖上受制于固定长度，本文提出了Transformer-xl模型能解决该问题。
Transformer-xl模型提出了片段级递归机制和相对位置编码，并且能够解决片段之间联系丢失的问题。
Transformer-xl模型在学习长度依赖的问题上比rnn要长80%、比vallina transformer要长450%，和start-of-the-art的bpc/ppl结果相比，在enwiki8上的结果0.99、在text8上的结果为1.08、在WikiText-103上的结果为18.3、在one-billion上的结果为21.8、在Penn Treebank上的结果为54.5。

Transformer-XL在各种主要的语言建模(LM)基准测试中获得新的最优(SoTA)结果，包括长序列和短序列上的字符级和单词级任务。实验证明， Transformer-XL 有以下优势：

Transformer-XL学习的依赖关系比RNN长约80%，比vanilla Transformers模型长450%，尽管后者在性能上比RNN好，但由于固定长度上下文的限制，对于建模长期依赖关系并不是最好的。
由于不需要重复计算，Transformer-XL在语言建模任务的评估期间比vanilla Transformer快1800+倍。
由于建模长期依赖关系的能力，Transformer-XL在长序列上具有更好的困惑度(Perplexity, 预测样本方面更准确)，并且通过解决上下文碎片化问题，在短序列上也具有更好的性能。
Transformer-XL在5个数据集上的结果如下：
Transformer-xl模型预测时的Attention的长度可以和训练时的长度不一样；比如训练时设置为384，预测时设置为1600，这样预测的速度会更快；

二、TransformerXL结构解析

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新来克服vanilla Transformer的缺点。：

片段级递归机制（Segment-Level Recurrence Mechanism）；
相对位置编码（Relative Positional Encoding）；

与vanilla Transformer相比，Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。

VanillaTransformer模型在训练时具有固定长度上下文	TransformerXL训练阶段为新段前面的token提供了必要的上下文

当这两种方法结合使用时，在评估时， Transformer-XL比vanilla Transformer模型具有更长的有效上下文。

在评估期间具有固定长度上下文的vanilla Transformer	在评估期间具有segment-level 递归的Transformer-XL

移动步长为1个token	移动步长为一个segment

1、Segment 循环机制

与vanilla Transformer的基本思路一样，Transformer-XL仍然是使用分段的方式进行建模，但其与vanilla Transformer的本质不同是在于引入了段与段之间的循环机制，使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。如下图所示：

在训练期间，为前一个 Segment 计算的 Representation 被修复并缓存，以便在模型处理下一个新的 Segment 时作为扩展上下文重新利用。这个额外的连接将最大可能依赖关系长度增加了N倍（N个Segment的长度），其中N表示网络的深度，因为上下文信息现在可以跨片段边界流动。

在训练阶段，处理后面的段时，每个隐藏层都会接收两个输入：

该段的前面隐藏层的输出，与vanilla Transformer相同（上图的灰色线）。
前面段的隐藏层的输出（上图的绿色线），可以使模型创建长期依赖关系。

此外，这种递归机制还解决了上下文碎片问题，为新段前面的token提供了必要的上下文。

RNN 的语言模型的 Recurrence Dependency在同一层layer之间，而TransformerXL可以在不同layer之间，因此 Depency Length为 $O (N \times L)$

这两个输入会被拼接，然后用于计算当前段的Key和Value矩阵。对于某个段的某一层的具体计算公式如下：

第一个式子：
- $τ$ 表示上一片段， $τ + 1$ 表示下一片段。
- 将上一片段的输出缓存起来，然后直接和下一片段的隐层拼接在一起，得到上面的第一个式子。
- 在这里SG()的含义是stop-gradient。当进行到 $τ + 1$ 时间步时，不再对 $τ$ Segment的梯度再次计算，因为在 $τ$ 时刻已经计算过了；
第二个式子
- 计算Query的时候只是用本segment的信息 $h_{\tau+1}^{n-1}$ ，而计算Key和Value的时候用的是 $\tilde{h}_{\tau+1}^{n-1}$ ；
- 引入了上一片段的隐层表示只会用在key和value上，对于query还是保持原来的样子（得到中间的表达式形态）。
- 这样做也好理解，query只是表示查询的词，而key，value表示的是这个查询的词的相关信息，我们要改变的是只是信息，因此只要在key，value中引入上一片段的信息就可以了。
第三个式子
- 将 $τ + 1$ 时间步的 Q、K、V喂给 Transformer-Layer；剩下的就和Transformer一致

原则上只要 GPU 内存允许，该方法可以利用前面更多段的信息，测试阶段也可以获得更长的依赖（类似于 DenseNet）。

在测试阶段，与vanilla Transformer相比，其速度也会更快：在vanilla Transformer中，一次只能前进一个step，并且需要重新构建段，并全部从头开始计算；而在Transformer-XL中，每次可以前进一整个段，并利用之前段的数据来预测当前段的输出。

2、相对位置编码

天真地应用 segment-level recurrence是行不通的，因为当我们重用前面的段时，位置编码是不一致的。

例如，考虑一个具有上下文位置[0,1,2,3]的旧段。当处理一个新的段时，我们将两个段合并，得到位置[0,1,2,3,0,1,2,3]，其中每个位置id的语义在整个序列中是不连贯的。

在Transformer中，一个重要的地方在于其考虑了序列的位置信息。在分段的情况下，如果仅仅对于每个段仍直接使用Transformer中的位置编码，即每个不同段在同一个位置上的表示使用相同的位置编码，就会出现问题。（下式中U表示位置向量）

为此，我们提出了一种新的相对位置编码方案，使递归机制成为可能。

此外，与其他相对位置编码方案不同，我们的公式使用具有learnable transformations的固定嵌入，而不是earnable embeddings，因此在测试时更适用于较长的序列。

论文对于这个问题，提出了一种新的位置编码的方式，即会根据词之间的相对距离而非像Transformer中的绝对位置进行编码。Transformer中的attention权重计算公式如下：

将其展开可以分解成下面四个部分。第一层的计算查询和键之间的attention分数的方式为：

E表示embedding，U 表示位置向量。在Transformer-XL中，对上述的attention计算方式进行了变换，转为相对位置的计算，而且不仅仅在第一层这么计算，在每一层都是这样计算。

对比来看：

在(b)和(d)这两项中，将所有绝对位置向量都转为相对位置向量，与Transformer一样，这是一个固定的编码向量，不需要学习。
在(c)这一项中，将查询的向量 $U_i^TW_q^T$ 转为一个需要学习的参数向量 $u$ ，因为在考虑相对位置的时候，不需要查询绝对位置 $i$ ，因此对于任意的 $i$ ，都可以采用同样的向量。同理，在(d)这一项中，也是一样
将Key的权重变换矩阵 $W_k$ 转为 $W_{k,E}$ 和 $W_{k,R}$ ，分别作为 Content-based key vectors和 Location-based key vectors。

从另一个角度来解读这个公式的话，可以将attention的计算分为如下四个部分：

基于内容的"寻址"，即没有添加原始位置编码的原始分数。
基于内容的位置偏置，即相对于当前内容的位置偏差。
全局的内容偏置，用于衡量key的重要性。
全局的位置偏置，根据query和key之间的距离调整重要性。

将上面的式子合并后，可以得到：

上面整个即使Transformer-XL的两个改变：前面是内容，后面是位置。

3、整体公式计算

结合上面两个创新点，将Transformer-XL模型的整体计算公式整理如下，这里考虑一个N层的只有一个注意力头的模型：

4、计算小Trick：Efﬁcient Computation of the Attention with Relative Positional Embedding

四、论文相关

1、模型特点

在 AI-Rfou 等人提出的vanilla Transformer上做了两点创新：

引入循环机制（Recurrence Mechanism）
相对位置编码（Relative Positional Encoding），这个是解决上面创新带来的问题而产生的。

2、优点

与vanilla Transformer相比，Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模【说明：这个没有理解从哪方面体现的】。在几种不同的数据集（大/小，字符级别/单词级别等）均实现了最先进的语言建模结果。
结合了深度学习的两个重要概念——循环机制和注意力机制，允许模型学习长期依赖性，且可能可以扩展到需要该能力的其他深度学习领域，例如音频分析（如每秒16k样本的语音数据）等。
在inference阶段非常快，比之前最先进的利用Transformer模型进行语言建模的方法快300～1800倍。
有详尽的源码！含TensorFlow和PyTorch版本的，并且有TensorFlow预训练好的模型及各个数据集上详尽的超参数设置。

3、不足

尚未在具体的NLP任务如情感分析、QA等上应用。
没有给出与其他的基于Transformer的模型，如BERT等，对比有何优势。
在Github源码中提到，目前的sota结果是在TPU大集群上训练得出，对于我等渣机器党就只能玩玩base模式了。

enwik8和text8数据集

参考资料：
The Transformer Family
【NLP-16】Transformer-XL
7. Transformer-XL原理介绍
一文看懂 9 种Transformer结构！
谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）
Transformer一统江湖：自然语言处理三大特征抽取器比较
谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）
Transformer-XL: Unleashing the Potential of Attention Models

【教程】Ollama 部署 MindSpore 训练的大模型 Hsiayukoo llama python
gguf-mindspore本项目（gguf-mindspore）帮助用户快速的将MindSpore生成的大模型的ckpt文件，转换为Ollama可以加载的GGUF格式文件，主要思路是针对已有的如Huggingface上的对应模型的GGUF文件，利用MindSpore生成的ckpt文件，替换掉GGUF文件中的张量信息部分，生成自己的GGUF文件。依赖gguf==0.6.0mindsporenump
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
ChatGLM-6B-Int本地CPU部署松醪 chatgpt
1.环境说明开源地址：https://github.com/THUDM/ChatGLM-6B目的：为了本地部署LLM模型，此次选用了ChatGLM-6B，但是由于设备的限制所以使用量化模型int4的版本也就是ChatGLM-6B-int4模型下载地址：https://huggingface.co/THUDM/chatglm-6b-int4代码下载地址用以上Github的即可Gcc下载地址：http
清华和哈工大把大模型量化做到了1比特，把世界顶尖多模态大模型开源大模型量化个人电脑运行！机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能，视 Mamba速度提升2.8倍，内存能省87% 代码讲故事机器人智慧之心 Mamba 机器人量化大模型开源视觉 VLMs
清华和哈工大把大模型量化做到了1比特，把世界顶尖多模态大模型开源大模型量化个人电脑运行！机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能，视Mamba速度提升2.8倍，内存能省87%。清华和哈工大把大模型量化做到了1比特。在追求更高效的机器学习模型部署时，模型量化技术应运而生，它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需求。我们一般的双精度浮点型double是64位
如何创建自定义聊天模型类 srudfktuffk 人工智能 python
在当今的AI开发中，聊天模型成为了一个非常重要的领域。本文将介绍如何使用LangChain的抽象来创建一个自定义的聊天模型，旨在帮助你轻松地将自己的语言模型集成到现有的LangChain程序中。通过包装自定义的LLM（大语言模型）到标准的BaseChatModel接口中，你不仅能与现有程序无缝集成，而且还能自动享受LangChain的各种优化，包括批处理、异步支持和流式API等。技术背景介绍聊天模
大模型的部署方法三：使用Xinference部署大模型微调部署人工智能 AI大模型大模型 AI 深度学习大模型部署
Xinference是一个分布式推理框架，它支持一键部署各种模型，包括大型语言模型（LLMs）。使用Xinference部署AI大模型的步骤：一、安装Xinference1）环境准备：确保您的系统上安装了Python3.9或以上版本。安装Docker（如果选择使用Docker部署）。2）安装Xinference：通过Python的包管理工具pip安装Xinference：pipinstall"xi
Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式蚝油菜花每日 AI 项目与应用实例人工智能 ocr pdf 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发非常感兴趣，我会每日分享大模型与AI领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读功能：支持零样本OCR识别，兼容PDF、DOCX、图片等多种格式文件。技术：基于GPT-4o-mini模型，能够处理复杂布局文档，输出Markdown格式结果。应用：提供API接口，便于集成到
【机器学习】多模态AI——融合多种数据源的智能系统 2的n次方_ 人工智能
随着人工智能的快速发展，单一模态（如文本、图像或语音）已经不能满足复杂任务的需求。多模态AI（MultimodalAI）通过结合多种数据源（如文本、图像、音频等）来提升模型的智能和表现，适用于多样化的应用场景，如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同形式的数据（如文本、图像、音频等）融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
Python OpenAI 库开发指南：从入门到实战精通 senger_lcc python 开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
LLama 架构一览 Debroon llama
LLama架构一览预训练Transformer架构RMSNorm归一化：为什么大模型llama选RMSNorm，而不是其他？SwiGLU激活函数：为什么大模型llama选SwiGLU激活函数，而不是其他？RoPE旋转位置编码：为什么大模型llama选RoPE旋转位置编码，而不是其他？GQA分组查询注意力：为什么大模型llama选GQA分组查询注意力，而不是其他？KVCache推理加速llama、l
DETRs with Collaborative Hybrid Assignments Training论文阅读与代码分享总结快乐论文阅读
关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名
程序员如何培养技术领导力？借雨醉东风管理及面试心得职场和发展
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
模型部署工具01：Docker || 用Docker打包模型 Build Once Run Anywhere Tiandaren 模型部署 docker java 容器服务器深度学习人工智能 linux
Docker是一个开源的容器化平台，可以让开发者和运维人员轻松构建、发布和运行应用程序。Docker的核心概念是通过容器技术隔离应用及其依赖项，使得软件在不同的环境中运行时具有一致性。无论是开发环境、测试环境，还是生产环境，Docker都能够提供高效、可靠的解决方案。在本教程中，我们将详细介绍Docker的核心概念、安装方法，以及如何使用Docker进行容器化操作。Docker是什么？为什么值得学
Docker部署nnunetv2简洁教程 Tiandaren 模型部署 docker 容器运维 pytorch 人工智能深度学习 python
前言：感觉一些教程没必要说那么多，直接贴出重点的配置文件。如果有不懂的，可以把此文档丢给gpt，配合自己的环境一同服用。首先，在nnunet路径下创建一个Dockerfile。由于我已经完成了nnUNet的训练，所以不需要将相关数据全部上传到容器中，而是只保留源码。#使用适当的基础镜像（如pytorch官方镜像）FROMpytorch/pytorch:latest#更新apt-get并安装必要的工
卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
2025 年成为 AI 独立开发者的 3 个步骤程序员陆通人工智能
2025年成为AI独立开发者的3个步骤每天拆解一个AI应用或模型功能选择一个热门的AI应用或开源模型（如ChatGPT、MidJourney、Whisper），深度体验其核心功能，分析背后的技术实现。用笔记工具记录其亮点、缺点，以及你认为可以改进的地方。思考如何通过自己的开发能力优化这些功能，形成自己的产品思路。每天学习1小时AI开发相关技能针对独立开发者需要的核心技能，每天学习一点点，比如：如何
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
C++: Dtrees:load(constg String& filepath, const String& nodeName)中nodeName参数含义湫兮之风 c++c++开发语言算法
1.nodeName的作用当你保存模型时，整个决策树会被序列化到一个XML或YAML文件中。nodeName是加载时指定的一个逻辑路径，用于从文件中找到某个节点或子结构，而不是存储在文件中的字段。如果你不指定nodeName，OpenCV默认会尝试加载文件中根节点对应的模型。2.默认的行为如果你不指定nodeName，通常会加载文件的根节点：Ptrtree=cv::ml::DTrees::load
1月更新 | 国内可用的 ChatGPT 中文版镜像网站攻略合集
一、ChatGPT镜像网站①ChatGPT中文版支持4o以及o1，支持MJ绘画②ChatGPT镜像网站支持通用全模型，支持文件读取、插件、绘画、AIPPT③ChatGPT工具站收集各种可以用的ChatGPT镜像网站，免费的收费的。1.什么是ChatGPT镜像网站ChatGPT镜像网站（ChatGPTMirrorSite）是指通过复制原始网站内容和结构，创建的备用网站。其主要目的是在原始网站无法访问
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
月之暗面今日发布k1.5多模态思考模型百态老人笔记人工智能
月之暗面k1.5多模态思考模型的问世一、月之暗面k1.5多模态思考模型介绍2025年1月20日，月之暗面发布了k1.5多模态思考模型。这一模型在基准测试成绩方面展现出了非凡的性能，它实现了SOTA（state-of-the-art）级别的多模态推理和通用推理能力。多模态推理即模型能够对多种类型的数据（如文本、图像等）进行整合分析推理，通用推理能力则表明它可以广泛应用于多种任务场景进行有效的逻辑推理
Grape-RAG disgare AI ai
Grape-RAG传统RAG的局限性图的优点用知识图谱来呈现数据关系GraphRAG传统RAG的局限性经典的RAG架构以向量数据库（VectorDB）为核心来检索语义相似性上下文，让大语言模型（LLM）不需要重新训练就能够获取最新的知识，其工作流如下图所示：这一架构目前广泛应用于各类AI业务场景中，例如问答机器人、智能客服、私域知识库检索等等。虽然RAG通过知识增强一定程度上缓解了LLM幻觉问题，
transformer模型代码地瓜不是呱学习笔记 transformer 深度学习 pytorch
importnumpyasnpimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportmatplotlib.pyplotaspltimportmathdefmake_batch(sentences):input_batch=[[src_vocab[n]forninsentences[0].split()]]output_batch=[[
一行代码搞定加载glove预训练词向量 peanutwang python 机器学习人工智能
加载glove预训练词向量再也不用glove2word2vec转换啦！以前加载glove预训练词向量的方法fromgensim.scripts.glove2word2vecimportglove2word2vecglove2word2vec('glove.6B.50d.txt','word2vec50d.txt')其实就是在原来的txt文件前面加上了一行信息，行和列。word10.1230.134
用Python实现概率语言模型（2-元语法模型） peanutwang python 语言模型
首先构造一个语料库，由6句话组成，每句话3个字。corpus='她很香她很菜她很好他很菜他很好菜很好'.split()构造一个字典，存储一元的字数Count1={}遍历语料库，把每个字出现的次数存储在字典中。forsentenceincorpus:forwordinsentence:ifwordinCount1:Count1[word]+=1#如果word在字典中存在else:Count1[wor
【Vim Masterclass 笔记22】S09L40 + L41：同步练习11：Vim 的配置与 vimrc 文件的相关操作（含点评课内容）安冬的码畜日常 Vim Masterclass vim 笔记 vim配置 vim同步练习 vim options vim option-list
文章目录S09L40Exercise11-VimSettingsandtheVimrcFile1训练目标2操作指令2.1.打开vimrc-sample文件2.2.尝试各种选项与设置2.3.将更改内容保存到vimrc-sample文件2.4.将文件vimrc-sample的内容复制到寄存器2.5.创建专属vimrc文件2.6.对于Mac、Linux或Unix用户2.7.对于Windows用户2.8.
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
Kafka消息轨迹方案设计与实现小马不敲代码大数据 kafka
在处理过的几个千万级TPS的Kafka集群中，消息追踪始终是一个既重要又棘手的问题。一条消息从Producer发出后，经过复杂的处理流程，最终被Consumer消费，中间可能会经历重试、重平衡、多副本复制等多个环节。如果没有完善的追踪机制，一旦出现问题将很难定位。本文将详细介绍Kafka消息轨迹的实现方案。1、Kafka消息处理模型在设计追踪方案前，我们需要先理解Kafka的消息处理模型。一条消息
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin