风度78

一文看懂XLNet

XLNet论文推荐语：

BERT本身很有效，但它也存在一些问题，比如不能用于生成、以及训练数据和测试数据的不一致（Discrepancy）。在本文中，我们重点介绍比BERT更强大的预训练模型XLNet，它为了达到真正的双向学习，采用了Permutation语言模型、以及使用了双流自注意力机制，并结合了Transformer-XL的相对位置编码。

XLNet的论文：

Yang Z, Dai Z, Yang Y, et al. Xlnet: Generalized autoregressive pretraining for language understanding[C]//Advances in neural information processing systems. 2019: 5754-5764.

目录：

1. Unsupervised Pre-training

目前神经网络在进行训练的时候基本都是基于后向传播（Back Propagation，BP）算法，通过对网络模型参数进行随机初始化，然后利用优化算法优化模型参数。但是在标注数据很少的情况下，通过神经网络训练出的模型往往精度有限，“预训练”则能够很好地解决这个问题，并且对一词多义进行建模。

预训练是通过大量无标注的语言文本进行语言模型的训练，得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中，都被证明拥有更好的效果。目前，热门的预训练方法主要有：ELMo、OpenAI GPT、BERT和XLNet等。

在NLP中，早期的无监督预训练模型主要是word2vec（SkipGram、CBOW）和Glove，这些模型都使用了不考虑上下文嵌入的方式得到词向量。

在2018年初，AllenNLP 和华盛顿大学的研究人员在《Deep contextualized word representations》一文中提出了ELMo。相较于传统的使用词嵌入（Word embedding）对词语进行表示，得到每个词唯一固定的词向量，ELMo 利用预训练好的双向语言模型，根据具体输入从该语言模型中可以得到在文本中该词语的表示。在进行有监督的 NLP 任务时，可以将 ELMo 直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。这篇论文提出的 ELMo 模型是 2013 年以来 Embedding 领域非常精彩的转折点，并在 2018 年及以后的很长一段时间里掀起了迁移学习在 NLP 领域的风潮。简单来说，ELMo 是一种基于语境的深度词表示模型（Word Representation Model），它可以捕获单词的复杂特征（词性句法），也可以解决同一个单词在不同语境下的不同表示（语义）。

在ELMo的基础之上，OpenAI的研究人员在《Improving Language Understanding by Generative Pre-Training》提出了OpenAI GPT。与ELMo为每一个词语提供一个显式的词向量不同，OpenAI GPT能够学习一个通用的表示，使其能够在大量任务上进行应用。在处理具体任务时，OpenAI GPT 不需要再重新对任务构建新的模型结构，而是直接在 Transformer 这个语言模型上的最后一层接上 softmax 作为任务输出层，再对这整个模型进行微调。GPT 采用无监督学习的 Pre-training 充分利用大量未标注的文本数据，利用监督学习的 Fine-tuning 来适配具体的 NLP 任务（如机器翻译等）。

ELMo和OpenAI GPT这两种预训练语言表示方法都是使用单向的语言模型来学习语言表示，而Google提出的BERT则实现了双向学习，并得到了更好的训练效果。具体而言，BERT使用Transformer的编码器作为语言模型，并在语言模型训练时提出了两个新的目标：一个是 token-level 级别的MLM（Masked Language Model）和一个是 sentence-level 级别的NSP（Next Sentence Prediction）。MLM是指在输入的词序列中，随机的遮挡上 15% 的词，并对遮挡部分的词语进行双向预测。为了让模型能够学习到句子间关系，研究人员提出了让模型对即将出现的句子进行预测：对连续句子的正误进行二元分类，再对其取和求似然。

自从ELMo、GPT和BERT出现之后，pretrain+finetune的两段式训练方法，成为NLP任务的主流做法。在公开的语料库上对大模型进行自监督或者无监督的预训练，然后在特定任务的语料库上对模型做微调。本文介绍另外一篇类似的算法XLNet。

相关论文：

【1】Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018.
【2】Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL https://s3-us-west-2. amazonaws. com/openai-assets/researchcovers/languageunsupervised/language understanding paper. pdf, 2018.
【3】Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

2. AR与AE语言模型

AR：Autoregressive Language Modeling
AE：Autoencoding Language Modeling

AR语言模型：指的是，依据前面（或后面）出现的tokens来预测当前时刻的token，代表有 ELMO， GPT等。

forward:

backward:

AE语言模型：通过上下文信息来预测被mask的token，代表有 BERT , Word2Vec(CBOW) 。

二者有着它们各自的优缺点：

AR 语言模型：

缺点： 它只能利用单向语义而不能同时利用上下文信息。ELMO 通过双向都做AR 模型，然后进行拼接，但从结果来看，效果并不是太好。
优点： 对生成模型友好，天然符合生成式任务的生成过程。这也是为什么 GPT 能够编故事的原因。

AE 语言模型：

缺点： 由于训练中采用了 [MASK] 标记，导致预训练与微调阶段不一致的问题。BERT独立性假设问题，即没有对被遮掩（Mask）的 token 之间的关系进行学习。此外对于生成式问题， AE 模型也显得捉襟见肘。
优点： 能够很好的编码上下文语义信息（即考虑句子的双向信息），在自然语言理解相关的下游任务上表现突出。

所以，AR方式所带来的自回归性学习了预测 token 之间的依赖，这是 BERT 所没有的；而 BERT 的AE方式带来的对深层次双向信息的学习，却又是像ELMo还有GPT单向语言模型所没有的，不管是有没有替换 [MASK]。于是，自然就会想，如何将两者的优点统一起来？这时就到了XLNet登场的时间。

3. XLNet提出的方法

3.1 Permutation Language Model

作者发现，只要在 AR中再加入一个步骤，就能够完美地将AR与AE的优点统一起来，那就是提出Permutation Language Model（PLM）。

具体实现方式是，通过随机取一句话的一种排列，然后将末尾一定量的词给遮掩（和 BERT 里的直接替换 [MASK] 有些不同）掉，最后用 AR 的方式来按照这种排列依次预测被遮掩掉的词。

我们可以发现通过随机取排列（Permutation）中的一种，就能非常巧妙地通过 AR 的单向方式来习得双向信息了。

论文中 Permutation 具体的实现方式是通过直接对 Transformer 的 Attention Mask 进行操作。

比如说序号依次为 1234 的句子，先随机取一种排列3241。于是根据这个排列我们就做出类似上图的 Attention Mask。先看第1行，因为在新的排列方式中 1 在最后一个，根据从左到右 AR 方式，1 就能看到 234 全部，于是第一行的 234 位置是红色的（没有遮盖掉，会用到），以此类推。第2行，因为 2 在新排列是第二个，只能看到 3，于是 3 位置是红色。第 3 行，因为 3 在第一个，看不到其他位置，所以全部遮盖掉...

3.2 Two-Stream Self-Attention

为了实现 Permutation 加上 AR 预测过程，首先我们会发现，打乱顺序后位置信息非常重要，同时对每个位置来说，需要预测的是内容信息（对应位置的词），于是输入就不能包含内容信息，不然模型学不到东西，只需要直接从输入复制到输出就好了。

于是这里就造成了位置信息与内容信息的割裂，因此在 BERT 这样的位置信息加内容信息输入 Self-Attention （自注意力）的流（Stream）之外，作者还增加了另一个只有位置信息作为 Self-Attention 中 Query 输入的流。文中将前者称为 Content Stream，而后者称为 Query Stream。

这样就能利用 Query Stream 在对需要预测位置进行预测的同时，又不会泄露当前位置的内容信息。具体操作就是用两组隐状态和。其中只有位置信息，作为 Self-Attention 里的。包含内容信息，则作为和。具体表示如下图所示：

图：Query stream attention

假如，模型只有一层的话，其实这样只有 Query Stream 就已经够了。但如果将层数加上去的话，为了取得更高层的 h，于是就需要 Content Stream 了。h 同时作为 Q K V。如下图所示：

图：Content stream attention

于是组合起来就是这样：

图：基于双流注意力机制的排序语言模型

上图中我们需要理解两点：

第一点，最下面一层蓝色的 Content Stream 的输入是，这个很好懂就是对应的词向量 (Embedding)，不同词对应不同向量，但看旁边绿色的 Query Stream，就会觉得很奇怪，为什么都是一样的？这个和Relative Positional Encoding 有关。
第二点，Query stream attention图中为了便于说明，只将当前位置之外的作为和，但实际上实现中应该是所有时序上的都作为和，最后再交给上图中的 Query stream 的 Attention Mask 来完成位置的遮盖。

3.3 Partial Prediction

XLNet还使用了部分预测（Partial Prediction）的方法。因为LM是从第一个Token预测到最后一个Token，在预测的起始阶段，上文信息很少而不足以支持Token的预测，这样可能会对分布产生误导，从而使得模型收敛变慢。为此，XLNet只预测后面一部分的Token，而把前面的所有Token都当作上下文。具体来说，对长度为的句子，我们选取一个超参数，使得后面的Token用来预测，前面的的Token用作上下文。注意，越大，上下文越多，模型预测得就越精确。

例如：只预测和，把和当作上下文信息。

3.4 Transformer-XL

为什么会提出Transformer-XL呢？它的提出主要是为了解决transformer的问题。我们首先分析一下RNN以及Transformer的优缺点。

RNN:

优点：支持可变长，支持记忆，有序列顺序关系。
缺点：gradient vanish，耗时无法并行。

Transformer:

优点：并行，考虑到sequence的long term dependency信息（相对于RNN），可解释性。
缺点：句子与句子之间的关系，batch size也不能很大，空间占用大（因为每个encoder的score matrix（sequenceLen*sequecenLen是的空间复杂度）如下图：

Transformer编码固定长度的上下文，即将一个长的文本序列截断为几百个字符的固定长度片段(segment)，然后分别编码每个片段，片段之间没有任何的信息交互。比如BERT，序列长度的极限一般在。因此Transformer-XL提出的动机总结如下：

Transformer无法建模超过固定长度的依赖关系，对长文本编码效果差。
Transformer把要处理的文本分割成等长的片段，通常不考虑句子（语义）边界，导致上下文碎片化(context fragmentation)。通俗来讲，一个完整的句子在分割后，一半在前面的片段，一半在后面的片段。

《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文围绕如何建模长距离依赖，提出Transformer-XL（XL是extra long的意思）：

提出片段级循环机制(segment-level recurrence mechanism)，引入一个记忆(memory)模块（类似于cache或cell），循环用来建模片段之间的联系。这使得长距离依赖的建模成为可能；也使得片段之间产生交互，解决上下文碎片化问题。
提出相对位置编码机制(relative position embedding scheme)，代替绝对位置编码。在memory的循环计算过程中，避免时序混淆，位置编码可重用。

Transformer-XL总结： 片段级循环机制为了解决编码长距离依赖和上下文碎片化，相对位置编码机制为了实现片段级循环机制而提出，解决可能出现的时序混淆问题。也可以简单的理解Transformer-XL=Transformer + RNN，即segment-wise的RNN模型，但是RNN模型的组件是Transformer的Encoder模块。

相关论文：

【1】Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
【2】Dai Z, Yang Z, Yang Y, et al. Transformer-xl: Attentive language models beyond a fixed-length context[J]. arXiv preprint arXiv:1901.02860, 2019.

3.5 Relative Segment Encodings

3.5.1 Absolute Positional Encoding

Transformer使用的是绝对位置编码，如果我们继续使用Absolute Positional Encoding的话，对于所有的sequence序列，只要这个字在序列中的位置一样的话，它的position encoding也会一样，这样的话，对于我们concat之后的输出，我们无法区别每个字的位置。如下图：The和that的position encoding完全一样，模型无法区分两者位置区别。

3.5.2 Relative Position Encoding

所以Transformer-XL 首先分析了position encoding在计算中的作用，然后根据这个结果将交互项转化为relative position encoding。

The notation (i, •) refers to the entire row i and (•, j) to the entire column j 。经过计算，这个式子可以分为4项。

a) 这一项中没有包含位置信息，代表的是在第行的字应该对第列的字提供多大的注意力。这是不管他们两个字的位置信息的。
b) 这一项捕获的是模型的global attention，指的是一个字在position 应该要对 position 付出多大的注意力。例如两个字的位置越远，期望它们之间的注意力越小。
c) 这一项捕获的是在row 的字对其他位置的关注信息，例如在position 是一个字"狗"，应该要对这个位置特别注意，否则可能出现是“热”，出现是“热狗”的情况。
d) 这个是c) 的逆向表示，指的是的字要关注位置的字。

根据这个观测，为了转化relative position，通过了解了每一项的意义，特别是了解了两个字的相对位置对这个score的作用。我们将 b), c) and d) 替换为如下式子：

我们可以看到主要的变化：

我们将使用的是相对的position encoding i.e. 取消而采用相对位置。
每次使用，我们都将替换为 (两者的形状相同)。这是为了区别（仍使用）和，使得两者可以各自捕获有意义的位置信息而不会相互干预，因为和相匹配出现，而和相匹配出现。
这一项被替代为和，这两个向量的维度为。因为我们使用的是相对位置编码，所以我们并不需要提供绝对位置。

所以的公式被替换为：

3.5.3 Relative Segment Encodings

为了通过输入形式来处理句子对任务，于是需要加入标识 A 句和 B 句的段信息。BERT 里面很简单，直接准备两个向量，一个加到 A 句上，一个加到 B 句上。

但当这个遇上 Segment Recurrence Mechanism 时，和位置向量一样，也出问题了。万一出现了明明不是一句，但是相同了怎么办，于是我们就需要最后一个技巧，同样准备两个向量，和分别表示在一句话内和不在一句话内。

具体实现是在计算 attention 的时候加入一项：

当和位置在同一段里就用，反之用，在 attention 计算权重的时候加入额外项。

4. 总结

从XLNet论文的结果来看，其在问答、文本分类、自然语言理解等任务上大幅超越BERT。除了相比BERT增加了训练集之外，XLNet也在模型设计上有较大的改进，比如引入了新的优化目标Permutation Language Modeling（PLM），使用了双流自注意力机制（Two-Stream Self Attention, TSSA）和与之匹配的Mask技巧。此外，XLNet还使用了Transformer-XL作为Backbone，也使用了Transformer-XL的相对位置编码。所以，相比BERT，XLNet对长文本的支持更加有效。这些改进为BERT类预训练模型难以进行生成任务的问题提供了一个解决思路。可以期待，在不久的将来，NLP预训练模型能够突破一系列生成任务，实现NLP模型结构化的统一。

5. Reference

【1】Larochelle H, Murray I. The neural autoregressive distribution estimator[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. 2011: 29-37.
【2】Uria B, Côté M A, Gregor K, et al. Neural autoregressive distribution estimation[J]. The Journal of Machine Learning Research, 2016, 17(1): 7184-7220.
【3】The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)，Jay Alammar'blog，地址：https://jalammar.github.io/illustrated-bert/
【4】【AI模型】最通俗易懂的XLNet详解，地址：https://www.bilibili.com/video/av73657563?p=1
【5】Dissecting Transformer-XL，地址：https://mc.ai/dissecting-transformer-xl/
【6】你应该知道的transformer - Don.hub的文章 - 知乎 https://zhuanlan.zhihu.com/p/102591791
【7】飞跃芝麻街：XLNet 详解 - Andy Yang的文章 - 知乎 https://zhuanlan.zhihu.com/p/71916499
【8】就最近看的paper谈谈预训练语言模型发展 - 老宋的茶书会的文章 - 知乎 https://zhuanlan.zhihu.com/p/79371603
【9】XLNet:运行机制及和Bert的异同比较 - 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/70257427
【10】请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译 - 七月在线七仔的文章 - 知乎 https://zhuanlan.zhihu.com/p/59158735
【11】论文笔记 —— Transformer-XL - 谢玉强的文章 - 知乎 https://zhuanlan.zhihu.com/p/70745925
【12】香侬读 | XLnet：比Bert更强大的预训练模型 - 香侬科技的文章 - 知乎 https://zhuanlan.zhihu.com/p/71759544
【13】从BERT到XLNet，李文哲B站直播视频，地址：https://www.bilibili.com/video/av89296151?p=5

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载（pdf更新到25集）本站qq群1003271085，加入微信群请回复“加群”获取一折本站知识星球优惠券，请回复“知识星球”喜欢文章，点个在看

特朗普想换掉鲍威尔并不容易？一文详解美联储主席职位稳固性加百力科技知识财经研究数据库开发语言
根据《联邦储备法》，理事只能因"正当理由"被解职，而非政策分歧。最高法院在Trumpv.Wilcox案中特别认定"美联储是结构独特的准私人实体"，享有特殊保护地位。如果特朗普选择以“正当理由（装修）”解雇鲍威尔，可能导致漫长的法律程序。有分析认为，届时鲍威尔任期很可能结束。尽管特朗普一直批评鲍威尔不降息，且发表了可能撤换美联储主席的言论，但是想要换掉鲍威尔实际上不容易，因为法律和制度框架为美联储主
脏读、不可重复读、幻读？一文扫盲数据库三大“读“问题
想象一下：你在银行查看账户余额时，数字在你眼前变来变去；或者明明没有记录的操作，却突然冒出新数据。这不是系统故障，而是数据库事务隔离的三大经典问题！今天我们就来揭开这些神秘现象的面纱。一、事务隔离的"三座大山"️在数据库世界中，多个事务同时操作数据时会产生三种典型问题：问题类型出现场景危害程度类比场景脏读读取未提交的数据⚠️⚠️⚠️高危看到别人未提交的草稿不可重复读同一事务内读取结果不一致⚠️⚠️
「DR」沉渊／柳瑱箫凌
站在黑暗的深处靠近光明的边缘刻铸最细腻的温情全世界只有不到3%的人微信搜索并且关注了箫凌你真是个特别的人策划：箫凌「fromOvertureStudio/角一文化」姓名：柳瑱生日：1993年12月4日星座：射手座Overture工作室/角一文化签约原创创作者作品：沉渊文案：柳瑱「fromOvertureStudio/角一文化」NOTE：其实我真不知道所谓创作构思要怎么写，那就罗列一些关于这个主题的
Omics精进03|一文彻底搞明白Germline Mutation和Somatic Mutation qq_21478261 #生物信息生物学生物信息学
胚系突变（GermlineMutation）和体细胞突变（SomaticMutation）在WES、WGS、GenePanel检测时常常遇到，二者最大的区别是胚系突变可以遗传给后代，而体细胞突变不能够遗传给后代。本文将从形成原因、遗传性、功能、发生时期、变异检测几个方面介绍二者的区别。上图，直观理解二者区别形成原因Germlinemutations主要是由于生殖细胞（germcells）突变导致，
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
性能狂飙 Gooxi 8卡5090服务器重新定义高密度算力 Gooxi国鑫服务器运维
国鑫Intel®EagleStream平台8卡RTX5090AI服务器性能到底有多强？小编一文带你看懂个中奥妙。国鑫Intel®EagleStream平台8卡RTX5090AI服务器如图，国鑫Intel®EagleStream平台8卡RTX5090AI服务器（SY6108G-G4）只有6U高度，但“貌美”不是重点，重点在于它闪亮的外表下“狂飙”的算力性能。极致性能国鑫SY6108G-G4可搭载1-
【一文了解】C#基础-集合
目录集合1.集合分类1.1.非泛型集合1.2.泛型集合1）列表（List）2）字典（Dictionary）3）队列（Queue）4）栈（Stack）5）哈希集合（HashSet）2.集合的常见操作3.区分泛型集合与非泛型集合3.1.非泛型集合1）优点2）缺点3.2.泛型集合1）优点2）缺点总结本篇文章来学习一下集合，C#集合主要分为非泛型集合与泛型集合。集合集合（Collection）是一种用于存
一文读懂HarmonyOS知识地图，开启鸿蒙开发新征程大雨淅淅 #HarmonyOS开发 harmonyos 华为
目录一、HarmonyOS知识地图是什么？二、HarmonyOS基础概念速览（一）起源与发展（二）核心特性（三）技术架构剖析1.内核层2.系统服务层3.框架层4.应用层三、HarmonyOS知识地图板块解读（一）开发基础知识1.应用程序包2.应用配置文件3.资源分类与访问4.ArkTS语言基础（二）UI开发知识1.方舟开发框架（ArkUI）2.布局与组件3.动画与交互（三）应用模型与能力1.Abi
别再折腾配置了！一文看懂内网穿透，顺便给你个“王炸”
别再跟localhost死磕了！嘿，各位奋斗在代码一线的兄弟姐妹们！让我猜猜你现在是不是又遇到了这个“宇宙级难题”：你，在办公室或家里，对着localhost:3000上那个倾注了你无数心血（和头发）的页面，满意地点了点头。就在这时，微信“叮”的一声，你的老板/客户/产品经理发来一条消息：“那个新功能做得咋样了？发我手机上看看效果。”一瞬间，世界仿佛静止了。你的内心OS可能是：“看？怎么看？我把电
VR开发基础（二）一文详解Oculus环境helloxr的openxr核心接口流程起个昵称那么难 XR vr android
注：Oculus使用的是开源的hello_xr示例，但要使用自家的loader；在hello_xr上篇侧重分析了入口和图形的基本流程，此篇将侧重分析XR相关的流程一，SetupandBuildhello_xr1，下载hello_xr官方示例、Oculus的sdk，获取loaderTheOpenXR™SoftwareDevelopmentKit(SDK)SourcesProjectcontainst
一文搞懂怎么入门大模型
在人工智能飞速发展的当下，大模型已然成为推动众多领域创新变革的核心力量。无论是在智能客服、内容创作，还是数据分析、科学研究等方面，大模型都展现出了令人瞩目的能力。对于渴望踏入大模型领域的初学者而言，构建一个系统且全面的入门路径至关重要。接下来，我们将以DeepSeek为例，详细阐述如何系统地入门大模型。一、理论基础：搭建认知框架在深入实践之前，理解大模型的基础理论是关键。大模型，通常指具有海量参数
深度剖析：Ceph分布式存储系统架构 TechVision大咖圈 ceph 分布式架构分布式存储
一文带你彻底搞懂Ceph的架构奥秘，从小白到架构师的进阶之路！文章目录1.Ceph简介：存储界的"多面手"什么是Ceph？为什么选择Ceph？2.核心组件架构：四大金刚的分工合作Monitor（MON）：集群的"大脑"ObjectStorageDevice（OSD）：数据的"家园"MetadataServer（MDS）：文件系统的"管家"Manager（MGR）：集群的"助手"3.三大存储接口：一
在PPAPI插件中使用Skia绘图 foruok 网络编程 CEF与PPAPI开发 CEF PPAPI Skia Chromium Qt
Windows下从源码编译Skia一文介绍了Skia的编译，现在我们可以尝试在PPAPI插件中来使用Skia了。foruok原创，如需转载请关注foruok的微信订阅号“程序视界”联系foruok。Skia的关键类库官网https://skia.org/上有文档，可以看。然后下载的源码，可以使用SourceInsight之类的工具来查看。具体不再细说，我这里只提用到的三个关键类：SkPaintSk
图片合并pdf antrcp-Assistant 办公软件效率工具图片合并 pdf
文章目录背景目标实现下载背景整合：将零散的图片集合成一个单一文件。有序化：固定图片的排列顺序。标准化：转换为通用、兼容性强的PDF格式。高效管理：便于存储、查找、分享和传输。正式化/文档化：满足提交、报告、存档等正式场景的要求。提升阅读/查看体验：像翻阅文档一样连续查看图片。目标图片格式：jpg、jpeg、png、bmp等常见格式。能力：批量处理，百个千个文件极速处理。操作便捷：免安装、免注册，开
Prompt相关伤心美眉 prompt
目录Prompt设计基础一.推理模型（例如gpt-4o，能够快速反应）二.通用模型Prompt相关一.AI需求类型二.Prompt类型三AI幻觉写Prompt技能一.基本技能二.基本策略三常见陷阱四如何写好一个Prompt1.基本模型：2.提示语链应用场景一文案写作二营销策划：三品牌故事Prompt设计基础一.推理模型（例如gpt-4o，能够快速反应）1.能够进行数学推导，逻辑分析，代码生成，复杂
深度学习最简单的神经网络线性回归网络
用最简单的线性模型讲清神经网络训练全流程，让你5分钟看懂AI是怎么学会预测的1真实神经元结构真实神经元包括：树突接收其他神经元传来的电信号（输入）。细胞核负责整合输入信号并产生动作电位。轴突传导动作电位到下一个神经元。突触释放神经递质，将信号传递给下一个神经元的树突。2线性回归神经网络原理（与神经元对比）假设输入是x_1,x_2,x_3x\_1,x\_2,x\_3x_1,x_2,x_3，权重是w_
限流、控并发、减GC！一文搞懂Go项目资源优化的正确姿势
在Go语言项目进入构建与部署阶段后，性能调优和资源控制显得尤为重要。本章将聚焦在Go程序运行效率的提升策略、资源使用的限制手段、以及结合容器/云平台的实战建议，帮助开发者打造高性能、稳定可控的生产级应用。1.编译优化1.1构建参数优化•使用-ldflags="-s-w"去除调试信息，减小二进制文件体积go build -ldflags="-s -w" -o app main.go•压缩二进制：结合
手机FunASR识别SIM卡通话占用内存和运行性能分析
手机FunASR识别SIM卡通话占用内存和运行性能分析--本地AI电话机器人上一篇：手机无网离线使用FunASR识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案。当时为了减少模型文件的数量和大小，只引入了【vad_res】、【asr_o
一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
Python python-docx详解：从入门到精通的Word文档处理指南 detayun Python python word 开发语言
引言在自动化办公与数据报告生成的场景中，Python的python-docx库以其简洁的API设计和强大的功能，成为处理Word文档的利器。无论是创建结构化文档、批量生成报告，还是处理复杂表格与图片，该库都能提供高效的解决方案。本文将系统讲解python-docx的核心用法与高级技巧，助您快速掌握这一文档自动化神器。安装与配置快速安装pipinstallpython-docx#推荐同时安装依赖库（
一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO…… Python算法实战大模型理论与实战算法深度学习人工智能 transformer 大模型 RLHF ppo
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。《大模型面试宝典》(2024版)正式发布喜欢本文记得收藏、关注、点赞。更多实战和面试交流，文末加入我们为了对齐LLM，各路研究者妙招连连。LLM很强大了，但
一文就够-InfiniBand 技术全面解析：从原理到实践的通俗易懂指南清风 001 AI大模型底层建设 php 开发语言 ai gpu算力
目录一、基本概念：揭开InfiniBand的神秘面纱1.1什么是InfiniBand？1.2InfiniBand的核心优势1.3InfiniBand与以太网的区别1.4InfiniBand的应用场景二、Nvidia+Mellanox：强强联合重塑高速网络格局2.1收购背景：Nvidia的"网络拼图"2.2Mellanox的技术家底2.3收购后的化学反应：Nvidia如何整合Mellanox2.4对
一文读懂主流云厂商的云安全产品对比｜小白也能看懂！
☁️一文读懂主流云厂商的云安全产品对比｜小白也能看懂！云服务器是“家”，安全产品就是“门锁、摄像头、护栏”——你搭了房子，总得保护吧？无论你是初创开发者，还是企业运维，选对安全产品比你想象中更重要。但问题来了，阿里云、腾讯云、华为云这三大厂商的云安全产品看起来都差不多，到底有什么区别？作为一个云安全小白，云安全产品那么多到底是什么以及最后该怎么选？！一、安全防护到底防的是什么？很多人以为“云安全”
2025生成式AI革命：从技术原理到商业应用，一文读懂未来十年的颠覆力量硅基打工人 AI 人工智能开源语言模型经验分享
引言：生成式AI为何成为2025年最火爆的技术话题？2025年，生成式AI（GenerativeAI）已从实验室走向千家万户。无论是刷屏的AI绘画、爆火的虚拟主播，还是医疗领域的蛋白质结构预测，生成式AI正以惊人的速度重塑行业格局。据《2025年人工智能发展报告》显示，全球生成式AI市场规模已突破800亿美元，年增长率达45%。与此同时，OpenAI的GPT-5、谷歌的GeminiUltra等大模
前端的跨域问题
前端新手也能看懂的跨域问题详解在前端开发中，我们经常会听到“跨域问题”。尤其是在本地调试前端和后台接口时，浏览器突然抛出一堆报错信息，比如：AccesstoXMLHttpRequestat'[http://api.xxx.com/data](http://api.xxx.com/data)'fromorigin'[http://localhost:8080](http://localhost:80
一文读懂 AI 模型训练流程 AI赋能人工智能人工智能
一文读懂AI模型训练流程在当今数字化时代，AI技术发展得如火如荼，广泛应用于各个领域，而这背后离不开AI模型的训练。AI模型训练流程就像是一场精心策划的“智慧锻造之旅”，每一步都至关重要。今天，咱们就来深入了解一下这个神秘的过程。数据准备：夯实基础数据，堪称AI模型训练的“原材料”，其质量直接决定了最终模型的性能。这就好比建造一座高楼，只有用优质的砖块、钢筋等材料，才能让大楼稳固结实。数据收集我们
一文讲清楚React Fiber 许先森森 React react.js javascript 前端 React Fiber
文章目录一文讲清楚ReactFiber1.基础概念1.1浏览器刷新率（帧）1.2JS执行栈1.3时间分片1.4链表2.ReactFiber是如何实现更新过程控制2.1任务拆分2.2挂起、恢复、终止2.2.1挂起2.2.2恢复2.2.3终止2.3任务具备优先级一文讲清楚ReactFiber1.基础概念1.1浏览器刷新率（帧）页面都是一帧一帧绘制出来的，浏览器大多是60Hz（60帧/s），每一帧耗时1
一文吃透DApp生命周期代码羊羊区块链 web3 web3 区块链
一、引言在Web3的宏大版图中，去中心化应用（DApp）无疑占据着核心地位，是推动Web3发展的重要力量。DApp基于区块链技术构建，与传统应用相比，它具有去中心化、开源、自治、数据加密存储等特性，这些特性赋予了DApp更高的安全性、透明度以及用户自主性，也因此，DApp在金融、游戏、社交、供应链等众多领域展现出巨大的应用潜力，成为了众多开发者和企业探索Web3世界的重要方向。要开发出一个成功的D
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要