triplemeng

XLNet：通用自回归预训练方法

XLNet:通用自回归预训练方法

AR和AE
XLNet的比较优势
Transformer-XL

Transformer的特点和缺陷
语言模型里的Transformer
XL是什么
相对位置编码

XLNet的目标函数：排列语言模型(Permutation Language Modeling)
双流自注意力(Two-Stream Self Attention)
实验

BERT(前文有介绍)火了以后 XLNet算是首个真正意义上能和其叫板的工作了。在20个任务上都超过BERT，其中很多还是大幅的超越。

AR和AE

作者首先对今天NLP的主流预训练方法进行了分类：自回归语言模型(AR)和自编码(AE)。这样就把ULMFit，ELMo， GPT，GPT2这些依靠传统的语言模型进行预训练的方法分成了一类(AR)。大名鼎鼎的BERT在它的独创性的MLM(Masked LM)中，利用corrupted版本的输入(即用[MASK]来遮住一些token的输入)来恢复原来的tokens，这本质上是denoising autoencoder，所以BERT属于自编码流派。

这两种方法到底孰优孰劣？作者提到了BERT在利用上下文的信息上有很大的灵活性，它不像AR语言模型只能利用单向的信息(或者forward或者backward)，所以在很多下游的语言任务中有很大的提升。

然而作者也指出了BERT的两个缺陷:

[MASK]在fine tuning的时候不存在，这导致了预训练-微调不一致性(pretrain-finetune discrepancy)。（注：BERT的原始论文也提到过这个问题，并且相应的有采取处理手段，所以我个人觉得这未必是个大问题。）

被预测的tokens都在输入中用[MASK]替代了，这意味着BERT假设这些tokens(在其他unmasked tokens存在的情况下)是相互独立的。(这个有点拗口，其实意思就是说如果同时mask了多个tokens，那么除了被预测的那个词，其他的被mask的词在训练时也用不上。)

我个人的看法：AE方法最大的一个限制是不方便当做decoder来使用(从名字上看，它是个auto “encoder”而不是decoder)，所以在文本生成类的任务上不好用。比如BERT，它在预训练的时候利用了所有的环境信息，但是在生成文本的时候不可能去“向后看”得到未来的信息，这也算是一种训练和推断的不一致。但是像AR这一类利用LM预训练出的模型就很容易拿来作为decoder使用。

XLNet的比较优势

XLNet作为一种广义上的自回归方法，融合了AR和AE，取长补短，融汇贯通，成功的保留了两个流派的优点，并且避免了它们的局限。
下面是作者总结的XLNet的优点：

XLNet把一个序列所有可能的排列都拿来作为LM的输入，这使得每一个位置上都能够利用到所有其他的位置的信息，从而真正的捕获了上下文。

XLNet作为AR语言模型，不再依赖于data corruption。从而避免了上面提到的BRRT的两个缺陷。

另外，XLNet在架构上利用了Transformer-XL。Transformer-XL的创新之处在于它的segment recurrence机制和相对位置编码方法，这带来了它在处理长文本上效果的提升。

Transformer-XL

Transformer-XL值得单独拿出来讲一讲，我觉得在XLNet的成功一定会带动未来更多的工作采用Transformer-XL。它作为Transformer的改进版有逐渐取而代之的可能。篇幅所限，这里仅从high level上解释一下直觉上的意义。以下用XL代替Transformer-XL。

Transformer的特点和缺陷

首先我们得重新审视一下Transformer。它利用self-attenetion机制来产生long-range dependency，从而避免了LSTM里的recurrent的机制带来的vanishing/exploding gradient的问题。为了同时保有序列性，它引入了位置编码。而这些都完美的避开了LSTM里的序列性的计算，使其更易于并行化。

然而魔鬼在细节，如果我们审视一下Transformer的计算复杂度:(下图来自Transformer的原始论文attention is all you need)
这里的n可以理解为输入的长度，d是每个token对应的表征维度，那么Self-Attention对应的复杂度是 $O(n^2 d)$ (因为每个token都要attend to每一个其他的token)，看上去竟然远大于Recurrent(即LSTM)类的 $O(nd^2)$ 。
看样子，Transformer的计算效率比Recurrent类型的神经网络还要低！

在实际应用中，情况不是这样。因为d的取值往往远大于n。句子的长度一般是64或者128，但是d往往可以很大比如512或者1024，这样的话 $O(n^2d)$ 远小于 $O(nd^2)$ ，Transformer的复杂度的确小于Recurrent Networks。

Github上发布的BERT Base和Large应该是用512的序列长度做的预训练，这已经是非常巨大的参数了。即使是直接把发布的BERT模型拿来(或经过fine tuning后)使用，在对inference的速度有要求的工业界，相信绝大部分人会有针对性的选择小的多的max sequence length。

如果我们能够理解Transformer在复杂度上的特点，我们也很容易理解它的缺陷了。那就是context fragmentation。简单说，就是Transformer只能选择固定长度的连续tokens做计算(根据前面的分析，这个固定长度往往有限)，不能考虑到句子或者其他任何语义边界，从而缺乏必要的语境信息，这必然带来优化问题。看下面的例子。

语言模型里的Transformer

这是一个语言模型。在训练阶段，信息不能在不同的分段(segment)之间流动。
作者提到这种训练方式会导致两个问题：

首先，最大可能的dependency length被分段长度给限制住了，这导致了模型不能够充分利用self-attention机制的优势。

注意图1(a)里的 $x_5$ ，它和前一个分段里的 $x_1$ 到 $x_4$ 没有任何连接。前面的任何内容，在这个分段都不会存在任何记忆。

第二，如前所述，这种做法没有照顾到句子或者其他形式的语义边界，带来了语境碎片化问题(context fragmentation)。

如果图1(a)中的 $x_1$ 到 $x_8$ 恰好是一个独立的语义单位，比如说是一个完整的句子，那么上面的分段就导致了语境的碎片化。

在evaluation阶段，该语言模型每次向右移动一个单位，这种方式效率非常低。因为每一次移动都要重新进行处理当前的segment，而前面提到过，每层的计算复杂度是 $O(n^2d)$ 。

XL是什么

XL就是extremly long的意思。它旨在克服上面提到的Transformer的困难，从而使之能够处理非常长的信息。一句话总结XL：它是带有recurrence机制的Transformer。

原始论文里的图：
图(a)中的New Segment部分指的是当前正在进行处理的部分，阴影部分指的是在上一个时间步处理过的部分。显然这个处理过的部分也参与到了当前的计算。绿色的连接代表参与的方式：即隐藏层序列被固定在内存中，作为extended context传给当前部分。

用数学公式表示更清楚一些：
假设有两个连续的长度都为L的分段 $s_{\tau}=[x_{\tau,1},...,x_{\tau,L}]$ 和 $s_{\tau+1}=[x_{\tau+1,1},...,x_{\tau+1,L}]$ ，
假设 $s_{\tau}$ 的第n层的隐藏层序列为 $h_{\tau}^n\in R^{L\times d}$ ，这里 $d$ 是hidden dimension。那么对应的， $s_{\tau+1}$ 的第n层输出如下:
这里SG()代表stop-gradient，意味着前一个分段里的参数是不变的。 $[h_u \circ h_v]$ 代表两个隐藏序列的连接，具体方式是延展隐藏层的长度。所以extended context 即 $\tilde{h}_{\tau+1}^{n-1}$ 的维度是 $2L\times d$ 。

我们看到key $k_{\tau+1}^n$ 和value $v_{\tau+1}^n$ 都用到extended context $\tilde{h}_{\tau+1}^{n-1}$ 的值，也意味着它们用到了上一个分段的隐藏层 $h_{\tau}^{n-1}$ 的值。这是标准的Transformer所不具有的特性。正因为XL有了这种recurrence的机制，它的有效语境可以远大于两个分段。如图所示，最大可能的dependency length应该是 $O(N\times L)$ ，这里N是层数。

XL在evaluation阶段也有很大的优势。前面的segments产生的表征，因为放在内存中，全都可以拿来重用。图2(b)中的绿色部分代表了dependency。可以看出dependency length的跨度是 $x_3$ 到 $x_{12}$ ，这包括了3个分段。其实只要GPU的内存允许，我们可以缓存更多的分段。作者在实验中就采取了这种做法，在evaluation阶段使用了更多的存储起来的分段，这成功的避免了语境碎片化并尽可能的完整保留了long-range dependency。这是一个非常合理的trade-off：内存的消耗带来的运算速度的提升。理论上讲，内存够大的话，应该把无穷长度的内容存储起来，比如把整本书都分段缓存下来，这样我们就不是做段落级别的阅读理解，而是更高级别的阅读理解。

作者的实验表明，在LM任务上，XL比vanilla Transformer在evaluation上可以快1800+倍。原因就在于缓存前面的segments可以避免在evaluation阶段的计算。下图显示XL在语言模型中evaluation的方式，依靠缓存的内容，它可以把整个segment同时处理掉，而不是Transformer那种逐个token移动并计算的方式。

相对位置编码

到这里为止XL的recurrence机制算是介绍完了。不过技术细节上还是没有完工。比如Transformer里的绝对位置编码在这里就不适用了。假设 $U\in R^{L_{max}\times d}$ 里的第i行 $U_i$ 代表分段中的第i个位置的编码，那么在XL中的不同的分段里，这样的位置编码会带来歧义，从而导致优化问题。

这里我们用名句"山下一群鹅，嘘声赶落河"举例。假设segment的长度 $L = 5$ ，并且不考虑标点符号，那么这两句正好被分在两个相邻的segment中。利用recurrence的机制，我们在处理"河"这个字的时候，不仅可以利用本分段里的信息(即"嘘声赶落"四个字)，还能直接把前分段"山下一群鹅"的表征拿来使用。当我们把注意力放在本段第四个字"落"上的时候，如果利用绝对位置编码，我们用的是 $U_4$ 来代表它的位置，因为"鹅"字是在第五个位置上，所以它对应 $U_5$ ，这两个位置很近，从位置编码上可以反映出来。

然而前一个分段的"群"字在该位置编码体系中也对应 $U_4$ ，这样它会被误认为靠近目标词"河"。这样的错误会带来优化的困难。

作者解决的办法是利用相对位置编码，解除这种歧义。这里不再赘述具体细节。大家有兴趣可以自行看论文。我想说的是，引入recurrence机制的思想是XL最大的创新之处，而使用相对位置编码只是为了合理的实现recurrence，从而采取的一种数学上的做法。为了避免绝对位置编码的歧义，相信未来人们会找到其他的做法。这里的相对位置编码，只是其中的一种技术。

Transformer-XL总算介绍完了，接下来还是回到XLNet。

XLNet的目标函数：排列语言模型(Permutation Language Modeling)

前面说了，XLNet把语言模型放在句子的不同排列之上，以达到利用所有位置上的信息的效果。数学上的表达很简单：

$Z_T$ 代表长度为T的序列的所有可能的排列。 $z$ 代表一个factorization order。

但是具体实现起来是有讲究的，作者并不是简单的对句子进行重新排列作为输入，而是仍然保持原来的句子作为输入(也保留原来的位置编码)，但通过合适的attention mask来达到重新排序的效果。这么做得原因是在finetuning的阶段，模型的输入仍然是自然排序的序列，如果简单的在预训练时采用乱序的输入，模型会在乱序的语言上进行优化，这不合理。

论文中的图示阐明了这个做法：
这四个图代表了四种在预测 $x_3$ 的时候，句子可能有的不同的排列方式。注意输入一直是用了原始句子即 $x_1, x_2, x_3, x_4$ ，不同的地方仅在于attention改变了，从而相应的改变了factorization order。比如右上图，仅 $x_2$ 和 $x_4$ 的attention保留， $x_1$ 被mask掉了，达到的效果是factorization order 2,4,3,1。图中灰色的mem部分来自于前面分段的缓存，这个在上面的XL部分介绍过。

双流自注意力(Two-Stream Self Attention)

然而，这些都还不够。这种预训练方法可能会带来歧义。在一个句子里，我们有可能针对不一样的目标词，产生出一模一样的context。还是用名句"山下一群鹅，嘘声赶落河"，假设我们的分段长度为11，把整个句子(含标点)都包括进来了。这时针对"鹅"字，在众多的排列中，我们可以有一个自然的序列"山下一群"来预测它。同样针对"河"字，我们在众多排列中，也可以有一个排序过的序列"山下一群"来预测它。那么一模一样的序列(“山下一群”)竟然用来预测两个不同的字，这导致了"鹅"和"河"在此时共享一样的模型的预测结果。

具体用数学表示就是:
$p_\theta(X_{z_t}=x | x_{z<t})=\frac{exp(e(x)^Th_\theta(x_{z<t}))}{\sum_{x'}exp(e(x')^Th_\theta(x_{z<t}))}$

$x$ 是被预测词， $z_t$ 是被预测词的位置。 $h_\theta(x_{z<t})$ 是 $x_{z<t}$ 的经过Transformer层的隐藏层表示。注意它不依赖于被预测词的位置 $z_t$ ，所以上面的分布只依赖于 $h$ ，即只依赖于 $x_{z<t}$ 。在例子中， $x$ 是"鹅"或者"河"，但是 $h$ 只依赖于 $x_{z<t}$ 即"山下一群"。

为了解决这个问题，一个简单的想法就是在 $h$ 中引入对位置 $z_t$ 的依赖。用一个新的函数 $g_\theta(x_{z<t}, z_t)$ 来取代 $h$ 。这样就很自然通过不同的被预测词的位置，把它们区分开了。(比如上例中"鹅"字位置是5，"河"字位置11。位置不同导致二者不再共享同一个分布。)

在模型中需要同时利用 $g$ 和 $h$ ：

1.为了预测token $x_{z_t}$ ， $g_\theta(x_{z<t}, z_t)$ 只能利用它的位置信息即 $z_t$ ，但是一定不能利用 $x_{z_t}$ 。否则预测无意义。(注：这种情况下网络只要学会拷贝就可以了) 这里的 $g$ 称为query representation。
2.在预测其他的tokens $x_{z_j}$ ( $j > t$ )，和过去一样，我们需要需要编码 $x_{z_t}$ 的信息来提供语境信息。所以我们需要content representation $h_\theta(x_{z\leq t})$

(注意: 作者引入query representation的初衷只是为了解决前面提到的预训练歧义问题，所以在fine-tuning阶段不需要它。)

下图是两种representation的更新方式:
Q， K，V分指query, key和value。第二个公式(content stream)就是一般的self attention的公式。在fine-tuning阶段，可以完全忽略掉第一个公式，仅利用content stream就可以了。

注意第一个公式(query stream)，它可以抽象为 $g_{z_t}=F(x_{z<t} ，z_t)$ 。它避免使用 $x_{z_t}$ 的信息。

以上，就是双流自注意力模型。Again，作者提出它只是为了解决预训练(Permutation Language Modeling)中遇到的问题，正如在Transformer XL中提出的相对位置编码，只是为了解决不同分段中绝对位置的意义含糊问题。所谓自己挖坑自己填

我们在了解这些方法和技巧的时候要注意它们的由来，分清主次：比如在XL中，缓存前面的分段就是方法上的创新，而相对位置编码只是一个由方法创新带来的技术上的子创新。排列语言模型(Permutation Language Modeling)是XLNet的方法上的创新，而双流自注意力是由它引起的一个技术上的子创新。

实现上还有很多细节，比如文章提到的"Partial Prediction"，“Relative Segment Encodings”，以及如何把XL的相对位置编码和segment recurrence机制整合进来等等，这里不再赘述。还是强烈推荐读精彩的原始论文。

实验

实验方面的结果非常优秀，在多个任务中明显超过BERT。放几个印象深刻的结果:
RACE用的是咱们国内初高中学生的英语考试阅读理解题，其中包含较难的推理问题。文章的平均长度(300)远大于很多其他的数据集(比如SQuAD)，所以RACE是一个很好的长文章理解的benchmark。XLNet在实验中效果惊人，精度超过了最好的Ensemble的结果7.6点。作者认为模型的基础架构Transfomer-XL功不可没。

再放一个GLUE上的综合表现:

但这些实验还是有些不公平的成分，比如作者利用了更多的数据(BERT用到的数据+Giga5， ClueWeb 2012-B，Common Crawl)做预训练(这里模型XLNet-Large的大小和BERT-Large相似)。所以作者利用(BooksCorpus+Wikipedia即BERT的数据)预训练了一个XLNet-Base模型来和BERT-Base做比较。
K=7的Base模型明显超过了BERT-Base，仅在SST-2落后一点点。(K是XLNet的一个超参，在论文的"Partial Prediction"里有介绍。大意是为了速度和内存考虑，只预测 $1 / K$ 的tokens)。

表中包含了ablation study，作者考察了PLM(Permutation Language Modeling)，XL和其他实现细节的效果。表中第二行的DAE+XL可以理解为对PLM效果的考察，第五行-memory意味着不采用XL的recurrence机制。

首先应该肯定的是XLNet-Base(第三和第四行)的实验效果最佳，超过其他所有的实验，这说明各个组分的必要性。第二行(DAE+Transformer-XL)采用了BERT的denoising auto-encoding objective，它和XLNet-Base的比较说明了PLM带来的明显的好处。而它和BERT-Base(第一行)的比较可以说明利用XL的效果：在RACE和SQuAD2.0这样的长文本理解任务中XL有优势。第五行(-memory)由于不再缓存segments，精度有所下降，特别是在RACE这样的长文本任务上。有趣的是，在第八行(+next-sent pred)采取了BERT中的下一句预测任务时，竟然意外的发现除RACE之外其他所有的任务表现下降。

实验中唯一的不足是没有给出任何text generation的文本例子，这应该是AR类模型的优势。期待未来会看到XLNet在文本生成类的任务上的精彩表现。

关注公众号《没啥深度》有关自然语言处理的深度学习应用，偶尔也有关强化学习。

ARM SVC指令小米人er 我的博客 arm开发
在ARM汇编中，SVC（SupervisorCall）指令用于从用户模式切换到特权模式（如Supervisor模式），以便执行操作系统内核提供的服务。它通常用于系统调用。具体作用触发异常：执行SVC指令时，处理器会进入Supervisor模式，并跳转到异常向量表中的SVC异常处理程序。传递参数：SVC指令后的立即数可作为参数传递给异常处理程序，帮助识别具体的系统调用。语法SVC#是一个24位的立即
javaEE---JSTL代码示例司天宏
2.jspusers=newArrayList();Useruser1=newUser(1,"令狐冲","男");Useruser2=newUser(2,"岳不群","男");Useruser3=newUser(3,"岳灵珊","女");Useruser4=newUser(4,"左冷禅","男");Useruser5=newUser(5,"东风不败","女");users.add(user1);u
18、企业级服务-JMS 跟着汪老师学编程 java 开发语言 java-ee
JavaMessageService(JMS)一.引言JavaMessageService(JMS)是Java平台上用于实现消息orientedmiddleware（消息中间件）的标准API。它为企业级应用中的异步通信提供了一种高效、灵活且可靠的方式，允许不同的系统组件之间通过发送和接收消息进行通信，而无需直接依赖彼此的实现细节。JMS支持两种主要的消息模型：点对点（Point-to-Point，
flutter 专题三十七 Flutter混合开发之FlutterFragment leluckys Flutter面试与实战 flutter gitee
我们知道，原生Android集成Flutter主要有两种方式，一种是创建fluttermodule，然后以原生module那样依赖；另一种方式是将fluttermodule打包成aar，然后在原生工程中依赖aar包，官方推荐aar的方式接入。如何在原生Android工程中以aar的方式接入Flutter，大家可以参考我之前文章的介绍：原生Android工程接入Flutteraar。今天想给大家分享
flutter跑马灯我是刘成 flutter flutter flutter跑马灯
flutter_marqueeflutter插件flutter跑马灯可以指定跑马灯的方向可以传入数组，可以是自定义的widget可以控制跑马灯的时间间隔控制点击事件等等效果图githttps://github.com/LiuC520/flutter_marquee引入:dependencies:flutter:sdk:flutterflutter_marquee:git:https://githu
java零到一：Servlet和JSP-12： jstl和el表达式注意以及servlet的mvc模式慕容屠苏 java基础零到一
1、在javaee5.0及以上版本当中，如果要使用jstl和el表达式，应该注意的问题:1)常识javaee1.4---->servlet2.4(tomcat5.5)javaee5.0---->servlet2.5(tomcat6.0)sun公司在发布javaee5.0时，已经将jstl对应的jar文件合并到javaee5.0当中了，所以，不必拷贝2)解决方式:方式一:建议使用tomcat6.0及
OnionArch 项目教程宁彦腾
OnionArch项目教程OnionArchA.NETCoredemoapplicationwhichusestheOnionArchitecture项目地址:https://gitcode.com/gh_mirrors/on/OnionArch1.项目介绍OnionArch是一个基于.NETCore的演示应用程序，采用了洋葱架构（OnionArchitecture）。洋葱架构是一种软件设计模式，
openharmony5.0中HDF驱动框架源码梳理-服务管理接口咸鱼过江 openharmony5.0 harmonyos hdf框架 linux
要想大概了解一个公司，我们可能只需要知道它的运行逻辑即可，例如我们只需要知道它有财务有研发有运营等，财务报销、研发负责产品等即可，但是如果想深入具体的了解的话我们就要了解都有什么部门(对象)、各部门都包含哪些职责(对象方法)以及各部门都包含哪些关键人员(子对象)以及他们的职责(子对象方法)，根据这个逻辑我大概整理了openharmony5.0的HDF框架中包含的关键对象以及对应的方法，便于更深的理
Flutter-跑马灯效果实现 clmd_ld flutter_dart flutter android
1、背景：使用三方组件在首页做个跑马灯效果，隔一段时间首页会闪一下，估计是三方组件有内存泄露。趁有空自己写个简单跑马灯效果。2、效果：3、调用方法：将下方代码copy到项目文件内，引用文件，调用构建方法import'package:clmd_flutter/components/marquee.dart';Marquee(child:Row(children:[Text('Flutter跑马灯效果
JavaEE基础八之EL与JSTL相关知识(过时不谈) ZHWVICDI Java EE JavaEE EL表达式 JSTL
EL功能动态输出内容替代JSP中的表达式元素简化jsp主要就是取值一般格式${EL表达式}内置对象牢记！！因为其他也是差不多param/paramValues方便输出请求参数pageScope/requestScopre/sessionScope/applicationScope输出各范围的属性header/headerValues与请求头相关cookie/initParampageContext
Ook密码快速辨认与解密迷茫&&前行密码解密 Ook密码
一.Ook在线解密网站Ook解密1Ook解密2二.Ook密码辨认Ook密码是一种基于Ook语言的编程语言，由DavidMorgan-Mar设计，灵感来自TerryPratchett的《碟形世界》系列中的猩猩语言。其特点如下：极简语法：仅包含三个基本符号：Ook.、Ook?、Ook!，通过不同组合表达指令。基于Brainfuck：Ook密码与Brainfuck一一对应，每个Ook指令对应一个Brai
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
Flutter：跑马灯公告栏 sunly_ Flutter flutter
组件import'dart:async';import'package:flutter/material.dart';import'package:ducafe_ui_core/ducafe_ui_core.dart';classMarqueeNoticeextendsStatefulWidget{///公告数据列表，每条公告包含title和descfinalList>notices;///滚动速
OnionArch：构建高效.NET Core应用的洋葱架构模板樊慈宜Diane
OnionArch：构建高效.NETCore应用的洋葱架构模板项目地址:https://gitcode.com/gh_mirrors/on/OnionArch项目介绍OnionArch是一个基于.NETCore的演示应用程序，采用了经典的洋葱架构（OnionArchitecture）。洋葱架构是一种分层架构模式，通过将核心业务逻辑与外部依赖（如数据库、UI等）分离，使得应用程序更加模块化、可维护和
国产 DeepSeek V3 被秒成“前浪“？谷歌开放最强 Gemini 2.0 全家桶：速度快60倍，上下文还长16倍！ Bryan Ding 人工智能深度学习
谷歌向所有人发布了Gemini2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。1谷歌Gemini2.0向所有人开放去年12月，谷歌发布Gemini2.0Flash的实验版本，正式开启了代理型AI的新时代。Gemini2.0Flash是谷歌为开发者群体打造的高效主力模型，具有低延迟、高性能等优势。今年早些时候，谷歌在GoogleAIStudio中更新了2.0FlashThinkingExpe
嵌入式面试真题——上半部与下半部 70000cc 嵌入式面试真题面试单片机 linux c语言嵌入式硬件
软中断运行在中断上下文，它是静态分配的，内核编译时就已经确定，不能动态注册或删除。这限制了它们的灵活性，但提高了性能。软中断可以在多个CPU上并行运行，包括同一种类型的软中断，所以需要处理好同步问题，比如使用自旋锁。不过，软中断的代码必须是可以重入的，这增加了实现的复杂性。常见的应用例子是网络和块设备的数据处理。Tasklet也是在中断上下文中运行，它是在软中断的基础上构建的。比如，tasklet
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
让 Deepseek 写一个计算器（网页） —Qeyser Html JavaScript 前端 javascript Deepseek ai chatgpt
完整代码简单计算器body{font-family:Arial,sans-serif;display:flex;justify-content:center;align-items:center;height:100vh;background-color:#f4f4f4;}.calculator{background-color:#fff;padding:20px;border-radius:10
ArkTs进阶万事顺心开发语言鸿蒙 typescript
字符串加号两边只要有字符串，就是拼接的作用。模版字符串（`xxx`）主要用于拼接多个变量的字符串拼接letname:string='Tom'console.log(`姓名：${name}`)类型转换1.字符串转数字Number():字符串直接转数字，转换失败返回NaN(字符串中包含非数字)（常用）parseInt():去掉小数部分转数字（取整），转换失败返回NaNparseFloat():保留小数
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images cccc来财算法计算机视觉深度学习
无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性，经过第一阶段的粗对齐后，图像往往无法完全对齐。为了让网络能够感知到这些错位区域，特别是在高分辨率和大视差的情况下，设计了低分辨率变形分支，先在低分辨率下对图像进行处理和学习
springboot kafka spring boot搭建单机集群集成入门木秀林环境配置 kafka spring boot docker
搭建kafka(单机版)使用虚拟机+docker参考https://blog.csdn.net/qq_35394891/article/details/84349955https://www.cnblogs.com/xiaohanlin/p/10078865.html拉取镜像(kafka依赖zookeeper,所有两个都要)dockerpullwurstmeister/zookeeperdocke
探究Visual Studio中的乱码问题 L-Super 杂记 visual studio ide
关于乱码，没遇到皆大欢喜，遇到了头痛不已。在VisualStudio中程序遇到乱码，需要明确三个概念，那么问题就好解决了。三个字符集概念源码字符集MSVC中/source-charset即源代码文本文件的字符集，NodePad++、记事本、VSCode这样类似的文本编辑器，可以打开源文件看一下你的字符集（文件编码）。源代码文本文件是以二进制的形式存在硬盘里的，无论中文英文都一样，当你输入一个汉字后
Manus开源平替-开源通用智能体 galileo2016 人工智能
原文链接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/OWL-比Manus还强的全能开源AgentOWL:OptimizedWorkforceLearningforGeneralMulti-AgentAssistanceinReal-WorldTaskAutomation，现实世界中执行自动化任务的通用多代理辅助优化学习框架项目仓
[Pytorch] Error:module ‘torch‘ has no attribute ‘logical_and‘ 江南蜡笔小新杂记 pytorch 深度学习神经网络
最近学习的模型用到了这个逻辑与的操作，Pytorch1.3.x报错。查阅官方文档，只有logical_not和logical_xor的实现。但在1.9的文档中有logical_and遂查阅相关更新，得知logical_and在1.5之后的新功能，pytorch更新到>=1.5即可解决问题。1.3.1搜索结果1.5.1搜索结果
Orin NX 安装Jetpack 6.2 及部署pytorch tips MYVision_ MY视界 Python pytorch 人工智能 python
刷机tips:刷完系统之后，如果需要安装其它软件，这个时候不需要跳线，然后输入真实的IP，确保你的x86ubuntu能ping通OrinNX.其它安装环境时遇到的问题如下：1.GPUenable=False-installtorch-2.3.0-cp310-cp310-linux_aarch64.whl2.ImportError:/home/platform/miniconda3/envs/cel
一文讲清楚CUDA与PyTorch、GPU之间的关系平凡而伟大. 编程语言人工智能架构设计 pytorch 人工智能 python
CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一个并行计算平台和编程模型。它允许软件开发人员和研究人员利用NVIDIA的GPU（图形处理单元）进行高性能计算。CUDA提供了一系列API和工具，使得开发者能够编写和优化在GPU上运行的计算密集型任务。CUDA与PyTorch、GPU之间的关系可以这样理解：1.CUDA与GPU：GPU：是一种专门用于
【SpringMVC】常用注解：@RequestParam 字节源流 java 开发语言
1.作用如果控制器标注的方法的参数名称与前端传递过来的参数名称不一致，使得SpringMVC无法自动启动，那么我们可以使用该注解实现前后端参数的绑定。2.相关属性value/name：这两个属性都是一个作用，都是描述参数的名称，也就是前端传递过来的参数的名称。required：默认值为true.标识当前的参数是必须携带的，如果前端没有携带该参数，就会报404的异常。如果是false就是不必须的de
L1-5 别再来这么多猫娘了！云格～团队天梯赛算法 c++
以GPT技术为核心的人工智能系统出现后迅速引领了行业的变革，不仅用于大量的语言工作（如邮件编写或文章生成等工作），还被应用在一些较特殊的领域——例如去年就有同学尝试使用ChatGPT作弊并被当场逮捕（全校被取消成绩）。相信聪明的你一定不会犯一样的错误！言归正传，对于GPT类的AI，一个使用方式受到不少年轻用户的欢迎——将AI变成猫娘：当然，由于训练数据里并不区分道德或伦理倾向，因此如果不加审查，A
Gemini 2.0 Flash 新加坡内哥谈技术人工智能大数据语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/过去一年，人工智能领域取得了令人瞩目的进展。如今，备受期待的Gemini2.0系列首款模
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在