PaperWeekly

也来盘点一些最近的非Transformer工作

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

大家最近应该多多少少都被各种 MLP 相关的工作“席卷眼球”了。以 Google 为主的多个研究机构“奇招频出”，试图从多个维度“打击”Transformer 模型，其中势头最猛的就是号称是纯 MLP 的一系列模型了，让人似乎有种“MLP is all you need”时代到来的感觉。

这一顿顿让人眼花缭乱的操作背后，究竟是大道至简下的“返璞归真”，还是江郎才尽后的“冷饭重炒”？让我们也来跟着这股热潮，一起来盘点一些最近的相关工作。

五月人倍忙

怪事天天有，五月特别多。这个月以来，各大机构似乎相约好了一样，各种非 Transformer 的工作纷纷亮相，仿佛“忽如一夜春风来，千树万树梨花开”。单就笔者在 Arxiv 上刷到的相关论文，就已经多达七篇（一个月还没过完，七篇方向极其一致的论文），涵盖了 NLP 和 CV 等多个任务，真的让人应接不暇：

[1] MLP-Mixer: An all-MLP Architecture for Vision - Google Research

[2] Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks - 清华大学

[3] Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet - 牛津大学

[4] Are Pre-trained Convolutions Better than Pre-trained Transformers? - Google Research

[5] ResMLP: Feedforward networks for image classification with data-efficient training - Facebook AI

[6] FNet: Mixing Tokens with Fourier Transforms - Google Research

[7] Pay Attention to MLPs - Google Research

以上论文是按照出现在 arixv 上的时间排序的。可以看到主力军依旧是 Google 大佬。想当年一手促成了“Attention is all you need”趋势的也是 Google，现在“重拳出击”Transformer 的还是 Google，Google 大佬真可谓一直挖坑不断啊。

把酒话桑麻

那么这系列工作究竟能带来什么启发呢？我们要不要赶紧跟上这系列工作呢？在这部分内容中，我们就来简要地梳理一下上述几篇论文，看看它们是何方神圣，是否有可能造成新一股模型潮流？

2.1 Synthesizer

要解读上述 MLP 相关的工作，就不得不提到去年五月 Google 发表在《Synthesizer: Rethinking Self-Attention in Transformer Models》[1] 的 Synthesizer。而事实上，如果你已经了解了 Synthesizer，那么上面列表中的好几篇论文都可以一笔带过了。

在之前的文章 Google 新作 Synthesizer：我们还不够了解自注意力中，我们已经对 Synthesizer 做了简单的解读。撇开缩放因子不说，那么 Attention 的运算可以分解为：

其中是输入序列的变换，这个了解 Self Attention 的读者应该都清楚，不再详写。Synthesizer 则是对几种的新算法做了实验，其中最让人深刻的一种名为 Random，就是将整个当作一个参数矩阵（随机初始化后更新或者不更新）。

▲ Synthesizer的“预训练+微调”实验结果。实验的baseline是T5，其中“R”即为Random模式，相当于MLP。

在 Random 的情况下，Attention 矩阵不再是随样本变化的了，也就是所有样本公用同一个 Attention 矩阵，但是它依然能取得不错的效果，这在当时确实对大家对 Attention 的固有理解造成了强烈冲击。Synthesizer 的实验相当丰富，包括“机器翻译”、“自动摘要”、“对话生成”、“预训练+微调”等，可以说，上面列罗的多数论文，实验都没有 Synthesizer 丰富。

2.2 MLP-Mixer

论文标题：

MLP-Mixer: An all-MLP Architecture for Vision

论文链接：

https://arxiv.org/abs/2105.01601

Synthesizer 也许没想到，一年之后，它换了个名字，然后火起来了。

论文《MLP-Mixer: An all-MLP Architecture for Vision》所提出来的 MLP-Mxier，其实就是 Synthesizer 的 Random 模式并去掉了 softmax 激活，也就是说，它将设为可训练的参数矩阵，然后直接让。模型就这样已经介绍完了，除此之外的区别就是 MLP-Mxier 做 CV 任务而 Synthesizer 做 NLP 任务而已。

▲ MLP-Mixer的部分实验结果

对了，为啥这模型叫 MLP-Mxier 呢，因为作者把这种直接可训练的 Attention 模式起了个名字叫做“token-mixing MLP”，把原来的 FFN 改叫做“channel-mixing MLP”（以前叫做 Position-wise FC），不管叫啥，反正就是号称只是 MLP，所以模型也叫做 MLP-Mxier。

而事实上，笔者认为这个更标准的叫法是窗口为 1 的一维卷积，但不管是这篇论文还是之前的《Attention Is All You Need》[2] ，都是宁愿把这些常规操作自己另起个名字，也要选择性地减少甚至无视与卷积的联系，可谓是为了“A Good Title Is All You Need”而煞费苦心了。

其实这一点也遭到了 LeCun 的批评，如果真的是标准的 MLP，那应该要将输入展平为一个一维向量，然后再接变换矩阵。

2.3 External Attention

论文标题：

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

论文链接：

https://arxiv.org/abs/2105.02358

从类比的角度看，Synthesizer 的 Random 模式或者 MLP-Mxier，相当于将Attention中的和都设为参数矩阵了，而《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》所提出的 External Attention，则是把和设为（固定大小的）参数矩阵了，实验任务同样是 CV 的。

本来这也没什么，毕竟深度学习就是效果为王，效果好了就能成文。但是个人认为 External Attention 很多说法就禁不住推敲的。

首先，它把自己称为“两个线性层”，刻意淡化它跟 Attention 的联系（说出它是 Attention 的特例很丢人？）；然后它又说“通过引入两个外部记忆单元（也就是设为参数的和），隐式地学习了整个数据集的特征”，这种说法也不能算错，然而其实任意模型的任意参数都可以这样解释，这并不是 External Attention 的特性；

还有它说能实现线性的复杂度，那得固定的长度，这种情况下其实应该跟也同样是线性复杂的 LinFormer 比比才更有说服力（论文比了 Performer，但是 Performer 的降低复杂度思路是不一样的，LinFormer 更有可比性）。

抛开这些文字上的不说，External Attention 的工作机制似乎有点迷。不难想到 External Attention 对每个特征的编码是孤立的，如果换到 NLP 来说，那就是说每个词都独立编码的，根本不与上下文产生联系，所以肯定是不 work 的，那为什么在 CV 中会 work 呢？

2.4 Stack of FFN

论文标题：

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

论文链接：

https://arxiv.org/abs/2105.02723

至于论文《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》，其实跟 MLP-Mixer 是高度重合的，不过它写起来就实在多了。它就是将输入过一个常规的 FFN，然后将输出转置，再过一个 FFN，最后转置回来，这样如果本身就熟悉 Transformer 的话，我们很快就清楚它做了啥。

这篇论文本身就很短，一共只有 4 页，还包括 1 页代码和半页参考文献，正文其实就只有 2.5 页，更像是一个简报。也许作者本身也想在这个方面深挖一下，结果 Google 的 MLP-Mixer 先出来了，那么做下去也没意思了，遂草草完事发出。（这部分故事纯粹是笔者自己的猜测。）

2.5 Pre-trained CNN

论文标题：

Are Pre-trained Convolutions Better than Pre-trained Transformers?

收录会议：

ACL 2021

论文链接：

https://arxiv.org/abs/2105.03322

事实上，CNN 才是最早尝试（在 Seq2Seq 任务中）取代 RNN 的模型，Facebook的《Convolutional Sequence to Sequence Learning》[3] 其实更早发表，只不过很快就被 Google 的《Attention Is All You Need》[2] 抢了风头，后来 GPT、BERT 等模型发布之后，Transformer 类模型就成了当前主流，CNN 很少被深入研究了。

论文《Are Pre-trained Convolutions Better than Pre-trained Transformers?》则帮助我们验证了“CNN+预训练”的有效性。论文结果显示，不管是直接用下游数据监督训练，还是先预训练然后微调，基于膨胀卷积或动态卷积的 CNN 模型都略优于 Transformer 模型，并且在速度上 CNN 模型还更加快。对了，这篇论文已经中了 ACL 2021，所以这篇论文的成文其实更早，只不过这个月才放出来而已。

▲ 不管有无预训练，CNN都体现出了自己的优势

这篇论文给我们的主要启发是：预训练改进与模型改进不应该混为一谈，预训练技术本身往往能给各种模型都带来提升，不应该一提到预训练就想到 Transformer，也不应该只把预训练跟 Transformer 结合。事实上，笔者之前也比较喜欢 CNN，曾通过“膨胀门卷积（DGCNN）”的设计在多个任务上取得不错的效果，而这篇论文则再次肯定了 CNN 的价值。不过尽管如此，笔者可能依然不会投入主要精力转向 CNN 的研究。

首先，理论上来说，CNN 就无法捕捉足够远的长程依赖，这是根本缺陷，虽然通过膨胀卷积等方式，可以快速增大 CNN 的感受野，但也只是比较大，不是 Transformer 理论上的一步到位；其次，如果单纯看提高效率角度，Transformer 本身也有很多优化空间，如果只是为了执行效率而转向 CNN，那这个理由似乎不那么有说服力；还有，Transformer 的的复杂度本身也带来更多的折腾空间（比如像 UniLM），可以玩出更多的花样（比如像 K-BERT）。

总的来说，我们不能否定 CNN 的价值，但如果当前已经比较专注 Transformer 了，那么就没必要分出太多精力去转向 CNN 了。

2.6 ResMLP

论文标题：

ResMLP: Feedforward networks for image classification with data-efficient training

论文链接：

https://arxiv.org/abs/2105.03404

至于 Facebook 在《ResMLP: Feedforward networks for image classification with data-efficient training》提出的 ResMLP，跟前述的 MLP-Mixer 和 Stack of FFN 也没有本质区别，其文字描述也跟 Stack of FFN 很相似，忽略细微的细节差异，甚至可以认为它们三个就是同一个模型。最后，ResMLP 的实验任务同样是 CV 的。

2.7 FNet

论文标题：

FNet: Mixing Tokens with Fourier Transforms

论文链接：

https://arxiv.org/abs/2105.03824

就笔者看来，《FNet: Mixing Tokens with Fourier Transforms》所提出的 FNet，是列表的七篇论文中最有意思的一篇。某种意义上来说，FNet 也是 MLP-Mixer 的一个特例，但它是一个非常有意思的特例：MLP-Mixer 的注意力矩阵是直接参数优化而来的，FNet 的参数矩阵是直接通过傅立叶变换得到的！所以，FNet 的“注意力层”是没有任何优化参数的！

其实我们也可以从注意力的角度来理解 FNet。抛开归一化因子不看，那么注意力运算大致可以写为：

这里的本来是的矩阵，FNet 说：可以换成矩阵：

是的，你没看错，它就是要将它粗暴地换成组成的矩阵。当然，这样一来越到后面就指数爆炸了。为了避免这种情况，FNet 就改为：

也就是搞成虚指数就不会爆炸了！就这么粗暴，这就得到了基于傅立叶变换的 FNet。原论文对序列长度和特征维度两个方向都做了傅立叶变换，然后只保留实数部分，就用这个运算取代了自注意力。对于傅立叶变换的实现，我们有称之为“快速傅立叶变换（FFT）”的算法，效率是，所以 FNet 也能有效处理长序列。

FNet 的部分效果如下表。其实从预训练和下游任务的效果上来看，FNet 并没有什么优势，不过它在 Long-Range Arena [4]（一个测试模型长程能力的评测榜单）上的效果倒是不错。

▲ FNet的“预训练+微调”实验结果

▲ FNet的Long-Range Arena实验结果

当然，FNet 这么粗暴的做法能行本来就已经是个奇迹了，它给我们带来的最大冲击无疑是：就这样都行？傅立叶变换为什么能行？笔者也不知道答案。网上有些评论说，这说明了注意力机制其实就是一种坐标基的变换，而傅立叶变换也是一种基的变换，两者的作用是类似的。

这个说法确实有点本质的感觉，在 ICLR 2021 中也有篇论文《Is Attention Better Than Matrix Decomposition?》[5] 用 SVD 代替 Attention 也能取得不错的效果，这说明基变换的说法确实存在（SVD 也是一种基变换），但是基变换的同时如何保持时序性、哪种基变换更适合，这些问题完全没有头绪。

2.8 gMLP / aMLP

论文标题：

Pay Attention to MLPs

论文链接：

https://arxiv.org/abs/2105.08050

最后《Pay Attention to MLPs》所给我们带来的 gMLP、aMLP 是比较常规的新结构探索工作，算是 MLP-Mixer 的增强版。gMLP 的 g 是 “gate” 的意思，简单来说 gMLP 就是将 MLP-Mixer 跟门控机制结合起来，而 aMLP 的 a 是 “attention” 的意思，它将 attention 与 gMLP 结合起来。

具体来说，gMLP 大致是如下运算：

简单来说，就是将收入沿着特征维度分为两半，然后将其中一半传入 MLP-Mixer，作为另一半的 gate。而 aMLP 则是将 MLP-Mixer 和一个简单的单头 Self Attention 结合来作为 gate：

论文做的实验比较全面，包括 CV 和 NLP 的。从论文所报告的效果来看，gMLP 略差于标准的 Self Attention，而 aMLP 则是普遍优于 Self Attention，这进一步肯定了门控机制的价值。只不过不管是 gMLP 还是 aMLP，人工堆砌的味道太重了，要水一篇 paper 还可以，但个人认为没有给模型的发展方向带来什么新的启发。

▲ gMLP,aMLP的NLP部分实验结果

前路在何方

通过以上阅读，我们可以知道，MLP-Mixer、Stack of FFN、ResMLP 这三个模型，事实上可以看成是去年的 Synthesizer 的一个特例，甚至从技术上来说，它们还不如 Synthesizer 的内容丰富，因此真算不上什么有意思的工作；至于它的改进版 gMLP / aMLP，则是非常常规的结构炼丹工作，只要算力足够我们都可以去做，所以也确实没什么意思；External Attention 号称两个线性层，事实上就是Attention的变式，其生效机制和实验对比也不够明朗；比较有意思的就是 CNN 预训练和 FNet 这两个工作了，一个让我们解耦了“预训练改进”和“模型改进”两个概念，一个提出的傅立叶变换也有效给我们带来了较大的思想冲击。

整体而言，这些工作离成熟还远得很，最多是初步验证了有效性，连优雅也说不上。比如，除了 FNet，这些所谓的“all in MLP”的模型，都没有办法比较优雅处理变长输入，像 MLP-Mixer、Stack of FFN、ResMLP 纯粹在（固定大小的）图像上实验，所以不用考虑这个问题，像 Synthesizer / gMLP / aMLP 虽然做了 NLP 的实验，但看上去都是强行截断的，算不上漂亮。所以，这系列工作一定程度上是开拓了新的思路，但其实带来了更多有待解答的问题。

那么我们要不要跟呢？个人认为没必要投入多少精力进去，平时大致关注一下就行了。抛开前面说的优雅性问题不说，这些工作的实用性本身就值得商榷。像将 Attention 换成 MLP 的改进，最大的优点无非就是提速，没错，是会快一点，但理论复杂度还是，这说明其实没有本质改进，况且提速的同时通常还会降低一点性能。

如果单从“提速并降低一点性能”的追求来看，Transformer 可做的工作也非常多（最直接的就是减少一两层），没必要换成 MLP，而换成 MLP 探索自由度降低了不少。当然，从“拓荒”的学术角度来看，多角度尝试各种新模型是有意义的，但这也不宜掺入过多的人造因素在里边，不然就变成了一个在结构上过拟合任务的过程了，难登大雅之堂。

此外，对于 NLP 来说，我们可能比较关心的是“预训练+微调”这一块的性能，而很遗憾，从 Synthesizer 开始的一系列 NLP 实验表明，将 Attention 换成 MLP 后的模型也许在某个任务上能取得有竞争性的结果，但是其迁移性往往不好，也就是说可能单看预训练效果还不错，但是“预训练+微调”多数就比不上 Transformer 了。这也不难理解，因为它们把 Attention 矩阵参数化，那么该矩阵更有可能跟具体任务强相关了，不像 Transformer 那样自适应生成的 Attention 矩阵那样具有更好的适应能力。

曲终人散时

本文盘点了最近的一些“非主流”工作，主要是通过以 MLP 为主的非 Transformer 结构来取代 Transformer 并获得了有竞争力的结果。总的来说，这些工作看起来形形色色，但都有迹可循，有“新瓶装旧酒”之感，能给人新启示的并不多。

全文仅乃笔者的闭门造车之言，仅代表笔者的个人观点，如有不当之处，还请读者海涵斧正。

参考文献

[1] https://arxiv.org/abs/2005.00743

[2] https://arxiv.org/abs/1706.03762

[3] https://arxiv.org/abs/1705.03122

[4] https://arxiv.org/abs/2011.04006

[5] https://openreview.net/forum?id=1FvkSpWosOl

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
java代理模式知还215 java 代理模式 servlet
一.JDK代理机制1.定义发送短信的接口publicinterfaceSmsService{Stringsend(Stringmessage);}2.实现发送短信的接口publicclassSmsServiceImplimplementsSmsService{publicStringsend(Stringmessage){System.out.println("sendmessage:"+mess
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

也来盘点一些最近的非Transformer工作

你可能感兴趣的:(卷积,人工智能,cstring,xhtml,办公软件)