weixin_4528312

DeepMind: 用ReLU取代Softmax可以让Transformer更快

注意力是人类认知功能的重要组成部分，当面对海量的信息时，人类可以在关注一些信息的同时，忽略另一些信息。当计算机使用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。

2017年，谷歌团队的Vaswani等人发表的《Attention Is All You Need》利用注意力机制，提出Transformer机器学习框架。到目前为止，该论文已经被引用9万多次，显示出Transformer构架和注意力机制在现代机器学习领域中得到了广泛应用。

注意力机制的一个核心步骤中包含了一个 softmax函数，其作用是产生 token 的一个概率分布。数学上来讲，Softmax函数的定义很简单，就是将一个任意序列的数组转换成区间为（0,1）的数组（图1）。因为这种归一化，后者数组可以被解释成前者数组发生的概率。

因为它涉及到指数计算和对序列长度进行求和计算，执行softmax往往有较高的成本，有时候使得并行化难以执行。

图1，softmax函数的定义和说明

最近，Google DeepMind团队在Arxiv上发表一篇预印本论文，《Replacing softmax with ReLU in Vision Transformers》。该论文发现：利用某种不一定会输出概率分布的新方法，即序列长度归一化的ReLU函数，来替代 softmax 运算，可以使得注意力运算得到可以接近或匹敌传统的 softmax 注意力。这一结果为并行化带来了新方案，因为 ReLU 注意力可以在序列长度维度上并行化，其所需的求和运算少于传统的基于softmax注意力。

图2，谷歌DeepMind新论文

方法和原理

注意力机制：

虽然注意力机制有许多种实现方式，最常用的还是“点积标度注意力”机制。

点积标度注意力机制通过一个两步式流程对一个 d-维的数组 {q_i,k_i,v_i} 进行变换。其中 q, k, v 分别表示查询（query)、键(key)，和值（value）。

第一步，通过下式方程（1）计算注意力矩阵【注：原文作者把下列方程中的 alpha 叫做注意力权重（attention weight）。其实 alpha 并不是注意力训练的权重。权重矩阵（weight matrix，w）是隐含在单个 q, k, v 的向量矩阵中，即 q=w_q*H, k=w_k*H, v=w_v*H。这里 H 是嵌入向量】：

它表示第 i 个 query 向量与第 j 个 key 向量之间的关联程度。其中的 phi 就是通常所说的softmax函数。

第二步，将注意力矩阵与对应的 v 向量相乘，得到第 i 个 query 向量更新后的矩阵，其形式化表示为

其中 Q, K, V 分别是 query、key、value 向量序列。如果忽略 softmax 激活函数，实际上它就是三个维数为 m x d_k, d_k x n, n x d_v 的矩阵相乘，得到一个维数为 m x d_v 的矩阵，也就是将维数为 m x d_k 的序列 Q 编码成了一个新的维数为 n x d_v 的序列。

这篇论文探索了使用逐点式计算的方案来替代 phi=saftmax函数的可能性。

ReLU注意力机制

在深度学习理论中，ReLU（rectified linear unit，线性整流函数）是指如下‘整流’变换：

DeepMind团队观察到，可以利用简单的被序列长度 (L) 归一化的线性整流函数，L^(-1)ReLU，替代 softmax，可以产生更加快速有效的结果。他们称这种注意力为 ‘ReLU-attention' （线性整流函数注意力机制）。

图3，各种不同转换函数的比较。softmax类似于左上的Sigmoid函数；ReLU对应于左下的曲线。

广义上来讲，我们可以定义一大类逐点注意力函数，phi=L^(-a)h，其中 a 在 [0,1] 之间取值，h 可以是 ReLU, ReLU**2, GeLU, softplus, identity, ReLU6 和 sigmoid 中的任何一种函数。

序列长度归一化

因为 Transformer 机制要求所有的注意力矩阵元素在某一指标（j）的求和等于1，这意味着注意力矩阵元素的平均量级应该是~1/L，或者说L^(-1)。其中 L 是序列的长度。因此，在上面方程（1）中的 phi 函数就可以是 phi~L^(-1)ReLU。

本文的结果显示，L^(-1) 的归一化对于模型的训练精度至关重要。然而，在以往类似的工作中，其他研究者并没有注意到这个归一化因子的重要性。

实验与结果

作者在不改变原模型参数的情况下，对BigVision库中的两个程序（ImageNet-21k and ImageNet-1k）进行了测试。作者对这两个模型分别进行了30和300个epoch的训练。

主要结果

图 4 的结果显示出，在 ImageNet-21k 训练方面，ReLU 注意力与 softmax 注意力有着类似的模型训练精度。但是，ReLU 注意力的一大优势是能在序列长度维度上实现并行化，其所需的收集操作比 softmax 注意力更少。

图 4：sofmax注意力和ReLU注意力机制的比较。

序列长度扩展的效果

图 5 对比了序列长度扩展方法与其它多种替代 softmax 的逐点式方案的结果。具体来说，就是用 relu、relu²、gelu、softplus、identity 等方法替代 softmax。X 轴是 α。Y 轴则是 S/32、S/16 和 S/8 视觉 Transformer 模型的准确度。最佳结果通常是在 α 接近 1 时得到。由于没有明确的最佳非线性，所以他们在主要实验中使用了 ReLU，因为它速度更快。

图5：用L^(−α)h 替换 softmax函数，其中 h ∈ {relu, relu2 , gelu, softplus, Identity, relu6, sigmoid}, L 是序列长度。

qk-layernorm 的效果

此前的研究中，Dehghani等人提出一种叫做qk-归一化的训练机制。在该算法中，q 和 k 矩阵会通过 LayerNorm传递。本文的作者表示，默认使用 qk-layernorm 的原因是在扩展模型大小时有必要防止不稳定情况发生。图 6 展示了移除 qk-layernorm 的影响。这一结果表明 qk-layernorm 对这些模型的影响不大，但当模型规模变大时，情况可能会不一样。

图 6：qk-layernorm对ReLU和ReLU**2的影响。

添加gate的效果

此前也有关于移除 softmax 但是添加一个门控单元（gated unit）的做法，但这种方法无法随序列长度而扩展。具体来说，在门控注意力单元中，会有一个额外的投影产生输出，该输出是在输出投影之前通过矩阵元素相乘得到的。图 7 探究了gate的存在是否可消除对序列长度扩展的需求。总体而言，本文作者观察到，不管有没有gate，通过序列长度扩展都可以得到最佳准确度。也要注意，对于使用 ReLU 的 S/8 模型，这种门控机制会将实验所需的核心时间增多大约 9.3%。

图 4：使用门控注意力单元对 ReLU 和 ReLU**2 注意力机制的影响，其中 L 是序列长度。

小结

Softmax函数是Transformer学习机制的一个核心函数。因为它涉及到指数求和运算，该函数不利于并行化计算。此前曾有研究人员试图利用ReLU或者ReLU**2来取代softmax，但是效果并不理想。

谷歌DeepMind团队的这份研究报告显示，ReLU加上序列长度归一化，可以取得和传统softmax近似的模型训练精度。但是ReLU注意力的速度更快，更有利于并行化运算。

尽管如此，正如作者所指出的，这篇报告留下了许多悬而未决的问题。特别是，他们不确定为什么这个L^(-1)因子可以提高模型的训练性能，或者这个因子能否通过学习获得。很显然，可能有更好的激活函数等待我们去发现。

参考文献：

M Wortsman, J Lee, J Gilmer, S Kornblith, Google DeepMind, Replacing softmax with ReLU in Vision Transformers. arXiv:2309.08586v1 [cs.CV] 15 Sep 2023. https://arxiv.org/pdf/2309.08586.pdf

你可能感兴趣的:(人工智能,计算机技术,最新科技,transformer,深度学习,人工智能,ReLU,DeepMind)

黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模强化学习曾小健 #AI商业/产品/投融资前沿 #LLM大语言模型 transformer 深度学习人工智能
黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模乌鸦智能说2024-03-2216:14在今年的GTC大会上，英伟达CEO黄仁勋邀请了Transformer的七位作者（NikiParmar因故临时未能出席）参与圆桌论坛的讨论，这是Transformer团队首次在公开场合集体亮相。2017年，八位在谷歌工作的AI科学家发表了一篇名为《AttentionIsAllYouNeed》
源力觉醒！百度文心4.5对比Qwen3：开源大模型双雄终极评测 Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>2024年大模型战场硝烟再起，百度携文心4.5强势入局开源领域，与阿里通义千问Qwen3上演"双雄争霸"。这场技术对决将如何重塑AI开发格局？本文将带您深入技术腹地，揭秘两大模型的真实战力！###一、战局全景：开源大模型进入"双巨头时代"####最新技术格局（2024年7月）|**维度**|**文心4.5**|**Qwen3**||----------------|---------------
微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化 MicroTech2025 量子计算区块链
随着量子计算技术的发展，传统加密算法面临被量子计算机破解的风险，LSQb算法也需考虑应对未来可能的量子攻击。微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化。格密码在面对量子攻击时具有较高的安全性，通过这种融合，能为LSQb算法提供更强大的抗攻击能力，确保信息在复杂的量子计算环境下的安全性。格密码是一种基于数学格结构的密码学方法，具有在量子计算环境
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
徐世艾参加2017海峡两岸大学校长论坛山东工商学院
10月26-27日，由青岛大学主办、台湾昆山科技大学协办的2017海峡两岸大学校长论坛在青岛开幕。来自海峡两岸的近50所大学的100余名校长和专家学者齐聚一堂，围绕“深化两岸交流合作，促进两岸高等教育共同繁荣”的主题展开研讨交流。副院长徐世艾及统战部负责人参加论坛并进行了汇报和交流。论坛上，来自海峡两岸的大学校长围绕“高等教育改革与大学治理体系”“企业与高校协同育才的契合模式、矛盾与冲突”“本科人
【世纪龙科技】智能网联汽车环境感知系统教学难题的创新实践江苏世纪龙科技智能网联汽车汽车仿真教学软件汽车
在职业院校智能网联汽车专业教学中，环境感知系统的教学长期面临三大核心挑战：设备成本高昂导致实训资源不足、抽象原理难以直观呈现、传统教学模式难以满足产业需求。如何让学生在有限的教学条件下，深入理解激光雷达、毫米波雷达等核心部件的工作原理，并掌握实际应用能力？江苏世纪龙科技研发的《智能网联汽车环境感知系统VR教学软件》，为这一教学痛点提供了创新解决方案。聚焦教学痛点，重构学习体验传统实训室中，传感器设
拉新人赚钱的app有吗?2023最新app拉新赚钱平台推荐! 氧惠帮朋友一起省
下了班做兼职也不是很累的事情，毕竟每天花个一两个小时完全够了。专注两小时可以做很多事情，比如我写这篇文章只需要20分钟，总之执行力和悟性永远是最重要的，加油！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位团队长体
Ubuntu 22.04.5 LTS上部署Docker及相关优化 ChironW Linux运维 Docker ubuntu docker 容器
以下是在Ubuntu22.04.5LTS上部署Docker及相关优化的步骤：安装Docker更新系统：在安装Docker之前，先确保系统是最新的，执行以下命令：sudoaptupdatesudoaptupgrade-y安装依赖包：安装一些必要的依赖包，用于支持Docker的运行，命令如下：sudoaptinstall-yapt-transport-httpsca-certificatescurls
《一世风华*小说完结篇》老李郑依依&最新章节-全文免费阅读海边书楼
《一世风华*小说完结篇》老李郑依依&最新章节-全文免费阅读主角：郑依依老李简介：一个性感靓丽的极品少妇打开房门，对着老李招呼道：“您就是李师傅吧？快请进，我这空调也不知道咋回事，突然就坏了，麻烦您这个点儿跑一趟。”关注微信公众号【放心文楼】去回个书号【5】，即可阅读【一世风华】小说全文！叮咚——一个性感靓丽的极品少妇打开房门，对着老李招呼道：“您就是李师傅吧？快请进，我这空调也不知道咋回事，突然就
高省官方邀请码是多少？(附靠谱的高省app邀请码及获取与填写方法)汇总桃朵十三
在数字经济的浪潮下，各类购物应用层出不穷，而高省APP以其独特的购物赚佣金模式，在众多应用中脱颖而出。为了更好地体验高省app，请填写高省邀请码【GQ6H92】。特别提醒，龙年最新高省邀请码【GQ6H92】是全网唯一且专属于技术指导老师的码。正确填写后，您将直接提升至2皇冠总裁等级，并获得价值百万的引流技术推广绝密大礼包。《桃朵导师GQ6H92》也在后台为您准备，欢迎加入高省官方群与更多用户交流。
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
政委马湖之边的故乡小米安子
马湖是四川省级风景名胜区、省级地质公园，位于雷波县东北部，东与宜宾市屏山县相邻，南与云南省永善县隔金沙江相望。它是全国第三大高山深水湖泊，也是四川四大天然湖泊之一，湖面海拔1100米，南北长5.5公里，东西宽2.5公里，面积7.33平方公里，平均水深66米，最深处134米，据最新探测最深处可能超过200米，蓄水4.81亿立方米。马湖周围有：金龟戏水、母猪卧岩、鹅公飞渡、五马归槽、大湾如月、坳口峰回
夸克网盘1TB存储空间,获取全攻略! 遇见火星面试职场和发展
近年来，夸克网盘凭借大容量和免费增值模式迅速崛起。作为老用户，如何永久锁定1TB存储空间成为核心问题？最新方法是转存这个文件实现免费扩容到1T：未用手机号注册过夸克账号、仅安装APP但未注册、曾用QQ、微信等非手机号注册的老用户以及24小时内新注册的账号皆可参与。已有账号用户需更换未注册过的手机号和新设备参与。1TB空间领取步骤：打开手机浏览器，私信获取活动专属链接，电脑端无法参与。1TB容量领取
国内第一梯队终端安全产品解析：技术与场景实践粤海科技君安全腾讯iOA 零信任终端安全
国内终端安全市场的第一梯队产品，通常具备技术领先性、场景覆盖度和规模化落地能力。结合2025年最新行业动态与实战案例，以下从技术架构、核心能力和典型应用三个维度，解析当前市场的头部产品及其差异化价值。一、技术架构与市场格局国内终端安全市场呈现"平台化、智能化、场景化"三大趋势。根据赛迪顾问2023年数据，奇安信以18.7%的终端安全市场份额位居首位，其天擎系统通过"终端检测与响应（EDR）+主动防
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
ComfyUI 完全入门：图生视频
随着科技的不断发展，用户界面（UI）设计变得越来越重要。一个优秀的UI不仅能提升用户体验，还能增加应用的吸引力和使用率。ComfyUI作为一个开源的用户界面框架，以其简便易用、高度自定义和丰富的组件，成为了许多开发者的首选。本文将以“图生视频”为例，详细介绍如何使用ComfyUI，从基础入门到高级应用，帮助你轻松创建出色的用户界面。一、什么是ComfyUI？ComfyUI是一个开源的用户界面框架，
2022手机性价比排行榜最新手机，2022年哪一款手机值得买? 优惠券高省
大家都知道买手机最主要的是性价比高，用最少的价钱买到最好的性能配置，是大多数人的第一需求。今年什么手机性价比最高？最值得购买呢？我们一起盘点一下最具性价比的手机品牌，仅供大家参考！买手机推荐用高省【高省邀请码989898】在高省领取优惠券跳转淘宝等平台下单更优惠，下单成功还有返利折上折！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇
HPE携手迈阿密自由公园，为迈阿密国际足球俱乐部打造极致球迷体验
近日，慧与科技（NYSE：HPE）宣布与迈阿密自由公园（MiamiFreedomPark）及迈阿密国际足球俱乐部（InterMiamiCF，后简称迈阿密国际）正式达成合作协议。HPE将成为迈阿密自由公园的首个创始合作伙伴和官方技术合作伙伴，及迈阿密国际在网络基础设施、解决方案、混合云等领域的独家合作伙伴。届时，HPE将凭借HPEArubaNetworking、HPEAlletraStorage、H
2018-04-08 viper44
科技就是将复杂的事情简单化，所以智能手机的出现显著降低了我们学习的难度，只要善于使用搜索引擎，几乎能够获得所有的知识，而我们利用这些工具的姿势，会反过来决定我们未来的走向，所以一定不能做伸手党，能查到东西尽量自己去搜索，网上有很多现成的成功，我们要善于搜索，把节约的时间拿去干别的事生活中会面临很多突发状况，要如何才能从容面对呢，培养急智的最简单的方法就是列举出所有可能出现的问题，并对它们制定一些相
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
20210226人造子宫？黑客帝国？ Larus_317b
今年年初，郑州大学第一附属医院实施了国内第一个“人造子宫”胚羊体外培育。荷兰的埃因霍温理工大学教授GuidOei也表示，他们团队所设计的“人造子宫”将在2025年用于临床。被誉为人类女性人生最痛苦的怀孕生娃过程也很可能将被“人造子宫”取代，使得女性免受十月怀胎生娃之苦。“人造子宫”对于很多因不孕不育和早产风险带来困扰的家庭来说，人造子宫的确具有巨大的临床应用价值，也必然催生新的产业链。然而，科技在
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他