郝伟老师的技术博客

ICLR 2020趋势分析：NLP中更好&更快的Transformer

文章目录

自注意力变体
- Long-Short Range Attention
- 使用子树掩码的树结构的注意力
- 哈希注意力
- 多跳注意力
训练目标
- 识别替换任务
- 词和句子结构任务
- 类型限制的实体替换
嵌入
- 位置感知的复杂词向量
- 层次嵌入
- 分解的嵌入参数
模型结构
- 压缩记忆
- 可逆层
- 交叉层参数共享
- 自适应深度预测
总结

转载来源：https://mp.weixin.qq.com/s/hbx4DryEaaB0TlJPH7uyyA

导读：介绍了ICLR2020中对Transformer的改进，从自注意力变体，训练目标，模型结构这三个方面对Transformer进行了提升。

Transformer结构首次提出是在“Attention is All you Need”中，是一种有效的替代序列语言建模(LSTMs) 的方法，自提出以来，已在自然语言处理领域无处不在，推动了最下游的最先进的语言学习任务的发展。

今年的国际学习表示会议ICLR对原版的Transformer及其更近期的变体BERT和Transformer-XL进行了许多很好的改进。这些改进的建议是针对Transformer的一些众所周知的弱点，即：

优化自注意力计算。
在模型架构中注入语言学驱动中的归纳偏差。
使模型的参数更高效。

这篇文章想要总结并提供这些贡献的一个概述，着重描述了自然语言处理开发中更好更快的模型的发展趋势。

自注意力变体

缩放点积自注意力是标准的Transformer层的主要组件之一，支持依赖关系的建模，而不管它们在输入中的距离。self-attention把输入激活向量A映射到querys Q和keys K以及values V上，维度为d_k，返回一个加权版本的V：

在多头自注意力的变体中，注意力函数并行的应用在queries，keys和values的投影上，并学习投影矩阵W，得到的输出拼接起来再映射一次，得到最后的值：

本节将介绍自注意力的一些变体，这些变体使其在语言应用的上下文中更高效。

Long-Short Range Attention

论文：Lite Transformer with Long-Short Range Attention by Wu, Liu et al.

传统的self-attention被认为是有冗余的，经验表明，句子中的本地关系被过于关注了。这可以通过标准卷积更加有效的进行建模。同样的结论在On the Relationship between Self-Attention and Convolutional Layers也有，同时，这个精简可以在某些情况下帮助提升模型的能力，但它不适用于较轻量级的应用。

Long-Short Range Attention (LSRA) 通过将输入沿通道维度分成两部分，并将这两个部分分别提供给两个模块，从而提高了计算效率：全局提取器使用标准的自注意力，局部提取器使用轻量级的深度卷积。作者给出了一个2×简化的模型的总体计算量，使它适合移动端的配置。

使用子树掩码的树结构的注意力

论文：Tree-Structured Attention with Hierarchical Accumulation by Nguyen et al.

标准Transformer的一个缺点是没有考虑到语言的层次结构的归纳偏差。这在一定程度上是由于操作树状结构的困难造成的，这种结构通常是通过循环或递归机制来建模的，同时又保持了自注意力的并行的时间复杂度。

提出的解决方案利用输入文本的集合解析来构建隐藏状态树，使用层次累积来构建非终结符的值，作为树中较低表示的聚合。最终的输出表示是通过执行分支级表示的加权聚合来构建的。

哈希注意力

论文：Reformer: The Efficient Transformer by Kitaev et al.

在自注意力方程中，因子QKT表示一个bottleneck，对长度为L的输入序列在计算复杂度和内存复杂度上为O(L²)。这有效地阻碍了长序列建模的可能性。

Reformer建议将每个query参与的候选池限制为通过局部敏感哈希找到的一小组邻居。由于LSH bucketing采用随机投影，类似的bin有时可能会落在不同的领域上，建议使用多轮并行哈希的方法来缓解这个问题。使用LSH注把计算成本降低为O(Llog⁡L)，这样允许模型操作更长的时间序列。

多跳注意力

论文：Transformer-XH: Multi-Evidence Reasoning with eXtra Hop Attention by Zhao et al.

虽然Transformers被优化为在单个序列或成对序列上运行，但它们很难泛化到多个文本片段中的情况，例如在具有挑战性的多跳问题回答中。

Transformer-XH引入了一种新的注意力变体多跳注意力，它可以应用于通过边连接起来的文本序列图(例如超链接)。这种新的注意机制在每个序列的开头使用特殊的“[CLS]”token作为一个注意力hub，它处理图中所有其他相互连接的序列。然后将得到的表示与标准自注意力通过线性投影得到的表示相结合。由此产生的模型显示，对于需要对图进行推理的任务，新注意力机制引入了额外的计算，但结果却有了显著的改进。

训练目标

Transformer模型的预训练通常是通过多个非监督目标、利用大量非注释文本的方法来实现的。用于此目的的最常见任务是自回归语言建模，也称为标准语言建模(LM)，以及掩码输入自编码，通常称为掩码语言建模(MLM)。

标准Transformer的实现及其GPT变体采用自回归方法，利用序列x=(x₁…，x_L)中的单向上下文(向前或向后)来估计下一个token的概率：

相反，类似于BERT的方法使用双向上下文来恢复一小部分被特殊的==[MASK]== token人为替换的输入。这种变体被证明对下游的自然语言理解任务特别有效。

除了单词级建模外，由于许多重要的语言应用程序需要理解两个序列之间的关系，因此通常会在训练过程中增加一个句子级分类任务，如next sentence prediction (NSP)。

虽然这些任务似乎会产生有意义的token和句子级的表示，但本节介绍的许多方法都提出了更好的替代方法，使学习更有效，并以输入的结构和内容为基础。

识别替换任务

论文：ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators by Clark et al.

在类似于bert的模型中使用的掩码策略是非常低效的，只使用了大约15%的输入文本来完成MLM任务。然而，掩码数据的百分比很难增加，因为有太多的掩码token可能会降低整体上下文的信息。

ELECTRA提出了一个简单而有效的方法来应对这种低效率。训练一个小的掩码语言模型，然后作为一个生成器，用它的预测填充输入中的掩码的token，就像在普通的MLM中一样。然后，主模型的新任务将是一项“识别性”的任务：模型必须检测出哪些token被生成器替换，而不是预测掩码的token。这允许利用整个输入序列进行训练。正如作者所提到的，在相同的预算下，这种方法始终优于MLM的预训练。

词和句子结构任务

论文：StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding by Wang et al.

如前所述，Transformers不会清楚的说明输入中存在的结构。当树型结构的注意力在模型架构中注入了严重的层次偏差时，StructBERT采用了两种较轻但有效的方法，使产生的表示更了解语言的潜在顺序性。

第一个是字结构目标，其中输入中的三元组是随机打乱的，需要重建它们的原始位置。这和普通的MLM并行完成。句子结构目标是一个ERNIE 2.0中介绍的句子重排序的较轻的变体，和ALBERT中介绍的一样：给出两个句子(S1, S2)作为输入，我们要求模型区分S2在前面还是后面，还是无关的。这个新任务扩展了标准的NSP，它被认为太容易学习有意义的句子关系。这导致了对自然语言理解的标准基准的重大改进。

类型限制的实体替换

论文：Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model by Xiong et al.

虽然预训练的Transformer模型隐式地捕获了真实世界的知识，但是它们的标准训练目标并没有明确地考虑到在真实世界设置上进行健壮推理所需的以实体为中心的信息。

类型约束的实体替换是一种弱监督的方法，其中文本中的随机实体替换为来自Wikidata的具有相同实体类型的其他实体。然后，该模型使用一个与ELECTRA相似的判别目标来确定哪些实体被替换了。这是与MLM一起在多任务设置中完成的，作者给出了在需要更深入的实体理解的场景上的显著改进，如开放域QA和实体类型化。

嵌入

原始的Transformer依赖于两组embeddings来表示输入序列：

学习word embeddings用于词汇表中的每个token，作为模型的token向量表示。
固定的位置嵌入(PE)，用于注入关于序列中token位置的信息。对于位置pos和维度i，它们对应于正弦周期函数，经验表明，这些函数的性能与学习到的嵌入相同，并被选择用于对更长的序列进行外推：

对于能够对多个输入段进行操作的类似于BERT的模型，使用第三组学到的段嵌入来区分属于不同句子的token。

所有这些嵌入都具有相同的维度，并汇总在一起以获得输入表示。本节介绍的方法旨在为嵌入注入更多的结构，或者优化它们的维度以获得更好的效率。

位置感知的复杂词向量

论文：Encoding word order in complex embeddings by Wang et al.

虽然PE在输入中捕捉不同的位置，但它们没有明确考虑这些位置之间的关系，即有序关系，如邻接或优先级。这个问题已经在Transformer-XL中得到了解决，它利用单词之间的相对距离，而不是原始位置索引。

一个建议的改进是将词嵌入推广到在位置上定义的连续函数，将解决方案扩展到复值域，以从更丰富的表示中获益。复值嵌入引入了振幅、频率和初始相位的新参数，这些参数决定了嵌入的各种特性，如位置灵敏度。实验结果表明，具有参数共享模式的复杂嵌入方法在不增加可训练参数的情况下，性能优于已有的嵌入方法。

层次嵌入

论文：Tree-Structured Attention with Hierarchical Accumulation by Nguyen et al.

在对树结构注意力的概述中，我们了解了如何使用层次累积来形成基于非终端节点的后代的表示。但是，这一程序的缺点是没有考虑到后代的层次结构。

使用层次嵌入注入这种结构偏差，将垂直和水平嵌入矩阵连接起来，分别表示分支内的层次顺序和子树中兄弟节点之间的关系。这些嵌入在注意力头之间共享，因此只占总参数的0.1%。

分解的嵌入参数

论文：ALBERT: A Lite BERT for Self-supervised Learning of Language Representations by Lan et al.

在最近的基于BERT和Transformer-XL的模型中，输入嵌入大小E与隐含层大小H相连，即E≡H。这是非常不切实际的，因为要增加用于学习上下文相关表示的隐藏表示的表达性，还应该增加嵌入矩阵M=V×E的大小，其中V是词汇表的大小。即使对于相对较小的隐层维度，这也会导致数十亿个参数在训练期间很少更新。

ALBERT 提出E和V之间插入一个投影使得这两个维度独立，当H≫E的时候，这是一个特别有效的减少参数的方法。因此，E=128和H=768的ALBERT base在许多下游任务上的性能与相同配置的BERT base相当，使用的参数减少了21M(表3中的89M与BERT的110M)。

模型结构

最初的Transformer架构由编码器和解码器组成，每个编码器和解码器都由一系列相同的层组成，这些层将输入嵌入转换为具有相同维度的输出(因此得名Transformer)。

Transformer编码器的每一层由两个子层、一个多头自注意力和一个前馈网络组成，被残差连接包围，然后进行层归一化。解码器包括第三层，该层在编码器输出上执行多头自注意力，并修改原始自注意力层，以防止注意到未来的上下文，如上述自回归语言建模目标所要求的那样。

Transformer的双向变体去掉了解码器结构，只关注于编码器，以生成各种任务(包括MLM)所需的上下文嵌入。

Transformer-XL特别介绍了Transformer网络的内存概念，其中在以前的段中获得的隐藏状态被重视和重用，以更好地建模长期依赖，防止上下文分段。

以下方法试图在当前结构的基础上进行构建，以改进远程建模、减少参数数量或优化模型执行的计算。

压缩记忆

论文：Compressive Transformers for Long-Range Sequence Modelling by Rae et al.

在Transformer-XL的循环记忆方法中，旧的记忆被丢弃，以先入先出的方式存储新的记忆。这种方法只考虑最近的情况，没有考虑可能被丢弃的信息的相关性。

压缩Transformers通过添加一个新的压缩记忆来构建记忆的概念，该记忆存储旧记忆的粗糙表示，而不是丢弃它们。作者尝试了多种压缩函数的替代方法，最后选择了注意力重构损失，它丢弃了网络没有参与的信息。压缩记忆的使用显示出对不常见单词建模的巨大改进，有经验证据表明，网络学习通过压缩机制来保存重要信息。

可逆层

论文：Reformer: The Efficient Transformer by Kitaev et al.

可逆性背后的主要思想是，仅使用下面的层和模型参数的激活，就可以恢复网络任何层中的激活。当应用于Transformer模型时，这个特性特别有趣，因为它们通常由一大堆堆叠的层组成，并且它们的内存复杂性随层数线性增长。

Reformer在Transformer结构中引入可逆性，将注意力层和前馈子层结合成一个单一的可逆层。这样允许只存储最顶层的激活，并通过在反向传播过程中用可逆层来恢复所有其他层，使得模型深度与内存无关。通过在前馈和可逆层中分块独立计算，进一步提高了内存复杂度。

交叉层参数共享

论文：ALBERT: A Lite BERT for Self-supervised Learning of Language Representations by Lan et al.

一个简单但非常有效的方法来大大减少深层Transformer模型中的参数数量，那就是跨多个层共享参数，正如在ICLR 2019会议上发表的Universal Transformer论文中所示。

ALBERT作者对自注意子层和前馈子层的跨层参数共享进行了实验，发现共享权矩阵有助于将模型的总参数数降低7倍(对于嵌入大小E=128)，而对最终性能的影响很小。通过使用参数共享，实现了跨层的平滑过渡，有效地稳定了网络参数。

自适应深度预测

论文：Depth-Adaptive Transformer by Elbayad et al.

当前模型为每个输入执行固定数量的计算，而不考虑每个序列的底层复杂性。这个问题已经在Universal Transformer中得到了强调，它提出了一个具有**自适应计算时间(ACT)**的相同层的重复应用，但是由此导致的每层权重的增加大大降低了整体网络速度。

深度自适应Transformer解决了这个问题，使用标准的Transformer对序列进行编码，使用可变数量的Transformer进行解码。为此，在解码器的每个重复的层上附加一个分类器，然后使用计算机视觉领域首次引入的anytime prediction方法对整个设置进行对齐和混合训练(见图)。作者探索了不同的机制，自适应地同时控制在序列层级和每个token的基础上的计算量，并得出结论，自适应的减少超过75%的解码器层可以对机器翻译任务的准确性没有任何损失。

总结

ICLR2020引入的许多方法提供了广泛适用的解决方案，以解决最初Transformer架构的特定问题，从自注意力计算到模型结构本身。这些方法中有许多似乎对Transformer的未来开发很有希望，而且最重要的是，一旦这些方法中的许多被包含到一个架构中，它们很可能会带来互补的改进。我对ICLR 2021的希望是看到更多的增量工作，将已经存在的策略组合在一起，突出它们之间最有效的组合。

英文原文：http://gsarti.com/post/iclr2020-transformers/

electron-vue 安装环境、构建+打包（mac和windows）这一篇就够了阿毛sky electron vue 前端
由于公司需要，下一个项目需要做CS开发，技术选型分析后，选择了electron（Electron是一个使用JavaScript,HTML和CSS等Web技术创建原生程序的框架）研究发现，electron与vue-cli3.0脚手架做了很好的融合，对于我们这种用惯了vue，以及elementUI这些UI框架的Web前端开发工程师来说，实在太友好了，不过，这是一门国外框架技术，不仅是环境搭建、安装、文
selenium 控制内嵌table滚动条的方法 qq_492448446 Web自动化 selenium 测试工具
selenium控制内嵌table滚动条的方法我们经常会遇到selenium无法捕获到对应元素的问题，其中有一个原因是由于页面中存在滚动条，而需要操作的元素需要滑动滚动条后才能捕获到。之前有使用过如下方式：document.getElementById('id').scrollTop=10000但是当出现需要操作内嵌table的滚动条时，这种方式就不可用了。正确的操作方式如下，遇到这种情况时，需要
TypeScript 与后端开发Node.js m0_74825746 面试学习路线阿里巴巴 typescript node.js javascript
文章目录一、搭建TypeScript+Node.js项目（一）初始化项目并安装相关依赖1、创建项目目录并初始化2、安装必要的依赖包（二）配置TypeScript编译选项（如模块解析方式适合后端）二、编写服务器代码（一）定义路由类型（使用Express等框架）（二）处理请求和响应的类型（包括中间件的类型）1、请求类型处理2、响应类型处理3、中间件类型处理三、数据库交互（一）使用Type-Safe的数
mysql 删除数据的四种方法 m0_74824780 mysql android 数据库
在MySQL数据库中,删除数据是一个常见的操作,它允许从表中移除不再需要的数据,本文就来介绍一下四种方法,具有一定的参考价值,感兴趣的可以了解一下目录写在前面?方法介绍1.DELETE语句示例：??2.DROPTABLE语句：3.?TRUNCATETABLE示例：4.使用外键约束：示例：??方法优缺点1.DELETE语句：2.TRUNCATETABLE语句：3.DROPTABLE语句：4.使用外键
Node.js使用教程 m0_74824112 面试学习路线阿里巴巴 node.js vim 编辑器
Node.js使用教程Node.js是一个基于ChromeV8引擎的JavaScript运行环境，它让JavaScript运行在服务器端。以下是一个简单的Node.js使用教程：一、Node.js开发环境和编译1.1安装Node.js访问Node.js官网下载并安装适合您操作系统的Node.js版本。1.2创建一个Node.js项目在您的工作目录中，创建一个新的文件夹作为项目目录，例如命名为my_
【Spring：Caused by java.lang.ClassNotFoundException 】 m0_74823490 面试学习路线阿里巴巴 java spring tomcat
Spring：Causedby:java.lang.ClassNotFoundException:org.springframework.dao.support.DaoSupportSpring中使用Mybatis连接数据库时可能会出现以上错误，但是当出现以上错误时说明你在applicationContext.xml文件中所做的相关操作：spring整合myBATis后控制的创建连接用的对象加载M
趣学 Node.js：Node.js 是个啥？人工智能_SYBH 课程推荐 2025年前后端实战项目 node.js javascript 前端
趣学Node.js-死月-掘金小册带你重新体悟Node.js之美。「趣学Node.js」由死月撰写，2109人购买https://s.juejin.cn/ds/SVKWR9J/在这里，我们先装作对Node.js不了解，从头来过吧。你有没有假装不了解Node.js我不知道，但我就当作你不了解了。本节会跟大家详细剖析一下Node.js到底是个什么东西。在它官网上是这么讲的：Node.js®isanop
【CSS】图片比例完整展示与滚动查看 Peter-Lu #CSS 开发语言前端 css
文章目录一、问题背景二、问题分析为什么`100vh`会压缩图片高度？为什么固定像素高度有效？三、解决方案与改进1.页面布局代码2.样式代码3.核心点解读容器高度图片样式滚动支持在前端开发中，如何高效地展示多张图片，并确保图片保持原始比例，同时兼顾滚动查看的需求，是一个常见的问题。本文将通过一个实际案例，讲解如何解决100vh固定高度导致图片被压缩的问题，以及如何改进页面布局让滚动与展示兼顾。一、问
springboot + logback + filebeat + elk 实现分布式日志中心 imalvisc java spring linux 运维
前言：本文主要介绍docker搭建elk分布式日志平台，利用filebeat监听logback日志文件，传输到elk中，最终在kibana渲染展示。主要思路：filebeat监听日志文件的变化，传输到logstash，logstash通过分析提取，将日志信息推送到elasticsearch指定索引中，最终kibana从elasticsearch索引中查询并展示日志信息。一、docker搭建elk日
mac 系统下使用clion调试redis4源码迹忆客 redis 编程 redis mac
原文：mac系统下使用clion调试redis4源码clion主要使用的是cmake+make进行编译。所以对于redis4来说，主要的就是先编写CMakeLists.txt文件。CmakeLists.txt文件redis4/CMakeLists.txtcmake_minimum_required(VERSION3.15)project(redis4)set(CMAKE_BUILD_TYPE"De
Node.js 中的 fs 模块详解小灰灰学编程 Node.js node.js 前端
fs（FileSystem）模块是Node.js的核心模块之一，用于处理文件系统的操作，包括文件的读取、写入、删除、重命名等。它提供了同步和异步两种操作方式，适用于不同的场景。1.前置知识1.1文件系统文件系统是操作系统用于管理文件和目录的一种机制。Node.js通过fs模块提供了对文件系统的访问能力。1.2同步与异步同步操作：阻塞代码执行，直到操作完成。异步操作：非阻塞，通过回调函数、Promi
python：求解爱因斯坦场方程 belldeep python python 爱因斯坦
在物理学中，爱因斯坦的广义相对论（GeneralRelativity）是描述引力如何作用于时空的理论。广义相对论由爱因斯坦在1915年提出，并被阿尔伯特·爱因斯坦、纳森·罗森和纳尔逊·曼德尔斯塔姆共同发展。广义相对论的核心方程是爱因斯坦场方程，它描述了时空的几何结构如何由物质的分布决定。如果你想用Python来探索或模拟广义相对论中的某些现象，你可以从以下几个方面入手：1.使用现有的库Python
FFmpeg源码分析：avformat_open_input chaisy971124568 WebRTC 音视频 FFmpeg ffmpeg
一、函数功能介绍当前支持的媒体解封装协议在libavformat/demuxer_list.c文件的demuxer_list变量中定义当前支持的音视频采集格式在libavdevice/indev_list.c文件的indev_list变量中定义用户可以自行查看av_find_input_format函数的具体逻辑，得知最新版本的ffmpeg支持情况。注意：若进行音视频采集之前，则必须执行avdev
MySQL的集群配置和读写分离配置 lqg_zone 数据库相关 mysql 数据库
MySQL重点概念介绍分布式集群方案主从节点复制分库分表mycat读写分离参数配置MySQL主节点MySQL从节点实例讲演分布式部署性能演示独立mysql对比主从复制+读写分离参考资料：浅谈mysql集群浅谈mysql集群_mysql不同集群连接-CSDN博客MySQLReplication主从复制全方位解决方案MySQLReplication主从复制全方位解决方案-惨绿少年-博客园MySQL主从
HBase基本技巧：掌握高效数据管理的秘诀狮歌~资深攻城狮 java android 数据库
HBase基本技巧：掌握高效数据管理的秘诀嘿，小伙伴们！现在你已经对HBase有了初步的了解，接下来让我们深入探讨一些HBase的基本技巧。这些技巧不仅能帮助你更高效地管理和操作数据，还能让你在面对复杂场景时游刃有余。1.行键设计的艺术什么是行键？行键（RowKey）是HBase表中每一行的唯一标识符。它的设计直接影响到查询性能和数据分布。因此，合理设计行键是非常重要的。设计原则•避免热点问题：如
el与data的2种写法是小傲雨呀^_^ vue.js javascript 前端
el的2种写法1.el:'#root',constx=newVue({el:'#root',data:{name:'伏尔加'}})2.x.$mount('#root')constx=newVue({data:{name:'伏尔加'}});x.$mount('#root');data的2种写法constx=newVue({el:'#root',data:{name:'伏尔加'}});constx=n
DFS有向图（用c++编译运行）是小傲雨呀^_^ 深度优先图论算法
#include#include#defineMax100//链表结点的结构定义structListNode{//存放的是链表的节点intindex;//所连接定点的下标//intinfo;//改边所对应的权值structListNode*next;};//顶点的结构定义structVNode{charstr;//存放的是顶点字符ListNode*firstarc;//邻接表顶点指针域};//图结
箭头函数的this指向谁是小傲雨呀^_^ vue.js 前端 javascript
先看1个重要原则：由Vue管理的函数，一定不要写箭头函数，箭头函数的this就不再是Vue实例了箭头函数的this指向在定义时确定，继承自外层作用域（即定义时的上下文）的this，且无法通过call、apply或bind改变。以下是关键点总结：1.词法作用域的this箭头函数没有自己的this，它使用外层非箭头函数作用域的this值。若外层没有函数，则指向全局对象（如window或global）。
数据仓库与数据湖的协同工作：智慧数据管理的双引擎 Echo_Wish 实战高阶大数据人工智能科技大数据
数据仓库与数据湖的协同工作：智慧数据管理的双引擎引言在数据驱动的今天，企业和组织收集和存储的数据量正以惊人的速度增长。如何高效管理和利用这些数据，成为了决策者和技术专家的共同难题。为了解决这一问题，数据仓库（DataWarehouse）和数据湖（DataLake）这两种技术应运而生，分别在不同的应用场景中发挥着重要作用。然而，随着数据管理需求的日益复杂，单一的数据仓库或数据湖并无法完全满足现代企业
【Python】使用国内镜像加速 pip 安装详解 Peter-Lu #人工智能之python基础 python pip
文章目录一、pip工具简介1.什么是pip？2.什么是`-i`参数？二、国内镜像源的选择三、如何使用国内镜像源1.临时指定国内镜像源2.批量安装依赖时使用镜像源3.全局配置国内镜像源配置方法：四、国内镜像的使用场景1.安装大型库时2.批量安装依赖五、注意事项1.镜像源的选择2.镜像源的可信性3.镜像源与pip缓存在Python开发中，pip是一个非常重要的工具，用于安装和管理Python的第三方库
Lua 数据库访问 froginwe11 开发语言
Lua数据库访问引言Lua是一种轻量级的编程语言，因其简洁性和高效性，常被用于游戏开发、嵌入系统和应用程序开发。在许多情况下，数据库访问是应用程序的核心功能之一。本文将深入探讨在Lua中如何进行数据库访问，包括连接数据库、执行查询、处理结果以及异常处理等。Lua数据库访问概述在Lua中，有多种方法可以用来访问数据库。以下是几种常用的数据库访问方式：直接使用数据库的命令行工具：例如，使用MySQL的
LabVIEW太阳能制冷监控系统 LabVIEW开发 LabVIEW开发案例 labview
在全球能源需求日益增长的背景下，太阳能作为一种无限再生能源，被广泛应用于各种能源系统中。本基于LabVIEW软件和STM32F105控制器的太阳能制冷监控系统的设计与实现，提供一个高效、经济的太阳能利用方案，以应对能源消耗的挑战。项目背景随着全球人口的增加，能源需求不断攀升，而传统能源的开采与使用伴随着环境污染和资源枯竭的风险。太阳能作为一种清洁的再生能源，具有广阔的开发前景。此太阳能制冷监控系统
android database SQLite 一路阳光随行 Android sqlite database android 存储数据库
2.数据库基本知识观花对于一些和我一样还没有真正系统学习数据库技术的同学来说，把SQL92标准中的一些基本概念、基本语句快速的了解一下，是很有必要的，这样待会用Android的database相关方法去执行一些数据库语句时就不会茫然了。①数据库的基本结构——表格表格是数据库中储存资料的基本架构。表格被分为栏位(column)及列位(row)。每一列代表一笔资料，而每一栏代表一笔资料的一部份。举例来
关于鼠标右击菜单，出现很慢的问题墨雪夜789 计算机外设 windows
鼠标右击菜单出现的很慢，多半是右键集成的驱动太多。简单方便的解决办法：用火绒安全，安全工具中有个右键管理右键管理中有桌面管理，将桌面管理中与显卡有关的关掉，就可以了。
OmniParser在windows上的安装（第三步）墨雪夜789 ai opencv 计算机视觉目标检测
按照OmniParser官方的技术文档，OmiParser是可以在网页端直接运行的，但是我尝试了，无法生成网页链接，原因是TCP没有响应，无法访问服务端（我觉得应该是服务器的IP地址是M国，因此无法进行Ping通，从而无法进行访问）具体测试如下显示加载服务器失败，后边去进行Ping测试，也无法Ping通。
基于医疗知识图谱的问答系统基于知识图谱的多轮问答附完整代码数据详细教程计算机毕设论文深度学习-自然语言处理nlp 医疗知识知识图谱 Neo4j 多轮问答
这个项目已实现的功能：1.闲聊类的单论对话2.基于知识图谱的多轮问答数据链接：链接：https://pan.baidu.com/s/1oPr1m8aaIeoMu53OIEULPg提取码：fh39一、项目来源由于之前用Rasa构建过对话系统，因此一直想脱离Rasa这个开源框架，从底层开始构建一个可以实现相似功能的对话系统，毕竟框架用的再溜，都不如自己做一遍。恰巧在Rasa群里看到了前辈分享的一个项目
第TR5周：Transformer实战：文本分类计算机真好丸 transformer 分类深度学习
文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型3.4定义训练函数3.5定义评估函数4.训练模型4.1模型训练5.总结：本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.准备环境1.1环境安装这是一个使用PyTorch通过Tran
煤矸石无线测温系统项目背景德明电子无线测温
一、煤矸石煤场场监测系统项目背景煤矸石是采煤和洗煤过程中的排弃物，含碳量较低、比煤坚硬的黑色岩石，通常占采煤量的15%～20%，其年产量约占煤炭总产量的十分之一。据不完全统计，国有煤矿现有煤矸石山6000余座，堆积量50亿吨以上，占我国工业固体废物排放总量的40％以上。目前，随着综采机械化的提高及煤炭资源的大量利用，使得煤矸石的产生量逐年增加，为了节约土地利用率一般都是将煤矸石山堆积成山，但是长期
多体动力学仿真软件：GT-SUITE_（7）.动力学分析 kkchenjj 多体动力学仿真仿真模拟模拟仿真多体动力学
动力学分析在多体动力学仿真软件中，动力学分析是核心功能之一，它可以帮助工程师和研究人员准确地模拟和分析复杂多体系统的运动和受力情况。动力学分析包括多种类型，如静力学分析、运动学分析和动力学分析。本节将详细介绍这些分析的原理和内容，并提供具体的代码示例和数据样例，以帮助读者更好地理解和应用这些技术。静力学分析静力学分析用于研究系统在力和约束作用下的静态平衡状态。在GT-SUITE中，静力学分析主要涉
非线性动力学笔记C2.1-2.2 一维流动中的不动点和稳定性阿北Ben 笔记
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言C2一维流动（flowonaline)引言2.1几何思考方式2.不动点（fixedpoint)与稳定性（stability)Appendix1前言提示：这里可以添加本文要记录的大概内容：参考书《Nonlineardynamicsandchaos》StevenH.Strogatz本节重点Note第二章内容的引言的1-2小节，
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc