喜欢打酱油的老鸟

如何在NLP中有效利用Deep Transformer？

2020-01-18 04:15:10

作者 | 王子扬编辑 | Camel

2017年，谷歌在“Attention is all you need”一文中首次提出了完全基于self-attention（自注意力）机制的transformer模型，用于处理序列模型的相关问题，如机器翻译等。传统的神经机器翻译模型大都是采用RNN或者CNN作为encoder-decoder模型的基础，而Transformer模型则摒弃了固有的模式，采用完全并行化的结构，在提升了模型的性能的同时提高了训练的速度，目前已经被推广到多项自然语言处理的相关任务当中。

使用神经网络的方法解决自然语言处理的相关任务时，制约模型性能因素主要包括模型的表现力和用于进行模型训练的数据。然而在大数据时代背景下，对于很多自然语言处理的任务，我们已经能够获取到大量的高质量数据，结构简单的模型无法充分发挥海量数据的优势，不足以从数据中提取出潜在的信息和文本之间的规律，从而导致增大数据量并没有明显的性能提升，反而增加了训练的负担。因此往往需要增大模型容量来增强模型的表现力，主要的手段包括增加模型的宽度和深度。

人们广泛认知通过增加模型的隐层表示维度（宽度）即使用Transformer-Big能够有效地提高翻译的性能，但是近年来，深层网络越来越引起人们的注意，相比于增加宽度，增加模型深度具有对硬件要求低，模型收敛快等优点，本文将选取近年来有关于深层Transformer模型结构的工作进行介绍。

1、Deep Transformer在机器翻译中的应用（1）

论文标题：Learning Deep Transformer Models for Machine Translation

本文由东北大学小牛翻译团队发表于2019年ACL会议。本文的主要贡献包括：1）首次提出了transformer中的层正则化位置对于训练一个深层网络至关重要；2）提出了一种动态层信息融合的方式，提高了信息传递的效率，解决了深层网络信息传递效率差的问题，大大提高了深层网络的性能。

Pre-norm和Post-norm

文中指出transformer模型中层正则化的正确使用是学习深层编码器的关键。通过重新定位层正则化的位置将其置于每个子层的输入之前，便能够有效解决深层网络当中容易出现的梯度爆炸或者梯度消失现象，这对训练深层网络的影响在之前并未被研究过。

图1 post-norm和pre-norm

如图1（a）所示是传统的post-norm方式，即将层正则化位置放置在每一个子层的残差连接之后即通过对层输出进行归一化处理来防止参数漂移，增加模型训练的鲁棒性。具体的计算方式可以用如下流程表示：层输入->层计算->dropout->残差累加->层正则化。而将层正则化的位置提前，计算方式为如下流程：层输入->层正则化->层计算->dropout->残差累加。

如下图1（b）所示，通过pre-norm的方式网络在反向更新时，底层网络参数可以直接获得顶层梯度的信息，而不经过其他的变换，而传统的post-norm方式在进行梯度传递时底层的网络需要经过每一个正则化项，容易产生梯度爆炸和梯度消失的现象。

Dynamic Linear Combination of Layers

此外，pre-norm的方式已经能够帮助我们训练一个具有深层编码层的神经机器翻译系统。但随着编码端层数的加深，底层信息在传递过程中逐渐削弱，底层网络训练不充分，因此文中提出了一种动态线性聚合的方式在信息传递至下一层时对之前所有层的输出进行线性聚合。形式上为 ,其中是一个整合之前各层输出的现象聚合函数。在文中被定义为：

其中是一个权重，对每个输出层进行线性加权。DLCL的方法可以被视为一个具有普适性的方法，例如，标准的残差连接可以看做DLCL的一个特例，其中，，，如下图a，稠密的残差连接则可以看做是一个标准加权的全连接网络如下图b，多层表示融合则可以表示为只在编码端的最顶层进行动态线性融合操作如下图c。DLCL的方法则为每个连续的编码层做一个单独的权重聚合。通过这种方式，可以在层之间创建更多的连接如图d

在WMT16-en2de，NIST OpenMT’12-ch2en和WMT18-zh2en等任务上，应用了DLCL的深层Transformer模型（30/25层编码层）相比于Transformer-Big/Base提升了0.4~2.4个BLEU值，同时相比于Transformer取得了3倍的训练加速和1.6倍的模型压缩。

2、Deep Transformer在语音识别中的应用

论文标题：Very Deep Self-Attention Networks for End-to-End Speech Recognition

这篇工作将深层的transformer 结构用于了语音识别任务，语音识别任务与机器翻译相似，采用的均是端到端的模型结构。文中分析表明，具有强大学习能力的深层Transformer网络能够超越以往端到端模型的性能。此外，为编码器和解码器结合随机残差连接训练了具有48层编码层的深层网络模型。

文中在训练深层网络时为了解决梯度消失和梯度爆炸的问题，使深层网络能够稳定训练，采用了与之前相同的pre-norm方法，同时作者认为残差网络时transformer能够多层训练，但是随着层数的加深，残差连接同样存在冗余，所以作者设计了类似drop的方式，在训练的过程中随机跳过某些子层，在图像领域中，曾有类似的方法如Stochastic Depth，随着NLP领域中深层网络的不断发展，这也是该方法首次被应用于NLP任务中，并作出了针对性的调整。

将pre-norm的子层计算定义为，为对应的子层运算，比如自注意力子层，前馈神经网络子层，或者编码解码注意力子层。随机残差连接的方式则是应用一个掩码M在子层的运算上，如下：

掩码M为1或0，产生于类似于dropout的伯努利分布，当M=1时子层运算被激活，而当M=0时则跳过子层的运算。随机的残差连接是模型在训练阶段创造出更多的子网络结构，而在推理阶段，则使用整个网络，产生了类似模型集成的效果。

针对跳过每个层的概率p，作者认为，越底层p的概率应该越小，所以作者设置p的策略为：1）同一层内的子层共享相同的mask；2）浅层具有更低的概率：，其中p是一个全局变量，用于控制模型随机残差的力度。

此外对于每个子层的输出，作者对其进行了类似于drop的放缩操作，放缩系数。

3、Deep Transformer在机器翻译中的应用（2）

论文标题：Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention

在这篇文章中，作者同样认为对于自然语言处理任务发展中的总体趋势所示通过更深层的神经网络来提高模型的容量和性能。同时随着transformer模型层数的加深，也使得模型难以收敛，训练成本增加，甚至出现梯度爆炸或者梯度消失的问题。作者通过分析说明了由于禅茶连接和层正则化操作之间的相互作用导致了深层网络中出现的梯度消失或爆炸问题，不同于前面调整层正则化的位置解决该问题，作者从参数初始化的角度，提出了根据深度缩放进行初始化（DS-Init），在初始化阶段减少参数之间的方差，同时减少了残差连接输出的方差，有效缓解了梯度消失或爆炸的问题。

同时作者为了节约计算成本提出了一种基于自注意力和编码解码自注意力的注意力子层融合方法（MAtt）。

DS-Init

传统的Transformer模型中所有的参数，通过从一个标准正太分布中进行随机采样，公式如下：

其中，代表输入和输出的维度。这种初始化具有维持激活方差和反向传播方差的优点，因此能够帮助训练深层神经网络。

针对在增加Transformer的层数会导致梯度消失或爆炸的问题，作者经过分析认为这是残差连接（RC）和层正则化（LN）之间的相互作用导致的。针对输入向量常规的计算是：

是是中间的运算结果，是神经网络的操作，作者假设在反向传播过程中LN的输出的误差信号为，RC和LN对误差信号的贡献如下：

，

作者定义误差信号的变化为。 , , 分别代表模型，LN，和RC操作的一个比率，这个值越大，越容易发生梯度爆炸或者梯度消失的问题，一个神经网络应该为之层之间的梯度范数，才能够稳定训练一个深层网络。作者通过实验计算发现LN操作能够削弱误差信号，RC则会增强,而削弱的强度小于增强的强度，则会导致，残差连接的输出的方差变大，增加梯度爆炸或者梯度消失的风险，从而提出DS-Init，原始初始化方法进行如下修改：

是一个介于0,1之间的超参数，代表的是第层，这样做可以使较高的层拥有更小的RRC输出方差，可以使更多的梯度回流。具体的结果如下表

Merged Attention Model

该方法是AAN（Average Attention Network）一种简化，去除了出了线性变换之外所有的矩阵运算：

是是AAN中的mask矩阵，我们通过如下方式将其与编码解码注意力机制结合：

在SAAN和ATT中共享，是编码端的输出，ATT 则是编码解码注意力机制，通过这种方式，MAtt允许AAN和编码解码注意力并行，如下图：

4、Deep Transformer在语言模型中的应用

论文标题：Character-Level Language Modeling with Deeper Self-Attention

使用截断的反向传播方法训练的基于LSTM和RNN的各种变体的语言模型已经表现了强大的性能，这主要归功于其对于长期上下文的强大的记忆能力，但是在这篇文章中，作者使用了一个深度达到了64层的基于transformer的字符级语言模型，再次展现了深层模型强大的性能。

作者认为对于字符级这种长序列的语言建模，transformer模型由于能够在任意长度距离上快速的传递信息，而循环的结构则需要一步一步的传递，因此能够取得更好的效果。此外作者为了加快模型收敛，使能够稳定训练一个深层的模型，额外增加了三个辅助的损失函数辅助训练。

深层的Transformer语言模型采用与编码层相同单端的结构，此外额外应用了attention mask机制，限制信息只能从左到右流入，如下图。

Auxiliary Losses

作者发现在训练一个超过十层的Transformer网络时，容易产生收敛速度慢，精度变低的问题，通过增加辅助的损失，可以更好的优化网络，显著加快模型训练和收敛的速度。作者设计了三种类型的辅助损失，分别应用于中间位置，中间层和不相邻层，辅助了训练的同时提升了模型的性能。

Multiple Positions loss

相比于只预测最后一个位置出现的词，额外增加了在最后一层，每个位置的预测任务，扩展了预测目标为L（序列长度），由于在transformer模型语言模型中在batch之间没有信息传递，这种方式强制在一个小的上下文内进行预测，虽然不确定是否在整个上下文的预测上有帮助，但是这种辅助损失加快了训练，并且取得了更好的效果，下图展示了这种损失的添加方式：

Intermediate Layer Losses

除了在最终层进行预测之外，作者还在模型的中间层增加了预测目标。与最后一层一样，在序列中添加了所有中间位置的预测(如下图)。如果总共有n层，那么第l层在完成l/2n的训练阶段后将停止预测，不在计算额外的辅助损失。即在完成一半的训练后，模型不在产生中间层损失。

Multiple Targets

在序列的每个位置，模型对未来的字符进行两次(或多次)预测。对于每个新目标，引入一个单独的分类器。额外目标的损失在加入相应的层损失之前，用0.5的乘数来加权。

在辅助损失的帮助下，成功训练了一个深度达到64层的基于transformer结构的语言模型，并且性能远远优于基于RNN的结构，并在两个text8和enwik8任务上达到了当时的最佳性能。

5、总结

本文列举了当前具有代表性的四篇基于transformer结构的深层网络工作，可以看到在transformer结构上单纯的通过堆叠网络结构会产生梯度消失/爆炸等造成训练不稳定的问题。

但是通过多种方式的调整，例如，调整层正则化的位置，改变初始化方式或是重新设计损失函数等方式，都能有效提高深层网络训练的稳定性。同时我们也可以观测到，随着网络层数的加深，给模型的容量和性能的提升也是巨大的。

相比于传统的同样采用增加模型容量来提升模型性能的transformer-big模型，增加模型的深度，带来的性能提升更大，同时具有对设备要求低，模型收敛快速的优点。

目前来说，深层网络在NLP任务上的发展还处于初期，相信未来在NLP领域会有更多关于深层网络的工作。

作者介绍：

王子扬，东北大学自然语言处理实验室研究生，研究方向为机器翻译。

小牛翻译，核心成员来自东北大学自然语言处理实验室，由姚天顺教授创建于1980年，现由朱靖波教授、肖桐博士领导，长期从事计算语言学的相关研究工作，主要包括机器翻译、语言分析、文本挖掘等。团队研发的支持187种语言互译的小牛翻译系统已经得到广泛应用，并研发了小牛翻译云（https://niutrans.vip）让机器翻译技术赋能全球企业。

感谢“感恩”，有你们真好杨柳岸边SYF
图片发自App“洛阳亲友如相问，一片冰心在玉壶。”这是去桂林时，坐在一个车上的非常爽快的一洛阳市区大姐，听她说是做酒店财务管理的。只从加了微信后，她的问候总是如期而至，天天如此，比打卡还准时。倒是我一开学，忙的像陀螺一样，总会忘记回问朋友。这不，教师节了，朋友的真心问候又来了。图片发自App这是前年我教过的一个学生的家长。由于孩子是乡下来的，家长总说感谢我对孩子的关照。逢年过节，微信里边的祝福没有
【C# in .NET】18. 探秘接口：契约精神阿蒙Armon C#in .NET c#.net java
探秘接口：契约精神在C#类型系统中，接口扮演着“契约”与“能力”的双重角色，它既是代码抽象的核心工具，也是.NET运行时（CLR）类型系统的重要组成部分。本文将穿透接口的语法表象，从IL代码结构、CLR类型系统实现、方法调度机制三个维度，全面揭示接口的底层工作原理，并结合框架设计实践提炼接口使用的精髓。一、接口的底层本质：并非只是“纯抽象类”接口在C#语法中表现为方法签名的集合，但在CLR层面有着
十大赚钱软件排名:这十款软件赚钱又快又多优惠券高省
赚钱软件哪个赚钱多？现在互联网时代，每天都有越来越多的人用手机赚钱软件来做副业赚钱。比如我通过手机赚钱软件赚钱已经好几年了。所以我很清楚一个赚钱软件能不能快速赚钱，现在基本都是选择一些靠谱的快速赚钱的软件来做。下面就来和大家分享5个赚钱多的赚钱软件，希望能帮到大家。1、「高省APP」推广app赚钱（高省邀请码：668666）推广app赚钱的形式在众多的网上赚钱方式中收益算是比较好的，做得好了月入过
真正不充钱的经典复古传奇手游有哪些真正不充钱的传奇手游排行榜2023 会飞滴鱼儿
游戏一直以来都是游戏玩家们非常喜爱的产品，其便捷的游戏体验和丰富的游戏内容吸引了众多爱好者。在众多的传奇游戏网站中，哪些最热门呢？现在对于传奇手游，玩家最注重的就是游戏内部号的由来，这类账号不仅每日都有运营商328-1688免费充值卡礼包，还有兑换码礼包，道具扶持礼包，所以普通玩家一对比，基本难以生存，好了，下面就给大家盘点几个知名内部号官网！对此推荐的热门传奇游戏网站有三个：1.游人特权站官网2
NFL的React GPT项目使用指南吕岚伊
NFL的ReactGPT项目使用指南一、项目目录结构及介绍ReactGPT是由NFL团队开发的一个尝试性项目，旨在创建一个自主的React开发者工具，利用AI辅助进行React代码的生成与修改。以下是本项目的主要目录结构和各部分功能简介：├──env#环境变量配置文件所在目录│└──.env#存放OPENAI_API_KEY等敏感信息的环境变量文件├──example#可能包含示例代码或配置的目录
VSCode WebView React 开源项目实战指南廉珏俭Mercy
VSCodeWebViewReact开源项目实战指南本指南旨在帮助您了解并快速上手vscode-webview-react开源项目，该项目提供了一个基于React和TypeScript的起点，用于在VisualStudioCode的Webview中开发扩展。以下是核心模块的详细介绍：1.项目目录结构及介绍├──package.json//项目配置文件，包括依赖、scripts命令等├──publi
2023-02-11 再见连城诀
电脑还在扫描检测之中，我就选择用手机写了，虽然缓慢，但要坚持，只有坚持，才会越写越好。我检视这两个月以来的作文，能发现自己视野狭窄，题材都是个人生活和写作，首先是写的内容太局限，再加上文笔太差，自己也不满意。但是要从写作惯性中扩宽道路，还需更多的读、写、思、行来慢慢矫正。我不急，再写下去，三年五年，八年十年，会改变的。昨天晚上来到楚雄，打了电话给同学，邀请他来家小坐，他没有来，开车去接远方的朋友了
高防IP与高防CDN有哪些区别呢？肖家山子龙
为了避免因为攻击导致的服务器瘫痪，运营商们通常会选择具备高防御的服务器来进行运营。如果是在运营过程中遭遇了攻击，不想去更换服务器的话。这个时候，就可以采用添加高防IP或者高防CDN的形式去防御了。那么在使用上，高防IP与高防CDN有哪些区别呢？区别一：应用场景的不同高防IP与高防CDN都是具备防御攻击特性的两种产品。但是在应用上，两者应用的范围是有区别的，高防IP主要是应用在游戏上居多。而高防CD
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
Leetcode 523. Continuous Subarray Sum SnailTyan
文章作者：Tyan博客：noahsnail.com|CSDN|1.DescriptionContinuousSubarraySum2.Solution解析：Version1，使用前缀和来解决，遍历数组，求前缀和，求前缀和与k的余数，余数在字典中存在时，则意味着当前前缀和减去之前的前缀和等于k的倍数，此时计算两个前缀和的长度差，如果大于等于2，则返回True，如果余数不存在，则将余数保存在字典中并记
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
OpenHarmony解读之设备认证：解密流程全揭秘陈乔布斯 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos openHarmony 嵌入式硬件鸿蒙开发 respons
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述本文重点介绍客户端收到end响应消息之后的处理过程。二、源码分析这一模块的源码位于：/bas
前端学习笔记：React.js中state和props的区别和联系
文章目录1.`props`（属性）定义用途示例2.`state`（状态）定义用途示例3.核心区别4.常见使用场景props的场景state的场景5.交互模式父组件修改子组件状态子组件通知父组件6.最佳实践总结在React.js中，state和props是两个核心概念，用于管理组件的数据和数据流。它们的设计目的不同，但共同构成了React组件的状态管理系统。1.props（属性）定义外部传入的数据：
QT窗口（5）-对话框 Mr_Xuhhh qt java 数据库系统架构 c++开发语言 redis
QT窗口（5）-对话框基本概念用户与用户间实现短平快的操作Qt中使用QDialog类表示对话框和QWidget区别不大实际开发中，更多在代码中创建额外的类，让额外的类继承来自QDialog主窗口一般不会作为对话框，主窗口可以生成其他对话框代码如下：voidDialog::on_pushButton_clicked(){QDialog*dialog=newQDialog(this);dialog->
Vue4进阶指南：从零到项目实战（上）
本书全卷Vue4进阶指南：从零到项目实战（上）Vue4进阶指南：从零到项目实战（中）Vue4进阶指南：从零到项目实战（下）目录前言：开启Vue的优雅之旅致读者：Vue的魅力与本书愿景Vue演进哲学：从Vue2到Vue4的蜕变之路环境准备：现代化开发栈配置第一部分：筑基篇-初识Vue的优雅世界第1章：Hello,Vue!1.1Vue核心思想：渐进式框架、声明式渲染、组件化1.2快速上手：CDN引入与
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
宝妈怎么在家用手机挣钱?分享几个可长期操作的方法氧惠购物达人
工作之余，挣点零花钱，利用自己手中的手机进行赚钱可以说是很普遍存在的现象，毕竟在这个移动互联网的时代，用手机赚钱的方式多不胜数，这就给想利用业余时间做兼职的人提供了很大的便利，因为在手机上赚钱不受时间和地点的约束。那么，用手机赚钱的哪种方式是最靠谱最简单的呢？当然是手机做任务赚钱了，因为这种方式特别的适合单干，就是不用做推广邀请好友，靠自己一个人来完成各类悬赏任务即可赚取一份不错的收入了。1、氧惠
如何判断一个男人未来是贫穷，还是富有？从四个方面可以判断 LY遇见小媛
在大众眼中，有一个观念，那就是：作为女人，干得好不如嫁得好。通俗来讲，就是说，在一段婚姻中，女人若是嫁给一个非富即贵的男人，那么，就能实现阶级的跨越。当然，这对女人来说是一件好事。但是，并非每个女人都有这么好的运气。毕竟，优秀的男人都有自己的择偶观，你若不能投其所好，成功的男人于你来说，只能望尘莫及。但是，在现实生活中，很多男人也不是先天富有，而是经过后天努力才能取得成功。这就是我们常说的“大器晚
Python你不知道的二三事（Python基础知识）日暮凡尘 python 开发语言
在上一篇中，我们介绍了Python解释器与编辑器的安装与使用，本次我们这是在进行Python程序的编译。我会根据我个人的学习进度进行更新，如有遗漏或错误，欢迎指正。变量与常量变量创建一个新的py文件，我们就可以开始编程了。关于变量，就是一些我们自定义的值，如a=10num=100其中a，num就是我所定义的变量，变量的命名较为自由，但也有一些规则需要遵守：1.变量由数字、字母、下划线（_）组成。n
抖音返佣奖励明细在哪里?如何增加抖音佣金?_ 测评君高省
抖音商品返佣方法攻略来了！想要在抖音购物的同时获得更多的实惠吗？那就跟随我们的脚步，一起探索如何利用抖音购物返利功能，轻松享受更多优惠吧！【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码55
2022-03-15开盘八卦忘川秋水
受昨日美股阴线影响，市场带向下跳空缺口的低开，继续放量，收风巽，是否能收大长腿，还要看恐慌情绪是否有效释放，但是没有必要继续放空，可以择机慢慢低吸。
《九条命》观后感仰慕幸福
今天在做平板支撑是，顺便看了个动画小短片，说实话，刚开始，有点没看懂，到最后了，才感觉出一点意思来。这个故事有点类似于中国古代的替死鬼的故事。讲的是小猫咪发现一只漂亮的蝴蝶，然后追着这蝴蝶一路跑进了凶猛的动物的包围圈，于是它就逃跑，到了一座桥上，恶魔取走了它的生命力，并赋予了它魔力，使它在醒来后发现自己变强大，可以打败比自己更厉害的野兽，它也慢慢沉迷在其中，终于天黑了，它又一次陷入野兽的包围圈中，
全栈Todo应用实战：从零到一的本地部署与深度解析
全栈Todo应用实战：从零到一的本地部署与深度解析前言在现代Web开发中，全栈应用已成为主流。本文将以一个经典的Todo（待办事项）应用为例，详细记录从项目下载、环境配置、后端启动、数据库交互到前端运行的完整流程。我们将深入探讨在此过程中遇到的一个典型问题——CORS与API请求失败，并提供从“快速修复”到“最佳实践”的解决方案。这不仅是一份操作指南，更是一次宝贵的实战经验总结。你将从本博客中学到
2021每日阅读Day35/100比表扬更好的肯定方式向云千金
今日阅读托马斯•戈登《唤醒孩子的自律》59-74页在介绍这种比表扬更好的方式之前，我还是想啰嗦的谈谈表扬的危害。一方面是非常认同，另一方面也希望能够警醒习惯表扬的伙伴们，从根本上想要引起自己和大家的改变！在昨天的文里，我列举了很多使用奖励会遇到的困难，在这些困难背后，还有我们无形中带给孩子们的负面影响和伤害！表扬常常隐藏着对孩子的不接纳当你表扬说孩子们今天表现很好的时候，他们感受到的可能是原来在你
《白马春风恰少年》（宋）竹萱的清欢阁
李煜《虞美人》春花秋月何时了，往事知多少？小楼昨夜又东风，故国不堪回首月明中。雕栏玉砌应犹在，只是朱颜改。问君能有几多愁？恰似一江春水向东流。(1)描写春宫夜宴的《木兰花》：晓妆初了明肌雪，春殿嫔娥鱼贯列。凤箫声断水云间，重按霓裳歌遍彻。临春谁更飘香屑？醉拍阑干情味切。归时休放烛花红，待踏马蹄清夜月。(6)宫廷春夜宴乐，嫔娥盛装出席，歌舞悠扬，极尽奢华。还有，描写男女幽会的《菩萨蛮》：花明月暗笼轻
pytest-bdd 行为驱动自动化测试东汉末年出bug pytest python pytest-bdd
引言pytest-bdd是一个专为Python设计的行为驱动开发（BDD）测试框架，它允许开发人员使用自然语言（如Gherkin）来编写测试用例，从而使测试用例更易于理解和维护。安装通过pip安装pipinstallpytest-bdd介绍特性文件（FeatureFile）：定义了要测试的系统功能。通常以.feature为扩展名，并使用Gherkin语言编写。特性文件包含特性名称、描述以及一个或多
UI 组件 | Button 测试开发小白变怪兽
最近在与其他自学CocosCreator的小伙伴们交流过程中，发现许多小伙伴对基础组件的应用并不是特别了解，自己在编写游戏的过程中也经常对某个属性或者方法的用法所困扰，而网上也没有比较清晰的用法讲解，所以准备对常用的UI组件常用用法进行一个总结，方便自己和其他小伙伴们查看，下面正文开始（注：属性介绍部分大部分内容我会取自官方文档）。Button（按钮）组件Button组件可以响应用户的点击操作，当
让无效的努力变得更加有效的方法更好时代
©文章由「更好时代」原创发布，保留所有权，全网违反相关法律的抄袭行为将受到更好时代专业法律团队相应的严重法律追责。有的人一天只睡不到五小时，以便有更多的时间处理事情，有的人利用吃饭的时间处理邮件，希望挤出一点时间去散步。人人都很忙碌，都希望通过自己的努力而改变人生，但是只有实现高效能，才能让你在长期的实践中获得源源不断的动力。关于时间管理，我们首先要在有限时间内完成重要的任务。最佳的方法是三目标法
好好学习，能上天——献给六一儿童节的金凤凰（王朝和） 2db504f9317c
今天是六一儿童节，祝普天下的儿童们好好学习，健康成长！要问好好学习，能干嘛？告诉你——能上天！最近，云南省保山市施甸县桃关镇的大山里飞出了金凤凰，他的名字叫桂海潮，很值得少年儿童学习。2023年5月30日，神舟16号载人飞船发射取得圆满成功。在这次进入太空的三名飞行员中，桂海潮是中国执行载人飞行任务的首位载荷专家，是中国唯一戴眼镜执行飞行任务的航天员，是首个非军人出身的航天员，也是中国首位最年轻飞
PyTorch数据准备：从基础Dataset到高效DataLoader 慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch数据加载核心组件在PyTorch中，数据准备主要涉及两个核心类：Dataset和DataLoader。它们共同构成了PyTorch灵活高效的数据管道系统。Dataset类：作为数据集的抽象基类，需要实现三个关键方法：len():返回数据集大小getitem():获取单个数据样本(可选)init():初始化逻辑常见实现方式：继承torch.utils.data.Dataset使用T
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本