PaperWeekly

UniVAE：基于Transformer的单模型、多尺度的VAE模型

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

大家都知道，Transformer 的复杂度是它的“硬伤”之一。不过凡事有弊亦有利，的复杂度也为 Transformer 带来很大的折腾空间，我们可以灵活地定制不同的 attention mask，来设计出不同用途的 Transformer 模型来，比如 UniLM、K-BERT [1] 等。

本文介绍笔者构思的一个能用于文本的 UniVAE 模型，它沿用类似 UniLM 的思路，将 VAE 做到了一个 Transformer 模型里边，并且还具备多尺度特性。

UniAE

VAE（Variational Autoencoder）这里就不科普了，之前已经有多篇文章进行介绍，大家自行搜索就好。VAE 可以理解为带有正则项的 AE（Autoencoder），一般情况下，Encoder 负责将输入编码为一个向量，并且满足一定的分布，而 Decoder 则负责将编码向量重构为输入。所以很显然，要实现 UniVAE，首先要实现对应的 UniAE。

在从语言模型到 Seq2Seq：Transformer 如戏，全靠 Mask 中，我们已经介绍了 UniLM（Uni 是 Unified 的缩写），它通过下图左的 Attention Mask 来使得 Transformer 能完成 Seq2Seq 任务。然而 UniLM 并不是我们要寻找的 UniAE，因为 UniLM 的 Decoder 部分关联到的是输入的整个编码序列，而不是单个向量。

▲ UniLM式Attention Mask

▲ UniAE式Attention Mask

不过，我们可以在 UniLM 的基础上，进一步调整 Attention Mask 为上图右的模式，这样一来，解码的时候只能依赖于编码部分的 [CLS] 向量以及当前已完成的解码结果，这就是我们要找的 UniAE 式 Attention Mask 了。因为对于输入来说，它只依赖于 [CLS] 向量，而 [CLS] 向量的大小是固定的，所以相当于说生成过程中的源信息只是一个固定大小的向量，而输入也被编码成这个固定大小的向量，这就是 AE 功能了。

▲ UniAE式Attention关联示意图

多尺度

也就是说，通过 UniAE 式 Attention Mask，我们可以实现类似 UniLM 的 Seq2Seq 模型，它等效于 Encoder 将输入编码为固定长度的向量，然后 Decoder 对该向量进行解码。如果还觉得不够清晰，我们还可以分拆为 Encoder-Decoder 架构来理解，如下图所示：

▲ 分拆为Encoder-Decoder结构来理解

跟常规的 Seq2Seq 架构不同的地方在于，这里的 Encoder 和 Decoder 的权重是共享的。从上图还可以看出，如果我们每一层 Attention 都加上这种 Mask，那么 Decoder 将依赖于每一层输入的 [CLS] 向量，这也就意味如果有 L 层 Attention，那么这 L 层 Attention 的输入序列的所有 [CLS] 向量拼接起来，才是输入文本的完整的编码向量（当然，第一层可以去掉，因为第一层的 [CLS] 是其 Embedding 向量，对于每个输入来说它都是常向量），单独某一层的 [CLS] 向量，并不是完整编码向量。

对于 Decoder 来说，每一层Attention都有一个 [CLS] 向量传入，这其实就形成了一种多尺度结构。在 CV 中，最先进的生成模型基本上都是多尺度结构了，如StyleGAN [2]、Glow、NVAE 等，但是 NLP 中似乎还不多见。不难想象，在多尺度结构中，不同层次的输入对生成结果的调控程度也是不同的，越靠近输入层的变量，控制的部分越是“无伤大雅”，而越靠近输出层的变量，则控制着生成结果的关键信息。所以理想情况下，训练好一个多尺度模型后，我们可以通过编辑不同层级的输入变量，来实现对生成结果的不同层次的控制。

降低维度

有些读者可能会想到，要是每层的维度是 d，共有 L 层，那么全部 [CLS] 向量拼接起来就是 Ld 维了，对于 BERT base 来说就是维了，这编码向量维度是不是太大了？确实如此，对于一个普通的 AE 或者 VAE 来说，近万维的编码向量是太大了。

▲ 降维过程示意图

其实解决方法很简单，我们只需要将每层的 [CLS] 向量用一个全连接层先降维，然后再用另一个全连接层升维，最后拼接到剩下的（L-1）个 d 维向量就行了，如上图所示。这样的话，虽然输入序列还是大小，但事实上 [CLS] 向量可以用一个更低维的向量表达出来，我们只需要把每一层的这个更低维向量拼接起来，作为总的编码向量就行了。

▲ 降维后的Encoder-Decoder示意图

解耦能力

前面的设计和讨论还只是针对普通的 AE 的，对于 VAE 来说，就是往 AE 的编码向量里边加入重参数操作，然后损失函数里边加入 KL 散度项，所以，设计好 UniAE 后，理论上就已经设计好 UniVAE 了。

不过，实际操作的时候，我们还有改进的空间。理论上来说，训练好 VAE 是具有一定的解耦（Disentanglement）能力的，也就是说，隐变量的每个维度是独立无关的，它们分别控制生成结果的某一方面，可以随机调节。不难理解，解耦是一件非常有挑战性的事情，所以如果 VAE 的 Encoder 能编码出解耦的编码向量，那么其拟合能力必然也是比较强的，换言之，其结构需要有一定的复杂了。

我们再来看 UniAE 的 Encoder，它的编码向量是每一层的 [CLS] 向量（或者对应的低维向量）的拼接，对于前面的层来说，它们的 [CLS] 向量仅仅是有限几层的 Transformer 的输出，它们的编码能力是很弱的，并不足以编码出解耦的向量，因此将它们作为 VAE 的隐变量是不合适的。

所以，在实际设计 UniVAE 的时候，我们不能使用 UniAE 的所有 [CLS] 向量作为编码向量，应该设置一个起始层数，Decoder 只使用大于这个层数的 [CLS] 向量，而小于等于这个层数的 [CLS] 向量则不使用，此时相对于使用下图右的 Attention Mask：

▲ 靠近输出层，使用UniAE式Attention Mask

▲ 靠近输入层，使用独立式Attention Mask

此时它等效于如下的 Encoder-Decoder 结构：

▲ 前两层Attention使用独立式Mask的效果示意图

其他细节

至此，UniVAE 的关键部分已经介绍完毕了，下面分享一下在实现过程中一些比较重要的细节。

首先是长度泄漏问题。不管是 UniLM 还是 UniVAE，因为 Encoder 和 Decoder 整合成了一个模型，所以我们都是将输入输出拼接起来作为单个样本训练的，这样的话每个样本在 Decoder 部分的起始位置就不一样了，取决于输入文本的长度，这就意味着输入长度是也是作为了输入条件传入到了 Decoder 中，这就是长度泄漏。

这个问题有两个解决方案：第一个就是所有输入都通过截断或者填充来变为同一长度，这就不会造成长度泄漏了；第二个就更简单了，干脆啥都不做，即确实把长度当成条件输入，解码时通过控制其实位置来控制生成长度，但这样可能带来的问题是长度信息可能没有跟编码向量完全解耦，因此同一编码向量配上不同的长度可能会得到不合理的结果。

然后是层数和维度的选择问题。前面说了，为了让隐变量具有较好的解耦能力，我们将前 k 层的 Attention 加上独立式 Attention Mask，剩下的 L-k 层则加上 UniAE 式 Attention Mask。那么这个 k 怎么选择呢？这是一个需要仔细调整的超参数，比较小的 k 能保留更多的信息，有利于重构，但不利于解耦；反之较大的 k 则更有利于解耦，但是不利于重构。在笔者的实验中，使用的是 k=8。

类似的问题出现在降维的维度选择上，较大的维度自然是有利于重构的，但也不利于解耦，反之则利于解耦而有损重构性能。这个参数需要根据任务本身的复杂度来具体调整，调整的大致方向是观察随机采样效果和重构效果，如果随机采样出来的样本多数可读、自然句子的重构效果也不错，那么说明这个维度适中了，否则则需要相应地调整。

最后，值得一提的是，UniAE 的设计不单单可以用来做 VAE，还可以用于构建 VQ-VAE [3] ，只需要对每个 [CLS] 向量做一下量化，就成为了一个将不定长句子编码为定长离散序列的 VQ-VAE 模型了。

参考实现

这里给出一个 UniVAE 参考实现：

Github：https://github.com/bojone/univae

代码里使用的是 vMF-VAE变体，基于 bert4keras 实现，基础架构是 RoFormer，当然也可以换成 BERT。下面演示的是用问句训练的 UniVAE 的效果。

随机采样效果：

我在steam下载的游戏，怎样能在电脑上玩啊？？？
呼市男科医院哪家比较好实惠
我血压高，我妈妈手脚麻木，是怎么回事呀
怎样查询交通违章记录和处罚
为什么我提问的问题有点卡顿
小米2s用的是移动卡还是联通卡
幼儿园怎么发展幼儿教育
英国读研学校排名对于英国留学生来说重要吗
有专业的关于excel表格数据库的培训机构吗？
为什么一到晚上就容易咳嗽，不睡觉就不咳

重构效果：

原句：数字电视机顶盒坏了，可以免费维修吗
重构：数字电视机顶盒坏了可以换吗?

原句：青椒跟什么炒好吃
重构：青椒跟什么炒好吃

原句：王者荣耀carryyou什么意思
重构：王者荣耀carry芈月什么意思

原句：没感冒老是咳嗽要吃什么药好
重构：没感冒老是咳嗽要吃什么药好

原句：沁园（金科西城大院店）怎么样，好不好的默认点评
重构：沁园（金源店）怎么样，好不好的默认点评

随机替换前 32 维隐变量：

原句：牙龈出血要吃什么药？
结果：牙龈出血还出血吃什么消炎药好
   牙龈出血吃阿莫西林有效吗
   牙龈出血是肝火旺吗？
   牙龈出血去医院检查大概要多少钱？
   牙龈出血去牙科看什么科室
   牙龈出血去深圳哪里看牙科好

原句：广州和深圳哪个更好玩？
结果：广州和深圳哪个城市发展得好? 薪资高?
   广州和深圳，哪个发达？深圳到广州的飞机票贵吗？
   广州和深圳比哪个好
   广州和深圳哪个人均gdp高
   广州和深圳房价涨幅
   广州和深圳自考一样吗

随机替换后 16 维隐变量：

原句：牙龈出血要吃什么药？
结果：未来21年做什么生意好？
   湿疹给身体有什么伤害？
   朗逸现在要买什么配置？
   马来西亚签证要多少钱？
   早上给孩子吃什么水果好？
   头晕发热去医院看什么科？

原句：广州和深圳哪个更好玩？
结果：99和98相差多少呢？
   微信和支付宝怎么更换手机号
   我的指甲和肉很不一样怎么回事？
   吃了甲硝唑多久才能喝酒？
   桂圆和红枣可以一起泡茶吗？
   小米和华为哪个更好点？

可以看到，随机采样和重构的效果都不错的，而通过随机替换不同维度的隐变量，我们可以大致观察到多尺度结构的效果：替换前面部分维度的隐变量，大致上保持了主题词不变；替换后面部分维度的隐变量，大致上保持了句式不变。当然，自然语言的结构性本身就很弱，因此例子中通常也夹杂了一些例外情况。

文章小结

本文介绍了笔者构思的 UniVAE 设计，它沿用类似 UniLM 的思路，通过特定的 Attention Mask 将 VAE 做到了一个 Transformer 模型里边，并且还具备多尺度特性。除了常规的 VAE 模型外，该设计还可以用于 VQ-VAE 等模型。

参考文献

[1] https://arxiv.org/abs/1909.07606

[2] https://arxiv.org/abs/1812.04948

[3] https://kexue.fm/archives/6760

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

???? 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
OrangePi5 RK3588本地部署基于Cesium的WebGL应用 vinlandtech webgl
基于OranglePi5平台，本地部署WebGIS应用步骤：1、下载oranglepi5ubuntu22.04镜像，按用户手册进行烧写。链接：https://pan.baidu.com/s/1g-TO3DeIl1M1JfAPHbCyxg提取码：vlzt2、下载安装WebGL工具包。该软件包针对RK3588WebGL应用进行一定优化。链接：https://pan.baidu.com/s/1jP__h
CesiumJS+SuperMap3D.js混用实现可视域分析 S3M图层加载裁剪区域绘制 SteveJi666 WebGL cesium EarthSDK SuperMap 3d javascript 前端 arcgis
版本简介：cesium：1.99；Supermap3D：SuperMapiClientJavaScript11i(2023)；官方下载文档链家：SuperMap技术资源中心|为您提供全面的在线技术服务示例参考：support.supermap.com.cn:8090/webgl/Cesium/examples/webgl/examples.html#analysissupport.supermap
CesiumJS+SuperMap3D.js混用实现通视分析 SteveJi666 WebGL cesium EarthSDK SuperMap 3d javascript 前端 arcgis
版本简介：cesium：1.99；Supermap3D：SuperMapiClientJavaScript11i(2023)；官方下载文档链家：SuperMap技术资源中心|为您提供全面的在线技术服务示例参考：support.supermap.com.cn:8090/webgl/Cesium/examples/webgl/examples.html#analysissupport.supermap
基于ssm框架的计算机毕业设计(论文+源码)_kaic 开心工作室V(kaic_kaic) 计算机文章毕业设计 java oracle 开发语言前端旅游数据库 actionscript
编号ssmssm001高校专业信息管理系统设计与实现+jsp源码+数据库+PPT+开题+论文+说明文档ssm002ssm学院党员管理系统+jsp源码+数据库+开题+论文+说明文档ssm003ssm在线医疗服务系统+jsp源码+数据库+开题+论文+说明文档ssm004ssm新生报到系统+jsp源码+数据库+开题+论文+说明文档ssm005基于SSM框架的购物商城系统+jsp源码+数据库+开题+任务书
ThreeJS入门（001）：简介、下载安装、历史、应用场景、竞品还是大剑师兰特 #ThreeJS综合教程200+webgl 大剑师 ThreeJS简介
查看本专栏目录-本文是第001篇入门文章文章目录一、Three.js简介二、Three.js的历史与发展三、公司背景四、下载安装五、官方网站六、应用范围场景七、相关竞品一、Three.js简介Three.js是一个基于WebGL的JavaScript3D库，它使得在Web上创建和展示3D内容变得简单。Three.js提供了一系列抽象层，让开发者可以专注于设计和实现3D应用程序，而无需深入了解复杂的
webgl——绘制一个旋转的彩色立方体（四） jiegiser# webgl webgl 三维可视化
文章目录前言一、整体代码以及实现效果二、绘制步骤1.构建顶点数据2.通过顶点索引构建立方体3.执行动画4.其他注意细节总结前言前面文章介绍了如何通过多点来绘制图形，通过建立缓冲区对象，将多个数据传入到缓冲区中；然后webgl进行读取缓冲区中的数据进行渲染。上个例子绘制“F”的坐标点不是很多；但是如果我们绘制一个立方体。如果还跟之前一样的绘制方式；立方体的每一个面由两个三角形组成，每个三角形有三个顶
阿里SMS短信接口使用陌殇殇常用技术阿里云
用户注册—使用阿里短信接口和Redis文章目录用户注册—使用阿里短信接口和Redis步骤1.导入依赖2.redis属性配置文件3.spring集成redis配置文件4.短信接口属性配置文件5.短信接口核心配置类6.对应的Service层7.对应的Controller层步骤1.用户注册时，在注册页填写手机号进行手机验证码的获取2.后台收到验证码请求后，首先校验手机号是否已存在3.若手机号存在，则提醒
【04】深度学习——训练的常见问题 | 过拟合欠拟合应对策略 | 过拟合欠拟合示例 | 正则化 | Dropout方法 | Dropout的代码实现 | 梯度消失和爆炸 | 模型文件的读写花落指尖❀ #深度学习深度学习人工智能目标检测神经网络 cnn
深度学习1.常见的分类问题1.1模型架构设计1.2万能近似定理1.3宽度or深度1.4过拟合问题1.5欠拟合问题1.6相互关系2.过拟合欠拟合应对策略2.1问题的本源2.2数据集大小的选择2.3数据增广2.4使用验证集2.5模型选择2.6K折交叉验证2.7提前终止3.过拟合欠拟合示例3.1导入库3.2数据生成3.3数据划分3.4模型定义3.5辅助函数3.6可视化4.正则化4.1深度学习中的正则化4
【漏洞复现】华三 H3C IMC 智能管理中心 /byod/index.xhtml RCE 凝聚力安全团队漏洞复现 xhtml 前端 html web渗透 web 网络安全渗透测试
免责声明：本文内容旨在提供有关特定漏洞或安全漏洞的信息，以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步，并非出于任何恶意目的。阅读者应该明白，在利用本文提到的漏洞信息或进行相关测试时，可能会违反某些法律法规或服务协议。同时，未经授权地访问系统、网络或应用程序可能导致法律责任或其他严重后果。作者不对读者基于本文内容而产生的任何行为或后果承担责任。读者在使用本文所
惩罚线性回归模型媛苏苏算法/模型/函数线性回归算法回归
惩罚线性回归模型是一种常见的线性回归的变体，它在原始的线性回归模型中引入了一种惩罚项，以防止模型过拟合数据。在惩罚线性回归中，除了最小化预测值与实际值之间的平方误差（或其他损失函数）外，还会考虑模型参数的大小。惩罚项通常被加到模型的损失函数中，以限制模型参数的大小。这样做有助于减少模型对训练数据的过度拟合，提高模型的泛化能力。常见的惩罚线性回归模型包括：岭回归（RidgeRegression）：岭
mysql雪花算法主键_分布式主键 SNOWFLAKE (雪花算法) ag獭 mysql雪花算法主键
SNOWFLAKE雪花算法是由Twitter公布的分布式主键生成算法，它能够保证不同进程主键的不重复性，以及相同进程主键的有序性。在同一个进程中，它首先是通过时间位保证不重复，如果时间相同则是通过序列位保证。同时由于时间位是单调递增的，且各个服务器如果大体做了时间同步，那么生成的主键在分布式环境可以认为是总体有序的，这就保证了对索引字段的插入的高效性。例如MySQL的Innodb存储引擎的主键。使
MQTT（Message Queuing Telemetry Transport，消息队列遥测传输） kunwen123 python
MQTT从MQTT.fx上报数据到服务器1、MQTT（MessageQueuingTelemetryTransport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。该协议支持所有平台，几乎可以把所有联网物品和外部连接起来，被用来当做传感器和制动器（比如通过Twitter让房屋联网）的通信协议。2、MQTT协议是广泛应用的物联网协议（https://mqtt.o
【海外自媒体运营】ins 自行车上的邮差
Ins营销快速入门指南——原文来自：https://zhuanlan.zhihu.com/p/54016350Ins（照片墙）是一款运行在移动端上的社交应用，以一种快速、美妙和有趣的方式将我们随时抓拍下的图片彼此分享。分享的时候可以采用它自带的十几种滤镜效果，同时可以分享到Facebook，Twitter等社交媒体。Ins有10亿多个活跃账户，其中5亿用户每天都在活跃。4亿个账户每天都在使用故事（
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
博物馆实景复刻如何实现？需要哪些技术？ jimumeta 虚拟展厅 vr 虚拟现实虚拟展厅视创云展 3D博物馆数字博物馆实景复刻
实景复刻虚拟博物馆是指通过采集线下真实博物馆场景的信息，利用三维建模技术、Web3D技术等，对博物馆进行1:1像素级还原，构建一个高度逼真的线上虚拟博物馆，在网络上呈现给公众。视创云展依托其自研的WEBGL核心引擎和模型实时渲染展示技术，结合全景效果图，为博物馆的实景复刻提供了高效、逼真的解决方案。一、实景复刻博物馆的特点1、高度还原：能够精准复制博物馆的真实场景，包括建筑外观、内部布局、展品细节
探索 Fabric.js：前端开发的轻量级图形编辑框架滑辰煦Marc
探索Fabric.js：前端开发的轻量级图形编辑框架是一个强大的、基于WebGL和SVG的JavaScript图形库，专为构建交互式图形界面而设计。它提供了一种简单的方式来在网页上创建和操纵矢量对象，包括文本、形状、图像等，并且具有丰富的可定制性和性能优化。项目简介Fabric.js提供了一个统一的对象模型，使得处理HTML5canvas上的元素变得异常简单。无论是创建复杂的绘图应用，还是实现动态
6. 深度学习中的正则化技术：防止过拟合 Network_Engineer 机器学习深度学习人工智能
引言过拟合是深度学习模型在训练过程中常遇到的挑战。过拟合会导致模型在训练数据上表现良好，但在新数据上表现不佳。为了防止过拟合，研究者们提出了多种正则化技术，如L1/L2正则化、Dropout、数据增强等。这些技术通过约束模型的复杂度或增加数据的多样性，有效提高了模型的泛化能力。本篇博文将深入探讨这些正则化技术的原理、应用及其在实际深度学习任务中的效果。1.过拟合的原因与影响过拟合通常发生在模型的复
记录-小程序720°VR（跳转H5页面实现）久违的小技巧小程序小程序 vr javascript
全景浏览提前准备1拍照支架/照片合成软件（KolorAutopanoGiga4.0）或者全景相机2pannellum（pannellum是一个轻量级、免费和开源的Web全景查看器。它使用HTML5、CSS3、JavaScript和WebGL构建，没有插件。）3H5页面引入pannellum.js/css文件，swiper/jquery文件（因为需要在全景图底部显示可切换图片，与dom操作/ajax
Go-Snowflake 项目教程喻季福
Go-Snowflake项目教程go-snowflake❄AnLockFreeIDGeneratorforGolangbasedonSnowflakeAlgorithm(Twitterannounced).项目地址:https://gitcode.com/gh_mirrors/go/go-snowflake项目介绍Go-Snowflake是一个基于Go语言实现的分布式唯一ID生成器，灵感来源于Tw
邀您一起编写《架构演进之路》猿脑2.0 架构演进之路架构大数据 webgl vue ai java 后端
邀您一起编写《架构演进之路》文章目录邀您一起编写《架构演进之路》前言一、笔者介绍二、写书起源1.B站讲课2.编辑邀约三、书籍申报信息1书籍目录2书籍简介3选题和特色四、谈一谈为什么要发起合力写书这件事1定位2目标3作用4当前坑位五、提示六、结束语前言本书技术栈涉及前后端、大数据、物联网、WebGL、AI，寻找一群有趣的人合力做一件有意思的事。一、笔者介绍5年开发，3年架构，在一家大型金融公司从事架
使用Gradle构建Monorepo项目 dnc8371 python java 人工智能大数据编程语言
根据Wikipedia的说法，monorepo是一种软件开发策略，其中许多项目存储在同一存储库中。这种策略可以快速检测到因依赖关系的更改而导致的潜在问题和破坏，并且已被许多使用大型代码库的组织采用，例如Google，Facebook和Twitter。如果碰巧将Gradle用作首选的构建工具，那么您也可以应用此策略，这要归功于3.1版中引入的CompositeBuilds功能（在撰写本文时，最新版本
python爬虫的重定向问题（301，302） Py_Explorer
重定向问题在使用python爬虫的过程中难免会遇到很多301，302的问题。他们出现时，很大程度的影响到我们的爬虫速度和信息的准确性。下面针对不同的模块给出不同的解决方案。使用requests模块爬虫使用requests模块遇到301和302问题时，defyunsite():'url'headers={'Accept':'text/html,application/xhtml+xml,applic
Datawhale X 李宏毅苹果书 AI夏令营入门 Task3-机器学习框架沙雕是沙雕是沙雕人工智能机器学习
目录实践方法论1.模型偏差2.优化问题3.过拟合4.交叉验证5.不匹配实践方法论1.模型偏差当一个模型由于其结构的限制，无法捕捉数据中的真实关系时，即使找到了最优的参数，模型的损失依然较高。可以通过增加输入特征、使用更复杂的模型结构或采用深度学习等方法来新设计模型，增加模型的灵活性。2.优化问题在机器学习模型训练过程中，即使模型的灵活性足够高，也可能由于优化算法的问题导致训练数据的损失不够低。为了
硅谷裁员10万人，一个时代结束了！军哥手记人工智能
见字如面，我是军哥！2022年7月，微软宣布裁员计划，裁员规模不超过18万员工总数的1%，并于10月18日“试裁”1千人左右。11月10日，Meta的创始人兼CEO扎克伯格发布全员信，确认公司将裁员逾11000人。这是这家科技巨头18年来历史上首次大规模裁员，裁员数约占员工总数的13%。11月14日，Twitter裁员高潮再起，4400名外包员工遭解雇。而就在半个月前，马斯克刚刚挥刀砍掉了7500
react 中three.js 模型渲染 Mr_wuying react javascript react.js 前端
npminstallthreeimport*asTHREEfrom"three";import{GLTFLoader}from"three/examples/jsm/loaders/GLTFLoader.js";constmountRef=useRef(null);useEffect(()=>{//创建渲染器constrenderer=newTHREE.WebGLRenderer();constw
SQLServer Manager Studio扩展开发从入门到弃坑（针对17 ，18 。19）吉凶以情迁
Visualstudio的已经开发好了可以在这里找到。(如果低版本不适用，那么，我还要重新下载老版本vs开发一版)image.pngimage.png，可这个就是不行，直接运行点这些按钮加载失败，而我直接不调试模式，则直接什么都没有，调试发现是根本没触发逻辑比如弹窗消息框。文档资料太少，我换了几个ssms.exe都不行，18-20不行，17直接无法激活，
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

UniVAE：基于Transformer的单模型、多尺度的VAE模型

你可能感兴趣的:(xhtml,sms,过拟合,webgl,twitter)