ronghuaiyang

12中主要的Dropout方法：如何应用于DNNs，CNNs，RNNs中的数学和可视化解释

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Axel Thevenot

编译：ronghuaiyang

导读

深入了解DNNs，CNNs以及RNNs中的Dropout来进行正则化，蒙特卡洛不确定性和模型压缩的方法。

动机

在深度机器学习中训练一个模型的主要挑战之一是协同适应。这意味着神经元是相互依赖的。他们对彼此的影响相当大，相对于他们的输入还不够独立。我们也经常发现一些神经元具有比其他神经元更重要的预测能力的情况。换句话说，我们会过度依赖于个别的神经元的输出。

这些影响必须避免，权重必须具有一定的分布，以防止过拟合。某些神经元的协同适应和高预测能力可以通过不同的正则化方法进行调节。其中最常用的是Dropout。然而，dropout方法的全部功能很少被使用。

取决于它是DNN，一个CNN或一个RNN，不同的dropout方法可以被应用。在实践中，我们只(或几乎)使用一个。我认为这是一个可怕的陷阱。所以在本文中，我们将从数学和可视化上深入到dropouts的世界中去理解：

标准的Dropout方法
标准Dropout的变体
用在CNNs上的dropout方法
用在RNNs上的dropout方法
其他的dropout应用(蒙特卡洛和压缩)

符号

标准的Dropout

最常用的dropout方法是Hinton等人在2012年推出的Standard dropout。通常简单地称为“Dropout”，由于显而易见的原因，在本文中我们将称之为标准的Dropout。

为了防止训练阶段的过拟合，随机去掉神经元。在一个密集的(或全连接的)网络中，对于每一层，我们给出了一个dropout的概率p。在每次迭代中，每个神经元被去掉的概率为p。Hinton等人的论文建议，输入层的dropout概率为“p=0.2”，隐藏层的dropout概率为“p=0.5”。显然，我们对输出层感兴趣，这是我们的预测。所以我们不会在输出层应用dropout。

数学上，我们说每个神经元的丢弃概率遵循概率p的伯努利分布。因此，我们用一个mask对神经元向量(层)进行了一个元素级的操作，其中每个元素都是遵循伯努利分布的随机变量。

在测试(或推断)阶段，没有dropout。所有的神经元都是活跃的。为了补偿与训练阶段相比较的额外信息，我们用出现的概率来衡加权权重。所以神经元没有被忽略的概率，是“1 - p”。

DropConnect

也许你已经熟悉标准的Dropout方法。但也有很多变化。要对密集网络的前向传递进行正则，可以在神经元上应用dropout。L. Wan等人介绍的DropConnect没有直接在神经元上应用dropout，而是应用在连接这些神经元的权重和偏置上。

因此，我们找到了与标准Dropout方法相同的机制。除了掩码(它的元素是遵循一个分布的随机变量)不是应用在某一层的神经元向量上，而是应用在连接该层与前一层的权重矩阵上。

对于测试阶段，可以使用与标准Dropout方法相同的逻辑。我们可以乘以出现的概率。但这并不是L. Wan等人提出的方法。他们提出了一个很有趣的随机方法，即使在测试阶段也是如此，他们采用了DropConnect的高斯近似。然后由从这个高斯表示中随机采样样本。我们会在Standout之后回到高斯近似。

Standout

L. J. Ba和B. Frey介绍的Standout是一个标准的Dropout方法，基于一个Bernoulli mask(我将根据它们遵循的分布来命名这些mask，这样会更简单)。不同之处在于，神经元被遗漏的概率p在这一层中并不恒定。根据权重的值，它是自适应的。

这可以适用于任何g激活函数，甚至是一个单独的神经网络。类似地，对于Ws，可以是一个W的函数。然后在测试阶段，我们根据存在的可能性进行平衡。

例子

这样不是很清楚，我们举个例子。在他们的论文中，他们表明在实践中，置信网络的权值可以近似为权值的仿射函数。例如，我取s的绝对值作为激活函数。

因此，我们可以看到，权重越大，神经元被丢弃的概率就越大。这有力地限制了某些神经元可能具有的高预测能力。

Gaussian Dropout

应用于神经网络的dropout方法在继续增长。所以，在讨论DNNs以外的其他东西之前，我想先谈谈一种dropout方法，它当然是最吸引人的。

举几个例子，Fast Dropout， 变分Dropout或Concrete Dropout是从贝叶斯角度解释Dropout的方法。具体地说，我们没有使用伯努利mask，而是使用了一个mask，它的元素是遵循高斯分布的随机变量**(**正态分布)。我不会在这里演示大数定律，这不是重点。我们来直观地理解一下。

我们可以模拟一个伯努利mask，我们使用正态规律进行dropouts。但这有什么区别呢？什么都做，什么都不做。由于我们神经元的协同适应和/或预测能力，它不会改变这些方法与过拟合的相关性。但是，与之前的方法相比，它改变了训练阶段所需的执行时间。

逻辑上，通过在每次迭代中丢弃带有dropout的神经元，那些在迭代中丢弃的神经元在反向传播期间不会被更新。它们并不存在。所以训练阶段被“放慢”了。另一方面，通过使用Gaussian Dropout方法，在每次迭代和每个训练样本中，所有的神经元都暴露出来。这就避免了减速。

在数学上，有一个高斯mask的乘法(例如以1为中心的伯努利定律的标准差p(1-p))。通过在每次迭代中保持所有的神经元都是活跃的，从而随机地对其预测能力进行加权，从而模拟了dropout。这种方法的另一个实际优势集中在测试阶段，与没有dropout的模型相比，不需要进行任何修改。

Pooling Dropout

本文的“难”理解部分结束了。剩下的更直觉的部分可以给我们更好的性能。

图像和特征图的问题是像素非常依赖于它们的邻居。简单地说，在一张猫的图片上，如果你取一个与它的外表相对应的像素，那么所有邻近的像素都将与同样的外表相对应。两者几乎没有区别。

所以我们理解了标准Dropout方法的限制。我们甚至可以说它是低效的，它带来的唯一改变就是额外的计算时间。如果我们随机丢弃图像上的像素，那么几乎没有信息被删除。丢弃的像素几乎与它们的邻居相同。防止过拟合的性能很差。

为什么不利用CNNs中经常使用的的合适的层。例如最大池化层。最大池化层是一个过滤器，通过一个图片或(特征图)选择重叠区域的最大激活。

Max-Pooling Dropout是H. Wu和X. Gu提出的一种用于CNNs的Dropout方法。它在执行池化操作之前，直接将伯努利mask应用到最大池化层的内核上。直观地说，这允许对具有高激活的pooling结果最小化。这是一个限制某些神经元的高预测能力的很好的观点。在测试阶段，你可以根据出现的概率来确定前面方法的权重。

我们以最大池化层为例，但同样可以对其他池化层进行操作。例如，对于平均池化层，我们可以在训练阶段以同样的方式应用一个dropout。然后在测试阶段，没有变化，因为它已经是一个加权平均值了。

Spatial Dropout

对于CNNs，我们可以利用池化层。但是我们也可以更聪明地遵循J. Tompson等人提出的Spatial Dropout方法。他们提出用经典的dropout方法来解决这个问题，因为相邻像素高度相关。

我们可以不去随机应用一个dropout在像素上，我们可以考虑把dropout应用在每个特征图上。如果我们以我们的猫为例，那么这就像从图像中移除红色通道并强迫它去总结图像中的蓝色和绿色通道。然后在下一次迭代中随机放置其他特征图。

我不知道如何用数学正确地书写，使它易于理解。但是如果你理解了前面的方法，你就不会有任何问题。在训练阶段，对每个feature map应用Bernoulli mask，其丢弃概率为p。然后在测试阶段，没有dropout，只有一个概率为1-p的加权。

Cutout

让我们进一步了解我们的方法，以克服相邻像素高度相关的事实。不是对每个特征图应用伯努利mask，我们可以在不同的区域中应用。这就是T. DeVries和G. W. Taylor提出的Cutout方法。

最后以我们的猫图像为例：该方法可以通过对图像的隐藏区域进行泛化从而限制过拟合。我们最后看到的是猫的头丢弃掉的画面。这迫使CNN了解到可以描述猫的不太明显的属性。

同样，在本节中没有数学。这种方法很大程度上依赖于我们的想象力：正方形、长方形、圆形，在所有的特征图上，一次在一个特征图上，或者可能在几个特征图上……这取决于你。????

Max-Drop

最后，为了结束关于CNNs的这一节，我必须指出，很明显，几个方法可以进行组合。当我们知道了不同的方法时，这就是使我们强大的原因：我们可以同时利用他们的好处。这是S. Park和N. Kwak提出的Max-Drop方法。

这种方法在某种程度上是化dropout和高斯dropout的混合。dropout是在最大池化层上执行的，但使用的是贝叶斯方法。

在他们的论文中，他们表明这种方法给出的结果与 Spatial Dropout一样有效。除此之外，在每次迭代中，所有的神经元都保持活跃，这限制了训练阶段的减速。这些结果都是用µ = 0.02和σ² = 0.05的数据得到的。

RNNDrop

我们已经看到了一些DNNs和CNNs的dropout的方法。一些研究还试图找出哪些方法对递归神经网络是有效的。它们通常依赖于LSTMs，所以我将以RNNs为例。它可以推广到其他的RNNs。

问题很简单：在RNN上应用dropout是危险的。RNN的目的是长期保存事件的记忆。但传统的dropout方法效率不高，因为它们会产生噪音，阻止这些模型长期保存记忆。下面这些方法可以长期保存记忆。

T. Moon等人提出的RNNDrop是最简单的方法。一个伯努利mask只应用于隐藏的单元格状态。但是这个掩码从一个序列到另一个序列保持不变。这称为dropout的逐序列采样。它只是意味着在每个迭代中我们创建一个随机掩码。然后从一个序列到另一个序列，这个掩码保持不变。所以被丢弃的元素一直被丢弃而留下来的元素一直留着。所有的序列都是这样。

循环Dropout

S. Semeniuta等人提出的循环Dropout是一个有趣的变体。单元格状态保持不变。dropout只应用于更新单元格状态的部分。所以在每次迭代中，伯努利的mask使一些元素不再对长期记忆有贡献。但是记忆并没有改变。

变分RNN dropout

最后，简单而有效的，由Y. Gal和Z. Ghahramani介绍的RNN Dropout是在internal gates前的基于序列的Dropout的应用。这将导致LSTM在不同的点进行dropout。

打开我们的思路

还有很多不同的dropout方法，但我们将在这里停下来。我发现非常有趣的是，Dropout方法不仅仅是正则化的方法。

Monte Carlo Dropout

Dropout方法也可以提供一个模型不确定性的指标。让我解释一下。对于相同的输入，经历了dropout的模型在每次迭代中会有一个不同的架构。这将导致输出中的方差。如果网络是相当广义的，并且协同适应是有限的，那么预测是在整个模型中分布的。这将导致在每次迭代中使用相同的输入时输出的方差降低。研究这个方差可以给出一个可以分配给模型的置信度的概念。这可以从Y. Gal和Z. Ghahramani的方法中看出。

模型压缩

最后，直观地，通过随机应用dropouts，我们可以看到给定神经元对预测是否有效。根据这个观察结果，我们可以通过减少参数的数量来压缩模型，同时最大限度地降低性能的损耗。K. Neklyudov等人提出了利用变分dropout来剪枝DNNs和CNNs的方法。

—END—

英文原文：https://towardsdatascience.com/12-main-dropout-methods-mathematical-and-visual-explanation-58cdc2112293

请长按或扫描二维码关注本公众号

喜欢的话，请给我个好看吧！

使用 Kafka 优化物流系统的实践与思考 nlog3n Java学习 kafka 分布式
使用Kafka优化物流系统的实践与思考在现代物流系统中，订单处理、仓储管理、运输调度等环节复杂且实时性要求高。为了满足异步解耦、高吞吐、高可用、事件驱动和数据可靠性等需求，Kafka作为分布式消息队列和流处理平台，成为了我们的首选。本文将分享我们在物流系统中使用Kafka的设计方案、优化实践以及遇到的问题和解决方案。一、系统背景和需求物流系统涉及多个业务模块，如订单处理、仓储管理、运输调度和状态跟
基于PLC的楼宇自动化监控系统方案大雨淅淅物联网大数据人工智能
目录一、系统概述二、系统组成三、功能模块四、系统优势五、系统实施步骤六、系统安全性与隐私保护七、结语一、系统概述本系统采用先进的PLC（可编程逻辑控制器）作为核心控制单元，旨在实现对楼宇内各项设施的自动化监控与管理。通过智能化的手段，提高楼宇的运行效率，确保环境的舒适性与安全性，同时达到节能减排的目的。二、系统组成PLC控制器：作为系统的大脑，负责接收传感器信号，处理数据，并发出控制指令给执行器。
Kafka 核心机制面试题--自问自答亲爱的非洲野猪 kafka 分布式
基础篇Q1:Kafka为什么能这么快？A:Kafka的高性能主要来自三大核心技术：零拷贝(Zero-Copy)：通过sendfile()系统调用，数据直接从磁盘到网卡，避免了内核态和用户态之间的多次拷贝页缓存(PageCache)：消息直接写入操作系统页缓存而非JVM内存，减少GC影响并利用OS缓存机制内存映射(mmap)：索引文件通过内存映射实现，操作内存即操作文件Q2:Kafka的存储结构是怎
kafka问题解决笔记 Leo_Hu666 kafka 笔记分布式
1.ERRORShutdownbrokerbecausealllogdirsin/tmp/kafka-logshavefailed(kafka.log.LogManager)修改：/data3/kafka_2.12-3.9.1/config/server.propertieslog.dirs=/tmp/kafka-logs-new
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
LangSmith 深度解析：构建企业级LLM应用的全生命周期平台小赖同学啊人工智能人工智能
LangSmith深度解析：构建企业级LLM应用的全生命周期平台LangSmith是LangChain生态系统中的核心组件，为LLM应用提供从开发到生产的全链路支持。以下是全面技术解析：一、核心架构设计应用层LangSmithSDK采集层处理引擎存储层分析层控制台监控告警1.分层架构详解层级组件功能技术栈应用层LLM应用业务逻辑执行LangChain,LangGraph采集层Tracer数据收集O
基于STM32的智能农业灌溉系统设计与实现 STM32发烧友 stm32 嵌入式硬件单片机
目录引言环境准备2.1硬件准备2.2软件准备系统架构与基础3.1控制系统架构3.2功能描述代码实现：实现智能农业灌溉系统4.1环境监测模块4.2灌溉控制模块4.3通信与远程监控实现4.4用户界面与数据可视化应用场景：农业灌溉与节水控制问题解决方案与优化收尾与总结1.引言随着农业现代化进程的推进，传统的灌溉方式逐渐无法满足节水、高效的需求。智能农业灌溉系统通过集成传感器、嵌入式控制技术和无线通信模块
基于STM32开发的智能花园灌溉系统 STM32发烧友 stm32 嵌入式硬件单片机
目录引言环境准备工作硬件准备软件安装与配置系统设计系统架构硬件连接代码实现系统初始化土壤湿度监测与处理灌溉控制与状态指示Wi-Fi通信与远程监控应用场景家庭花园智能灌溉农业田地的智能灌溉管理常见问题及解决方案常见问题解决方案结论1.引言随着智能家居技术的发展，智能花园灌溉系统逐渐成为家庭园艺和农业生产中提高水资源利用效率的重要工具。该系统通过集成土壤湿度传感器、雨滴传感器、Wi-Fi模块等硬件，实
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
基于PLC的智能楼宇控制系统设计（源码+万字报告+部署讲解等) 炳烛之明科技 PLC
目录摘要2第一章绪论51.1引言51.2智能楼宇的课题背景51.3智能楼宇的功能和优势6第二章智能楼宇系统总体方案确定72.1智能楼宇系统总体方案的设计72.1.1智能楼宇概述72.1.2智能楼宇的分类71、建筑设备自动化系统(BA)72、通讯自动化系统（CA）73、办公自动化系统（OA）74、火灾报警于消防联动自动化系统（FA）85、安全保卫自动化系统（SA）82.1.2总体控制方案的设计82.
win11 edge浏览器在播放网页视频或者抖音刷视频中视频页面变暗变黑解决方法
在edge浏览器中访问edge://flags/搜索hardware-acceleratedvideodecode并且禁用掉即可
Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解 John_今天务必休息一天 2_大语言模型基础 #2.2 生成式预训练语言模型GPT gpt log4j 语言模型人工智能自然语言处理算法
Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？（2）InstructGPT的优化方案二、输入输出与损失函数的具体构造（1）输入输出示例（2）人工标注数据的处理（3）损失函数的计算过程（4）反向传播的核心逻辑三、为什么不需要人工标注分值？（1）排序数据的天然属性（2）避
AI Agent开发第81课-企业AI落地15大陷阱与破局之道 TGITCIC AI Agent开发大全人工智能 AI落地企业AI落地大模型落地企业大模型落地
1.技术至上：忽视业务融合1.1业务需求驱动的本质AI项目的核心价值在于解决业务痛点，而非技术炫技。某银行通过成熟的人脸识别技术将坏账率降低15%，其成功源于对业务场景的精准把握。技术选择必须基于业务需求的优先级排序，而非单纯追求算法复杂度。当零售企业用AI优化供应链时，其目标是提升库存周转率0.5个百分点，而非发表顶会论文。1.2技术与业务的错位某科技公司投入千万研发智能客服系统，最终因响应准确
Kafka 核心原理篇：深入理解分布式消息系统的内核机制真实的菜 kafka 分布式 kafka linq
Kafka核心原理篇：深入理解分布式消息系统的内核机制文章目录Kafka核心原理篇：深入理解分布式消息系统的内核机制消息存储与持久化机制日志分段存储策略️**分段文件结构****索引机制详解**高效的磁盘读写与数据压缩算法**零拷贝技术（Zero-Copy）****数据压缩策略****页缓存优化**数据过期与清理策略⏰**基于时间的清理****基于大小的清理**️**日志压缩（LogCompact
STM32 驱动矩阵键盘详解与完整示例深入黑暗单片机开发 stm32 矩阵嵌入式硬件单片机驱动开发
STM32驱动矩阵键盘详解与完整示例矩阵键盘在嵌入式开发中是一种常见的输入设备，广泛应用于工业控制、人机界面、消费电子等领域。本文将详细介绍如何在STM32平台上驱动一个4x4矩阵键盘，涵盖原理分析、硬件连接、软件编程、防抖处理、问题排查与优化技巧等，适合初学者和进阶用户参考。一、矩阵键盘基本原理1.1什么是矩阵键盘？矩阵键盘是将按键按行列排布形成网格状结构的键盘，通过行线（Row）和列线（Col
基于土壤湿度信息的智能农田灌溉系统设计
自己淋过雨，想为你撑把伞之所以会把自己三年前的本科毕业设计发布至平台上，其主要原因是对自己以前的过往再做个总结。人生嘛，只有一路走来回头再看的时候，才会感慨万千，触目良多，时不时会想，到底什么样的结局才配得上我这二十几年的颠沛流离（狗头^_^）。个人强烈建议高中学弟学妹们一定要好好学习，考上一个都是传道授业()的好大学（表达的可能有些不妥，但懂得都懂……）。本文为2021年本人本科毕业设计。时间跨
Java面试题100道及答案编程大全面试题 java 开发语言
一、Java基础Java17中的sealed类和record类的作用和区别？答案：sealed类：限制继承关系，通过permits指定允许的子类。示例代码：publicsealedclassShapepermitsCircle,Square{...}；record类：不可变数据类，自动生成equals()、hashCode()和toString()。示例代码：publicrecordUser(St
为什么要使用消息队列？编程大全后端 rabbitmq rocketmq kafka 消息队列
总结一下，主要三点原因：解耦、异步、削峰。1、解耦。比如，用户下单后，订单系统需要通知库存系统，假如库存系统无法访问，则订单减库存将失败，从而导致订单操作失败。订单系统与库存系统耦合，这个时候如果使用消息队列，可以返回给用户成功，先把消息持久化，等库存系统恢复后，就可以正常消费减去库存了。2、异步。将消息写入消息队列，非必要的业务逻辑以异步的方式运行，不影响主流程业务。3、削峰。消费端慢慢的按照数
基于SpringBoot的餐厅点餐系统的设计与实现毕设小助手 spring boot 后端 java
收藏关注不迷路//项目拿到就可以直接使用，但是用于作业或者毕设需要自己懂代码之后进行自行修改//支持毕设定制//远程支持//可联系博主----------同类型文章可以联系博主----------争取每天三篇，有需要的用户可以关注查看哦~今日第三篇-发布的文章皆有源码，私信联系可获取源码~本项目设计与实施了一个基于SpringBoot的餐厅点餐系统，探讨了该系统在提高点餐效率、优化订单管理和提升顾
比斯特自动点焊机批发厂商概览
自动点焊机批发厂商主要集中于珠三角、长三角等制造业发达地区，如广东东莞、深圳及江苏无锡等地。这些厂商通过直销或供应链合作模式，为电子、汽车、电池等行业提供高性价比的自动化焊接设备，满足大规模生产需求。产品与技术特点批发厂商的产品涵盖多类点焊设备：精密电子点焊机：适用于微电子元件、漆包线、线路板焊接，强调高精度与无损伤加工。动力电池专用设备：如锂电池双面点焊机，支持18650/21700等电芯的高速
动力电池PACK线标配：18650电池自动点焊机的规模化应用 b***2511 人工智能大数据制造
在新能源汽车产业高速发展的背景下，动力电池作为核心部件，其生产效率与质量直接关系到整车的性能与市场竞争力。动力电池PACK线作为电池模组组装的关键环节，正经历着从手工操作向自动化、智能化转型的深刻变革。在这一进程中，18650电池自动点焊机凭借其高效、精准的特性，已成为动力电池PACK线的标配设备，推动着行业规模化应用的深入发展。在传统的动力电池组装过程中，电池极耳的焊接主要依赖手工操作，不仅效率
圆柱电池自动分选机：电池生产线的智能守护者 b***2511 大数据人工智能
在新能源产业的浪潮中，圆柱电池作为电动汽车、储能系统及各类便携式电子设备的核心能量单元，其性能与质量的优化成为了行业发展的关键。随着技术的不断进步和市场的日益成熟，圆柱电池的生产效率与品质要求也越来越高。而圆柱电池自动分选机，作为电池生产线上的关键设备，正以其高效、精准、智能的特点，成为提升电池生产效率与品质的重要力量。一、圆柱电池自动分选机的工作原理圆柱电池自动分选机主要利用先进的机器视觉技术和
AI掌柜失守记：AI Agent商业自动化边界实验 TGITCIC AI-大模型的落地之道 AI零售零售大模型 AI Agent AI大模型大模型AI AI落地 AI智能体
1.实验设计：数字掌柜接管实体货架1.1硬件载体与虚拟人格构建位于旧金山的实验场地被改造成微型零售生态系统：智能冰箱搭配商品篮构成实体货架，iPad自助结账系统连接Venmo支付接口，Slack通讯平台成为人机交互窗口。ClaudeSonnet3.7被赋予独立法人身份——Claudius，拥有电子邮箱、仓库地址和初始运营资金，其认知边界被限定在"自动售货机经营者"角色。1.2决策工具链的完整配置实
本地部署OpenHands AI助手，自动化编程提升开发效率
文章目录前言1、关于OpenHands2、部署OpenHands步骤3、简单使用openhands4、安装cpolar内网穿透5、配置公网地址6、配置固定二级子域名公网地址总结前言亲爱的朋友，是否曾在深夜面对层层叠叠的代码逻辑感到力不从心？每当调试器不断报错时，是否幻想过能有个智能伙伴分担压力？现在，一款颠覆传统开发模式的智能工具——OpenHands正式登场！这款专为开发者打造的AI助手，不仅具
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
【赵渝强老师】达梦数据库的闪回技术数据库达梦数据库信创
达梦数据库提供的闪回技术主要是在数据库发生逻辑错误的时候，能提供快速且最小损失的恢复。闪回技术旨在快速恢复数据库的逻辑错误。对于物理介质的损坏或者物理文件丢失，就不能使用闪回进行恢复。闪回特性可应用在以下方面：自我维护过程中的修复：当一些重要的记录被意外删除，用户可以向后移动到一个时间点，查看丢失的行并把它们重新插入现在的表内恢复。用于分析数据变化：可以对同一张表的不同闪回时刻进行链接查询，以此查
06_项目集成 Spring Actuator 并实现可视化页面耀耀_很无聊【后端开发】Java 碎碎念 spring java 后端
06_项目集成SpringActuator并实现可视化页面一、引入SpringActuator依赖在pom.xml文件中添加以下依赖：org.springframework.bootspring-boot-starter-actuator⚙️二、SpringActuator配置2.1配置端点访问前缀SpringBoot默认的Actuator端点访问地址是：http://localhost:8080
知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
[转载] [Mark]分布式存储必读论文 weixin_30945039 大数据数据库
原文:http://50vip.com/423.html分布式存储泛指存储存储和管理数据的系统，与无状态的应用服务器不同，如何处理各种故障以保证数据一致，数据不丢，数据持续可用，是分布式存储系统的核心问题，也是极具挑战的问题。本文总结了分布式存储领域的经典论文，供大家参考。TheGoogleFileSystem.SanjayGhemawat,HowardGobioff,andShun-TakLeu
golang实现从request请求返回的response中提取网站图标的faviconMMH3, faviconMD5, faviconPath, faviconData, faviconURL
golang实现从request请求返回的response中提取网站图标的faviconMMH3,faviconMD5,faviconPath,faviconData,faviconURL，其中faviconData类型为[]byte，其余为string类型。在Go中提取网站的favicon（网站图标）并计算其MMH3和MD5哈希值，同时获取路径、原始数据和URL，可以通过以下步骤实现：packa
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite