__如果

深度学习之注意力机制

视频链接：8.2 人工神经网络中的注意力机制_哔哩哔哩_bilibili

注意力机制与外部记忆

注意力机制与记忆增强网络是相辅相成的，神经网络去从内存中或者外部记忆中选出与当前输入相关的内容时需要注意力机制，而在注意力机制的很多应用场景中，我们的外部信息也可以看作是一个外部的记忆

这是一个阅读理解任务，前六句是情景描述，第七句要求它回答足球在哪，这需要模型充分理解情景内容，并作出合理推断

我们用RNN作为编码器，将情景描述的每个词都做embedding，输入到RNN中，最后一个输入的向量得到的hidden state就是整个情景的表示，也就是整个情景的语义表示都隐含在这个story向量里了

再将问题也embedding之后输入另一个RNN，也把最后一个hidden state拿出来作为query

把story和query拼起来送到MLP中，softmax一下，得到分类结果是office

缺点：（1）RNN有长程依赖问题，只能保留短期的记忆，而长期的记忆会被遗忘掉

（2）很多句子是与题目无关的，比如1、3、4句是完全无关的

（3）向量的信息容量是有限的，当情景描述越长的时候，需要记忆的信息就越多，但我们很难用一个低秩的向量表示整个情景的内容。如果增加向量的维度，对于RNN来说，hidden state计算时的U也会随着维数的增加以平方级的形式增加，大大增加了参数量

注意力机制

自下而上的注意力是指某些信息十分突出，例如看报纸时的大标题、图片等，从而导致人将注意力集中过去。Maxpooling就可以起到这样的效果，抑制周边信息，突出强的信息

自上而下的注意力是指人带着某种目的去搜索信息，这时会忽略那些不在目的之内的信息。接下来我们将的attention都是指自上而下的注意力，且是软注意力

软注意力机制

x1...xn是我们的候选信息，q是我们的查询向量，我们用q对每一个x进行打分

第一行式子的意思是在x与q的前提下注意力放在第n个信息的概率

Q：为什么用概率分布而不是01分布？

A：用概率分布表示软性注意力得到的函数是连续的，方便我们优化的时候求导

打分函数

加性模型：把x和q拼到一起送入一个隐藏层

Q：为什么点积模型需要缩放？

A：点积模型的输出是要过softmax的，若x与q的维度比较高，通常意味着点积比较大，会导致softmax的分布更不均衡，从而带来softmax的梯度问题，梯度可能过小，这样不利于我们使用梯度法优化

双线性模型：允许x和q的维度不一样，且可以避免不同的x与q但是内积相同的情况。因为我们希望一个东西在查询和被查询的时候相似度是不一样的，这时候就可以选择双线性模型

硬注意力机制

不是以概率的方式给每个输入的信息都分配一定的权重，而是一个离散的决策，要么1要么0

因为是离散的，所以没有梯度，不能通过梯度法优化，通常和强化学习结合，把它看作是一个连续的决策过程

键值对注意力机制

在软注意力中，我们用x进行相似度计算，又用x进行注意力加权。其实可以把这两部分进行一个区分，把每个输入信息拆成两份，用k和q作相似度计算，再用v进行注意力加权

好处：相似度计算时用一种机制，注意力加权时可以使用另一种机制，更加灵活，模型能力更强

多头注意力

一个注意力可以认为是用一个查询去输入信息里面选一个信息

多头注意力就是用多个查询来并行地从输入信息里面选多种信息，希望每个注意力关注输入信息的不同部分，这样我们可以选出更全面的信息

结构化注意力

我们现在的注意力是分布在1~n上面的多项分布，也就是α1+...+αn = 1

但我们可以把注意力分布换成n个01分布

同时，每个位置上的01分布又会受其他位置上的分布影响

但是这种注意力分布相对来说比较复杂，很难去计算联合概率，所以这种方法用得也少

指针网络

用来指出我们的候选信息中有哪些是和任务查询向量q有关的，不需要第二步的将信息抽取出来做加权汇总，这里的pointer是一个概率

例如之前阅读理解的例子，我们只需要指针把答案所在位置指出来就行了，不需要把答案进行加权汇总得到它的向量表示

图中是用注意力机制给数组排序的例子，<表示输入数组的开始，>表示现在开始排序，我们输入一个20，5，10的数组，希望得到一个降序排序的数组。它不适合我们语言模型中的那种预测，因为数组是会变的，下次可能输入40，60，10它就无法排序正确了

首先我们用>的hidden state作为查询q去和h0~h3（候选信息）进行相似度计算，找到相似度最高的h1并指向它。h4指向的h1对应的候选信息作为输入，计算hidden state后作为查询q找到h3。以此类推。最终我们就得到了hidden state指向的下标，也就是1，3，2，从而知道了原数组应该如何排序正确

注意力机制的应用

文本分类

对RNN来说，文本分类是将每个词embedding之后计算hidden state，最后一个hidden state就代表了整句话的语义

对双向RNN来说，文本分类是将每个词embedding之后双向计算hidden state，然后做一个加权平均得到一个代表整个句子的语义信息的向量

但如果我们的分类目标不同，例如我们想判断这句话是在讲电器还是讲木制品等等，我们应该更加关注infantile cart；我们想判断这句话的情感，我们应该更加关注easy to use。但RNN想要做到这些只能去训练一些专门的网络，并不高效

而我们使用注意力机制，只需要添加一个查询向量q，就可以时一个RNN同时满足多种不同需求。其中RNN是通用的，不需要学习与任务相关的领域知识，而查询向量q是一个可学习的向量，去匹配不同的任务

对同一段文字用不同的q做情感分类，上面的q为Books，注意力关注的结果为一些与书相关负面的情绪lack，而下面的q为DVD，注意力关注的结果为一些与DVD相关的正面的情绪quite beautiful

层次注意力模型

一篇文章由很多的句子组成，一个句子由很多的单词组成，这是一个天生的层次化结构，因此我们可以把注意力也做成一个层次化的结构

将单词embedding之后经过一个双向LSTM得到hidden state，再利用一个句子级别的注意力向量对每个词注意力打分，再加权汇总得到句子的表示。把得到的句子表示再丢进一个双向LSTM得到hidden state后再利用一个句子级别的注意力向量对每个句子打分，加权汇总得到文章的表示。其中两个句子级别的注意力向量都是可学习的

机器翻译

用RNN做机器翻译的问题在于s难以表示句子中所有的信息，且RNN具有长程依赖问题

用注意力机制改善的方法是，保留encoder的每个hidden state作为候选信息，查询向量q就是我们decoder中上一步的hidden state，decoder中每一个hidden state的计算是通过上一步的输出+上一步的hidden state+上一步hidden state与候选信息得出的attention一起计算得到的。因此这里的q不再是可学习的了

另一个好处是由于attention的存在，计算decoder输出的loss时使用梯度下降，可以直接从输出到hidden state到encoder，缩短了计算路径，避免了梯度消失的问题

看图说话

用attention去feature map中选一些与生成词最相关的attention map出来（越亮的地方注意力分数越高），比如我们生成A的时候，看红色框中的注意力放在左右两个翅膀上；生成bird的时候注意力放在鸟上；生成water的时候注意力放在周边的环境上

阅读理解

x1~xn是我们的上下文内容，q1~qj是我们的问题

首先要实现词对词的双向注意力，query中的每个词都去context中把相关的信息选过来，然后context中的每个词也去query中把相关信息选过来，最终把所有信息堆加到context上，经过两个双向LSTM，预测答案开始在哪里，结束在哪里

自注意力模型

不需要外部的查询向量q

引言

这两种网络都能解决变长序列的问题，但它们都只能建模输入信息的局部依赖关系

如果我们想构建长的非局部依赖关系呢？

全连接的每个hidden state都是由所有的输入计算得到的，但是其无法处理变长问题，且全连接的hidden state计算只与位置相关，与内容无关，比如此时我换成x2~x6，连接的权重是一样的，可是通常内容的相关会影响结果，x1与x2组合和x2与x6组合得到的内容是不一样的，这也导致全连接不擅长建模数据的语义关系

我们希望能把全连接静态的权重矩阵用动态的权重矩阵来代替，于是就有了自注意力模型

自注意力模型示例

我们以一句自然语言的建模为例，我们希望每个单词都能与其他单词有长的非局部依赖关系，也就是希望得到这五个单词与其中某个单词组合时（The The、The weather、The is...）的权重

计算The时，我们用The作为查询向量q，去和这个句子中每个词计算相似度的得分，过一个softmax得到对应的权重w1~w5，也就是注意力分布，接着用注意力分布对每个词进行语义组合，就得到了The的上下文表示

矩阵表示

Dx是每个词向量的维度，N是词向量的个数，也就是有几个词

通过自注意力机制得到每个词之间的上下文关系的矩阵表示，是由原矩阵*X的转置乘X得到的。这里的X的转置乘X就是我们的动态权重矩阵W，X的转置中每一行代表了每个词，也就是key，而X中的每一列代表的是query。因此求解W的过程就是注意力机制中的第一步——计算相似度，原矩阵*W是注意力机制中的第二步——注意力分布加权汇总

这个式子就是自注意力机制的矩阵表示

QKV模式

在自注意力模型中，X既是key、value，又是query。因此我们可以把X拆成这三部分

好处：引入三个参数化矩阵WqWkWv，使自注意力矩阵可学习，原来的注意力矩阵是X.T*X，不可学习

多头自注意力模型

把X投到多个QKV模式上，每个模式中的参数化矩阵WqWkWv都不一样，可以在不同的空间上建模它们的上下文关系

然后把每个head的输出拼起来经过一个W使其维度变回DX

和卷积网络里的通道十分像，在不同的channel上计算不同的特征；这里是在不同的head上计算不同的语义组合

Transformer

如果我们只通过自注意力机制来搭建网络，这是不远远不够的

位置编码

自注意力机制的动态权重矩阵其实只和内容有关，也就是x1、x2、x3的加权汇总与x2、x1、x3的加权汇总是一样的，而在序列中位置信息也是一种很重要的信息

若自注意力模型与CNN、RNN结合，那么位置信息一定程度上可以由CNN、RNN提供，但只有自注意力模型的时候，就需要引入位置信息，就有了位置编码

把每个输入序列的位置编码成一个向量，然后将这个向量和我们的x直接加起来，这样我们得到的新的x既有内容又有位置表示

层归一化

使模型更深

直连边

残差连接，x+z，z是经过自注意力计算的x

逐位的FFN

每一个词向量都经过一个FFN层，FFN层是先升维再降维的前馈层，功能类似于1x1卷积

与传统序列比较

最大的区别是传统序列需要一步步交互

而Transformer一步就可以

复杂度分析

由图可以看出，Transformer最大的问题是无法处理太长的信息

网络结构

因为Transformer的提出就是用来做机器翻译的，所以在这里分为encoder和decoder两部分

左边的encoder部分在上面已经详细分析过了

右边的是decoder部分

Teacher forcing

输入的outputs括号中的shifted right意思是将encoder中的inputs右移1位，原因是遵循Teacher forcing原则，也就是输入时要确保之前的输入是正确的，也就是输入y3时要确保$、y1、y2是正确的，所以只需要把encoder中的inputs右移1位就行了

Masked

我们只允许输出的信息往前看，而不能往后看，因为往后看就会漏答案，也就是在预测3时看见了3、4、5...这样是不对的。所以我们将后面的信息做掩码遮住

注意事项

Transformer训练数据量越大，它的效果就越好，它的层数也可以变得更深

因为Transformer实在太复杂，如果直接把Transformer用在小数据集上，它的过拟合是十分严重的，因此我们往往需要调用预训练模型

参考文献推荐

左边讲解了Transformer的原理以及它的各种变体

右边讲解了自然语言处理中的预训练模型，怎样通过设计一个预训练任务来训练一个更好的Transformer，并且更好地运用到下游任务

外部记忆

人的记忆是按内容寻找的，我们想回想起某件事情通常只能靠某些相似的事件触发

人的记忆容量其实很小，因此当人遇到需要记忆的事情时，通常需要把这件事用笔或其他方式记录下来，需要的时候再去查看

神经网络的外部记忆也是如此，把需要记忆的内容存起来，需要的时候再去读，这样可以给神经网络增加记忆容量

记忆网络

记忆增强网络

最重要的部分便是外部记忆单元的设置，下面将介绍两种设置方法

神经图灵机

qt，et，at的产生可以是RNN输出一个更高维的向量然后进行分割得到

et是需要删掉多少记忆，at是需要记住多少记忆

输入由xt、ht-1、rt三个部分组成

可读写与只读

可读写的网络的表现的方差比较大，所以训练起来是比只读的网络要难的

结构化外部记忆

矩阵

如何进行读写操作呢？

读写之前先要做寻址操作，而外部记忆的寻址是通过注意力机制来执行的

在主网络中产生一个查询向量q，q去记忆单元里面匹配，找出需要读的记忆单元

拿之前的阅读理解为例，可以把整个story当作外部记忆，m是阅读理解中的每个单词，在这里的外部记忆是只读的，不可写

外部记忆的取值是非常灵活的，你可以直接把每个单词做embedding作外部记忆，也可以把整篇文字embedding作外部记忆，还可以做完embedding之后再过一个RNN等等，不同形式的外部记忆可能带来的效果是不同的

基于神经动力学的联想记忆

大部分机器学习都属于异联想

神经网络如何联想

Hopfield网络

初始化每个神经元的状态，每个神经元接收其他神经元（不包括自己）的信息用来更新自己的状态

和循环神经网络很像，但是Hopfield只在初始化时接收外部信息，后续更新都是内部更新

离散型Hopfield更新过程

神经元之间的连接是有对称性的，si表示第i个神经元的状态

能量函数

Hopfield网络能实现的前提是s能够收敛于某个值，但是我们怎么确保s一定能收敛呢？

E = -1/2×边的权重×两端点的状态 + bisi，其中1/2是因为神经元的连接是对称的

若Et恒大于等于Et+1，则可收敛

检索过程

不同的状态对应了不同的能量，且这条曲线是非凸的

由于能量只能减少，所以一个状态只能落在一个吸引点，因此吸引点可以看作是记忆的储存点

存储过程

当xi与xj（si与sj）同时为1或-1时，wij会更大，和人脑的运作方式一样

结构记忆与联想记忆比较

但联想记忆的存储容量小，每1000个神经元只能存储138组向量

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交