婶婶world_peace

Seq2Seq(Encoder-Decoder)、Attention的详细介绍

上一篇博客循环神经网络及其变体的学习与博客总结中，提到了Seq2Seq 和 Attention 这些知识点，但讲得不够详细，这篇博客将对这两个知识点进行详细的介绍和代码总结。之后还有self-attention，这个目前我还没有用到，之后用到了再来补充。

Seq2Seq介绍与挑战

Encoder-Decoder 结构

Encoder-Decoder 模型的四种结构

直接编码-解码模型（Direct Encoder-Decoder Implementation）

带输出回馈的编码-解码模式（Recursive Encoder-Decoder Implementation）

带编码向量的解码模型

带注意力的解码模式

Attention 的5种应用场景

文本翻译

图像描述

注意力集中

语音识别中的注意力

文本摘要中的注意力

Attention的好处

Attention求解方式

问题：

编码：

对齐（Alignment）：

加权：

上下文向量（context vector）：

解码：

硬注意和软注意（Hard and Soft Attention）

Seq2Seq介绍与挑战

序列问题和其他的机器学习问题最显著的一个区别就是序列中的值相互之间是有一个顺序的。

序列预测通常包括：

给定一个序列，输出下一个值：（序列预测）

序列预测问题包括：

天气预报。给出一系列关于天气随时间变化的观测结果，预测明天的预期天气。
股票市场预测。给定一个证券随时间的移动序列，预测下一个证券的价格。
产品推荐。给定一个客户的过去购买序列，预测客户下一个可能的购买。

给定一个序列，预测一个序列：（序列预测）

尽管[深层神经网络]具有灵活性和威力，但它们只能应用于输入和目标可以用固定维数的向量进行合理编码的问题。这是一个很大的限制，因为许多重要的问题最好用长度未知的序列来表达。例如，语音识别和机器翻译是序列问题。同样，问题回答也可以被看作将表示问题的单词序列映射到表示答案的单词序列。

— Sequence to Sequence Learning with Neural Networks, 2014

它是序列预测的一种微妙但具有挑战性的扩展，预测可能具有或可能不具有与输入序列相同的长度或具有相同时间的新序列，而不是预测序列中的单个下一个值
这种类型的问题最近在自动文本翻译（例如，将英语翻译成法语）领域已经见证了大量的研究，缩写seq2seq可以指代这类问题。

seq2seq学习的核心是使用循环神经网络将可变长度的输入序列映射到可变长度的输出序列。虽然seq2seq方法相对较新，但它不仅在其原始应用——机器翻译方面取得了最新成果。

— Multi-task Sequence to Sequence Learning, 2016.

如果输入和输出序列是时间序列，则该问题可称为多步时间序列预测。
多步时间序列预测。给定观察的时间序列，预测未来时间步长范围的观察序列。
文本摘要。给定文本文档，预测描述源文档突出部分的更短的文本序列。
程序执行。给定文本描述程序或数学方程，预测描述正确输出的字符序列。

给定一个序列，输出输入序列的类标签：（序列分类）

序列分类问题包括：
DNA序列分类。给定ACGT值的DNA序列，预测该序列是编码区还是非编码区。
异常检测。给定观察序列，预测序列是否异常。
情感分析。给定一连串的文本，如评论或推特，预测文本的情绪是积极的还是消极的。

给定一个序列，输出一个序列，该输出序列具有和给定的序列相同的特征：（序列生成）

如：

序列生成问题包括：
文本生成。给定一个文本语料库，例如莎士比亚的作品，生成读起来像莎士比亚的新的句子或段落。
笔迹预测。给定手写示例的语料库，为语料库中具有手写特性的新短语生成手写。
音乐一代。给定一个音乐实例的语料库，生成具有语料库属性的新音乐片段。

序列生成还可以指给定单个观察作为输入的序列的生成。
一个例子是图像的自动文本描述。

如图像字幕生成。给定图像作为输入，生成一系列描述图像的单词。

能够使用适当格式的英语句子自动描述图像的内容是一个非常具有挑战性的任务，但是它可以产生巨大的影响，例如通过帮助视力受损的人更好地理解网络上的图像内容。[…]实际上，描述不仅必须捕获图像中包含的对象，还必须表达这些对象如何相互关联，以及它们的属性和它们所参与的活动。此外，上述语义知识必须用像英语这样的自然语言来表达，这意味着除了视觉理解之外，还需要语言模型。

— Show and Tell: A Neural Image Caption Generator, 2015

以序列作为输入，并且需要序列预测作为输出。这种被称为序列到序列预测问题，或简称seq2seq。

使这些问题具有挑战性的一个建模问题是输入和输出序列的长度可能不同。假定存在多个输入时间步长和多个输出时间步长，这种形式的问题被称为多对多类型序列预测问题。

Encoder-Decoder 结构

Encoder-Decoder 模型是组织循环神经网络来处理输入和输出时间步数不同的序列到序列预测问题的一种方法。
该模型用于机器翻译问题，如法语句子到英语句子的翻译。

该模型包括两个子模型，如下，其中的RNN可以换做LSTM/GRU等变体：
编码器：一种RNN模型（可堆叠），编码器负责逐步通过输入的时间步长，并将整个序列编码成称为上下文向量（context vector）的固定长度向量。

编码模型比较简单，如下图所示，输入文本{X1-X6}经过循环迭代编码，在每个时刻得到当前时刻的一个隐层状态，最后序列结束后进行特征融合得到句子的表示。注意，一种比较常用的方式是将编码模型最后一个时刻的隐层状态做为整个序列的编码表示，还有将最后一个时刻的隐层状态做变换得到，但是实际应用中这种效果并不太好，因而我们的图例中直接采用了整个序列隐层编码进行求和平均的方式得到序列的编码向量。

解码器：一种RNN模型（可堆叠），解码器负责从上下文向量读取信息解码，并逐步输出相应的时间步长。根据解码器输入的不同，我们把Encoder-Decoder 模型分为以下四种结构：

Encoder-Decoder 模型的四种结构

直接编码-解码模型（Direct Encoder-Decoder Implementation）

上述方式是把context vector 作为解码器中每一步的输入。还有一种方式是将context vector作为解码器中的初始的

带输出回馈的编码-解码模式（Recursive Encoder-Decoder Implementation）

这种解码方式是将编码向量作为解码器第一个时刻的输入，此后每个时刻的输入为解码器前一个时刻的输出。

带编码向量的解码模型

这种解码模式是将编码向量和上一时刻的输出都作为编码器的输入。

然而上述的模式存在一个共同的问题，该体系结构的一个限制是它将输入序列编码为固定长度的内部表示。这就对输入序列的长度施加了限制，并且导致对于非常长的输入序列的性能更差。

这种编码器 - 解码器方法的潜在问题是神经网络需要能够将源句子的所有必要信息压缩成固定长度的矢量。这可能使神经网络难以应对长句，特别是那些比训练语料库中的句子长的句子。

— Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate, 2015

带注意力的解码模式

注意力是将编码器-解码器架构从固定长度的内部表示中解放出来。
这是通过保持来自输入序列每个步骤的编码器的中间输出，并训练模型以学习有选择地关注这些输入，并将它们与输出序列中的步骤关联来实现的。
换句话说，输出序列中的每个项都选择性地以输入序列中的项为条件。

每当该模型在翻译中生成单词时，它（软）搜索源句子中最相关信息集中的一组位置。然后，模型基于上下文向量（编码器生成的context vector）与这些源位置和所有先前生成的目标词来预测目标词。
...它将输入句子编码为一系列向量，并在解码翻译时自适应地选择这些向量的子集。这使得神经翻译模型不必将源语句的所有信息（无论其长度如何）压缩到固定长度的向量中。

— Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate, 2015

这增加了模型的计算负担，但是带来了更有针对性和性能更好的模型。
此外，该模型还能够显示当预测输出序列时如何关注输入序列。这有助于准确理解和诊断模型正在考虑什么，以及对特定输入-输出对重视程度如何。

所提出的方法提供了一种直观的方法来检查生成的翻译中的单词与源语句中的单词之间的（软）对齐。这是通过可视化注意力（attention）权重来完成的……每个绘图中的矩阵的每一行都指示与注释相关联的权重。由此可见，在生成目标词时，源语句中的哪些位置被认为更重要。

— Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate, 2015

Attention 的5种应用场景

文本翻译

给出一个法语句子的输入序列，翻译并输出一个英语句子。注意力用于注意输出序列中的每个单词对应的输入序列中的特定单词。
在生成每个目标单词时，我们通过让模型（软）搜索一组输入单词或由编码器计算的注意力来扩展基本的编解码器。这使得模型不必将整个源语句编码为固定长度的向量，并且还允许模型只关注与生成下一个目标单词相关的信息。

— Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate, 2015

图像描述

与浏览方法不同，基于序列的注意力机制可应用于计算机视觉问题，以帮助了解在输出序列(例如字幕)时如何最好地使用卷积神经网络来关注图像。
给定图像的输入，输出图像的英文描述。注意力用于为输出序列中的每个单词对图像的不同部分进行聚焦。

我们提出了一种基于注意力的方法，在三个基准数据集上给出最新的性能……我们还演示了如何利用学习注意力来给模型生成过程提供更多的可解释性，并且演示了学习对齐很好地符合人的直觉。

— Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, 2016

注意力集中

给定一个前提情景和一个关于英语情景的假设，输出该前提是否矛盾、不相关或包含该假设。
例如：
前提：“婚宴拍照”
假设：“某人结婚了”
注意力用于将假设中的每个词与前提中的词联系起来，反之亦然。

我们提出一个基于LSTM的神经模型，它一次读取两个句子以确定蕴涵，而不是将每个句子独立地映射到语义空间中。我们用神经逐字注意机制来扩展这个模型，以鼓励对单词和短语的蕴涵进行推理。...基于字的神经注意力超过这个强大的基准LSTM结果2.6个百分点，设置了一个最新的准确度...

— Reasoning about Entailment with Neural Attention, 2016

语音识别中的注意力

给定英语语音片段的输入序列，输出音素序列。
注意力用于将输出序列中的每个音素与输入序列中的特定音频帧相关联。

...一种新的基于混合注意机制的端到端可训练语音识别体系结构，该混合注意机制结合内容和位置信息，以便选择输入序列中的下一个位置以进行解码。该模型的一个理想特性是，它能够识别比训练过的语音长得多的语音。

— Attention-Based Models for Speech Recognition, 2015.

文本摘要中的注意力

给定一篇英语文章的输入序列，输出一连串概括输入的英语单词。
注意力用于将输出摘要中的每个单词与输入文档中的特定单词相关联。

基于神经机器翻译的最新发展，提出了一种基于神经注意的抽象摘要模型。我们将这个概率模型和生成算法相结合，生成精确的抽象摘要。

— A Neural Attention Model for Abstractive Sentence Summarization, 2015

Attention的好处

正如Bahdanau等人所描述的那样。在他们的论文“ Neural Machine Translation by Jointly Learning to Align and Translate”中涉及以下几个要素：

更丰富的编码。编码器的输出被扩展，以提供输入序列中所有字的信息，而不仅仅是序列中最后一个字的最终输出。
对齐模型。新的小神经网络模型用于使用来自前一时间步的解码器的参与输出来对准或关联扩展编码。
加权编码。对齐的加权，可用作编码输入序列上的概率分布。
加权的上下文矢量。应用于编码输入序列的加权然后可用于解码下一个字。

注意，在所有这些编码器 - 解码器模型中，模型的输出（下一个预测字）和解码器的输出（内部表示）之间存在差异。解码器不直接输出字; 通常，完全连接的层连接到解码器，该解码器输出单词词汇表上的概率分布，然后使用启发式的搜索进一步搜索。

Attention求解方式

通过一个小示例来具体讲解attention的应用过程。

问题

一个简单的序列预测问题，输入是x1, x2, x3，输出是预测一步y1。

在本例中，我们将忽略编码器和解码器中使用的RNN类型，而忽略双向输入层的使用。这些元素对于理解解码器中注意力的计算并不显著。

编码

在编码器 - 解码器模型中，输入将被编码为单个固定长度矢量。这是最后一个步骤的编码器模型的输出。

h1 = Encoder(x1, x2, x3)

注意模型需要在每个输入时间步长访问编码器的输出。本文将这些称为每个时间步的“ 注释 ”（annotations）。在这种情况下：

h1, h2, h3 = Encoder(x1, x2, x3)

对齐（Alignment）

解码器一次输出一个值，在最终输出当前输出时间步长的预测(y)之前，该值可能会经过许多层。
对齐模型评分(e)评价了每个编码输入得到的(h)与解码器的当前输出匹配的程度。
分数的计算需要解码器从前一输出时间步长输出的结果，例如s(t-1)。当对解码器的第一个输出进行评分时，这将是0。
使用函数a()执行评分。我们可以对第一输出时间步骤的每个注释(h)进行如下评分：

e11 = a(0, h1)
e12 = a(0, h2)
e13 = a(0, h3)

对于这些分数，我们使用两个下标，例如，e11，其中第一个“1”表示输出时间步骤，第二个“1”表示输入时间步骤。
我们可以想象，如果我们有两个输出时间步的序列到序列问题，那么稍后我们可以对第二时间步的注释评分如下（假设我们已经计算过s1）：
e21 = a(s1, h1)
e22 = a(s1, h2)
e23 = a(s1, h3)

本文将函数a()称为对齐模型，并将其实现为前馈神经网络。
这是一个传统的单层网络，其中每个输入(s(t-1)和h1、h2和h3)被加权，使用双曲正切(tanh)激活函数并且输出也被加权。

加权

接下来，使用softmax函数标准化对齐分数。
分数的标准化允许它们被当作概率对待，指示每个编码的输入时间步骤(注释)与当前输出时间步骤相关的可能性。
这些标准化的分数称为注释权重。
例如，给定计算的对齐分数(e)，我们可以计算softmax注释权重(a)如下：
a11=exp(e11)/(exp(e11)+exp(e12)+exp(e13))
a12=exp(e12)/(exp(e11)+exp(e12)+exp(e13))
a13=exp(e13)/(exp(e11)+exp(e12)+exp(e13))

如果我们有两个输出时间步骤，则第二输出时间步骤的注释权重将计算如下：

a21 = exp(e21) / (exp(e21) + exp(e22) + exp(e23))
a22 = exp(e22) / (exp(e21) + exp(e22) + exp(e23))
a23 = exp(e23) / (exp(e21) + exp(e22) + exp(e23))

上下文向量（context vector）

接下来，将每个注释(h)与注释权重(a)相乘以产生新的具有注意力的上下文向量，从中可以解码当前时间步骤的输出。
为了简单起见，我们只有一个输出时间步骤，因此可以如下计算单个元素上下文向量（为了可读性，使用括号）：

c1 = (a11 * h1) + (a12 * h2) + (a13 * h3)

上下文向量是注释和标准化对齐得分的加权和。
如果我们有两个输出时间步骤，上下文向量将包括两个元素[c1，c2]，计算如下：

c1 = a11 * h1 + a12 * h2 + a13 * h3
c2 = a21 * h1 + a22 * h2 + a23 * h3

解码

然后，按照编码器-解码器模型执行解码，在本例中为当前时间步骤使用带注意力的上下文向量。
本文将解码器的输出称为隐藏状态。

s1 = Decoder(c1)

此隐藏状态可以在作为时间步长的预测(y1)最终输出模型之前，被喂到其他附加层。

硬注意和软注意（Hard and Soft Attention）

在2015年的论文“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”中，Kelvin Xu等人。应用卷积神经网络作为图像数据的特征抽取器来关注图像数据字幕照片的问题。
他们发展了两种注意机制，一种叫做“软注意”，类似于上面用加权上下文向量描述的注意力，另一种叫做“硬注意”，即对每个单词的上下文向量中的元素做出清晰的决定。
他们还提出双重注意，注意力集中在图像的特定部分。

参考的博客有：

http://jacoxu.com/encoder_decoder/ JacoXu大牛的博客，讲得非常生动有趣

Jason 大神的博客：

https://machinelearningmastery.com/encoder-decoder-long-short-term-memory-networks/ Encoder-Decoder Long Short-Term Memory Networks

https://machinelearningmastery.com/?s=encoder+decoder&post_type=post&submit=Search Encoder-Decoder一系列博客

发现的一个很不错的开放的科学期刊，Distill，Distill is dedicated to clear explanations of machine learning. 对ML的一个清晰解释。

https://distill.pub/2016/augmented-rnns/ Attention and Augmented Recurrent Neural Networks

参考的论文的时间线是这样的：

https://arxiv.org/pdf/1409.3215.pdf Sequence to Sequence Learning with Neural Networks

https://arxiv.org/pdf/1406.1078.pdf Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

https://arxiv.org/pdf/1609.08144.pdf Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

https://arxiv.org/pdf/1508.04025v3.pdf Effective Approaches to Attention-based Neural Machine Translation

https://arxiv.org/pdf/1705.03122.pdf Convolutional Sequence to Sequence Learning

【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
《探秘人工智能与鸿蒙系统集成开发的硬件基石》程序猿阿伟人工智能 harmonyos 华为
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
医学人工智能影像诊断数据收集与整理 V搜xhliang0246 人工智能健康医疗算法
在医学领域中，人工智能（AI）尤其是深度学习技术，已经被广泛应用于医学影像的分析和诊断。为了训练这些模型，需要大量的高质量标注数据。下面我会给出一个简单的示例流程，介绍如何收集、整理和准备医学影像数据集，并提供一些基础的Python代码示例。数据收集首先，你需要收集包含医学影像的数据集。这些数据通常来自医院或研究机构，并且需要经过伦理审查和患者同意。示例数据集假设我们有一个包含肺部X光片的数据集，
深度学习模块缝合教程：从理论到实践 RockLiu@805 深度学习模块机器视觉深度学习人工智能
深度学习模块缝合教程：从理论到实践引言随着深度学习的不断发展，模型的设计与优化成为研究者关注的核心问题之一。如何有效地“缝合”不同模块，以实现更高效的计算和更强大的功能，是当前深度学习研究中的一个重要课题。在本文中，我们将从基础概念出发，详细探讨深度学习模块缝合的方法、技巧及其应用场景。无论是理论深厚的研究者还是实验导向的实践者，都可以从中获得启发。一、深度学习基础知识详解深度学习是人工智能领域的
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

Seq2Seq(Encoder-Decoder)、Attention的详细介绍

Seq2Seq介绍与挑战

Encoder-Decoder 结构

Encoder-Decoder 模型的四种结构

直接编码-解码模型（Direct Encoder-Decoder Implementation）

带输出回馈的编码-解码模式（Recursive Encoder-Decoder Implementation）

带编码向量的解码模型

带注意力的解码模式

Attention 的5种应用场景

文本翻译

图像描述

注意力集中

语音识别中的注意力

文本摘要中的注意力

Attention的好处

Attention求解方式

问题

编码

对齐（Alignment）

加权

上下文向量（context vector）

解码

硬注意和软注意（Hard and Soft Attention）

你可能感兴趣的:(深度学习)