倪风俠

自然语言处理之Seq2seq的注意力机制,循环模型的问题,self-attention及Transformer结构讲解

Encoder-decoder模型

特点： 1. 典型的end2end模型
2. 不论序列长度，固定大小的中间向量，可能造成信息缺失（前面的信息被后面的覆盖）
3. 根据不同的任务可以选取不同的编码器和解码器（cnn,rnn,lstm,gru等）
缺点：
Encoder将输入（Source）编码为固定大小的向量的过程是一个“信息有损的压缩过程”，信息量越大，转化得到的固定向量中信息的损失就越大，这就得Decoder无法直接无关注输入信息的更多细节。

Decoder输出形式

输入和输出同等数量，每一个向量对应一个label和value，例如NER，词性标注
输出只有一个label或者value（例如文本分类或者情感分析）
输入和输出数量不相同，就是seq2seq

seq2seq（泛称）

即通过一个RNN作为encoder将输入的源语言转化为某表征空间中的向量，再通过另一个RNN作为decoder将其转化为目标语言中的句子。
问题：1. encoder中的最后一个隐藏状态需要保存源句的所有信息，达到了信息瓶颈（不论句子长度多少，中间的向量大小是固定的）
2. 中间语义向量c无法表达全部信息
3. 向量c对输出的所有y贡献是一样的

Attention的机制（在seq2seq中的解释decoder关注encoder的信息）

目的：解决这一由长序列到定长向量转化而造成的信息损失的瓶颈（核心：在decoder中的每一个时间步，对encoder使用直接连接去专注于源句某个特定的部分，聚焦于对训练任务有帮助的部分）
过程：从decoder的每一个隐藏状态都会与在encoder中的每一个隐藏状态进行dot product点积（后续会有其他的方法），形成一个注意力分数，基于这些注意力分数进行softmax的概率分布（注意力分布）
实质：加权求和，在模型中就是通过额外的神经网络层，给输入的不同部分分配不同的权重（query和value点积得到的注意力分数）这个权是通过计算向量之间的相关性进行度量的
这样，当我们decoder预测目标翻译的时候就可以看到encoder的所有信息，而不仅局限于原来模型中定长的隐藏向量，并且不会丧失长程的信息。
Attention机制流程（query和value的计算，此时的key也是value）：

信息输入
计算注意力权重（输入对输出的重要性程度，query和key的计算）（Query和Key用来计算对应Value的权重系数）
对权重归一化（利用softmax 或者是Relu等激活函数（例如计算加性相关性））
计算输入信息的加权平均（上面得到的和value的计算）（对Source中元素的Value值进行加权求和）

Attention ouput是基于注意力分数对encoder的各个隐藏状态的加权平均值

然后将output和decoder的隐藏状态结合计算出decoder的输出
再将输出作为下一个的输入连续计算
有时候我们从前一个时间步计算了attention output也会将其和平时的输入联合作为输入decoder的变量

Attention的作用:更好的方式从源句中获取更多的信息

Attention的公式角度

Attention的优点

Attention明显的提升了NMT的表现（对于decoder关注源句特定的部分有作用），中间向量c针对不同的源句有不同的贡献
提供了MT过程的’human-like‘模型（可以直接回头看源句，而不需要记住它）
解决了信息瓶颈的问题（绕过了只需要最后的隐藏状态，直接了解源句）
有效缓解了梯度消失的问题（提供了通向远处状态的路径（避免了中间过程梯度的计算））
我们通过观察attention 权重矩阵的变化，可以更好地知道哪部分翻译对应哪部分源文字，有助于更好的理解模型工作机制

Attention中注意力分数（计算向量之间的相关性）计算的变种

加性相关性（tanh(q+k)）
点积相关性（x^t*y）
缩放点积相关性（在transformer中使用，目的：attention score的均值和方差和q、k相同，有利于缓解梯度消失）
双线性相关性（qWk）

Attnetion广泛的定义（query确定在信息值value中要得到的信息）

解释： 1. 加权和是值中包含的信息的选择性汇总，其中查询确定要关注的值
2. 注意力是一种获得任意一组表示（值）的固定大小表示的方法，依赖于其他一些表示（查询）

循环模型的问题

线性交互距离（在文本中，某些词依赖于某些词，就需要模型去捕捉到这些关系，例如在双向RNN中，捕捉上下文的关系）问题：1. 由于梯度的原因：导致模型很难学习长距离的依赖关系 2. 单词的线性顺序是“baked in”；我们已经知道线性顺序不是思考句子的正确方式
所以在rnn以及是lstm这些工具中，当步长较大之后，由于存在梯度的问题，所以可能这些关系捕捉不到，相距较远时RNN的效果常常较差，且由于其顺序性处理效率也较低.
在seq2seq中，输出和输入之间做attention，关注句子和句子间的特征，没有关注句子内部的信息（如语法特征、短语结构等）

2.计算缺乏并行性（循环模型计算正向和反向传播需要O(n)不并行的操作）

如何解决以上模型带来的问题？

如果没有循环，用词窗口？

词窗口来统计上下文（类似于一维卷积，上面的窗口卷积下一层的信息，只不过是同样的大小）
不并行的操作不会增加句子长度

堆叠的窗口可以交互距离较远的word

去掉循环模型，直接用注意力？

Attention模型本身可以看到全局的信息，那么一个自然的疑问是我们能不能去掉RNN结构，仅仅依赖于Attention模型呢，这样我们可以使训练并行化，同时拥有全局信息。
词窗口是统计部分的信息，在self-attention中是（all words attend to all words）

self-attention（**）

query key value（在实际中，这些数量可以不同）
query是知道某些信息的key，value是得到具体信息
self-attention就是针对qkv的计算（q和k经过dot product 然后softmax概率分布后与v计算得到加权求和的值， query和不同的(k,v)对儿进行计算 q1k1v1+q1k2v2）

类似于堆叠的窗口统计，模型利用不同self-attention进行堆叠，但是self-attention不可以作为替代循环模型的工具（是一种对于集合的操作，但是对顺序没有注意到）
自注意力机制建立单词和整个句子的attention关系，可以学到句子内部的信息，并且每个单词的self-attention计算可以并行。

self-attention的种类

Truncated self-attention（当输入的文本或者语音长度很大，计算注意力分数是N*N，计算量很大，可以利用窗口，每次只计算窗口中的score）
多头注意力机制（计算流程：输入x和Wq,Wk,Wv相乘，这里W是多个，然后按照score分布加权求和得到每个头的输出，将这些头拼接再乘以一个矩阵Wo得到最终的输出（因为输出和输入x的大小要一致，所以对多头做了处理））

self-attention的优缺

优：

并行的计算attention
解决长距离依赖关系的获取问题，每个词之间计算attention score，计算距离最大是1

缺：

损失了句子内部单词之间的位置信息
运算量很大

以下是如果网络只用self-attention没有解决的问题

问题1：序列顺序信息解决（损失了句子内部单词之间的位置信息）

由于self-attention并没有建立顺序信息，需要编码信息到word embedding中，再经过self-attention处理

为什么需要位置信息？
答：没有单独位置信息，那么各个位置没有任何差别，例如再ner任务中，某个词放在句首，那么是动词的可能性就低，位置编码补充这种信息

位置表示向量

要求： 保证值域固定，且不同长度文本，相差相同字数，差相同值，不同顺序（方向）含义不同

固定编码（优点：周期性特征代表绝对编码可以外推缺点：不能学习）
位置作为可学习参数（不能外推）

问题2：现在堆叠self-attention层的qkv计算只是在做加权求和权重计算，网络层没有非线性拟合能力

解决：添加FFN（前馈神经网络）处理每一层的输出

问题3：在有decoder时（例如MT或者是语言模型的时候），不去欺骗在预测未来的时候，因为在之前的信息中得到了依赖关系（在decoder中去mask the future，权值就为0)

inference的时候,decoder是把1到t-1时刻的输出序列作为t时刻的输入（t时刻的输入得到前面全部的信息）

Transformer结构（E和D各有6层）

encoder读入输入数据，利用层层叠加的Self-Attention机制对每一个词得到新的考虑了上下文信息的表征。Decoder也利用类似的Self-Attention机制，但它不仅仅看之前产生的输出的文字，而且还要attend encoder的输出。
堆叠层的含义从RNN那回忆：捕捉高阶特征

Encoder 结构

如何得到K-Q-V向量
在一层中设置多头注意力机制（每个head学习到在不同表示空间中的特征，例如在图像卷积中设置多个卷积核的作用）
在训练中的trick：1. res，残差连接 2. 层标准化 3. 缩放dot product 4.以上这些trick不会提升模型要做的事情，但是能加快提升训练进程

多头注意力：设置多个kqv的权重矩阵

Multi-head Attention其实就是多个Self-Attention结构的结合，每个head学习到在不同表示空间中的特征，学习到的Attention侧重点可能略有不同，给了模型更大的容量。
q和k可能是查看关注x中的某些位置而v则是要记录下x中的某些信息

残差连接（使损失变得平滑，训练更加容易找到全局最值点）

解决的问题：

一定程度解决梯度消失问题（在bp中，导数小于1，那么网络增加之后，反向传播中参数不会更新）
一定程度解决网络退化问题（深度神经网络随着深度增加，网络表现可能减弱）
一定程度上缓解梯度破碎问题（深度增加，梯度逐渐呈现为白噪声，神经元对网络输出的影响不稳定）

如何解决：
残差模块：xl = xl + F(xl,Wl) 包含直接映射和残差部分

在反向传播求导的时候，因为直接加了映射，所以在求导的时候多了一项常数1，梯度连乘也不会造成梯度消失
在残差中，给了从低层到高层的直接映射，减少网络退化问题（直接跳过了中间的几层）
对梯度破碎的问题还没搞清楚

layer norm是标准化，帮助模型训练更快（单独对一个样本的所有单词作缩放，与batch normalization的方向垂直）

为什么做Normlization？
答：目的：让分布稳定下来（降低各个维度数据的方差）
原因： 1. 不同特征具有不同数据量级的数据，在经过线性组合之后，数量级大的特征影响更大，Norm是可以协调特征在空间上的分布，方便进行梯度下降
2. 线性层经过激活函数，例如在sigmoid中，特征大的数据经过激活函数就落入了饱和区，激活函数值都在 1 附近，不会有太大变化，这样激活函数就对这个特征不敏感，例如在使用SGD优化方法的时候，不同量纲的数据会使网络不平衡

为什么Transformer是对layer而不是batch做归一化？

BN是对同一维度的信息归一化，但是对于文本信息，对于一些问题来说，一个序列的输入同一”维度“上的信息可能不是同一个维度
图像的bn是认为 不同卷积核feature map（channel维）之间的差异性很重要，ln会降低这种差异性（BN仅是为了进一步保证同一个卷积核在不同样本上提取特征的稳定性），文本的ln认为batch内不同样本同一位置token之间的差异性更重要

尺度缩放

计算Q与K之间的点乘，然后为了防止其结果过大（当维度过大时，点积的结果可能也会较大，经过softmax的时候，使得梯度变小），会除以一个尺度标度为一个query和key向量的维度。

Mask机制

处理非定长序列的padding mask
防止标签泄露的sequence mask

padding mask

NLP的输入文本长度不一致，在放入网络需要整齐的batch，提前对文本进行截断或者padding操作，padding符号要一致，在mask矩阵中，1可以表示有效字，0表示无效

padding mask 矩阵的生成和使用

padding（补齐）操作在batch输入网络前完成，同步生成padding mask矩阵
padding mask矩阵常常用在最终结果输出、损失函数计算等等，常用在计算受样本实际长度影响

sequence mask设计多样

transformer中decoder利用了不泄露要预测的标签信息，就需要 mask 来“遮盖”信息（通过对qk计算得到矩阵中需要覆盖的值为-inf，在经过softmax后值就变为0）
模型利用这种填空机制帮助模型学的更好（Bert（选择15%的***token***覆盖掉）等，ERNIE是在短语级别掩码）

decoder结构

在第一层多头注意力要将future的元素进行masked，权重变为0，只能attend到前面已经翻译过的输出的词语
多头交叉注意力（k和v来自encoder的最后一层 q来自decoder的上一层输出
类似是在seq2seq中的decoder向encoder中查找信息）

第二级decoder也被称作encoder-decoder attention layer，即它的query来自于之前一级的decoder层的输出，但其key和value来自于encoder的输出，这使得decoder的每一个位置都可以attend到输入序列的每一个位置。

提升方向

1.计算所有元素对的时间是句子长度的二次方
2. 位置表示

Seq2seq的注意力模型

https://gitee.com/datawhalechina/learn-nlp-with-transformers/blob/main/docs/%E7%AF%87%E7%AB%A02-Transformer%E7%9B%B8%E5%85%B3%E5%8E%9F%E7%90%86/2.1-%E5%9B%BE%E8%A7%A3attention.md

RNN的注意力模型解码的过程是所有Encoder的hidden （进行score softmax 加权平均计算得到）和 decoder的 hidden计算得到decoder的下一个时间步的input

pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
从零到一：Transformer模型的原理与实战之旅樽酒ﻬق AI transformer 深度学习人工智能
目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？1.2自注意力机制的核心1.3Transformer的结构2.实战：构建Transformer模型2.1任务目标2.2环境准备2.3数据准备2.4模型构建2.5模型训练3.推理实战：完整示例与输出结果3.1完整推理代码3.2代码解析4.原理与代码的结合4.1自注意力机制的实
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
普通人如何利用GPT赚钱之开发虚拟助手贫苦游商普通人利用AI搞钱系列 gpt 人工智能深度学习机器人 AIGC
普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。普通人如何利用GPT赚钱？开发虚拟助手是一个极具潜力的方向。本文将探讨如何开发虚拟助手，以及如何通过这一技术实现经济收益。什么是虚拟助手虚拟助手是一种基于人工智能的技术，能够理解自然语言并执行特定任务。它们
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
医学人工智能影像诊断数据收集与整理 V搜xhliang0246 人工智能健康医疗算法
在医学领域中，人工智能（AI）尤其是深度学习技术，已经被广泛应用于医学影像的分析和诊断。为了训练这些模型，需要大量的高质量标注数据。下面我会给出一个简单的示例流程，介绍如何收集、整理和准备医学影像数据集，并提供一些基础的Python代码示例。数据收集首先，你需要收集包含医学影像的数据集。这些数据通常来自医院或研究机构，并且需要经过伦理审查和患者同意。示例数据集假设我们有一个包含肺部X光片的数据集，
【大模型学习】第十五章 Transformer技术看这一篇就足够了好多渔鱼好多 AI大模型 transformer 深度学习 AI 人工智能大模型
目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制（Self-Attention）1.1什么是自注意力？1.1.1如何计算查询（Query）、键（Key）和值（Value）：1.1.2缩放点积注意力（ScaledDot-ProductAttention）1.1.3两个生活
深度学习模块缝合教程：从理论到实践 RockLiu@805 深度学习模块机器视觉深度学习人工智能
深度学习模块缝合教程：从理论到实践引言随着深度学习的不断发展，模型的设计与优化成为研究者关注的核心问题之一。如何有效地“缝合”不同模块，以实现更高效的计算和更强大的功能，是当前深度学习研究中的一个重要课题。在本文中，我们将从基础概念出发，详细探讨深度学习模块缝合的方法、技巧及其应用场景。无论是理论深厚的研究者还是实验导向的实践者，都可以从中获得启发。一、深度学习基础知识详解深度学习是人工智能领域的
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
GAN生成对抗网络小记文弱_书生乱七八糟生成对抗网络人工智能神经网络
生成对抗网络（GAN）深入解析：数学原理与优化生成对抗网络（GenerativeAdversarialNetwork,GAN）是一个基于博弈论的深度学习框架，通过生成器（G）和判别器（D）之间的对抗训练，生成高度逼真的数据。其核心思想是让GGG生成伪造数据以欺骗DDD，而DDD则努力分辨真实数据与伪造数据。GAN在理论上可以看作一个极小极大（Minimax）优化问题。1.GAN的数学公式1.1生成
深度学习之优化器Optimizer介绍 yueguang8 人工智能深度学习人工智能
优化器(Optimizer)是深度学习训练中非常关键的组件,它负责根据损失函数的梯度来更新模型参数,从而使模型性能不断提升。1.优化器的作用和重要性优化器是训练深度学习模型的核心组件之一。它负责根据损失函数的梯度来更新模型参数,推动模型性能不断提高。选择合适的优化器可以极大地影响模型的收敛速度和最终性能。2.优化器的基本原理优化器的基本思路是利用梯度下降法来最小化损失函数。每一步都根据当前梯度的方
深度学习常见优化器 Humingway 深度学习人工智能
一、基础优化器随机梯度下降（SGD）•核心：∇θJ(θ)=η*∇θJ(θ)•特点：学习率固定，收敛路径震荡大•适用场景：简单凸优化问题•改进方向：动量加速二、动量系优化器2.SGDwithMomentum•公式：v_t=γv_{t-1}+η∇θJ(θ)•效果：平滑梯度更新，加速收敛•经典参数：γ=0.9（多数场景推荐）三、自适应学习率家族3.Adagrad•创新：∇θJ(θ)_t=∇θJ(θ)/(
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。