KiraFenvy

【Paper Note】Attention is all your need

Attention is all your need

难以理解的问题
Introduction
Background
Model Architecture
- 3.1 Encoder and Decoder Stacks
- - Encoder
  - Decoder
- Attention
- - 3.2.1 Scaled Dot-Product Attention
  - - Masked
  - Multi-head attention
- 3.2.3 Applications of attentions in our model
- - encoder 的注意力层
  - decoder 的 masked multi-head attention
  - decoder 的 multi-head attention
- Position-wise Feed-Forward Networks
- 3.4 Embeddings and Softmax
- 3.5 Positional Encoding
4. Why Self-attention

Attention is all your need链接
b站李沐论文带读
b站对transformer图解

难以理解的问题

什么是残差链接？
h 个不一样的距离空间指的是什么？

Introduction

循环模型难以并行

Background

Transformer是第一个完全依靠self-attention来计算输入和输出表示而不使用序列对齐RNN或卷积的转导模型。

Model Architecture

输入序列(x1,…,xn) 通过encoder映射z = (z1,…,zn)（即机器学习算法可以使用的向量，一个句子有 n 个词，xt 是第 t 个词，zt 是第 t 个词的向量表示）。根据z，decoder生成符号的一个输出序列(y1,…,ym) 。在每一步decoder中，模型都是auto-regressive自回归的（过去时刻的输出也会作为当前时刻的输入）

对上图的描述：

输入经过一个 Embedding层， i.e., 一个词进来之后表示成一个向量。得到的向量值和 Positional Encoding （3.5）相加。
Nx：N个 Transformer 的 block 叠在一起。
Add & Norm: 残差连接 + Layernorm
Feed Forward: 前馈神经网络 MLP
decoder 是 encoder 相同部分和 Masked Multi-Head Attention 组成一个块，重复 Nx 次
Shifted right 指的是 decoder 在之前时刻的一些输出，作为此时的输入。一个一个往右移

3.1 Encoder and Decoder Stacks

Encoder

Encoder 结构：重复 6 个图中红色的 layer（论文中让n=6）
每个 layer 有 2 个 sub-layers：
- 第一个 sub-layer 是 multi-head self-attention
- 第二个 sub-layer 是 simple, position-wise fully connected feed-forward network, 简称 MLP
每个 sub-layer 的输出做残差连接和 LayerNorm
$L a yer N or m (x + S u b l a yer (x))$
residual connections 需要输入输出维度一致，不一致需要做投影。简单起见，固定每一层的输出维度dmodel = 512
简单设计：只需调 2 个参数 dmodel 每层维度有多大和 N 多少层，影响后续一系列网络的设计，BERT、GPT。
Remark：和 CNN、MLP 不一样。MLP 通常空间维度往下减；CNN 空间维度往下减，channel 维度往上拉

batchnorm和layernorm

标准化过程：均值变0方差变1，即所有数据减去均值再除以方差
前者对每个特征（列feature行样本，一次处理一列），后者对每个样本norm
Mini-batch 的均值和方差：如果样本长度变化比较大的时候，每次计算小批量的均值和方差，均值和方差的抖动大。
LayerNorm 更稳定，不管样本长还是短，均值和方差是在每个样本内计算。

Decoder

auto-regressive 自回归。
- 当前时刻的输入集是之前一些时刻的输出。做预测时，decoder 不能看到之后时刻的输出。
- 但是attention mechanism 每一次能看完完整的输入，所以要避免这个情况的发生。
- 在 decoder 训练的时候，在预测第 t 个时刻的输出的时候，decoder不应该看到 t 时刻以后的那些输入。
- 它的做法是通过一个带掩码 masked 的注意力机制Masked Multi-Head Attention。来保证训练和预测时行为一致。

Attention

Attention函数可以描述为将query和一组key-value映射成一个输出的函数，其中query、key、value和输出都是向量。
output为value的加权和，output 中 value 的权重 等价于 query 和对应的 key 的相似度

不同注意力机制就是相似度算法不同

3.2.1 Scaled Dot-Product Attention

$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}(\dfrac{QK^T}{\sqrt{d_k}})V$

query 和 key 的长度是等长的，都等于 dk。value 的维度是 dv，输出也是 dv。

实际计算：不会一个 query 一个 query 的计算，因为运算比较慢。把多个 query 写成一个矩阵，并行化运算。
Q：n * dk
K: m * dk
Q * K T：(n * dk) * (m * dk)T = (n * m)

softmax会让大的数据更大，小的更小（因为指数函数的曲线，建议回忆一下softmax的公式）

因为 softmax 最后的结果是希望 softmax 的预测值，置信的地方尽量靠近，不置信的地方尽量靠近零，以保证收敛差不多了。这时候梯度就会变得比较小，那就会跑不动，所以要除以根号dk，防止梯度过小

Masked

怎么做 mask ：

避免在 t 时刻，看到 t 时刻以后的输入。
在计算权重的时候，t 时刻只用了 v1, …, vt-1 的结果，不要用到 t 时刻以后的内容。
把 t 时刻以后 Qt 和 Kt 的值换成一个很大的负数，如 1 ^ (-10)，进入 softmax 后，权重为0。 --> 和 V 矩阵做矩阵乘法时，没看到 t 时刻以后的内容，只看 t 时刻之前的 key - value pair。
理解：mask是个 0 1矩阵，和attention（scale QK）size一样，t 时刻以后 mask 为 0

Multi-head attention

把整个 query、key、value 整个投影 project 到 1个低维，投影 h 次。然后再做 h 次的注意力函数，把每一个函数的输出拼接在一起，然后 again projected，会得到最终的输出

输入是：原始的 value、key、query
进入一个线性层，线性层把 value、key、query 投影到比较低的维度。然后再做一个 scaled dot product （图 2 左图）。
执行 h 次会得到 h 个输出，再把 h 个输出向量全部合并 concat 在一起，最后做一次线性的投影 Linear，会回到我们的 multi-head attention。

为什么要做多头注意力机制呢？一个 dot product 的注意力里面，没有什么可以learn的参数。具体函数就是内积，为了识别不一样的模式，希望有不一样的计算相似度的办法。

加性 attention 有一个权重可learn，也许能learn到一些内容。

本文的 dot-product attention，先投影到低维，投影的 w 是可以学习的。

multi-head attention 给 h 次机会去学习不一样的投影的方法，使得在投影进去的度量空间里面能够去匹配不同模式需要的一些相似函数，然后把 h 个 heads 拼接起来，最后再做一次投影。

multi-head attention 具体公式
$\text{MuIti}\text{Had}(QK,V)=\text{Concat}(\text{head}_1,...,\text{head}_n)W^O\quad$
$\text{head}_i=\text{Attempt}(QW_i^Q,KW_i^K,VW_i^V)$

其中
$W_{i}^{Q}\in\mathbb{R}^{d\mathrm{model}\times d k},W_{i}^{K}\in\mathbb{R^{d\mathrm{model}x d}k},W_{i}^{V}\in\mathbb{R^{\mathrm{model}\times d}_{V}},W^O\in\mathbb{R}^{hd_v\times d\text{model}}. $

Multi-head 的输入还是Q,K,V

但是输出是 不同的头的输出的 concat 起来，再投影到一个 WO 里面。

每一个头 headi ：是把 Q,K,V 通过可以学习的 Wq, Wk, Wv 投影到 dv 上，再通过注意力函数，得到 headi。

本文采用 8 个 heads。因为有残差连接的存在使得输入和输出的维度至少是一样的。

投影维度 dv = dmodel / h = 512 / 8 = 64，每个 head 得到 64 维度，concat，再投影回 dmodel。

3.2.3 Applications of attentions in our model

回顾一下这张图

三个黄色的方框是三种不一样的注意力层

encoder 的注意力层

encoder 的注意力层，有三个输入，它分别表示的是key、value 和 query （所以有三个箭头）

一根线过来分叉成了三个：同样一个东西，既 key 也作为 value 也作为 query，所以叫做自注意力机制。key、value 和 query 其实就是一个东西，就是自己本身。

输入了 n 个 query，每个 query 会得到一个输出，那么会有 n 个输出。

输出是 value 加权和（权重是 query 和 key 的相似度），输出的维度 == d – > 输入维度 == 输出维度

一般每个key和自身的相似度最大，权重最高

不考虑 multi-head 和有投影的情况：输出是输入的加权和，其权重来自每个向量与其它向量的相似度。
multi-head 和有投影的情况：学习 h 个不一样的距离空间，使得输出变化。

decoder 的 masked multi-head attention

和前面的multi-head attention区别只有看不到t时刻以后的输入（权重为0）

decoder 的 multi-head attention

不再是self-attention，因为query 是来自 decoder 里 masked multi-head attention 的输出（看看三个箭头的来源）

Position-wise Feed-Forward Networks

Point-wise: 把一个 MLP 对每一个词（position）作用一次，对每个词作用的是同样的 MLP

FFN： Linear + ReLU + Linear

单隐藏层的 MLP，中间 W1 扩维到4倍 2048，最后 W2 投影回到 512 维度大小，便于残差连接。

pytorch实现：2个线性层。因为pytorch在输入是3d的时候，默认在最后一个维度做计算。

最简单情况：没有残差连接、没有 layernorm、 attention 单头、没有投影。看和 RNN 区别

对上图的解释：

attention 对输入做一个加权和，加权和进入 point-wise MLP。（画了多个红色方块 MLP，是一个权重相同的 MLP）
point-wise MLP 对每个输入的点做计算，得到输出。
attention 作用：把整个序列里面的信息抓取出来，做一次汇聚 aggregation
因为这个地方序列信息已经被汇聚完成，所以 MLP 是可以分开做的，也就整这个 transformer 是如何抽取序列信息，然后把这些信息加工成我最后要的语义空间，向量的过程

对比 RNN 怎么做的：

图中绿色表示之前的信息

RNN 跟 transformer 异：如何传递序列的信息
RNN 是把上一个时刻的信息输出传入下一个时候做输入。Transformer 通过一个 attention 层，去全局的拿到整个序列里面信息，再用 MLP 做语义的转换。
RNN 跟 transformer 同：语义空间的转换 + 关注点

用一个线性层 or 一个 MLP 来做语义空间的转换。

关注点：怎么有效的去使用序列的信息。

3.4 Embeddings and Softmax

embedding：将输入的一个词、词语 token 映射成为一个长为 d 的向量。

乘根号dmodel让embedding 和 positional encosing 的 scale 差不多，可以做加法。

3.5 Positional Encoding

attention 不会有时序信息。
但我们要处理时序数据怎么办呢？因此在输入里面加入时序Positional Encoding

怎么加入？一个在位置 i 的词，会把 i 位置信息加入到输入里面，
周期不一样的 sin 和 cos 函数计算 --> 任何一个值可以用一个长为 512 的向量来表示。

$\begin{matrix}P E_{(cos,2)}=sin(p\text{os/}10000^{2i\text{/}d\text{mode})}\\ P E_{(p\text{os,}2i\text{+}1)}=cos(p\text{os/}{}10000^{2\text{i/}d\text{mode}})\end{matrix}$

4. Why Self-attention

文章中和RNN CNN进行了对比

Maximum Path Length（一个信息从一个数据点走到另外一个数据点要走多少步）越短越好
attention主要需要使用更多的数据量

你可能感兴趣的:(深度学习,人工智能,机器学习)

量子计算如何提升机器学习效率：从理论到实践 Echo_Wish 人工智能前沿技术量子计算机器学习人工智能
量子计算如何提升机器学习效率：从理论到实践在人工智能和机器学习的高速发展中，传统计算方法已经逐渐面临性能瓶颈。随着数据量的激增、算法复杂度的提高，传统计算机在处理某些特定任务时的效率显得捉襟见肘。而量子计算，作为一项颠覆性的技术，正逐步展现出在机器学习领域中的巨大潜力。量子计算不仅能够加速特定任务的执行，还能为一些经典算法提供更高效的解决方案。今天，我们将深入探讨量子计算如何提升机器学习效率，解析
云计算相关工作岗位有哪些，薪资怎么样？欧米说云云计算腾讯云阿里云云计算
云计算、大数据、人工智能作为新一代信息技术产业，未来发展前景不可估量，就业前途一片光明，自然薪资待遇也不会差。随着亚马逊云、阿里云、华为云等云厂商的快速发展，也产生了大量的岗位需求，同时厂商为了增强自身影响力，也设置了很多证书考试，acp、ace、hcip、hcie等等。在这里想进入相关行业大厂从事云相关的工作的同学可以先考取大厂的对应证书，增加自己简历含金量，从而进入大厂。免费领取阿里云华为认证
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
Python vLLM 实战应用指南 ghostwritten python python 开发语言
文章目录1.vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU加速5.2动态批处理6.总结vLLM是一种高性能的开源深度学习推理引擎，专注于高效的生成式模型推理任务。它通过动态批处理和内存优化技术大幅提高了大模型（如GPT系列）的推理性能，非
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
深度学习模型可视化：通俗易懂的全面解读 Crazy learner 模型部署深度学习人工智能
目录1.什么是深度学习模型可视化？2.张量（Tensors）：深度学习中的核心数据结构3.常见的节点操作**Gather**操作**Transpose**操作**Pow**操作**Add**操作**Mix**操作4.查看模型详情5.可视化工具总结在深度学习领域，理解模型内部的工作原理对于优化、调试和改进模型至关重要。随着神经网络的复杂性日益增加，开发者和研究人员逐渐意识到，可视化不仅是理解模型的一
查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
Python编码系列—Python原型模式：深克隆与高效复制的艺术学步_技术 Python编码 python 原型模式开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
DeepSeek R1 详解：思维链、强化学习和蒸馏前网易架构师-高司机 2025年最新-深度学习+AI DeepSeek和AI工具深度学习 Deepseek
目录思维链强化学习蒸馏DeepSeek是如何做到的?训练过程较小模型基准为什么Deepseek很重要DeepSeekR1常见问题解答来自中国的新型大型语言模型DeepSeekR1的发布在人工智能研究界引起了轰动。这不仅仅是又一次渐进式改进。DeepSeek代表着一次重大飞跃。大多数新的人工智能模型感觉都像是小步前进，DeepSeek-R1则不同。Deepseek的基准在推理任务（数学、编码和科学）
考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
梯度下降法(Gradient Descent) -- 现代机器学习的血液 AOIWB 机器学习人工智能 python
梯度下降法(GradientDescent)–现代机器学习的血液梯度下降法是现代机器学习最核心的优化引擎。本文从数学原理、算法变种、应用场景到实践技巧，用三维可视化案例和代码实现揭示其内在逻辑，为你构建完整的认知体系。优化算法一、梯度下降法的定义与核心原理定义：梯度下降法是一种通过迭代更新参数来最小化目标函数的优化算法，其核心思想是沿着当前点的负梯度方向逐步逼近函数最小值。数学表达：参数更新公式为
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1LiteLLM1.1生成对话补全1.2响应格式(OpenAIFormat)1.3异步调用1.4流式生成对话补全1.5支持的ollama模型2langchain2.1LangChain简介2.2LangChain架构2.3构建简单LLM应用程序(OllamaLLM)2.3.1生成对话补全2.3.2流式生成对话补全2.4聊天模型(ChatOllama)2.4.1Invoke调用2.4.2st
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践 m0_57781768 语言模型人工智能自然语言处理
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践在当今的人工智能领域，越来越多的开发者希望能够在本地运行大型语言模型（LLM），而不依赖于云端服务。这种趋势的兴起主要源于两个重要的需求：隐私保护和成本控制。通过在本地设备上运行LLM，用户的数据不会被发送到第三方服务器，确保了数据的隐私性。同时，在长时间运行的模拟、文本生成、总结等需要大量计算资源的应用中，本地运行可以显著降低成本。本文将深
【QT开发教程】使用Qt进行跨平台（Windows、macOS、Linux、iOS和Android）开发的最佳实践 I'mAlex QT开发教程 qt 开发语言跨平台
Qt是一个强大的跨平台C++框架，使得开发者可以编写一次代码并在多个平台上运行，包括Windows、macOS、Linux、iOS和Android。在跨平台开发过程中，遵循一些最佳实践可以帮助我们提高开发效率和代码质量。本文将介绍使用Qt进行跨平台开发的最佳实践。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质
这是我的第一篇博客流川飞 c++
结束摆烂，看看自己的极限在哪里，两年后回来看自己个人介绍：我是一个大一下学期的男生，就读人工智能专业，性格活泼爱笑[face]emoji:008.png[/face]编程目标：能拿到一份满意的offer，能成为很厉害的程序员如何学习：利用晚上的水课和没课的时间学习编程，到一定水平后参加蓝桥杯类的比赛!我打算每周在编程上花费的时间：35h+我最想进入的一家IT公司：马斯克的公司!
DeepSeek怎么用，DeepSeek使用指南最全合集（保姆级教程） xiecoding.cn deepseek deepseek使用指南 deepseek怎么用 deepseek免费教学 deepseek资料合集
DeepSeek是一款由国内顶尖团队开发的人工智能大模型，旨在为用户提供高效、智能的问答和知识服务。作为国产AI模型的代表，DeepSeek不仅在自然语言处理（NLP）领域表现出色，还在多个应用场景中展现了强大的能力。与ChatGPT等国际知名模型相比，DeepSeek在中文语境下的表现尤为突出，能够更好地理解中文的复杂语义和文化背景。DeepSeek使用资源下载为了方便大家更好地学习和使用Dee
《动手学PyTorch深度学习建模与应用》第二章：2.4-2.6节详解环工人学Python 深度学习 pytorch 人工智能 python 机器学习学习
写在前面：不知不觉已经更了第一个章节，目前的内容都是很基础的内容，有人会问现在ai时代，还有必要学习这些内容吗，我想说的是，越是基础的内容我们越要认真去学习和分析，ai可以快速解决问题，但是我希望我们可以知其所以然，感谢所有支持的收藏和粉丝，希望这些文章对你们有些许帮助！点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写
清华DeepSeek从入门到精通系列PDF全五弹 2501_90737221 pdf 人工智能
资源链接：https://pan.quark.cn/s/e9b7230b1538宝子们，今天要给大家分享一套超级厉害的DeepSeek系列PDF，由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室出品，从入门到精通，全方位带你玩转人工智能!DeepSeek从入门到精通(清华大学指南第一弹)这本PDF是DeepSeek的敲门砖，内容涵盖DeepSeek的基本概念、应用场景以及如何使用DeepSe
AI 进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路轻口味大模型实战人工智能 deepseek 大模型
AI进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路在当今数字化浪潮汹涌澎湃的时代，人工智能（AI）宛如一颗璀璨的明星，照亮了各个领域的创新与发展道路。然而，面对AI这一庞大而复杂的体系，许多人往往感到迷茫无措，不知自己处于何种水平，更不知如何迈向更高的层次。尤其是DeepSeek的出圈，AI的热度更加火爆。无论是普通用户还是AI从业者也变得很迷茫，不知如何应对AI的崛起。本文将依据AI应
AI赋能智能家居，CES Asia 2025论坛深度探讨行业未来赛逸展张胜人工智能科技
在科技飞速发展的当下，人工智能（AI）正以惊人的速度渗透到各个领域，智能家居便是其中备受瞩目的应用场景之一。2025年，第七届亚洲消费电子技术贸易展（CESAsia2025）以“科技重塑生活，创新定义未来”为主题盛大举行，同期举办的“AI赋能未来：从技术创新到商业落地”论坛，聚焦AI在智能家居领域的应用与发展，吸引了众多企业的高度关注。AI重塑智能家居新生态随着人们对生活品质的追求不断提高，智能家
特征提取：如何从不同模态中获取有效信息？ Ash Butterfield 自然语言处理（NLP）专栏 nlp 人工智能
在多模态学习中，特征提取是一个至关重要的过程。它是将原始数据（如文本、图像、视频和语音等）转化为机器能够理解和处理的特征的核心步骤。不同于传统的单一模态任务，在多模态学习中，如何有效地从每种模态中提取出有意义的信息并进行融合，直接影响到最终模型的性能和准确性。本篇文章将详细讲解如何从不同的模态（文本、图像、语音）中进行特征提取，涵盖常用的技术、方法、挑战以及应用。1.什么是特征提取？在机器学习中，
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
如何更加优雅提问：浅谈提示词愚戏师语言模型人工智能自然语言处理
询问是一门艺术，如何优雅高效地提问很可能是未来十年每个人的必备素质参考ISO/IEC23894人工智能系统工程标准第一步：理论基础构建目标：通过结构化分析与实践验证，提升提示词设计的精准度、可控性与生成效率一、提示词设计的核心方法论分阶目标拆解基础层：明确任务类型（生成、推理、分类、创作等）逻辑层：定义输出格式（步骤化、代码块、表格、故事体例等）优化层：嵌入约束条件（长度、风格、知识范围、反例排除
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
英特尔开发板试用：结合OAK深度相机进行评测 OAK中国_官方数码相机
最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合，实现了高效的目标检测和深度信息处理。OpenVINO™：作为英特尔的深度学习推理框架，为开发板和OAK相机提供了强大的推理支持。性能优化：通过模型转换和硬件加速，去实现高
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
基于RF随机森林机器学习算法的回归预测模型MATLAB代码实现了一个回归任务的决策树集成模型。 qq924711725 仿真模型机器学习算法随机森林
基于RF随机森林机器学习算法的回归预测模型MATLAB代码实现了一个回归任务的决策树集成模型。首先从Excel文件中导入数据集，并将数据划分为训练集和测试集。然后，对数据进行归一化处理并转置以适应模型的要求。文章目录MATLAB代码实现说明：MATLAB代码实现说明：运行代码前的注意事项：示例输出：MATLAB代码实现说明：示例输出：以下是一个基于随机森林（RF,RandomForest）机器学习
深度学习开源数据集大全：从入门到前沿念九_ysl AI 人工智能
在深度学习中，数据是模型训练的基石。本文整理了当前最常用且高质量的开源数据集，涵盖图像、视频、自然语言处理（NLP）、语音与音频等方向，帮助研究者和开发者快速定位所需资源。一、图像类数据集1.MNIST简介：手写数字识别领域的“HelloWorld”，包含6万张训练图像和1万张测试图像，尺寸为28×28的灰度图。特点：适合入门级图像分类任务，支持快速验证算法原型28。下载地址：MNIST官网2.I
【Golang】Go语言Web开发之模板渲染景天科技苑 Go语言开发零基础到高阶实战 golang 前端开发语言 Go语言模板渲染模板渲染 golang模板渲染
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，Golang开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flas
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他