是朴啊朴

【Transformer】《Attention is All You Need》论文笔记和pytorch代码笔记

参考自李沐读论文和pytorch代码

参数设置

## 维度
d_model = 512 # sub-layers, embedding layers and outputs的维度(为了利用残差连接，是一个加法操作)
d_inner_hid = 2048 # Feed Forward(MLP)的维度【d_ff】
d_k = 64 # key的维度
d_v = 64 # value的维度
## 其它
n_head = 8 # 多头注意力机制的数量【h】
n_layers = 6 # encoder/decoder的层数【N】

【】里是论文中的记号

模型主体

1. Encoder

1.1. 模型结构图

是由h=6个完全相同的结构构成，分为两个sub-layers：

1.2.Multi-Head Attention

1.2.1.Attention

Attention function涉及query和key-value pairs
attention的output是value的加权和，权重来自query和key的相似度，由compatibility function计算而来。
计算attention的compatibility function有很多种，比如加性attitive attention(使用query和key不等长)或者乘性dot-product attention。本文选择了一种比较简单的Scaled Dot-Product Attention。query和key做内积，值越大表越相似。因为两个向量的长度一样，内积越大表示余弦越大，夹角越小，越相似。内积为0，则两个向量正交。

1.2.2.Scaled Dot-Product Attention

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

矩阵乘法可以并行化，与CNN和RNN不同之处。
1个query与 $d_k$ 个key做点乘，计算出来 $d_k$ 个值，通过一个softmax，得到 $d_k$ 个和为1的权重。
Scaled体现在 $\frac{1}{\sqrt{d_k}}$ ，因为 $d_k$ 很大的情况下，做softmax，权重非0即1，从而导致梯度消失。有点像蒸馏logits。

使用 $\frac{1}{\sqrt{d_k}}$ 的原因是：假设q和k是均值为0方差为1的iid变量，他们的点积 $q·k=\sum_{i=1}^{d_k}q_ik_i$ 的均值为0方差为 $d_k$ 。所以scaled操作让方差变为1。

1.2.3.Multi-Head Attention

$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O$
$head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)$
相当于将Q、K、V投影h次到不同的低维空间，相当于用不同表征子空间的pos算attention，有点像CNN的通道。
$W_i^Q,W_i^K\in R^{d_{model}×d_k}$ , $W_i^V\in R^{d_{model}×d_v}$ , $W^O\in R^{hd_v×d_{model}}$ ，投影的矩阵，参数可学习
$h=8,d_k=d_v=d_{model}/h=64$
输入的时候Q、K、V其实是一样的，第一层都是input_embedding+positional encoding

1.3.Feed Forward

简单的全连接层，表示为 $FFN(x)=max(0,xW_1+b_1)W_2+b_2$
- max为Relu的激活函数
- $W_1$ 的维度是 $d_{model},d_{ff})$ , $W_2$ 的维度是 $d_{ff},d_{model})$ ， $d_{ff}$ 刚好是 $d_{model}$ ，相当于维度先放大四倍再复原
- 也相当于两个卷积核大小为1的卷积层
6个layer的FF参数不同，但是同一层的FF是一样的，对每一个词都要作用一次

1.4.其它部分

Input Embedding：输入为word序列，转换为词嵌入tensor
Positional Encoding：因为attention计算是对整体做，打乱也是一样的，所以要加上相对或者绝对的位置信息。是和input embedding直接相加的，所以维度也是 $d_{model}$ ，位置信息的计算有很多方式，本文用的sin和cos函数。
- $PE(pos,2i)=sin(pos/10000^{2i/d_{model}})$
- $PE(pos,2i+1)=cos(pos/10000^{2i/d_{model}})$
  - pos代表词的位置；i代表第几维，取值[0,d_model)，就是将三角函数缩放成d_model个不同的函数
- 选择三角函数的原因是可以很好的表示相对位置关系，因为 $PE_{pos+k}$ 可以用 $PE_{pos}$ 的线性方程所表示
- 正弦两角和公式 $s i n (p o s + k) = s i n (p o s) c o s (k) + c o s (p o s) s i n (k)$ ，
  
  即 $P E (p o s + k, 2 i) = P E (p o s, 2 i) c o s (k) + P E (p o s, 2 i + 1) s i n (k)$ ，省略维度
  
  当k是一个常数时， $s i n (k)$ 和 $c o s (k)$ 也是常数
residual connection和layer normalization：接在每个sub-layers之后，表示为 $L a y e r N o r m (x + S u b l a y e r (x))$
- residual connection 残差连接
- layer normalization
  - normalizatoin的作用是将数据分布变为均值为0，方差为1。
  - 目的防止数据在送入激活函数之前，落入激活函数的饱和区，导致梯度消失。
  - Batch Nomalization: 在每一层的每一批数据(一个batch里的同一通道)上进行归一化。
  - Layer Normalization: 在每一个样本(一个样本里的不同通道)上计算均值和方差。目的就是让每一层的分布稳定下来，让后面的层可以在前面层的基础上安心学习知识。

2.Decoder

2.1.模型结构图

2.2.Masked Multi-Head Attention(self-attention)

decoder增加的部分，在预测的时候只能看到之前位置，不能看到之后的位置。在计算attention时softmax之前，使用一个很大的负数替换mask位置的attention，使其经过softmax的结果很接近0。

2.3.Multi-Head Attention(encoder-attention)

Q：decoder_output
K：encoder_output
V：encoder_output

2.4 输入

以翻译为例：
输入：我爱中国
输出： I Love China

Decoder执行步骤

Time Step 1
- 初始输入：起始符 + Positional Encoding（位置编码）
- 中间输入：（我爱中国）Encoder Embedding
- 最终输出：产生预测“I”
Time Step 2
- 初始输入：起始符 + “I”+ Positonal Encoding
- 中间输入：（我爱中国）Encoder Embedding
- 最终输出：产生预测“Love”
Time Step 3
- 初始输入：起始符 + “I”+ “Love”+ Positonal Encoding
- 中间输入：（我爱中国）Encoder Embedding
- 最终输出：产生预测“China”
  参考自知乎

3.代码

3.1.Encoder总体架构

class Encoder(nn.Module):
    ''' A encoder model with self attention mechanism. '''
    def __init__(
            self, n_src_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, dropout=0.1, n_position=200, scale_emb=False):

        super().__init__()

        self.src_word_emb = nn.Embedding(n_src_vocab, d_word_vec, padding_idx=pad_idx) # 【Input Embedding层】
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position) # 【Positional Encoding】
        self.dropout = nn.Dropout(p=dropout)
        self.layer_stack = nn.ModuleList([
            EncoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)]) # 【Encoder Layer】*n_layers
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6) # 【layer norm】
        self.scale_emb = scale_emb # boolean, 是否scaled embed
        self.d_model = d_model

    def forward(self, src_seq, src_mask, return_attns=False):

        enc_slf_attn_list = []

        # -- Forward
        enc_output = self.src_word_emb(src_seq)
        if self.scale_emb:
            enc_output *= self.d_model ** 0.5 # 不懂为什么这样做
        enc_output = self.dropout(self.position_enc(enc_output))
        enc_output = self.layer_norm(enc_output)

        for enc_layer in self.layer_stack:
            enc_output, enc_slf_attn = enc_layer(enc_output, slf_attn_mask=src_mask)
            enc_slf_attn_list += [enc_slf_attn] if return_attns else []

        if return_attns:
            return enc_output, enc_slf_attn_list
        return enc_output,

3.2.Positional Encoding

class PositionalEncoding(nn.Module):

    def __init__(self, d_hid, n_position=200):
        super(PositionalEncoding, self).__init__()

        # Not a parameter
        self.register_buffer('pos_table', self._get_sinusoid_encoding_table(n_position, d_hid))

    def _get_sinusoid_encoding_table(self, n_position, d_hid):
        ''' Sinusoid position encoding table '''
        # TODO: make it with torch instead of numpy

        def get_position_angle_vec(position):
            return [position / np.power(10000, 2 * (hid_j // 2) / d_hid) for hid_j in range(d_hid)] # 2*(hid_j//2)让2i和2i+1都对应2i
		
        sinusoid_table = np.array([get_position_angle_vec(pos_i) for pos_i in range(n_position)]) # pos(0,200)
        sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])  # dim 2i (0::2表示从0开始，每跳2个截取1个）
        sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])  # dim 2i+1

        return torch.FloatTensor(sinusoid_table).unsqueeze(0)

    def forward(self, x):
        return x + self.pos_table[:, :x.size(1)].clone().detach() # x + pos_encoding(x) 截取了x维度的pos_encoding

3.3.EncoderLayer

包含两个sub_layers

class EncoderLayer(nn.Module):
    ''' Compose with two layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(EncoderLayer, self).__init__()
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout) # 包含了residual network&layer norm
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(self, enc_input, slf_attn_mask=None):
        enc_output, enc_slf_attn = self.slf_attn(
            enc_input, enc_input, enc_input, mask=slf_attn_mask) # 输入都是enc_input
        enc_output = self.pos_ffn(enc_output)
        return enc_output, enc_slf_attn

MultiHeadAttention

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''

    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()
				
        # d_k=d_v=d_model/n_head = 512/8 = 64
        self.n_head = n_head # 8
        self.d_k = d_k # 64
        self.d_v = d_v # 64

        # 投影矩阵w,Linear一起表示，之后通过view重构shape
        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)
        self.fc = nn.Linear(n_head * d_v, d_model, bias=False) # concat后接一个linear

        self.attention = ScaledDotProductAttention(temperature=d_k ** 0.5)

        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)


    def forward(self, q, k, v, mask=None):
				# q,k,v其实是相同的
        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, len_k, len_v = q.size(0), q.size(1), k.size(1), v.size(1)

        residual = q # residual是其中一个输入

        # Pass through the pre-attention projection: b x lq x (n*dv)
        # Separate different heads: b x lq x n x dv
        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)

        # Transpose for attention dot product: b x n x lq x dv
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2)

        if mask is not None:
            mask = mask.unsqueeze(1)   # For head axis broadcasting.

        q, attn = self.attention(q, k, v, mask=mask)

        # Transpose to move the head dimension back: b x lq x n x dv
        # Combine the last two dimensions to concatenate all the heads together: b x lq x (n*dv)
        q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1)
        q = self.dropout(self.fc(q))
        q += residual

        q = self.layer_norm(q)

        return q, attn

ScaledDotProductAttention

class ScaledDotProductAttention(nn.Module):
    ''' Scaled Dot-Product Attention '''

    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)

    def forward(self, q, k, v, mask=None):

        attn = torch.matmul(q / self.temperature, k.transpose(2, 3))

        if mask is not None:
            attn = attn.masked_fill(mask == 0, -1e9) # mask为0，用一个很大的负数代替

        attn = self.dropout(F.softmax(attn, dim=-1))
        output = torch.matmul(attn, v)

        return output, attn

PositionWiseFeedForward

class PositionwiseFeedForward(nn.Module):
    ''' A two-feed-forward-layer module '''

    def __init__(self, d_in, d_hid, dropout=0.1):
        super().__init__()
        self.w_1 = nn.Linear(d_in, d_hid) # position-wise
        self.w_2 = nn.Linear(d_hid, d_in) # position-wise
        self.layer_norm = nn.LayerNorm(d_in, eps=1e-6)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):

        residual = x

        x = self.w_2(F.relu(self.w_1(x)))
        x = self.dropout(x)
        x += residual

        x = self.layer_norm(x)

        return x

你可能感兴趣的:(pytorch,深度学习,人工智能,nlp)

AIGC重塑文化娱乐产业 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AIGC重塑文化娱乐产业概述与关键词关键词：AIGC、文化娱乐产业、人工智能生成内容、技术变革、实际应用摘要：随着人工智能技术的快速发展，AIGC（人工智能生成内容）正在成为文化娱乐产业的重要变革力量。本文将深入探讨AIGC的基本概念、核心技术、应用场景以及在音乐、影视、文学、游戏和虚拟现实等多个领域的实际应用，分析其对文化娱乐产业带来的深远影响和未来发展趋势。引言近年来，人工智能技术迅猛发展，特
PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）进取星辰 PyTorch 深度学习实战深度学习 pytorch transformer
在上一篇文章中，我们探讨了循环神经网络（RNN）及其在文本分类中的应用。本文将介绍Transformer模型的基本原理，并使用PyTorch和HuggingFace的transformers库实现一个简单的机器翻译模型。我们将基于本地的中英文文本文件进行实战演练。一、Transformer基础Transformer是一种基于自注意力机制（Self-Attention）的神经网络架构，由Vaswan
使用 ByteDance 的 UI-TARS Desktop 探索 AI 驱动的 GUI 自动化新前沿码事漫谈 AI ui 人工智能自动化
文章目录UI-TARSDesktop是什么？技术亮点应用场景如何快速上手？与其他技术的对比未来展望结语随着人工智能技术的快速发展，AI正在从单纯的文本生成和图像识别迈向更复杂的交互场景。ByteDance近期推出的UI-TARSDesktop（基于其强大的UI-TARS视觉-语言模型）为我们展示了一种全新的可能性：通过自然语言控制计算机，实现图形用户界面（GUI）的智能化自动化。本文将围绕GitH
人工智能 - SpatialLM：三维空间理解的开源大语言模型天机️灵韵人工智能 #VLA 具身智能语言模型人工智能自然语言处理
项目概述SpatialLM是由杭州群核科技（“杭州六小龙”之一）于GTC2025大会上开源的三维空间理解大语言模型。该项目旨在通过多模态数据处理能力，将非结构化的三维几何数据（如点云、视频）转化为机器可读的结构化场景描述，为机器人导航、建筑设计、AR/VR等领域提供高层次的语义理解支持。项目官网：SpatialLMhttps://manycore-research.github.io/Spatia
Light创造营 2025 评选规则人工智能腾讯云云计算
一、活动说明2025Light创造营由腾讯公益慈善基金会、厦门大学教育发展基金会联合主办，腾讯优图实验室、厦门大学人工智能研究院、腾讯云智能、腾讯技术公益联合承办，旨在连接更多元的力量，将AI技术应用到更多解决社会问题、创造社会价值的场景中。本届Light技术公益创造营面向高校学生群体，围绕AI+社会公益议题（不限方向），征集技术公益解决方案。我们希望通过发掘更多未来可期的学生群体力量，收获不同视
【行业应用篇】【2024年中国人工智能各行业应用研究报告】再见孙悟空_ 【2025 AI学习从零单排系列】【2025AI工具合集】人工智能 DeepSeek AIGC AI AI行业应用人工智能行业应用人工智能报告
目录前言行业分类对照表各行业AI应用详解（A-T分类）总结与展望前言•背景：人工智能技术快速发展，正深刻改变各行业的生产生活方式。•目的：探讨AI在制造业、医疗、金融、农业等领域的应用现状、趋势与潜力。•内容范围：覆盖20个行业，分析AI在智能生产、精准管理、风险预警等方面的具体应用。行业分类对照表行业代码行业名称行业代码行业名称A农、林、牧、渔业K房地产业B采矿业L租赁和商务服务业C制造业M科学
使用LangChain和中文羊驼2.0搭建离线版的ChatPDF 大模型常客 langchain 人工智能 ai agi 经验分享笔记
本文的目标是搭建一个离线版本的ChatPDF（支持中英文），让你随心地与你想要阅读的PDF对话，借助大语言模型提升获取知识的效率。除此之外，你还可以：了解使用LangChain完整的流程。学习基于向量搜索和Prompt实现一个文档问答机器人的方法原理。了解如何使用llama.cpp量化大模型的方法。了解如何使用深度学习中常用的向量数据库。为了让更多的同学看懂，我会尽量写的小白一点。如果你是有经验的
Linux系统增加用户用于深度学习不要绝望总会慢慢变强视觉大作战 linux 运维服务器深度学习人工智能
首先是为自己创建一个新用户名sudouseradd-mnewuser#增加一个newuser用户sudopasswdnewuser#为newuser用户设置密码sunewuser#切换到newuser用户如何切换用户界面的Bashsudochsh-s/bin/zshluoshiyong#配置zshsudochsh-s/bin/bashluoshiyong#配置bash如何使用Anaconda环境创
大模型算法岗面试题(含答案) X.Cristiano LLM 大模型人工智能
一、基础篇目前主流的开源模型体系有哪些？Transformer体系：由Google提出的Transformer模型及其变体，如BERT、GPT等。PyTorchLightning：一个基于PyTorch的轻量级深度学习框架，用于快速原型设计和实验。TensorFlowModelGarden：TensorFlow官方提供的一系列预训练模型和模型架构。HuggingFaceTransformers：一
NLP高频面试题（十三）——什么是大模型幻觉，如何解决大模型幻觉 Chaos_Wang_ NLP常见面试题自然语言处理人工智能
深入理解大模型幻觉及其解决方案所谓大模型幻觉，是指LLM在生成文本时出现看似流畅合理但实际上却偏离事实甚至无中生有的内容。这不仅严重影响了模型输出的可靠性，在某些敏感领域（如医疗、法律）可能造成严重后果。本文将深入分析大模型幻觉产生的原因、分类与检测方法，并提出有效的解决策略，帮助更好地理解并应对这一挑战。一、什么是大模型幻觉？大模型幻觉（Hallucination）是指大型语言模型在生成文本时，
《深入浅出LLM基础篇》（四）：主流大模型介绍 GoAI 深入浅出AI 深入浅出LLM 自然语言处理NLP 大模型 LLM 人工智能 llama chatglm
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
DeepSeek 接入WPS保姆级教程来了（视频+文字版）程序员辣条 wps 人工智能 Deepseek 大模型产品经理大模型学习大模型教程
最近有很多小伙伴想尝试deepseek接入WPS。有的小伙伴测试成功，但也有遇到各种各样问题的。所以我做了一个视频版本的教程以供大家观看。视频中硅基流动注册网址：https://cloud.siliconflow.cn/i/tJwYxNTE文字版讲解今天我们讲讲怎么将最近爆火的DeepSeek接入常用的WPS文档，实现人工智能对已有文档的检查、归纳、提炼、总结，或者是一些故事和诗歌的创作。经常用W
AI在个性化广告创意生成中的应用杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据人工智能 ai
AI在个性化广告创意生成中的应用关键词：AI、个性化广告创意生成、用户画像、深度学习、自然语言处理、计算机视觉摘要：本文深入探讨了AI在个性化广告创意生成中的应用。首先介绍了相关背景，包括目的范围、预期读者等内容。接着阐述了核心概念及联系，详细讲解了核心算法原理与操作步骤，并通过数学模型和公式进行理论支持。通过项目实战展示了代码实现与分析，探讨了实际应用场景。还推荐了学习工具和资源，最后总结了未来
生成式AI驱动的高分子材料研发与应用 keyan_889 材料人工智能材料科学高分子化学 AI 航空航天电力工业硕博研究生
近年来，生成式人工智能（如大语言模型）在材料科学领域掀起革命性浪潮，其核心能力（从海量数据中挖掘构效关系、实现分子逆向设计）正在颠覆传统材料研发模式。以聚合物为例，传统依赖实验试错或量子计算的设计方法面临周期长、成本高、多目标优化困难等瓶颈，而生成式AI通过“数据驱动+智能生成”范式，可快速预测材料性能、生成新型分子结构，加速从实验室到产业化的进程。据《Nature》子刊统计，2020年以来基于生
当AI将“思维工业化”，生成式人工智能（GAI）认证引领“人类思考“新航向技能咖生成式人工智能认证 GAI认证人工智能
在科技日新月异的今天，人工智能（AI）已悄然渗透到我们生活的方方面面，其影响之深、范围之广，前所未有。生成式人工智能（GenerativeAI,GAI）作为AI领域的一颗璀璨新星，更是以其独特的魅力和无限的可能，引领着新一轮的技术革命。然而，随着AI技术的不断进步，一个令人深思的问题逐渐浮出水面：当AI将“思维工业化”，即通过将复杂的思维过程简化为标准化的算法流程，人类的思考价值何在？本文将从这一
chatgpt赋能Python-python_docx_目录李自提 ChatGpt python chatgpt 开发语言计算机
简介Python是一种非常优秀的编程语言，主要用于数据分析、机器学习、人工智能等领域。在这些领域中，常常需要使用文档处理相关的工具，例如MicrosoftWord。在使用Python编程的过程中，文档处理是非常常见的操作，因此Python的docx库就显得非常重要。Python的docx库是专门用于处理MicrosoftWord文档的Python库，它非常实用，能够读取、编辑、创建以及生成Word
DeepSeek和Kimi在Neo4j中的表现 minaMoonGirl 语言模型人工智能自然语言处理
以下是2个最近爆火的人工智能工具，DeepSeek:DeepSeekKimi:Kimi-会推理解析，能深度思考的AI助手1、提示词：你能帮我生成一个知识图谱吗，等一下我会给你一篇文章，帮我从内容中提取关键要素，然后以Neo4j的语法的形式构建知识图谱2、待处理文字：喂给它的文字是从https://www.zhihu.com/question/361137050/answer/3186161914复
写给孩子和极客的趣味数学 --“自动驾驶背后的数学” 专栏导读赛卡自动驾驶背后的数学自动驾驶人工智能机器学习 python 学习 pytorch numpy
专栏链接：自动驾驶背后的数学一、专栏逻辑图谱深度学习进阶视觉感知与多传感器融合基础工具与决策流程10.激活函数解析6.视觉坐标变换体系7.视觉优化与融合8.全流程解析2.传感器数据到控制指令的函数嵌套1.10岁孩子就能读懂自动驾驶背后的数学密码3.特征提取中的线性变换与非线性激活4.多模态传感器融合建模5.坐标映射与数据融合概述9.坐标映射轻快版PiDay趣味开篇基础工具与决策流程视觉感知与多传感
为何AI系统比以往任何时候都更需要红队测试 FreeBuf- 资讯人工智能
AI系统已深度融入现代生活，但并非无懈可击。红队测试作为一项关键技术，正通过系统性地挖掘AI漏洞，显著提升其安全性与可靠性。随着人工智能技术的快速迭代，这种全面测试的需求愈发迫切，不仅能防范潜在危害，更能确保技术按预期发挥作用。值得警惕的是，AI缺陷可能引发严重后果，从决策偏见蔓延到数据安全危机。通过严谨的系统评估，我们不仅能守护自身利益，更能维护社会公共福祉。在AI技术突飞猛进的当下，构建完善的
Go最全Golang AI框架：探索人工智能与Go语言的结合，Golang开发面试问题回答技巧 2401_84904597 go 学习面试
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.常见的GolangAI框架在人工智能领域，有
Elasticsearch 入门到精通-Ansj分词器的安装和使用王stone elasticsearch elasticsearch 大数据 big data
一、版本和对应关系pluginelasticsearch7.6.27.6.27.7.07.7.07.7.17.7.17.8.07.8.07.8.17.8.17.9.07.9.07.9.17.9.17.9.27.9.27.9.37.9.3二、安装步骤1、下载安装ES对应PluginRelease版本a.GitHub-NLPchina/elasticsearch-analysis-ansjb.解压el
AI Tokenization spencer_tseng AI AI Tokenization
AITokenization人工智能分词初步了解类似现在这个，一格子+一格子，拼接出来的，一行或者一句，像不像，我们人类思考的时候组装出来的话，并用嘴说出来了呢。
ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型小众AI AI开源人工智能 excel 算法
GitHub：https://github.com/ImagineAILab/ai-by-hand-excel更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI通过Excel的形式实现并演示人工智能与深度学习的核心算法和概念，让初学者可以动手操作并理解AI的运行原理，包括矩阵乘法、MLP、RNN、Transformer、ResNet等，以独特且浅显易懂的形式，降低
大模型推理能力的局限性人工智能
0前言LLM凭借其生成连贯文本、翻译语言甚至进行对话的能力，彻底改变人工智能领域。然而，尽管这些模型表现出色，它们在推理和理解复杂上下文方面仍然面临重大挑战。这些模型擅长识别并模仿训练数据中的模式，但当任务需要真正的理解和逻辑推理时，它们往往遇困。可能导致：长对话中的不一致难以关联分散的信息在长篇叙述中难以保持上下文一致性深入理解这些推理问题对于改进未来LLM的发展和应用至关重要。1关键推理挑战1
数字化供应链顶层架构规划设计方案数智化领地数字仓储智慧物流智慧仓储物流园区数据库架构大数据
一、数字化战略与目标在规划数字化供应链顶层架构时，首先要明确数字化战略的核心目标。这包括提高供应链的透明度、增强供应链的韧性、优化运营成本、提升客户服务水平以及实现可持续发展。为实现这些目标，需要制定一套全面的数字化战略，包括技术投资、人才培养、流程优化等方面。二、技术选型与架构技术选型是数字化供应链建设的关键环节。我们需要选择成熟、稳定且可扩展的技术方案，如云计算、大数据、人工智能、物联网等。在
Spring AI Alibaba快速使用 Charge8 #Spring AI Spring AI Spring AI快速使用
AI时代，Java程序员也需要与时俱进，这两个框架必须掌握。一个是SpringAI一个是SpringAlibabaAI。SpringAI是一个AI工程领域的应用程序框架，它的目标是将Spring生态系统的设计原则应用于人工智能领域。但是，SpringAI不支持获取接入国内的大部分常见模型的，比如文心一言、通义千问等。所以，对于国内开发者来说，能够正常使用（不需要魔法）SpringAI就是刚需了，即
腾讯云大模型知识引擎 + DeepSeek：打造懒人专属的谷歌浏览器翻译插件荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 腾讯云云计算
科技文章：腾讯云大模型知识引擎+DeepSeek：打造懒人专属的谷歌浏览器翻译插件摘要：随着人工智能技术的飞速发展，尤其是大模型技术的不断突破，智能翻译逐渐成为人们日常互联网活动中不可或缺的一部分。本文将介绍如何将腾讯云大模型知识引擎与DeepSeek技术结合，打造一款懒人专属的谷歌浏览器翻译插件。通过分析技术实现、核心功能以及用户体验优化，探索如何利用AI增强翻译的智能化与便捷性，极大提升跨语言
MediaPipe实时机器学习框架 EngineerSuTao 机器学习人工智能
MediaPipeMediaPipe是Google推出的一个实时机器学习框架，主要用于手势识别、人体姿态追踪、人脸检测等计算机视觉任务。✅跨平台支持（可在PC、Android、iOS上运行）✅轻量级（可在移动设备上实时运行）✅无需深度学习背景（简单调用API就能实现复杂的AI视觉任务）MediaPipe能做什么？模块作用应用场景Hands手部关键点检测（21关键点）手势识别、手语翻译、虚拟鼠标Po
轻量级AI革命：无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配推荐
随着人工智能技术的快速发展，大语言模型已成为推动产业智能化的重要工具。在这一领域，DeepSeek系列模型凭借其创新的架构和高效的性能，成为众多开发者和企业关注的焦点。而其中的R1-1.5B模型，作为家族中参数量最小、资源需求最低的版本，更是备受青睐。下面就让我们来看看DeepSeek各模型之间的性能差异、应用场景，以及部署R1-1.5B模型时所需的云服务器配置。DeepSeek开源模型官方文档一
OneFlow深度学习框架介绍技术探秘者人工智能 oneflow
目录第一章：OneFlow深度学习框架引言1.1深度学习框架的重要性1.2OneFlow框架的诞生背景1.3本章内容概要第二章：OneFlow框架基础2.1OneFlow框架的安装与配置2.1.1环境准备2.1.2安装OneFlow框架Linux系统安装Windows系统安装MacOS系统安装2.1.3配置OneFlow框架2.2OneFlow框架的核心概念2.2.1张量（Tensor）2.2.2
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他