Shijunfeng00

Tensorflow1.15实现Transformer(一):使用self-attention来实现文本分类

要学会一个算法，最好的办法还是自己复现一遍
这里也是对自己学习的过程做一个记录了o(￣▽￣)ブ
尽量用最简洁的语言和最短的代码来实现一个Transformer,ViT,BERT,Swin Transformer
这篇主要实现了Transformer里面的Self-Attention，并实践了文本分类问题

Transformer介绍

Transformer结构是google在17年的Attention Is All You Need论文中提出，在NLP的多个任务上取得了非常好的效果，可以说目前NLP发展都离不开transformer。最大特点是抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。
更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的Encoder-Decoder，并在机器翻译中取得了BLEU值得新高。
谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升，堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。

参考资料：

TF 2.0 Keras 实现 Multi-Head Attention
TF 2.0 Keras 实现 Transformer
【从 0 开始学习 Transformer】上篇：Transformer 搭建与理解
【从 0 开始学习 Transformer】下篇：Transformer 训练与评估
【从 0 开始学习 Transformer】番外：导师监督，前瞻掩码
3W字长文带你轻松入门视觉transformer
十分钟理解Transformer
详解Transformer （Attention Is All You Need）

论文阅读：Attention Is All You Need

这里就不怎么重复讨论Transformer的结构问题了，我们探讨下代码的实现问题

Embedding

Embedding目的主要是为了将自然语言处理中离散的单词转化为连续的变量，进而运用神经网络进行训练，具体的，是将单词转化为词向量，可以看作一种无监督聚类算法（或者应该是自监督学习？这里我不是很确定），单词语义相近的对应的词向量会比较相近
" Once again Mr. Costner has dragged out a movie for far longer than necessary. Aside from the terrific sea rescue sequences, of which there are very few I just did not care about any of the characters. Most of us have ghosts in the closet, and Costner’s character are realized early on, and then forgotten until much later, by which time I did not care. The character we should really care about is a very cocky, overconfident Ashton Kutcher. The problem is he comes off as kid who thinks he’s better than anyone else around him and shows no signs of a cluttered closet. His only obstacle appears to be winning over Costner. Finally when we are well past the half way point of this stinker, Costner tells us all about Kutcher’s ghosts. We are told why Kutcher is driven to be the best with no prior inkling or foreshadowing. No magic here, it was all I could do to keep from turning it off an hour in."
如何将这个内容转为一个词向量？
首先要有一个字典，字典有固定的长度，字典囊括了数据集中出现的词，词在字典中的位置按照词在数据集中出现的次数从大到小排列。比如这个字典中，‘the’在评论中出现次数最大，the放在字典的第一个位置上；‘and’出现的次数第二多，所以排在第二 …
评论为“I like this movie！”
‘I’在字典中的index为9；
‘like’在字典中的index为37；
‘this’‘在字典中的index为10；
‘movie’在字典中的index为16；
‘！’在字典中的index为28；
这个评论对应的词向量为[9 37 10 16 28]
我们会训练出一个矩阵，大小为[字典大小，词向量维度]
这个矩阵的每一个行向量，都是对应一个单词的词向量

class Embedding(Layer):
    def __init__(self,vocab_size,model_dim,**kwargs):
        self.vocab_size=vocab_size
        self.model_dim=model_dim
        super(Embedding,self).__init__(**kwargs)
    def build(self,input_shape):
        self.embeddings=self.add_weight(
            shape=(self.vocab_size,self.model_dim),
            initializer="glorot_uniform",
            trainable=True,
            name="embeddings"
        )
        super(Embedding,self).build(input_shape)
    def call(self,inputs):#其实就是简单的取个行向量出来
        inputs=tf.cast(inputs,tf.int32)
        embeddings=tf.gather(self.embeddings,inputs)
        embeddings*=self.model_dim**0.5 #暂时不清楚为什么
        return embeddings
    def get_config(self):
        config=super(Embedding,self).get_config()
        config.update({
            "vocab_size":self.vocab_size,
            "model_dim":self.model_dim
        })
        return config

PositionEncoding

区别如RNN,Transformer模型并没有捕捉顺序序列的能力，也就是说无论句子的结构怎么打乱，Transformer都会得到类似的结果。换句话说，Transformer只是一个功能更强大的词袋模型而已。
为了解决这个问题，论文中在编码词向量时引入了位置编码（Position Embedding）的特征。具体地说，位置编码会在词向量中加入了单词的位置信息，这样Transformer就能区分不同位置的单词了。
那么怎么编码这个位置信息呢？常见的模式有：a. 根据数据学习；b. 自己设计编码规则。在这里作者采用了第二种方式（而在ViT中采用了第一种方式）。那么这个位置编码该是什么样子呢？通常位置编码是一个长度为 model_dim 的特征向量，这样便于和词向量进行单位加的操作

论文给出的编码公式如下：

在上式中， pos表示单词的位置， i 表示单词的维度。作者这么设计的原因是考虑到在NLP任务中，除了单词的绝对位置，单词的相对位置也非常重要。
根据公式

以及

这表明位置 K+P的位置向量可以表示为位置 K 和P的特征向量的线性变化，这为模型捕捉单词之间的相对位置关系提供了非常大的便利
可视化编码的结果可以得到如下图像：

代码实现就是公式所示

class PositionEncoding(Layer):
    def __init__(self,**kwargs):
        super(PositionEncoding,self).__init__(**kwargs)
    def build(self,input_shape):
        def get_position_encoding(seq_len,model_dim):
            position_encoding=np.zeros(shape=(seq_len,model_dim))
            for pos in range(seq_len):
                for i in range(model_dim):
                    position_encoding[pos,i]=pos/(np.power(10000,2*i/model_dim))
            position_encoding[::,::2]=np.sin(position_encoding[::,::2])
            position_encoding[::,1::2]=np.cos(position_encoding[::,1::2])
            return np.expand_dims(position_encoding,axis=0)
        seq_len,model_dim=input_shape.as_list()[1:3]
        self.position_encoding=self.add_weight(
            shape=(1,seq_len,model_dim),
            initializer=Constant(get_position_encoding(seq_len,model_dim)),
            trainable=False,
            name="position_encoding"
        )
        super(PositionEncoding,self).build(input_shape)
    def call(self,inputs):
        return self.position_encoding

ScaledDotProductAttention

这一步就是实现SelfAttention过程
具体内容请参阅开头的阅读资料
Attention的计算方法，整个过程可以分成7步：
如上文，将输入单词转化成嵌入向量；
根据嵌入向量得到 q,k,v 三个向量；
为每个向量计算一个score=q·k
为了梯度的稳定，Transformer使用了score归一化，即除以 model_dim**0.5
对score施以softmax激活函数；
softmax点乘Value值，得到加权的每个输入向量的评分
相加之后得到最终的输出结果
每个 Query 序列对应着一个 Key 序列，但这 Query-Key 组合彼此之间是独立的。完全可以将 Query、Key、Value 堆叠成批，一次运算搞定。矩阵乘法或是转置是针对最后的两个维度，所以只需要保持前置维度匹配（对应，下方注释的要求1.），计算结果和上面完全等效。

Mask（填充遮挡）

如果一个输入句子由于长短不一不方便计算或是其他原因需要补充一些填充标记（pad tokens），显然在输出结果的时候应该把这些无意义的填充标记排除，因此需要一个函数产生此用途的 mask
mask 以乘以一个极大的负数-1e9，然后在加上注意力权重，最终达到使一些位置的 Value 失效的效果
这里tensor在乘以mask后紧跟着就是softmax，一个极大的负数经过softmax后会变为0

    def masks(self,inputs,masking):
        masking=tf.cast(masking,tf.float32)
        masking=tf.tile(masking,[tf.shape(inputs)[0]//tf.shape(masking)[0],1])
        #因为MultiHeadAttention的问题,masking的长度和inputs
        #长度可能并不等价，而是倍数关系，具体为n_head倍
        masking=tf.expand_dims(masking,axis=1)
        outputs=inputs+masking*self.masking_num
        #乘以一个很大的负数，目的是为了让当前位置的数值失效
        return outputs

Lookahead Mask（前瞻遮挡）

前瞻遮挡通常用于需要只考虑序列中的前一部分的时候，这个遮挡将会用在 Transform 的解码器部分，其设计原理是预测一个单词只考虑此单词前的单词，而不考虑此单词后的部分。
这个将会在Transformer的Decoder部分用到，可以暂时不用深究，前瞻遮挡将会配合teacher forcing(导师监督)来实现一个自回归预测的能力
也就是对于翻译问题，Transformer的推理逻辑是
输入一个单词，输出一个单词的翻译结果
输入两个单词和上一步的翻译结果，输出下一个单词的翻译结果
输入三个单词和上一步的翻译结果，输出下一个单词的翻译结果
一直到翻译结束，而这样的过程就不能让Transformer得到未来的信息
他实际是一个上三角mask矩阵

inputs=tf.random.uniform(shape=(5,5))
diag_masks=1-tf.linalg.band_part(tf.ones_like(inputs),-1,0)
paddings=tf.ones_like(inputs)*(-1e9)
outputs=tf.where(tf.equal(diag_masks,0),inputs,paddings)
print(diag_masks)
print(outputs)
print(tf.nn.softmax(outputs))
'''
tf.Tensor(
[[0. 1. 1. 1. 1.]
 [0. 0. 1. 1. 1.]
 [0. 0. 0. 1. 1.]
 [0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0.]], shape=(5, 5), dtype=float32)
tf.Tensor(
[[ 9.1023731e-01 -1.0000000e+09 -1.0000000e+09 -1.0000000e+09
  -1.0000000e+09]
 [ 2.9178846e-01  6.4980388e-01 -1.0000000e+09 -1.0000000e+09
  -1.0000000e+09]
 [ 3.7263584e-01  7.0404112e-01  1.2112439e-01 -1.0000000e+09
  -1.0000000e+09]
 [ 1.0584772e-01  6.7557812e-01  1.6407859e-01  7.9852629e-01
  -1.0000000e+09]
 [ 2.9903996e-01  4.6312714e-01  3.7057233e-01  4.8857903e-01
   3.9391649e-01]], shape=(5, 5), dtype=float32)
tf.Tensor(
[[1.         0.         0.         0.         0.        ]
 [0.41144004 0.5885599  0.         0.         0.        ]
 [0.31540284 0.43933225 0.24526498 0.         0.        ]
 [0.17162041 0.3033889  0.18191071 0.34308    0.        ]
 [0.17983395 0.2119014  0.19316916 0.21736394 0.19773158]], shape=(5, 5), dtype=float32)
'''

更具体的放在Transformer的Decoder部分来说
实现如下

    def lookahead_mask(self,inputs):#前瞻遮挡,上三角矩阵masks
        diag_masks=1-tf.linalg.band_part(tf.ones_like(inputs),-1,0)
        paddings=tf.ones_like(inputs)*self.masking_num
        outputs=tf.where(tf.equal(diag_masks,0),inputs,paddings)#经过softmax,outputs变为下三角矩阵
        return outputs

class ScaledDotProductAttention(Layer):
    def __init__(self,masking=True,lookahead_masking=False,dropout_rate=0,**kwargs):
        self.masking=masking
        self.lookahead_masking=lookahead_masking
        self.dropout_rate=dropout_rate
        self.masking_num=-1e9
        super(ScaledDotProductAttention,self).__init__(**kwargs)
    def masks(self,inputs,masking):
        masking=tf.cast(masking,tf.float32)
        masking=tf.tile(masking,[tf.shape(inputs)[0]//tf.shape(masking)[0],1])
        masking=tf.expand_dims(masking,axis=1)
        outputs=inputs+masking*self.masking_num
        return inputs
    def lookahead_masks(self,inputs):
        ones=tf.ones_like(inputs)
        diag_masking=1-tf.linalg.band_part(inputs,num_lower=-1,num_upper=0)
        paddings=ones*self.masking_num
        outputs=tf.where(tf.equal(diag_masking,0),inputs,paddings)
        return outputs
    def call(self,inputs):
        if self.masking:
            queries,keys,values,masking=inputs
        else:
            queries,keys,values=inputs
        model_dim=queries.shape.as_list()[-1]
        matmul=tf.matmul(queries,tf.transpose(keys,[0,2,1]))
        scaled=matmul/model_dim**0.5
        if self.masking:
            scaled=self.masks(scaled,masking)
        if self.lookahead_masking:
            scaled=self.lookahead_masks(scaled)
        softmax=tf.nn.softmax(scaled)
        softmax=Dropout(self.dropout_rate)(softmax)
        outputs=tf.matmul(softmax,values)
        return outputs
    def get_config(self):
        config=super(ScaledDotProductAttention.self).get_config()
        config.update({
            "masking":self.masking,
            "lookahead_masking":self.lookahead_masking,
            "dropout_rate":self.dropout_rate,
            "masking_num":self.masking_num
        })
        return config

MultiHeadAttention

多头注意力机制是将初始的词向量（第一层）或前一层的输入（第二层开始）通过线性变换转换为多组 Query, Key 和 Value，从而得到不同的输出 Z。最后将所有的输出拼合起来，通过可训练的线性变换W0融合为一个输出：

不过很多实现都是保证了分支数量(n_head)*每个分支的维度(head_dim)等于model_dim，也就是并没有最后一层的线性变换
对最后一个维度进行分组(n_head组)，然后放在第一个维度(batch_size)的维度.
因此前文的mask需要用tf.tile复制很多倍，是因为这里MultiHeadAttention的缘故

class MultiHeadAttention(Layer):
    def __init__(self,n_head=8,head_dim=64,dropout_rate=0.1,masking=True,lookahead_masking=False,trainable=True,**kwargs):
        self.n_head=n_head
        self.head_dim=head_dim
        self.dropout_rate=dropout_rate
        self.masking=masking
        self.lookahead_masking=lookahead_masking
        self.trainable=trainable
        super(MultiHeadAttention,self).__init__(**kwargs)
    def build(self,input_shape):
        self.queries_weight=self.add_weight(
            shape=(input_shape[0][-1],self.head_dim*self.n_head),
            initializer="glorot_uniform",
            trainable=self.trainable,
            name="queries_weight",
        )
        self.keys_weight=self.add_weight(
            shape=(input_shape[0][-1],self.head_dim*self.n_head),
            initializer="glorot_uniform",
            trainable=self.trainable,
            name="keys_weight"
        )
        self.values_weight=self.add_weight(
            shape=(input_shape[0][-1],self.head_dim*self.n_head),
            initializer="glorot_uniform",
            trainable=self.trainable,
            name="values_weight"
        )
        super(MultiHeadAttention,self).build(input_shape)
    def call(self,inputs):
        if self.masking:
            queries,keys,values,masks=inputs
        else:
            queries,keys,values=inputs
        queries=tf.matmul(queries,self.queries_weight)
        keys=tf.matmul(keys,self.keys_weight)
        values=tf.matmul(values,self.values_weight)
        queries=tf.concat(tf.split(queries,self.n_head,axis=-1),axis=0)
        keys=tf.concat(tf.split(keys,self.n_head,axis=-1),axis=0)
        values=tf.concat(tf.split(values,self.n_head,axis=-1),axis=0)
        if self.masking:
            attention_input=[queries,keys,values,masks]
        else:
            attention_input=[queries,keys,values]
        attention=ScaledDotProductAttention(
            masking=self.masking,
            lookahead_masking=self.lookahead_masking,
            dropout_rate=self.dropout_rate,
        )
        attention_out=attention(attention_input)
        outputs=tf.concat(tf.split(attention_out,self.n_head,axis=0),axis=-1)
        return outputs
    def get_config(self):
        config=super(ScaledDotProductAttention,self).get_config()
        config.update({
            "n_head":self.n_head,
            "head_dim":self.head_dim,
            "dropout_rate":self.dropout_rate,
            "masking":self.masking,
            "lookahead_masking":self.lookahead_masking,
            "trainable":self.trainable
        })
        return config

模型构建

现在我们用MultiHeadAttention来构建一个文本分类模型

max_len=256
vocab_size=5000
batch_size=64
model_dim=512
inputs=Input(shape=(max_len,))
masking=Input(shape=(max_len,))
embedding=Embedding(vocab_size=vocab_size,model_dim=model_dim)(inputs)
encoding=PositionEncoding()(embedding)
encoding=Add()([embedding,encoding])
x=MultiHeadAttention(n_head=8,head_dim=64)([encoding,encoding,encoding,masking])
x=GlobalAveragePooling1D()(x)
x=Dense(128,activation='relu')(x)
outputs=Dense(2,activation='softmax')(x)
model=tf.keras.models.Model([inputs,masking],outputs)
model.compile(
    loss="categorical_crossentropy",
    optimizer=tf.keras.optimizers.Adam(lr=0.001),
    metrics=['acc']
)

数据集准备

Imdb数据集

MDB数据集是Keras内部集成的，初次导入需要下载一下，之后就可以直接用了。

IMDB数据集包含来自互联网的50000条严重两极分化的评论，该数据被分为用于训练的25000条评论和用于测试的25000条评论，训练集和测试集都包含50%的正面评价和50%的负面评价。该数据集已经经过预处理：评论（单词序列）已经被转换为整数序列，其中每个整数代表字典中的某个单词。

数据集加载

(x_train,y_train),(x_test,y_test)=tf.keras.datasets.imdb.load_data(num_words=vocab_size,maxlen=max_len)
x_train=sequence.pad_sequences(x_train,maxlen=max_len)
x_test=sequence.pad_sequences(x_test,maxlen=max_len)
y_train=tf.keras.utils.to_categorical(y_train,2)
y_test=tf.keras.utils.to_categorical(y_test,2)
x_train_mask=tf.equal(x_train,0)#填充掩码
x_test_mask=tf.equal(x_test,0)

模型训练

model.fit(
    [x_train,x_train_mask],
    y_train,
    validation_data=([x_test,x_test_mask],y_test),
    batch_size=batch_size,
    epochs=10
)

最终准确率:0.8744

深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
shell逐行读取文件 & 远程操作服务器二进制杯莫停 #Shell编程服务器运维
代码示例whilereadip;doecho"uninstallingtestprogramsin$line"sshroot@$ip'bash-s'
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
编写有内存漏洞的 C++ 代码，并实现内存注入的示例（一个程序注入另一个程序） SmartGridequation C/C++c++开发语言内存漏洞内存注入
实现思路在Windows平台下，可以使用WindowsAPI编写一个程序来对另一个目标程序进行内存注入。基本步骤如下：查找目标进程：通过进程名找到目标进程的ID。打开目标进程：使用OpenProcess函数打开目标进程，获取进程句柄。在目标进程中分配内存：使用VirtualAllocEx函数在目标进程的地址空间中分配一块内存。将数据写入目标进程的内存：使用WriteProcessMemory函数将
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
Vue解析 chaitoufeng2002 vue.js javascript 前端
父组件调用子组件的方法父组件：调用子组件方法import{ref}from'vue';importChildComponentfrom'./ChildComponent.vue';constchildRef=ref(null);constcallChildMethod=()=>{if(childRef.value){childRef.value.childMethod();}};子组件：const
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
深入浅出JVM性能优化：从理论到实践 rider189 java jvm
一、JVM架构与内存模型深度解析1.1JVM运行时数据区全景图方法区（元空间）：存储类信息、常量池等元数据堆内存：对象实例存储核心区域YoungGeneration（新生代）Eden区（对象诞生地）Survivor区（S0/S1，存活对象过渡区）OldGeneration（老年代）虚拟机栈：线程私有，存储栈帧本地方法栈：Native方法调用程序计数器：线程执行位置指示器1.2对象生命周期管理对象创
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
C++20中哪些特性对内存管理有帮助？ c++
C++20引入了多项改进和新特性，这些特性在内存管理方面提供了更强大的支持和更高的灵活性。以下是C++20中对内存管理有帮助的主要特性：一、对齐分配器（AlignedAllocator）C++20引入了对齐分配器，允许开发者在分配内存时指定对齐参数，从而确保分配的内存块满足特定的对齐要求。这在处理需要特定对齐的硬件或数据结构时非常有用。cpp复制std::aligned_alloc(64,1024
前端vscode中好用的scss插件推荐熊宝王前端 vscode scss
一、LiveSassCompilerLiveSassCompiler是VisualStudioCode(VSCode)中非常流行的一个插件，用于将Sass/SCSS文件实时编译为标准的CSS文件。Sass（SyntacticallyAwesomeStyleSheets）是一种CSS预处理器，提供了变量、嵌套、混合（Mixins）、继承等强大功能，而LiveSassCompiler插件可以帮助开发者
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
ERROR: Failed building wheel for pyaudioFailed to build pyaudioERROR: ERROR: Failed to build insta 小李飞刀李寻欢 python audio pyaudio 安装库 python
ERROR:FailedbuildingwheelforpyaudioFailedtobuildpyaudioERROR:ERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(pyaudio)这个错误表明在编译pyaudio时缺少PortAudio开发库。以下是完整解决方案：Linux系统解决方案#1.安装系统
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
单节点MySQL部署 QX_hao MySQL mysql
Ubuntu22.04安装单节点Mysql步骤1：更新软件包列表并安装MySQL更新系统的软件包列表：sudoaptupdatesudoaptupgrade-y安装MySQLServer：sudoaptinstallmysql-server-y检查MySQL服务是否已启动：sudosystemctlstatusmysql如果没有运行，可以手动启动：sudosystemctlstartmysql步骤
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
服务器负载均衡冬冬小圆帽服务器负载均衡 vim
1.安装EPEL仓库EPEL（ExtraPackagesforEnterpriseLinux）仓库提供了额外的软件包，安装HAProxy前需要先启用EPEL仓库。sudoyuminstallepel-release-y2.安装HAProxy通过EPEL仓库安装HAProxy。sudoyuminstallhaproxy-y注意：如果服务器上已安装Docker，可能会干扰HAProxy的安装。建议先关
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
禁止搜索引擎收录网站内容,百度,谷歌,所有等... wangxingps seo 搜索引擎百度 html
第一种、robots.txt方法搜索引擎默认的遵守robots.txt协议，创建robots.txt文本文件放至网站根目录下，编辑代码如下:User-agent:*Disallow:/通过以上代码，即可告诉搜索引擎不要抓取采取收录本网站，注意慎用如上代码：这将禁止所有搜索引擎访问网站的任何部分。如何只禁止百度搜索引擎收录抓取网页1、编辑robots.txt文件，设计标记为:User-agent:B
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
YOLOv8 改进：添加 AKConv（任意采样形状和任意数目参数的卷积）鱼弦人工智能时代 YOLO
YOLOv8改进：添加AKConv（任意采样形状和任意数目参数的卷积）引言在目标检测领域中，YOLO（YouOnlyLookOnce）系列因其速度和效率而受到广泛关注。为了进一步优化模型性能，可以引入创新的卷积操作，例如AKConv，即“任意采样形状和任意数目参数的卷积”。这种卷积能够灵活地调整采样策略，以更好地适应输入特征。技术背景传统卷积运算在采样位置和参数数量上具有固定性，这限制了其对复杂几
《Operating System Concepts》阅读笔记：p408-p448 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第34天，p408-p448总结，总计41页。一、技术总结2.page-replacementalgorithmInmemorymanagement,thealgorithmthatchooseswhichvictimframeofphysicalmemorywillbereplacedbyaneedednewframeofdata.(1)FI
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
ES日志分析喝醉酒的小白 elasticsearch 大数据搜索引擎
日志分析总结：核心错误类型日志中高频出现Client.Timeoutexceeded错误，表明向elasticsearch-logging:9200发起的请求（如获取索引状态/_all/_stats、节点状态/nodes/stats）因超时失败，属于网络请求超时问题。可能原因分析Elasticsearch服务异常：检查elasticsearch-logging服务是否正常运行，是否存在崩溃、重启或
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb