baby_hua

读书笔记：多Transformer的双向编码器表示法(Bert)-4

多Transformer的双向编码器表示法

Bidirectional Encoder Representations from Transformers，即Bert；

第二部分探索BERT变体

从本章开始的诸多内容，以理解为目标，着重关注对音频相关的支持（如果有的话）；

BERT变体：ALBERT、RoBERTTa、ELECTRA、SpanBERT、基于知识蒸馏；

ALBERT，A Lite version of BERT，意为BERT模型的精简版；它对BERT的架构做了一些改变，以尽量缩短训练时间；
RoBERTTa，Robustly Optimized BERT Pretraining Approach，意为稳健优化的BERT预训练方法，是目前比较流行的BERT变体，被应用到许多先进系统，其工作原理与BERT类似，但预训练步骤商有一些变化；
ELECTRA，Efficiently Learning an Encoder that Classifies Token Replacements Accurately，意为高效训练编码器如何准确分类替换标记，特别的ELECTRA使用一个生成器（generator）和一个判别器（discriminator），并使用替换标记检测这一新任务进行预训练；
SpanBERT，它被广泛应用于问答任务和关系提取任务；

ALBERT

《ALBERT：A Lite BERT for Self-supervised Learning of Language Representations》

BERT-base有1.1亿个参数，这使得它很难训练，且推理时间较长；

ALBERT的参数量更少，它通过：跨层参数共享、嵌入层参数因子分解，来减少参数量；

这两种方式可以有效缩短BERT模型训练时间和推理时间；

跨层参数共享

我们知道BERT-base由12层编码器组成，所有编码器层的参数将通过训练获得，但在跨层参数共享的情况下，不是学习所有编码器层的参数，而是只学习第一层编码器的参数，然后将第一层编码器的参数与其他所有编码器层共享；

应用跨层参数共享时的几种方式：

全共享：其他编码器的所有子层共享编码器1的所有参数（默认所使用的）；
共享前馈网络层：只将编码器1的前馈网络层的参数与其他编码器的前馈网络层共享；
共享注意力层：只将编码器1的多头注意力层的参数与其他编码器的多头注意力层共享；

嵌入层参数因子分解

BERT使用WordPiece词元分析器创建WordPiece标记，WordPiece标记的嵌入大小被设定为与隐藏层嵌入的大小（特征大小）相同，但WordPiece嵌入式无上下文信息的特征，它是从词表的独热（one-hot）编码向量中习得的，而隐藏层嵌入是由编码器返回的有上下文信息的特征；

使用：

V表示词表大小（BERT词表大小为30000）
H表示隐藏层嵌入大小
E表示WordPiece嵌入的大小；

为了将更多信息编码到隐藏层嵌入中，通常将隐藏层嵌入的大小设置为较大的一个数（BERT-base是768）；

WordPiece嵌入和隐藏层嵌入都是通过训练学习的，将二者大小设置的相同，会增加需要学习的参数数量；为避免这种情况，可以使用“嵌入层参数因子分解方法”，将嵌入矩阵分解成更小的矩阵；

通过分解：

我们将独热编码向量投射到低维嵌入空间V x E；
然后将这个低维嵌入投射到隐藏空间 E x H
即不是直接将词表的独热编码向量投射到隐藏空间V x H；

也就是说，我们不是直接投射V x H，而是将这一步分解为 V x E和 E x H；

V = 30000、E = 128、H = 768，可以通过如下步骤投射 V x H

将词表V的独热编码向量投射到低维WordPiece嵌入的大小E，即V x E；
再将WordPiece嵌入大小E投射到隐藏层H中，即E x H；

ALBERT的训练

ALBERT使用了掩码语言模型构建任务进行了预训练，但并没有用下句预测任务，而是使用“句序预测任务”（sentence order prediction，SOP）这一新任务；

研究人员指出：相比掩码语言模型，下句预测并不是一个难的任务；句序预测是基于句子间连贯性，而不是基于主题预测；

句序预测也是一个二分类任务：在给定句子对中，两个句子的顺序是否被调换；模型的目标是分析句子对事属于正例（句子顺序没有互换）还是负例（句子顺序互换）；

相比BERT，ALBERT的参数比较少；ALBERT-xxlarge配置的模型在多个语言基准数据集上的性能表现明显优于BERT-large；可以作为BERT的一个很好的替代品；

# 可以像使用BERT那样使用ALBERT模型
from transformers import AlbertTokenizer, AlbertModel

model = AlbertModel.from_pretrained('albert-base-v2')
tokenizer = AlbertTokenizer.from_pretrained('albert-base-v2')

sentence = "I am good"
imputs = tokenizer(sentence, reutrn_tensors = 'pt')

# inputs
# {
#     'input_ids': 
#     'token_type_ids':
#     'attention_mask':
# }

hidden_rep, cls_head = model(**inputs)

RoBERTTa

《RoBERTa：A Robustly Optimized BERT Pretraining Approach》

RoBERTTa本质还是BERT，只是在预训练过程中有如下变化：

在掩码语言模型构建任务重使用动态掩码而非静态掩码；
不执行下句预测任务；
以大批量的方式进行训练；
使用字节级字节对编码作为子词词元化算法；

静态掩码，指在预处理阶段完成随机掩盖15%标记的处理只做了一次，在多次迭代训练中预测的都是相同的掩码标记；

复制10次句子并进行随机掩盖，然后在多轮遍历训练中，依次使用每个掩盖后的句子；

研究发现，下句预测任务对预训练BERT模型并不是真的有用；因此RoBERTa中，只用了掩码语言模型构建任务来训练模型，输入是一个完整的句子，它是从一个或多个文件中连续采样而得得，输入最多由512个标记组成，如果输入达到一个文件的末尾，那么就从下一个文件开始采样；

BERT的预训练有100万步，批量大小为256；而RoBERTa的批量大小为8000，共30万步（用较大的批量进行训练可以提高模型的速度和性能）；

字节级字节对编码：使用字节级序列，所使用的词表有50000个标记；

from transformers import RobertaConfig, RobertaModel, RobertaTokenizer

model = RobertaModel.from_pretrained('roberta-base')
model.config

tokenizer = RobertaTokenizer..from_pretrained('roberta-base')

tokenizer.tokenize("I am good")

ELECTRA

ELECTRA没有使用掩码语言模型构建任务作为预训练目标，而是使用一个叫做替换标记检测的任务进行预训练（并且仅使用了这个任务，下句预测也没用）；

使用另一个标记进行替换，并训练模型判断标记是实际标记还是替换后的标记；

之所以这样做是因为，掩码语言模型构建使用了[MASK]标记，但在下有任务中，这个标记并不存在，这导致了预训练和微调之间的不匹配，使用替换标记检测的任务解决了预训练和微调之间的不匹配问题；

“判断标记是实际标记还是替换后的标记”的模型成为判别器，仅做分类；

将一个句子随机使用[MASK]标记进行替换，然后送入另一个BERT模型，以预测被掩盖的标记，这个模型叫生成器，它会返回标记的概率分布；
使用生成器生成的标记替换给定句子中的[MASK]标记；
训练判别器，训练它对标记进行分类；
使用判别器，每个标记都会得到一个判别/分类结果，表示各个表示是替换标记还是实际标记；

基本上来说，判别器就是ELECTRA模型，训练结束后生成器可以移除；

生成器执行的是掩码语言模型构建任务
生成器使用sigmoid函数的前馈网络层，返回标记是实际标记还是替换标记；

为了更高效的训练ELECTRA模型，可以在生成器和判别器之间共享权重，前提是二者大小相同，如果不同的话，可以使用较小的生成器，仅共享生成器和判别器之间的嵌入层（标记嵌入和位置嵌入）；

from transformers import ElectraTokenizer, ElectraModel

# electra-small判别器
model = ElectraModel.from_pretrained("google/electra-small-discriminator")

# electra-small生成器
model = ElectraModel.from_pretrained("google/electra-small-generator")

SpanBERT预测文本段

SpanBERT主要用于文本区间的问答任务

区别与随机掩盖，SpanBERT是随机地对连续区间进行掩码；
然后将其送入SpanBERT，返回每个标记的特征；

为了预测[MASK]所代表的标记，使用掩码语言模型构建目标和区间边界目标（span boundary objective， SBO）来训练SpanBERT模型；

区间边界标记特征
使用[MASK]的位置嵌入

SpanBERT使用两个目标：

一个是掩码语言模型构建目标，为预测掩码标记，只使用相应的标记特征；
另一个是区间边界目标，为预测掩码标记，只使用区间边界标记特征和掩码标记的位置嵌入；

# pipeline API 用于无缝地执行从文本分类任务到问答任务等各类复杂任务
from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model = "mrm8488/spanbert-large-finetuned-squadv2",
    tokenizer = "SpanBERT/spanbert-large-cased"
)

# 输入问题和上下文 即可得到答案
results = qa_pipeline({
    'question': "What is AI?",
    'context': "AI is ...."
})

results["answer"]

基于知识蒸馏

使用知识蒸馏法可以实现将知识从预训练的大型BERT模型迁移到小型BERT模型；本章将了解基于知识蒸馏的BERT变体；

知识蒸馏
DistilBERT——BERT模型的知识蒸馏版本
TunyBERT
知识迁移到简单的神经网络

知识蒸馏

知识蒸馏（knowledge distillation）是一种模型压缩技术，指训练一个小模型来重现大型预训练模型的行为；也被称为师生学习，大模型是老师，小模型是学生；

假设通过一个预训练大模型（教师网络）来预测句子中的下一个单词，输入一个句子，网络预测将返回词表中所有单词是下一个单词的概率分布（softmax作用于输出层）；

从返回的概率分布中除了概率最高的词，还有一些词的概率也相对较高；这体现了相关单词与输入句子的相关性更高，这就是所谓的隐藏知识；在知识蒸馏过程中，我们希望学生网络能从教师网络学到这些隐藏知识；

但实际的可用模型，往往会为正确的结果返回一个接近1的高概率，而对其他单词，概率都接近于0，此时概率分布中已经没有太多信息了；为此需要使用带有温度系数的softmax函数，即softmax温度；在输出层使用softmax温度，来平滑概率分布（增加T值可以是概率分布更平滑，T=1时即为标准的softmax函数）；

通过softmax温度，就可以获得隐藏知识；即先用softmax温度对教师网络进行预训练，获得隐藏知识，然后在知识蒸馏中，将这些隐藏知识从教师网络迁移至学生网络；

训练学生网络

经过预训练的教师网络，在其预训练过程中使用了softmax温度；

将句子送入教师网络和学生网络，其中：

教师网络返回的概率分布是我们的目标，教师网络的输出称为软目标；
学生网络做出的预测称为软预测；
最后计算软目标和软预测之间的交叉熵损失，并通过反向传播训练学生网络；

软目标和软预测之间的交叉熵损失也被称为蒸馏损失；

注意：教师网络和学生网络中，softmax层的T值需保持一致（如T=5），且都大于1；

除了蒸馏损失外，我们还是用另一个损失，称为学生损失；

相比软目标，硬目标就是将高概率设置为1，其余概率设置为0；
相比软预测，硬预测就是softmax T=1得到的概率分布（标准softmax函数）；

学生损失：

即硬目标与硬预测之间的交叉熵损失；

计算过程：

教师网络使用T=5的softmax函数，得到软目标；
对软目标，将具有高概率的位置设置为1，其余设置为0，得到硬目标；
学生网络使用T=5的softmax函数，得到软预测；
学生网络使用T=1的softmax函数，得到硬预测；
软目标和软预测之间的交叉熵损失即蒸馏损失；
硬目标与硬预测之间的交叉熵损失即学生损失；

最终的损失函数是两个损失的加权和，权重分别为α和β两个超参数；

总结下：在知识蒸馏中，我们使用预训练网络作为教师网络，训练学生网络通过蒸馏从教师中获得知识；

DistilBERT模型

Hugging Face的研发开发了DistilBERT，是一个更小、更快的轻量级BERT模型；

使用BERT-base作为教师
一个更少层数的BERT模型，作为学生，隐藏层大小保持在768；
可以使用相同的数据集进行训练；

实际训练除了蒸馏损失和学生损失，还需要计算余弦嵌入损失（cosine embedding loss）：它是教师模型和学生模型所学的特征向量之间的距离，最小化该损失将使学生网络的特征向量更加准确；

损失函数是3中损失之和：

蒸馏损失
掩码语言模型损失（学生损失）
余弦嵌入损失

通过最小化损失之和来训练学生BERT模型，即DistilBERT模型，他可以达到BERT-base 97%的准确度，在8块V100（16G）上进行了大约90小时的训练，该预训练模型Hugging Face也以公开，模型大小仅207MB；

TinyBERT模型

在TinyBERT模型，除了从教师BERT模型的输出层（预测层）向学生BERT模型迁移知识，还可以嵌入层和编码层迁移知识；

具体内容略过；

将知识从BERT模型迁移到神经网络中

《Distilling Tash-Specific Knowledge from BERT into Simple Neural Networks》

教师BERT模型

使用预训练的BERT-large模型，需要注意的是，要将特定任务的知识从教师迁移给学生，需要先针对特定任务微调预训练的BERT-large模型，然后再将其作为教师；

学生网络：

是一个简单的双向LSTM，学生网络可以根据不同任务而变化；

以句子的情感分析任务为例：

将句子嵌入送入双向LSTM，得到前向、后向的隐藏状态；
再将前向、后向的隐藏状态；送入带有ReLU激活函数的全连接层，返回logit向量作为输出；
将logit向量送入softmax函数，得到该句是正面还是负面的概率；

损失是学生损失和蒸馏损失的加权和；这里使用均方损失（MSE）作为蒸馏损失，因为它比交叉熵损失的表现更好；学生损失还是硬目标和硬预测之间的标准交叉熵损失；

第三部分 BERT模型的应用

这里我们略过第6章和第7章；

第8章 Sentence-BERT模型和特定领域的BERT模型
第9章 VideoBERT模型和BART模型

第8章 Sentence-BERT模型和特定领域的BERT模型

主要学习 ClinicalBERT模型，其他内容略过；

我们知道BERT模型是使用维基百科语料库进行的预训练，对于特定领域，也可以使用特定的语料库重新训练BERT；

ClinicalBERT模型就是一个使用大型临床语料库（MIMIC-III）进行预训练的针对临床领域的BERT模型；可以应用到死亡风险评估、诊断预测等下游任务；

ClinicalBERT模型使用掩码语言模型构建任务（penicillin）和下句预测任务（isNext）进行预训练，与BERT一致；

对于超过最大标记长度512的长序列，可以将其拆分成多个子序列，然后使用公式计算分数；

t分布随机邻域嵌入法（t-SNE）被用来绘制使用ClinicalBERT模型获得的医学术语特征，以评估该模型所学到的特征；

第9章 VideoBERT模型和BART模型

VideoBERT模型

是第一个联合学习视频特征及语言特征的模型，可应用于图像字幕生成、视频字幕添加、预测视频下一帧等任务；

预训练任务：

掩码语言模型构建（完形填空）
语言-视觉对其任务

旁白和视频画面的对应有助于联合学习语言及视频的特征；

提取视频中语言标记和视觉标记：

使用自动语音识别（ASR）工具，从视频中提取音频，再将音频转换为文本；
对文本进行标记，就形成了语言标记；
以20帧/秒的速度对视频中图像帧进行采样，然后将图像帧转换成1.5s的视频标记；

语言标记和视频标记结合，使用特殊标记间隔：

在语言标记开头添加[CLS]标记；
[SEP]标记在视觉标记末尾添加，中间使用[>]标记间隔；
使用[MASK]进行随机掩蔽，送入VideoBERT，返回所有标记特征；

掩码语言模型构建（完形填空）我们已经了解，对于语言-视觉对其任务：

它也是一个分类任务，预测的是语言标记和视觉标记是否在时间上吻合（对齐），即预测文本是否与视频画面匹配；
提取[CLS]标记特征，送入一个分类器，对是否一致进行分类；

VideoBERT模型使用了三个目标进行预训练：

纯文本
纯视频
文本-视频

最终预训练目标是上述3个目标的加权组合；

数据源和预处理：

使用YouTube教学视频，时长少于15min，共312000个，23186小时；
使用YouTube API提供的自动语音识别工具，返回文本和时间戳；不同目标所使用的数据集不同；

对于从视频中采样的图像帧，使用预训练的视频卷积神经网络提取视觉特征，并使用分层的K均值算法对视觉特征进行标记；

VideoBERT模型应用：

预测下一个视觉标记；
由文本生成视频；
生成视频字幕；

BART模型

基于Transformer架构，本质是一个降噪自编码器，通过重建受损文本进行训练的；

带有编码器和解码器的Transformer模型，将受损文本送入编码器学习，将学习得到的特征发送给解码器；解码器获得编码器生成的特征，重建原始文本；

双向编码器
自回归解码器（单向的）

BART模型通过最小化重建损失来训练，也就是原始文本和解码器的生成文本之间的交叉熵损失

BART模型与BERT模型不同，在BERT中，只是将被掩盖的标记送入编码器，然后将编码器的结果送入前馈网络层，用前馈网络层来预测被掩盖的标记；而在BART中，将编码器的结果反馈给解码器，由其生成或构建原始句子；

集中破坏文本增噪方法：

标记掩盖：用[MASK]随机替换一些标记
标记删除
标记填充：用一个[MASK]掩盖连续的标记
句子重排：随机打乱橘子顺序
文档论换：随机选择文档中的一个标记作为文档的开始，然后将所选标记之前的所有标记添加到文档的末尾；

# 文本摘要任务应用
from transformers import BartTokenizer, BartForConditionalGeneration

model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')

text = """
...
"""

# 对文本进行标记
inputs = tokenizer([text], max_length=1025, return_tensors='pt')

# 获取摘要ids（即模型生成的标记ID）
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=100, early_stopping=True)

# 对摘要进行解码
summary = ([tokenizer.decode(i, skip_special_tokens=True, clean_up_tokenization_spaces=False) for i in summary_ids])

print(summary)

Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
对话系统(Chatbots) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1对话系统的发展历程对话系统，又称聊天机器人(Chatbots)，是模拟人类对话的计算机程序。从早期的基于规则的系统到如今基于深度学习的智能体，对话系统经历了漫长的发展历程。第一阶段：基于规则的系统(1960s-1990s)早期的对话系统主要基于预先定义的规则和模板。例如，ELIZA(1966)是一个模拟心理治疗师的程序，通过模式匹配和关键词识别来生成回复。这些系统只能处理有限的对
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
探索SakuraLLM：轻小说与Galgame翻译的新纪元蒋素萍Marilyn
探索SakuraLLM：轻小说与Galgame翻译的新纪元SakuraLLM适配轻小说/Galgame的日中翻译大模型项目地址:https://gitcode.com/gh_mirrors/sa/SakuraLLM在人工智能的浪潮中，SakuraLLM以其独特的魅力和强大的功能，成为了日中翻译领域的一颗璀璨明星。本文将深入介绍SakuraLLM项目，分析其技术特点，探讨其应用场景，并揭示其与众不同
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
SpringBoot中运行Yolov5程序 eqa11 spring boot YOLO 后端
文章目录SpringBoot中运行Yolov5程序一、引言二、环境搭建1、SpringBoot项目创建2、YOLOv5环境配置三、SpringBoot与YOLOv5集成1、创建Python服务2、SpringBoot调用Python服务四、使用示例1、创建控制器五、总结SpringBoot中运行Yolov5程序一、引言在人工智能领域，目标检测是一个热门且实用的技术。YOLOv5作为目标检测算法中的
大语言模型原理与工程实践：残差连接与层归一化 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着自然语言处理（NLP）的发展，深度学习在过去几年中取得了令人瞩目的成果。其中，循环神经网络（RNN）和卷积神经网络（CNN）在图像和文本分类、语义角色标注、机器翻译等领域表现出色。然而，这些网络在训练过程中经常遭遇梯度消失和梯度爆炸的问题。为了解决这些问题，我们引入了残差连接（ResidualConnections）和层归一化（BatchNormalization）来改善模型性能。
Transformer架构原理详解：残差连接和层归一化（Residual Connection an AI天才研究院 AI大模型企业级应用开发实战 Python实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《Transformer架构原理详解：残差连接和层归一化（ResidualConnectionandLayerNormalization）》文章关键词Transformer残差连接层归一化自注意力机制序列模型编码器与解码器摘要本文将深入解析Transformer架构的核心原理，特别是残差连接和层归一化技术。通过详细阐述这些关键组件的作用、数学模型和具体实现，读者将能够理解Transformer在处
模型架构选择：从传统NLP到Transformer AI天才研究院 AI大模型应用入门实战与进阶大数据AI人工智能计算大数据人工智能语言模型 AI 大模型 LLM Java Python 架构设计 Agent RPA
模型架构选择：从传统NLP到Transformer关键词：自然语言处理(NLP),模型架构,传统NLP,Transformer,RNN,CNN,预训练模型文章目录模型架构选择：从传统NLP到Transformer1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1传统NLP模型3.1.2RNN模型3.1.
阿里巴巴Qwen团队发布AI模型，可操控PC和手机新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。1月
对比DeepSeek、ChatGPT和Kimi的学术写作摘要能力 AIWritePaper官方账号 DeepSeek AIWritePaper ChatGPT 人工智能 chatgpt llama 数据分析论文阅读
摘要摘要是文章的精华，通常在200-250词左右。要包括研究的目的、方法、结果和结论。让AI工具作为某领域内资深的研究专家，编写摘要需要言简意赅，直接概括论文的核心，为读者提供快速了解的窗口。下面我们使用DeepSeek、ChatGPT4以及Kimi辅助编写摘要。提示词：你现在是一名[计算机理论专家]，研究方向集中在[人工智能、大模型、数据挖掘等计算机相关方向]。我现在需要撰写一篇围绕[人工智能在
Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
计算机视觉：解锁未来智能的钥匙及其代码实践我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁未来智能的钥匙及其代码实践在当今这个数据爆炸的时代，计算机视觉作为人工智能的一个重要分支，正以前所未有的速度推动着科技的边界。它不仅让机器“看懂”世界，更在自动驾驶、医疗影像分析、智能制造、安防监控等众多领域展现出巨大的应用潜力。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实践中应用这些技术，旨在为读者提供一个理论与实践相结合的全面视角。一、计
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
小南每日 AI 资讯 | 国产AI之光DeepSeek暴击硅谷？？？ | 25/01/29 小南AI学院人工智能
1.中国AI模型震惊硅谷：DeepSeek为何一夜火出圈？国产AI大模型DeepSeek迅速崛起，引发硅谷关注。2.中国银行支持AI产业：1万亿元金融扶持助推智能化升级中国银行宣布提供1万亿元资金支持人工智能产业链发展，助力智能化升级。3.国产AI大模型DeepSeek惊艳全球：游戏科学冯骥称其为“国运级别科技成果”DeepSeek的AI模型引起全球关注，游戏科学的冯骥高度评价其意义。4.AI产业
【我的阅读】【nature |ai4science】Scientific discovery in the age of artificial intelligence【人工智能时代的科学发现】算法研究员【AI 4 Science】人工智能
相关资料：https://www.nature.com/articles/s41586-023-06221-2#Sec15文章目录Abstract摘要Conclusion结论Abstract摘要Artificialintelligence(AI)isbeingincreasinglyintegratedintoscientificdiscoverytoaugmentandaccelerateres
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源