Sonhhxg_柒

【NLP】第15章从 NLP 到与任务无关的 Transformer 模型

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

到目前为止，我们已经检查了具有编码器和解码器层的原始 Transformer 模型的变体，并且我们探索了具有仅编码器或仅解码器层堆栈的其他模型。此外，层和参数的大小也增加了。然而，Transformer 的基本架构保留了其具有相同层的原始结构和注意力头计算的并行化。

在本章中，我们将探索创新的 Transformer 模型，这些模型尊重原始 Transformer 的基本结构，但会做出一些重大改变。将出现许多变形金刚模型，就像一盒乐高©碎片提供的许多可能性一样。您可以通过数百种方式组装这些部件！Transformer 模型子层和层是 LEGO ©的高级 AI 部分。

我们将首先询问在众多产品中选择哪种变压器模型以及我们将在其中实施它们的生态系统。

然后我们将在改革者模型中发现局部敏感散列( LSH ) 桶和分块。然后，我们将了解 DeBERTa 模型中的解缠结是什么。DeBERTa 还引入了另一种在解码器中管理位置的方法。DeBERTA 的大功率变压器模型超过了人类基线。

我们的最后一步将是发现强大的计算机视觉转换器，例如 Vit、CLIP 和 DALL-E。我们可以将 CLIP 和 DALL-E 添加到 OpenAI GPT-3 和 Google BERT（由 Google 训练）到非常小的基础模型组。

这些强大的基础模型证明了 Transformer 与任务无关。转换器学习序列。这些序列包括视觉、声音和表示为序列的任何类型的数据。

图像包含类似数据的语言序列。我们将运行 ViT、CLIP 和 DALL-E 模型来学习。我们将把视觉模型提升到创新水平。

在本章结束时，您将看到与任务无关的变形金刚的世界已经演变成一个充满想象力和创造力的世界。

本章涵盖以下主题：

选择Transformer型号
重整器Transformer模型
局部敏感散列( LSH )
桶和分块技术
DeBERTA 变压器模型
解开注意力
绝对位置
带有 CLIP 的文本图像视觉转换器
DALL-E，一个创意的文本图像视觉转换器

我们的第一步是看看如何选择模型和生态系统。

选择模型和生态系统

我们认为通过下载来测试变压器模型需要机器和人力资源。另外，你可能想过如果一个平台此时还没有在线沙箱，那么由于需要测试几个示例，因此走得更远是有风险的。

但是，Hugging Face 等网站会实时自动下载预训练模型，我们将在The Reformer和DeBERTa部分看到！那么，我们应该怎么做呢？多亏了这一点，我们可以在 Google Colab 中运行 Hugging Face 模型，而无需自己在机器上安装任何东西。我们还可以在线测试 Hugging Face 模型。

这个想法是在没有任何“安装”的情况下进行分析。2022 年的“无需安装”可能意味着：

在线运行变压器任务
在预装的 Google Colaboratory VM 上运行转换器，无缝下载任务的预训练模型，我们可以在几行内运行它
通过 API 运行转换器

“安装”的定义在过去几年中有所扩展。“在线”的定义扩大。我们可以考虑使用几行将 API 作为元在线测试运行的代码。

在本节中，我们将广义地提及“无需安装”和“在线”。图 15.1展示了我们应该如何“在线”测试模型：

图 15.1：在线测试变压器模型

这十年的测试变得灵活且富有成效，如下所示：

Hugging Face 托管 API 模型，例如 DeBERTa 和其他一些模型。此外，Hugging Face 提供 AutoML 服务，用于在其生态系统中训练和部署 Transformer 模型。
OpenAI 的 GPT-3 引擎在在线游乐场上运行并提供 API。OpenAI 提供了涵盖许多 NLP 任务的模型。这些模型不需要训练。GPT-3 的十亿参数零射击引擎令人印象深刻。它表明具有许多参数的变压器模型总体上会产生更好的结果。Microsoft Azure、Google Cloud AI、AllenNLP 和其他平台提供有趣的服务。
如果值得，可以通过阅读论文来完成在线模型分析。一个很好的例子是 Google 的Fedus等人 (2021) 发表的关于Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 的文章。Google 增加了我们在第 8 章中研究的基于 T5 的模型的大小，将 Transformers 应用于法律和财务文档以进行 AI 文本摘要。这篇论文证实了 GTP-3 等大型在线模型的策略。

但是，最终，您是冒险选择一种解决方案而不是另一种解决方案的人。时间你花在探索平台上一旦您做出选择，模型将帮助您优化项目的实施。

您可以通过三种不同的方式托管您的选择，如图 15.2 所示：

在使用 API 的本地计算机上。OpenAI、Google Cloud AI、Microsoft Azure AI、Hugging Face 等提供了很好的 API。应用程序可以在本地机器上而不是在云平台上，但可以通过带有 API 的云服务。
在云端平台，例如Amazon Web Services ( AWS ) 或 Google Cloud。您可以在这些平台上训练、微调、测试和运行模型。在这种情况下，本地计算机上没有应用程序。一切都在云端。
从任何地方使用 API！在本地机器、数据中心虚拟机或任何地方。这意味着 API 将集成到物理系统中，例如风车、飞机、火箭或自动驾驶汽车。因此，该系统可以通过 API 与另一个系统永久连接。

图 15.2：模型的实现选项

最后，它是由您决定。带上你的时间。测试、分析、计算成本，并作为一个团队倾听不同的观点。您对变压器的工作原理了解得越多，您做出的选择就会越好。

现在让我们探索一下重整器，它是原始 Transformer 模型的一种变体。

改革者（The Reformer）

基塔耶夫等人。(2020) 设计了 Reformer 来解决注意力和记忆问题，为原始 Transformer 模型增加了功能。

改革者首先解决了局部敏感散列( LSH ) 桶和分块的注意力问题。

LSH 搜索对于数据集中的最近邻居。散列函数确定如果数据点q接近p，则散列( q ) ==散列( p )。在这种情况下，数据点是变压器模型头部的关键。

LSH 函数在称为 LSH 分桶的过程中将键转换为 LSH桶（图 15.3中的B1到B4），就像我们将彼此相似的对象放入相同的排序桶中一样。

已排序的桶被分成块（图 15.3中的C1到C4）以进行并行化。最后，attention 只会应用在同一个bucket中的chunk和前一个chunk中：

图 15.3：LSH 注意力头

LSH 分桶并且分块大大降低了复杂度，从O ( L 2 )，关注所有单词对，到O ( L log L )，只关注每个桶的内容。

Reformer 还解决了重新计算每一层输入的内存问题，而不是存储多层模型的信息。重新计算是按需实现的，而不是为一些大型多层模型消耗 TB 的内存。

我们现在将使用在Fyodor Dostoevsky的Crime and Punishment的英文翻译上训练的改革者模型。

运行示例

让我们使用托管的推理 API 直接在线运行它。输入语句为：

The studentwas impoverished and did not know what to do.

在线界面的链接包含输入：

google/reformer-crime-and-punishment · Hugging Face

托管推理 API 与输入句子一起出现。点击compute获取推论，结果会出现在输入的正下方：

图 15.4：Reformer 的托管推理 API

由于算法是随机的，您可能会得到不同的响应。改革者接受了合理的训练，尽管不是像 OpenAI 的 GPT-3 那样拥有数十亿位信息的超级计算机。改革者的结果不是很令人印象深刻。需要更多的训练和微调才能获得更好的结果。

OpenAI 的 GPT-3 引擎为文本完成产生以下结果：

那个学生很穷，不知道该怎么办。他没有人可以求助，也找不到住处。他从包里拿出一个本子，开始写。他写了：

"My name is XXXXXXXXXX. I am a student at XXXXXXXXXX. I have no family, no friends, no money."

结果是更有说服力。注册后即可访问 OpenAI 的游乐场：https ://openai.com/

注意：OpenAI GPT-3 与其他变压器模型和大多数深度学习模型一样，基于随机算法。结果可能因人而异。

这表明，包含数十亿参数的训练有素的变压器模型可以胜过创新的变压器模型架构。

超级计算机驱动的云 AI 平台会逐渐超越本地尝试，甚至是功能更弱的云平台吗？在投资一种解决方案而不是另一种解决方案之前，您需要通过原型解决这些问题。

注意：变压器模型的随机性在运行它们时可能会产生不同的结果。此外，在线平台不断改变其界面。我们需要接受并适应。

DeBERTa 介绍了另一种创新架构，我们现在将对其进行探索。

DeBERTa

另一个新的可以通过解开找到变压器的方法。AI中的解缠结允许您分离表示特征，使训练过程更加灵活。Pengcheng He、Xiaodong Liu、 Jianfeng Gao和Weizhu Chen设计了 DeBERTa，一个解开的变压器版本，以及在一篇有趣的文章中描述了该模型：DeBERTa：Decoding-enhanced BERT with Disentangled Attention：https ://arxiv.org/abs/2006.03654

DeBERTa 中实现的两个主要思想是：

解开transformer模型中的内容和位置，分别训练两个向量
在解码器中使用绝对位置来预测预训练过程中的掩码标记

作者在 GitHub 上提供代码：https ://github.com/microsoft/DeBERTa

DeBERTa 在 SuperGLUE 排行榜上超过了人类基线：

图 15.5：SuperGLUE 排行榜上的 DeBERTa

在 Hugging Face 的云平台上运行示例之前，删除所有空格。

运行示例

运行一个Hugging Face 的云平台示例，点击以下链接：

cross-encoder/nli-deberta-base · Hugging Face

托管推理 API 将显示一个示例和可能的类名输出：

图 15.6：DeBERTa 的托管推理 API

可能的类名是mobile、website、billing和account access。

结果很有趣。让我们将其与 GPT-3 关键字任务进行比较。首先，在https://openai.com/上注册

输入Text作为输入并Keywords要求引擎查找关键字：

文字：Last week I upgraded my iOS version and ever since then my phone has been overheating whenever I use your app.

关键词：app, overheating, phone

可能的关键字是app、overheating和phone。

我们已经使用了 DeBERTa 和 GPT-3 变压器。我们现在将把转换器扩展到视觉模型。

从与任务无关的模型到视觉转换器

基础模型，正如我们在第 1 章中看到的，什么是变形金刚？, 有两个截然不同的独特性质：

出现——符合基础模型的变压器模型可以执行他们没有接受过培训的任务。它们是在超级计算机上训练的大型模型。他们没有像许多其他模型一样接受过学习特定任务的训练。基础模型学习如何理解序列。
同质化——相同的模型可以在许多领域使用相同的基础架构。基础模型可以比任何其他模型更快、更好地通过数据学习新技能。

GPT-3 和 Google BERT（仅限 Google 训练的 BERT 模型）是与任务无关的基础楷模。这些与任务无关的模型直接导致 ViT、CLIP 和 DALL-E 模型。变形金刚具有不可思议的序列分析能力。

Transformer 模型的抽象层次导致了多模态神经元：

多模态神经元可以处理可以标记为像素或图像块的图像。然后它们可以在视觉转换器中被处理为单词。一旦图像被编码，transformer 模型将标记视为任何单词标记，如图 15.7所示：

图 15.7：图像可以被编码成类似单词的标记

在本节中，我们将介绍：

生活，视觉将图像处理为词块的转换器
剪辑，视觉编码文本和图像的转换器
DALL-E，用文本构建图像的视觉转换器

让我们从探索 ViT 开始，这是一种将图像处理为词块的视觉转换器。

ViT – 视觉变形金刚

多索维茨基等人。(2021) 总结了他们的视觉转换器架构的精髓在他们的论文标题中设计：图像值得 16x16 字：大规模图像识别的变形金刚。

图像可以转换为 16x16 字的补丁。

在查看代码之前，让我们先看看 ViT 的架构。

ViT的基本架构

视觉转换器可以将图像处理为词块。在本节中，我们将分三个步骤完成该过程：

将图像分割成补丁
补丁的线性投影
混合输入嵌入子层

第一步是将图像分割成大小相等的块。

第 1 步：将图像分割成补丁

图片被分成n 个块，如图 15.8所示。没有规定有多少个补丁，只要所有补丁具有相同的尺寸，例如 16x16：

图 15.8：将图像分割成块

这相同维度的块现在代表我们序列的单词。如何处理这些补丁的问题仍然存在。我们将看到每种类型的视觉转换器都有自己的方法。

图片引用：本节和后续部分中使用的猫的图片由DocChewbacca拍摄：https ://www.flickr.com/photos/st3f4n/ ，于 2006 年。它在 Flickr 免费许可下，https:// creativecommons.org/licenses/by-sa/2.0/。更多详情，请参阅DocChewbacca在 Flickr 上的图片：https ://www.flickr.com/photos/st3f4n/210383891

在这种情况下，对于 ViT，步骤 2将是对扁平图像进行线性投影。

第 2 步：平面图像的线性投影

第 1 步将图像转换为相同大小的补丁。补丁的动机是避免逐像素处理图像。然而，问题仍然是找到一种处理补丁的方法。

Google Research 的团队决定设计一个扁平图像的线性投影，并使用通过分割图像获得的补丁，如图 15.9所示：

图 15.9：扁平图像的线性投影

这个想法是获得一系列类似工作的补丁。剩下的问题是嵌入平面图像序列。

第三步：混合输入嵌入子层

字样图像序列可以放入转换器。问题是它们仍然是图像！

Google Research 决定使用混合输入模型来完成这项工作，如图 15.10所示：

添加卷积网络以嵌入补丁的线性投影
添加位置编码以保留原始图像的结构
然后使用标准的原始类 BERT 编码器处理嵌入的输入

图 15.10：混合输入子层和标准编码器

Google Research 发现了一种将 NLP 转换器模型转换为视觉转换器的巧妙方法。

现在，让我们在代码中实现一个视觉转换器的 Hugging Face 示例。

代码中的视觉转换器

在这个部分，我们将重点关注与视觉转换器特定架构相关的主要代码区域。

Open Vision_Transformers.ipynb，位于本章的 GitHub 存储库中。

Google Colab VM 包含许多预安装的软件包，例如torch和torchvision. 您可以通过在笔记本的第一个单元格中取消注释命令来显示它们：

#Uncomment the following command to display the list of pre-installed modules 
#!pip list -v

然后转到笔记本的Vision Transformer ( ViT ) 单元。笔记本首先安装 Hugging Face 转换器并导入必要的模块：

!pip install transformers
from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests

注意：在撰写本书时，Hugging Face 警告我们，由于不断的演变，代码可能会变得不稳定。这不应该阻止我们探索 ViT 模型。测试新领域是最前沿的全部内容！

然后我们从 COCO 数据集中下载图像。如果您想进一步试验，您可以在他们的网站上找到全面的数据集：https ://cocodataset.org/

让我们从 VAL2017 数据集下载。按照 COCO 数据集网站的说明通过程序获取这些图像或将数据集下载到本地。

VAL2017 包含 5,000 张图像，我们可以从中选择来测试这个 ViT 模型。您可以运行 5,000 个图像中的任何一个。

让我们用猫的图像测试笔记本。我们首先通过它们的 URL 检索猫的图像：

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

我们接下来下载谷歌的特征提取器和分类模型：

feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')

该模型在 224 x 244 分辨率的图像上进行了训练，但使用 16 x 16 的补丁进行特征提取和分类。笔记本运行模型并做出预测：

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:",predicted_class_idx,": ", model.config.id2label[predicted_class_idx])

输出是：

Predicted class: 285 :  Egyptian cat

探索预测之后的代码，它为我们提供了低级别的信息，其中包括：

model.config.id2label，它将列出类的标签。1000 个标签类别解释了为什么我们获得一个类别而不是详细的文本描述：

{0: 'tench, Tinca tinca',1: 'goldfish, Carassius auratus', 2: 'great white shark, white shark, man-eater, man-eating shark, Carcharodon carcharias',3: 'tiger shark, Galeocerdo cuvieri',...,999: 'toilet tissue, toilet paper, bathroom tissue'}

model，它将显示以混合使用卷积输入子层开始的模型架构：

(embeddings): ViTEmbeddings(
  (patch_embeddings): PatchEmbeddings(
    (projection): Conv2d(3, 768, kernel_size=(16, 16), stride=(16, 16))
  )

在卷积输入嵌入子层之后，模型是一个类似 BERT 的编码器。

带上你的是时候探索这种从 NLP 变换器到图像变换器的创新转变了，这会很快导致所有事物的变换器。

现在，让我们看看另一个计算机视觉模型 CLIP。

CLIP

对比语言图像预训练( CLIP ) 遵循transformers的哲学。它插其转换器类型层中的数据序列。这一次，模型不发送文本对，而是发送文本-图像对。一旦数据被标记化、编码和嵌入，CLIP（一个与任务无关的模型）就可以像学习任何其他数据序列一样学习文本-图像对。

该方法是对比的，因为它寻找图像特征的对比。这是我们在一些杂志游戏中使用的方法，我们必须在其中找到两个图像之间的差异和对比。

在查看代码之前，让我们先看看 CLIP 的架构。

CLIP的基本架构

对比：图像受过训练，以了解他们如何通过他们的差异和相似之处组合在一起。图像和字幕通过（联合文本、图像）预训练找到彼此的方式。预训练后，CLIP 学习新任务。

CLIP 是可转移的，因为它们可以学习新的视觉概念，例如 GPT 模型，例如视频序列中的动作识别。字幕导致无穷无尽的应用。

ViT 将图像分割成类似单词的补丁。CLIP 联合训练文本和图像编码器的（标题、图像）对以最大化余弦相似度，如图 15.11所示：

图 15.11：联合训练文本和图像

图 15.11显示了转换器如何为文本运行标准转换器编码器输入。它将为变压器结构中的图像运行 ResNet 50 层 CNN。ResNet 50 被修改为在具有多头 QKV 注意力头的注意力池机制中运行平均池层。

让我们看看 CLIP 如何学习文本图像序列来进行预测。

CLIP in code

Open Vision_Transformers.ipynb，位于 GitHub 上本章的存储库中。然后转到CLIP笔记本的单元格。

该程序首先安装 PyTorch 和 CLIP：

!pip install ftfy regex tqdm
!pip install git+https://github.com/openai/CLIP.git

该程序还导入模块和 CIFAR-100 以访问图像：

import os
import clip
import torch
from torchvision.datasets import CIFAR100

有 10,000 张图像可用，索引在 0 到 9,999 之间。下一步是选择我们要运行预测的图像：

图 15.12：选择图像索引

这然后程序将模型加载到可用的设备（GPU 或 CPU）上：

# Load the model
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load('ViT-B/32', device)

图片已下载：

# Download the dataset
cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False)

输入准备：

# Prepare the inputs
image, class_id = cifar100[index]
image_input = preprocess(image).unsqueeze(0).to(device)
text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device)

让我们在运行预测之前可视化我们选择的输入：

import matplotlib.pyplot as plt
from torchvision import transforms
plt.imshow(image)

输出显示这index 15是一头狮子：

图 15.13：索引 15 的图像

本节中的图像来自于从小图像中学习多层特征，Alex Krizhevsky，2009：https ://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf 。它们是数据集 ( ) 的一部分：CIFAR-10https ://www.cs.toronto.edu/~kriz/cifar.htmlCIFAR-100toronto.edu

我们知道这是一头狮子，因为我们是人类。最初为 NLP 设计的转换器必须了解图像是什么。我们现在将看到它识别图像的能力。

这程序表明它在计算特征时通过将图像输入与文本输入分开来运行联合变换器模型：

# Calculate features
with torch.no_grad():
    image_features = model.encode_image(image_input)
    text_features = model.encode_text(text_inputs)

现在 CLIP 进行预测并显示前五个预测：

# Pick the top 5 most similar labels for the image
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)
similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1)
values, indices = similarity[0].topk(5)
# Print the result
print("\nTop predictions:\n")
for value, index in zip(values, indices):
    print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

topk(5)如果要获得更多或更少的预测，您可以进行修改。显示前五个预测：

Top predictions:
            lion: 96.34%
           tiger: 1.04%
           camel: 0.28%
      lawn_mower: 0.26%
         leopard: 0.26%

找到剪辑狮子，它展示了变压器架构的灵活性。

下一个单元格显示类：

cifar100.classes

您可以浏览这些类，看到每个类只有一个标签，这是限制性的，CLIP 做得很好：

[...,'kangaroo','keyboard','lamp','lawn_mower','leopard','lion',
 'lizard', ...]

该笔记本包含其他几个描述您可以探索的 CLIP 架构和配置的单元格。

该model单元格特别有趣，因为您可以看到视觉编码器以像 ViT 模型一样的卷积嵌入开始，然后继续作为具有多头注意力的“标准”尺寸 768 转换器：

CLIP(
  (visual): VisionTransformer(
    (conv1): Conv2d(3, 768, kernel_size=(32, 32), stride=(32, 32), bias=False)
    (ln_pre): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (transformer): Transformer(
      (resblocks): Sequential(
        (0): ResidualAttentionBlock(
          (attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
          )
          (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (mlp): Sequential(
            (c_fc): Linear(in_features=768, out_features=3072, bias=True)
            (gelu): QuickGELU()
            (c_proj): Linear(in_features=3072, out_features=768, bias=True)
          )
          (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        )

其他单元格的有趣方面model是查看与图像编码器联合运行的 size-512 文本编码器：

(transformer): Transformer(
    (resblocks): Sequential(
      (0): ResidualAttentionBlock(
        (attn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
        )
        (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
        (mlp): Sequential(
          (c_fc): Linear(in_features=512, out_features=2048, bias=True)
          (gelu): QuickGELU()
          (c_proj): Linear(in_features=2048, out_features=512, bias=True)
        )
        (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
      )

浏览描述架构、配置和参数的单元格，了解 CLIP 如何表示数据。

我们展示了与任务无关的转换器模型将图像-文本对处理为文本-文本对。我们可以将与任务无关的模型应用于音乐-文本、声音-文本、音乐-图像和任何类型的数据对。

我们现在将探索 DALL-E，这是另一个可以处理图像和文本的与任务无关的 Transformer 模型。

DALL-E

DALL-E 与 CLIP 一样，是一个与任务无关的模型。CLIP 处理的文本图像对。DALL-E 处理文本和图像标记不同。DALL-E 的输入是包含 1,280 个标记的单个文本和图像流。256 个标记用于文本，1,024 个标记用于图像。DALL-E 是类似于 CLIP 的基础模型。

DALL-E 以萨尔瓦多·达利和皮克斯的 WALL-E 命名。DALL-E 的用途是输入文本提示并生成图像。但是，DALL-E 必须首先学习如何生成带有文本的图像。

DALL-E 是 GPT-3 的 120 亿参数版本。

该转换器使用文本图像对的数据集从文本描述中生成图像。

DALL-E的基本架构

与 CLIP 不同，DALL-E将多达 256 个 BPE 编码的文本标记与 32×32 = 1,024 个图像标记连接起来，如图 15.14所示：

图 15.14：DALL-E 连接文本和图像输入

图 15.14显示这一次，我们的猫图像与输入文本连接在一起。

DALL-E 有一个编码器和一个解码器堆栈，它是用在变压器模型中注入卷积函数的混合架构构建的。

让我们看看代码，看看模型是如何工作的。

代码中的 DALL-E

在这个部分，我们将看到 DALL-E 如何重建图像。

打开Vision_Transformers.ipynb. 然后转到DALL-E笔记本的单元格。笔记本首先安装OpenAI DALL-E：

!pip install DALL-E

笔记本下载图像并处理图像：

import io
import os, sys
import requests
import PIL
import torch
import torchvision.transforms as T
import torchvision.transforms.functional as TF
from dall_e import map_pixels, unmap_pixels, load_model
from IPython.display import display, display_markdown
target_image_size = 256
def download_image(url):
    resp = requests.get(url)
    resp.raise_for_status()
    return PIL.Image.open(io.BytesIO(resp.content))
def preprocess(img):
    s = min(img.size)
    
    if s < target_image_size:
        raise ValueError(f'min dim for image {s} < {target_image_size}')
        
    r = target_image_size / s
    s = (round(r * img.size[1]), round(r * img.size[0]))
    img = TF.resize(img, s, interpolation=PIL.Image.LANCZOS)
    img = TF.center_crop(img, output_size=2 * [target_image_size])
    img = torch.unsqueeze(T.ToTensor()(img), 0)
    return map_pixels(img)

该程序现在加载 OpenAI DALL-E 编码器和解码器：

# This can be changed to a GPU, e.g. 'cuda:0'.
dev = torch.device('cpu')
# For faster load times, download these files locally and use the local paths instead.
enc = load_model("https://cdn.openai.com/dall-e/encoder.pkl", dev)
dec = load_model("https://cdn.openai.com/dall-e/decoder.pkl", dev)

我添加了enc和dec单元格，以便您可以查看编码器和解码器块以了解如何这种混合模型有效：转换器模型中的卷积功能以及文本和图像输入的连接。

x=preprocess(download_image('https://github.com/Denis2054/AI_Educational/blob/master/mycat.jpg?raw=true'))

最后，我们显示原始图像：

display_markdown('Original image:')
display(T.ToPILImage(mode='RGB')(x[0]))

输出显示图像：

图 15.15：猫的图像

现在程序处理并显示重建的图像：

import torch.nn.functional as F
z_logits = enc(x)
z = torch.argmax(z_logits, axis=1)
z = F.one_hot(z, num_classes=enc.vocab_size).permute(0, 3, 1, 2).float()
x_stats = dec(z).float()
x_rec = unmap_pixels(torch.sigmoid(x_stats[:, :3]))
x_rec = T.ToPILImage(mode='RGB')(x_rec[0])
display_markdown('Reconstructed image:')
display(x_rec)

重建后的图像看起来与原始图像极为相似：

图 15.16：DALL-E 重建猫的图像

结果令人印象深刻。DALL-E 学会了如何自己生成图像。

完整的DALL-E 源代码在本书写作时不可用，而且可能永远不会可用。用于从文本提示生成图像的 OpenAI API 尚未上线。但请睁大眼睛！

与此同时，我们可以在https://openai.com/blog/dall-e/继续在 OpenAI 上发现 DALL-E

到达该页面后，向下滚动到提供的示例。例如，我选择了一张旧金山阿拉莫广场的照片作为提示：

图 15.17：旧金山阿拉莫广场的提示

然后我将“在晚上”修改为“在早上”：

图 15.18：修改提示

DALL-E 然后生成大量text2image图像：

图 15.19：从文本提示生成图像

我们已经实现了 ViT、CLIP 和 DALL-E，三个视觉转换器。在我们结束之前，让我们来看看一些最后的想法。

不断扩大的模型世界

几乎每周都会出现新的变压器模型，例如新的智能手机。其中一些模型对于项目经理来说既令人兴奋又具有挑战性：

ERNIE是一个持续的预训练框架，为语言理解产生令人印象深刻的结果。
论文：https ://arxiv.org/abs/1907.12412

挑战：Hugging Face 提供了一个模型。它是一个成熟的模型吗？它是百度在 SuperGLUE 排行榜（2021 年 12 月）上训练超过人类基线的那一个：https ://super.gluebenchmark.com/leaderboard ？我们是否可以获得最好的模型或只是玩具模型？在如此小的模型版本上运行 AutoML 的目的是什么？我们会在百度平台或类似平台上访问它吗？它要花多少钱？

SWITCH：万亿参数使用稀疏建模优化的模型。
论文：https ://arxiv.org/abs/2101.03961

挑战：这篇论文很棒。模型在哪里？我们是否可以访问真正经过全面训练的模型？它要花多少钱？

Megatron-Turing：5000亿参数转换器模型。
博客：https ://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generation-language-模型/

挑战：市场上最好的模型之一。我们可以通过 API 访问吗？它会是一个成熟的模型吗？它要花多少钱？

XLNET是预训练的像 BERT，但作者认为它超过了 BERT 模型的性能。
论文：https ://proceedings.neurips.cc/paper/2019/file/dc6a7e655d7e5840e66733e9ee67cc69-Paper.pdf

挑战：XLNET 是否真的超过了 Google BERT 的性能，Google 用于他们的活动的版本？我们是否可以使用 Google BERT 或 XLNET 模型的最佳版本？

名单变得无穷无尽，而且还在不断增长！

除了前面提到的问题之外，对它们进行全部测试仍然是一个挑战。只有少数变压器模型有资格作为基础模型。基础模型必须是：

接受过全面培训以完成各种任务
能够执行未受过训练的任务，因为它已经达到了独特的 NLU 水平
足够大以保证相当准确的结果，例如 OpenAI GPT-3

许多网站提供的变压器被证明对教育目的有用，但不能被认为是经过充分培训和大到有资格进行基准测试。

最好的方法是尽可能加深对变压器模型的理解。在某一时刻，您将成为专家，在科技创新丛林中找到自己的出路就像选择智能手机一样简单！

概括

新的变压器型号不断出现在市场上。因此，通过阅读出版物和书籍并测试一些系统来跟上前沿研究是一种很好的做法。

这导致我们评估选择哪些变压器模型以及如何实现它们。我们不能花几个月的时间来探索市场上出现的每一个模型。如果项目正在生产中，我们不能每个月都更换模型。工业 4.0 正在转向无缝的 API 生态系统。

学习所有模型是不可能的。但是，通过加深我们对变压器模型的了解，可以快速理解一个新模型。

变压器模型的基本结构保持不变。编码器和/或解码器堆栈的层保持相同。注意力头可以并行化以优化计算速度。

Reformer 模型应用LSH存储桶和分块。它还重新计算每一层的输入而不是存储信息，从而优化内存问题。然而，像 GPT-3 这样的十亿参数模型对于相同的示例会产生可接受的结果。

DeBERTa 模型解开了内容和位置，使训练过程更加灵活。结果令人印象深刻。然而，像 GPT-3 这样的十亿参数模型可以等于 DeBERTa 的输出。

ViT、CLIP 和 DALL-E 将我们带入了任务无关的文本图像视觉转换器模型的迷人世界。结合语言和图像产生新的和富有成效的信息。

问题仍然在于，即用型人工智能和自动化系统能走多远。我们将在下一章关于超人类的兴起中尝试想象基于变压器的人工智能的未来。

你可能感兴趣的:(深度学习（DL）,自然语言处理（NLP）,自然语言处理,transformer,深度学习)

Java中的集合框架：List、Set和Map有什么区别？大G哥 java list 开发语言数据结构
在Java的集合框架中，List、Set和Map是三种常见的集合接口，它们各自有不同的特性和用途。以下是它们之间的主要区别和特点：1.List定义：List是一个有序的集合，允许存储重复的元素，并且可以通过索引访问元素。特点：元素是有序的(按照插入顺序排列)。允许存储重复的元素。可以通过索引(下标)访问元素，支持随机访问。常用实现类包括ArrayList、LinkedList和Vector。适用场
DeepSeek的无限可能：探索前沿AI技术在多领域的应用编码追梦人 AI人工智能人工智能
引言2023年，全球人工智能产业规模突破万亿美元大关，一场以深度学习为核心的技术革命正以前所未有的速度重构人类社会的运行逻辑。在这场变革的浪潮中，中国AI企业深度求索（DeepSeek）以其独特的“问题驱动型”技术路径，悄然构建起覆盖科研、医疗、金融、教育等领域的智能生态系统。第一章技术底座：重构AI核心范式1.1MoE架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境，Deep
DeepSeek-R1驱动下一代AIGC安全：全面解析智能内容合规审查技术体系与实战案例 Coderabo DeepSeek R1模型企业级应用 AIGC 安全
DeepSeek-R1赋能AIGC内容合规审查：技术实践与案例解析一、AIGC内容合规审查技术架构（此处展开约1500字的技术原理说明，涵盖深度学习模型、规则引擎、多模态检测等核心组件）二、核心实施步骤与代码实现1.文本内容预处理模块importrefromdeepseek_nlpimportTextCleanerdeftext_preprocessing(text):#特殊字符过滤cleaner
DeepSeek模型实战：从理论到应用的深度探索 CodeJourney. 人工智能算法数据库
一、引言在人工智能快速发展的当下，大型语言模型已成为自然语言处理领域的核心力量。DeepSeek模型作为其中的佼佼者，凭借其先进的架构和强大的性能，吸引了众多开发者和研究人员的关注。本文将深入探讨DeepSeek模型的技术原理，并通过实际案例展示其在不同场景下的应用，为读者提供从理论到实践的全面指导。二、DeepSeek模型技术剖析（一）架构基础DeepSeek模型基于Transformer架构构
centos 编译安装php 7.0 $Elvin php centos
第一步：安装依赖yuminstall-ygccgcc-c++makecmakebisonautoconfwgetlrzszyuminstall-ylibtoollibtool-ltdl-develyuminstall-yfreetype-devellibjpeg.x86_64libjpeg-devellibpng-develgd-develyuminstall-ypython-develpatch
【有啥问啥】DeepSeek 技术原理详解有啥问啥大模型深度学习
DeepSeek技术原理详解DeepSeek是一款具有突破性技术的大型语言模型，其背后的技术原理涵盖了多个方面，以下是对其主要技术原理的详细介绍：架构创新多头潜在注意力机制（MLA）传送门链接:DeepSeekV3中的Multi-HeadLatentAttention(MLA)：技术解析与应用DeepSeek引入了多头潜在注意力机制（Multi-headLatentAttention,MLA），这
DeepSeek 的创新融合：多行业应用实践探索 ♡喜欢做梦人工智能 deepseek
引言在数字化转型的浪潮中，技术的融合与创新成为推动各行业发展的关键力量。蓝耘平台作为行业内备受瞩目的创新平台，以其强大的资源整合能力和灵活的架构，为企业提供了高效的服务支持。而DeepSeek凭借先进的人工智能技术，在自然语言处理、数据分析等领域展现出卓越的性能。当蓝耘平台与DeepSeek携手，二者的优势互补为多行业解决方案带来了全新的应用实践方向，为企业解决复杂业务问题、提升运营效率提供了强大
CentOS7 源码安装python3 Jerion929 centos linux python
一、安装依赖包首先，确保系统中安装了编译Python所需的依赖包。可以通过以下命令安装：yumgroupinstall-y"DevelopmentTools"#CentOS8用此命令yuminstall-y\openssl-devel\bzip2-devel\libffi-devel\zlib-devel\readline-devel\sqlite-devel\wget\gcc"Developme
【DeepSeek】DeepSeek 如何应用于政务系统？深度求索者政务
DeepSeek作为一款高性能、低成本的AI大模型，近期在政务系统中得到了广泛应用，其技术能力和场景适配性正在推动数字政府的智能化转型。以下从应用场景、技术支撑、实际成效及未来方向等方面进行深度解析：一、核心应用场景智能公文处理政策解读与文件起草：DeepSeek基于自然语言处理（NLP）技术，可自动生成公文初稿，结合政务语境提取关键信息，生成拟办意见。例如，深圳市龙岗区的公文校对时间从人工5分钟
Decoder-Only、Encoder-Only、Encoder-Decoder 区别会喘气的粽子丶 nlp 人工智能
Decoder-Only、Encoder-Only和Encoder-Decoder是三种常见的神经网络架构，主要用于自然语言处理（NLP）任务。它们在结构和应用上有显著的区别。1.Decoder-Only架构描述：仅包含解码器部分，没有编码器。应用：通常用于生成任务，如语言模型和对话系统。代表模型：GPT（GenerativePre-trainedTransformer）特点：自回归生成：模型通过
tonglink/q8 jms启动 libapr-2.so.0 问题 jtao518 linux 运维服务器
启动(前题是设置好环境变量执行setp，如果不行就把内容复制到用户的配置文件中执行：tlq启动报：tlq/TLQ8/bin/tl_jmsbroker:errorwhileloadingsharedlibraries:libapr-2.so.0:cannotopensharedobjectfile:Nosuchfileordirectory解决：cpTLQ8/lib/libapr-2*/usr/li
Selenium自动化测试入门：浏览器多窗口切换测试杂货铺 selenium 测试工具软件测试自动化测试 python 职场和发展测试用例
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快有时web应用会打开多个浏览器窗口，当我们要定位新窗口中的元素时，我们需要将webDriver的handle（句柄）指定到新窗口。什么意思？假设我们打开web应用，在系统运行过程中重新打开一个新窗口（可以是页签，当前浏览器存在两个窗口），这时我们webDriver对浏览器的操作指针（句柄）还再原窗口，如果需要操作新窗口元素就要将handl
CVE-2024-34527 D-Link DSL-3782命令注入漏洞复现_dsl-3782_a1_eu_1(1) 2401_84009698 程序员嵌入式
一、漏洞描述CVE-2022-34527D-LinkDSL-3782v1.03及以下版本被发现包含通过函数byte_4C0160的命令注入漏洞，根据已知公开在cfg_manger文件的代码sub_474c78函数中，byte_4C0160作为system的参数执行。固件地址：https://media.dlink.eu/support/products/dsl/dsl-3782/driver_so
【AI引领潮流|未来智慧生活】国内机器聊天软件推荐（超全！）and人工智能&智能学习熔光人工智能 AI软件智能学习生活
1.AI聊天软件概述1.1AI聊天软件的关键技术1.2AI聊天软件的应用1.3AI聊天软件的挑战1.4总结2.智普清言3.文心一言4.讯飞星火5.知元AI6.白马AI7.ChatGPT8.一览AI应用链接9.人工智能10.机器学习↓个人主页：C_GUIQU↑1.AI聊天软件概述AI聊天软件是一种利用自然语言处理（NLP）、自然语言理解（NLU）和机器学习（ML）技术构建的软件，它能够理解用户的自然
Mybatis 的插件，环境配置，映射器 or77iu_N MyBatis mybatis java
1、插件（plugins）MyBatis允许你在映射语句执行过程中的某一点进行拦截调用。默认情况下，MyBatis允许使用插件来拦截的方法调用包括：Executor(update,query,flushStatements,commit,rollback,getTransaction,close,isClosed)ParameterHandler(getParameterObject,setPar
面试官：谈谈RabbitMQ的队头阻塞问题？ java
RabbitMQ延迟消息的队头阻塞问题是指，在使用死信队列（DLX）和TTL（消息过期时间）实现延迟消息时，由于队列的先进先出（FIFO）特性，在队列头部消息未过期的情况下，即使后续消息已经过期也不能及时处理的情况。实现原理RabbitMQ延迟消息的实现方式有以下两种：死信队列+TTL。使用rabbitmq-delayed-message-exchange插件。而我们本文要讨论的“RabbitMQ
使用OpenAI LLM与Neo4j数据库进行自然语言交互 bBADAS neo4j 数据库交互 python
技术背景介绍在现代数据分析和应用开发中，图数据库以其独特的强大功能越来越受到重视。其中，Neo4j是最受欢迎的图数据库之一。结合自然语言处理（NLP），可以使数据查询变得更加直观和便捷。本篇文章将介绍如何使用OpenAI的语言模型将自然语言问题转换成Cypher查询，并通过Neo4j数据库执行该查询，并给出自然语言的响应。核心原理解析我们的目标是实现一个系统，该系统能够接受自然语言输入，将其转换为
python字符串与正则表达式的应用上机小学生的拼搏高级程序语言
一、实验目的和要求目的：①了解字符串编码规则②掌握字符串索引③掌握字符串操作④掌握正则表达式二、实验数据记录、处理及结果分析（1）上课练习题，检查字符串是否合法，长度8-16位，支持大小写当输入内容为Helloworld#123764356788时：当输入内容为Helloworld#6788时：程序段为：importredefchecklen(pwd):returnlen(pwd)>=8andle
新书速览|细说PyTorch深度学习：理论、算法、模型与编程实现全栈开发圈深度学习 pytorch 算法
超详细的PyTorch深度学习入门书，100余个编程示例+6大热点案例，大咖带路，边学边实践。本书特点：1.专家编撰：由资深专家精心编撰，通俗易懂，娓娓道来2．范例丰富：100余个编程教学示例，帮你深入理解，边学习、边操练。3.实战应用：6大典型应用，原理与实操并重，快速掌握提升实战能力。4技术先进：视觉transformer模型详解，紧跟大模型核心技术。5易于上手：Pytorch详解并使用Pyt
【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；算法conv_er YOLOv11目标检测改进 YOLO 目标跟踪人工智能目标检测深度学习 transformer 计算机视觉
YOLOV11目标检测改进实例与创新改进专栏专栏地址：YOLOv11目标检测改进专栏，包括backbone、neck、loss、分配策略、组合改进、原创改进等本文介绍发paper，毕业皆可使用。本文给大家带来的改进内容是在YOLOv11中更换主干网络为CSWinTransformer，助力YOLOv11有效涨点，通过创新性地开发了十字形窗口自注意力机制。该机制通过将输入特征分割为等宽条纹，在水平与
使用Python和OpenAI Whisper实现YouTube视频转文字及问答系统 llzwxh888 python whisper 音视频
使用Python和OpenAIWhisper实现YouTube视频转文字及问答系统引言在当今的AI时代,从视频内容中提取有价值的信息变得越来越重要。本文将介绍如何使用Python和OpenAIWhisperAPI将YouTube视频转换为文本,并基于此构建一个简单的问答系统。这个过程不仅能帮助我们更好地理解和分析视频内容,还能为进一步的自然语言处理任务奠定基础。主要内容1.环境准备首先,我们需要安
【YOLO模型】（1）--YOLO是什么方世恩 YOLO YOLO 人工智能目标检测
一、什么是YOLOYOLO（YouOnlyLookOnce）是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。1.核心思想它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位置。2.原理YOLO算法将输入图像分成SxS个网格，每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外，YOLO算法还采用了多尺度特征融合的技术
Lineageos 22.1(Android 15)更换开机动画 JabamiLight Lineageos android 开机动画 Lineageos 22.1 Android 15
一、原理简介我们直接用最简单的替换zip的方式来更换开机动画，首先我们要查看系统代码使用的zip包的路径，可能与aosp原生的代码不一定一样。/frameworks/base/cmds/bootanimation/BootAnimation.cppboolBootAnimation::threadLoop(){ATRACE_CALL();boolresult;initShaders();//Weh
ocr智能票据识别系统|自动化票据识别集成方案 OCR_API 接口 ocr 自动化运维
在企业日常运营中，对大量票据实现数字化管理是一项耗时且容易出错的任务。随着技术的进步，OCR（光学字符识别）智能票据识别系统的出现为企业提供了一个高效、准确的解决方案，不仅简化了财务流程，还大幅提升了工作效率。一、什么是OCR智能票据识别系统？OCR智能票据识别系统是一种基于先进图像处理和深度学习算法的技术，能够自动从各类票据中提取关键信息，并将其转换为结构化数据。翔云发票识别系统可以应用于增值税
在linux 中搭建deepseek 做微调，硬件配置要求说明慧香一格学习 AI linux 服务器 deepseek
搭建可参考使用deepseek-CSDN博客官方网站：DeepSeekDeepSeek是一个基于深度学习的开源项目，旨在通过深度学习技术来提升搜索引擎的准确性和效率。如果你想在Linux系统上搭建DeepSeek，你可以遵循以下步骤。这里我将提供一个基本的指导，帮助你从零开始搭建一个基础的DeepSeek环境。1.安装依赖首先，确保你的Linux系统上安装了Python和pip。DeepSeek主
深度学习与图像识别：机器学习基础之回归 Shenrn_ 机器学习回归深度学习
1.线性回归1.1一元线性回归1.2多元线性回归2.逻辑回归与线性回归的不同在于其将最终预测值y固定在一个范围之中2.1Sigmoid函数sigmoid函数表达式：p为预测出来的概率，范围在0-1之间，一般用于处理二分类问题，因为这个式子的一个显著特征在于：当z=0,p=0.5当z>0,p>0.5当z<0,p<0.5所以当对z进行多元线性回归表示的时候，以p的值来反映y_pre是一个不错的选择，此
深度学习下的图像分割人工智能大讲堂深度学习人工智能
在之前写的文章[图像分割演进之路]中，讲述了图像分割的发展历程，从传统图像分割算法到人工智能，分割算法百花齐放，但最终的佼佼者当属人工智能，但即使是人工智能领域，图像分割也五花八门，今天就让我们看几种基于学习的图像分割方法。基于学习的图像分割算法主要依赖于深度神经网络，经典的深度神经网络分为如下几种：2.1卷积神经网络CNN：卷积神经网络是图像处理领域应用最为广泛的网络，其权值共享，局部连接等特性
深入剖析模型推理：原理、技术与挑战 ♢.＊人工智能模型推理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！引言在当今人工智能飞速发展的时代，模型
VS中x86（x32）,x64,any CPU，Debug和Release的区别 Conchpeng 学习资料[非纸质]
x86（x32）,x64,AnyCPU之间的联系x86编译的.exe或者dll都是32位的，x64是64位的，AnyCPU是根据操作系统决定dll必须与调用它的主程序保持一致但是由AnyCPU生成的dll，也会保持生成它的主程序的性质：随平台（此时是调用它的主程序）改变而改变。也就是说，若dll由AnyCPU编译的，可以任意被x86或者x64主程序调用Debug和Release的区别调试版本、运行
机器学习和线性回归、softmax回归小名叫咸菜人工智能线性回归
监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

【NLP】第15章 从 NLP 到与任务无关的 Transformer 模型

foreword

选择模型和生态系统

改革者（The Reformer）

运行示例

DeBERTa

运行示例

从与任务无关的模型到视觉转换器

ViT – 视觉变形金刚

ViT的基本架构

代码中的视觉转换器

CLIP

CLIP的基本架构

CLIP in code

DALL-E

DALL-E的基本架构

代码中的 DALL-E

不断扩大的模型世界

概括

你可能感兴趣的:(深度学习（DL）,自然语言处理（NLP）,自然语言处理,transformer,深度学习)

【NLP】第15章从 NLP 到与任务无关的 Transformer 模型