Sonhhxg_柒

【Transformers】第 1 章：Hello Transformers

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

编码器-解码器框架

注意力机制

NLP 中的迁移学习

Hugging Face Transformers: Bridging the Gap

Transformer应用之旅

文本分类

命名实体识别

问答

总结

翻译

文本生成

拥抱脸生态系统

The Hugging Face Hub

拥抱面部标记器

拥抱人脸数据集

拥抱脸加速

Transformers的主要挑战

结论

2017 年，谷歌的研究人员发表了一篇论文，提出了一种用于序列建模的新型神经网络架构。1 被称为Transformer，这种架构在机器翻译任务上的表现优于循环神经网络 (RNN)，无论是在翻译质量还是培训成本方面。

同时，一种称为 ULMFiT 的有效迁移学习方法表明，在非常大且多样化的语料库上训练长短期记忆 (LSTM) 网络可以产生最先进的文本分类器，而标记数据很少。2

这些进步是当今最著名的两个变压器的催化剂：生成式预训练变压器 (GPT) 3和变压器的双向编码器表示 (BERT)。4通过将 Transformer 架构与无监督学习相结合，这些模型消除了从头开始训练特定任务架构的需要，并大大打破了 NLP 中的几乎所有基准。自 GPT 和 BERT 发布以来，出现了一个变压器模型动物园；图 1-1显示了最突出的条目的时间线。

【Transformers】第 1 章：Hello Transformers_第1张图片

图 1-1。 transformers时间线

但我们正在超越自己。要了解变压器的新颖之处，我们首先需要解释一下：

编码器-解码器框架
注意力机制
迁移学习

在本章中，我们将介绍 Transformer 普遍存在的核心概念，了解他们擅长的一些任务，并以 Hugging Face 工具和库生态系统作为结束。

让我们从探索编码器-解码器框架和变压器兴起之前的架构开始。

编码器-解码器框架

在 Transformer 之前，循环架构（如 LSTM）是 NLP 中的最新技术。这些架构在网络连接中包含一个反馈循环，允许信息从一个步骤传播到另一个步骤，使其非常适合对文本等顺序数据进行建模。如图 1-2左侧所示，RNN 接收一些输入（可能是单词或字符），将其输入到网络中，并输出一个称为隐藏状态的向量。同时，模型通过反馈回路将一些信息反馈给自己，然后可以在下一步中使用。如果我们如图 1-2右侧所示“展开”循环，则可以更清楚地看到这一点：RNN 在每一步将有关其状态的信息传递给序列中的下一个操作。这允许 RNN 跟踪来自先前步骤的信息，并将其用于其输出预测。

【Transformers】第 1 章：Hello Transformers_第2张图片

图 1-2。及时展开 RNN

这些架构曾（并将继续）广泛用于 NLP 任务、语音处理和时间序列。您可以在 Andrej Karpathy 的博客文章“循环神经网络的不合理有效性”中找到对它们能力的精彩阐述。

RNN 发挥重要作用的一个领域是机器翻译系统的开发，其目标是将一种语言的单词序列映射到另一种语言。这种任务通常使用编码器-解码器或序列到序列 架构来解决，5这非常适合输入和输出都是任意长度的序列的情况。编码器的工作是将输入序列中的信息编码为数字表示，通常称为最后隐藏状态。然后将该状态传递给解码器，解码器生成输出序列。

通常，编码器和解码器组件可以是可以对序列进行建模的任何类型的神经网络架构。图 1-3中的一对 RNN 对此进行了说明，其中英文句子“Transformers are great！” 被编码为隐藏状态向量，然后被解码以产生德语翻译“Transformer sind Grossartig！” 输入字通过编码器顺序输入，输出字从上到下一次生成一个。

【Transformers】第 1 章：Hello Transformers_第3张图片

图 1-3。具有一对 RNN 的编码器-解码器架构（通常，循环层比这里显示的要多得多）

尽管其简单性很优雅，但这种架构的一个缺点是编码器的最终隐藏状态会产生信息瓶颈：它必须表示整个输入序列的含义，因为这是解码器在生成输出时可以访问的所有内容。这对于长序列尤其具有挑战性，因为在将所有内容压缩为单个固定表示的过程中，序列开头的信息可能会丢失。

幸运的是，通过允许解码器访问编码器的所有隐藏状态，有办法摆脱这个瓶颈。对此的一般机制称为 注意力6，它是许多现代神经网络架构中的关键组件。了解如何为 RNN 开发注意力将使我们能够很好地理解 Transformer 架构的主要构建块之一。让我们更深入地了解一下。

注意力机制

注意背后的主要思想是，编码器不是为输入序列生成单个隐藏状态，而是在解码器可以访问的每个步骤中输出一个隐藏状态。然而，同时使用所有状态会为解码器创建一个巨大的输入，因此需要一些机制来确定使用哪些状态的优先级。这就是注意力的来源：它让解码器在每个解码时间步为每个编码器状态分配不同的权重或“注意力”。这个过程如图 1-4 所示，其中注意力的作用被展示为预测输出序列中的第三个标记。

【Transformers】第 1 章：Hello Transformers_第4张图片

图 1-4。具有用于一对 RNN 的注意力机制的编码器-解码器架构

通过关注每个时间步最相关的输入标记，这些基于注意力的模型能够学习生成的翻译中的单词和源句中的单词之间的非平凡对齐。例如，图 1-5可视化了英语到法语翻译模型的注意力权重，其中每个像素表示一个权重。该图显示了解码器如何正确对齐单词“zone”和“Area”，这两种语言的顺序不同。

【Transformers】第 1 章：Hello Transformers_第5张图片

图 1-5。RNN 编码器-解码器对齐英语单词和生成的法语翻译（由 Dzmitry Bahdanau 提供）

尽管注意力能够产生更好的翻译，但在编码器和解码器中使用循环模型仍然存在一个主要缺点：计算本质上是顺序的，不能跨输入序列并行化。

Transformer 引入了一种新的建模范式：完全不用递归，而是完全依赖一种称为self-attention的特殊形式的注意力。我们将在第 3 章中更详细地介绍 self-attention ，但基本思想是让 attention 作用于神经网络同一层中的所有状态。如图 1-6所示，编码器和解码器都有自己的自注意力机制，其输出被馈送到前馈神经网络 (FF NN)。这种架构可以比循环模型更快地训练，并为最近 NLP 的许多突破铺平了道路。

【Transformers】第 1 章：Hello Transformers_第6张图片

图 1-6。原始 Transformer 的编码器-解码器架构

在最初的 Transformer 论文中，翻译模型是在各种语言的大量句子对上从头开始训练的。然而，在 NLP 的许多实际应用中，我们无法访问大量标记的文本数据来训练我们的模型。让变压器革命开始的最后一件事情是：迁移学习。

NLP 中的迁移学习

如今，计算机视觉领域的常见做法是使用迁移学习在一项任务上训练像 ResNet 这样的卷积神经网络，然后在一项新任务上对其进行调整或微调。这允许网络利用从原始任务中学到的知识。在架构上，这涉及将模型拆分为body和head，其中 head 是特定于任务的网络。在训练期间，身体的权重学习源域的广泛特征，这些权重用于为新任务初始化新模型。7与传统的监督学习相比，这种方法通常会产生高质量的模型，这些模型可以在各种下游任务上更有效地训练，并且标记数据要少得多。两种方法的比较如图 1-7所示。

【Transformers】第 1 章：Hello Transformers_第7张图片

图 1-7。传统监督学习（左）与迁移学习（右）的比较

在计算机视觉中，模型首先在包含数百万张图像的ImageNet等大规模数据集上进行训练。这个过程称为预训练，其主要目的是教模型图像的基本特征，例如边缘或颜色。然后可以在下游任务上对这些预训练模型进行微调，例如使用相对较少的标记示例（通常每类几百个）对花卉种类进行分类。与在相同数量的标记数据上从头开始训练的监督模型相比，微调模型通常可以实现更高的准确度。

尽管迁移学习成为计算机视觉的标准方法，但多年来，对于 NLP 来说，类似的预训练过程是什么并不清楚。因此，NLP 应用程序通常需要大量标记数据来实现高性能。即便如此，该性能也无法与视觉领域的成就相提并论。

在 2017 年和 2018 年，几个研究小组提出了新的方法，最终使迁移学习适用于 NLP。它始于 OpenAI 研究人员的见解，他们通过使用从无监督预训练中提取的特征在情感分类任务上获得了强大的性能。8紧随其后的是 ULMFiT，它引入了一个通用框架，以使预训练的 LSTM 模型适应各种任务。9

如图1-8 所示，ULMFiT 涉及三个主要步骤：

预训练

最初的训练目标非常简单：根据前面的单词预测下一个单词。此任务称为语言建模。这种方法的优点在于不需要标记数据，并且可以利用来自维基百科等来源的大量可用文本。10

领域适应

一旦语言模型在大规模语料库上进行了预训练，下一步就是将其适应域内语料库（例如，从维基百科到电影评论的 IMDb 语料库，如图 1-8 所示）。这个阶段仍然使用语言建模，但现在模型必须预测目标语料库中的下一个单词。

微调

在这一步中，语言模型通过目标任务的分类层进行微调（例如，对图 1-8中的电影评论情绪进行分类）。

【Transformers】第 1 章：Hello Transformers_第8张图片

图 1-8。ULMFiT 流程（由 Jeremy Howard 提供）

通过在 NLP 中引入一个可行的预训练和迁移学习框架，ULMFiT 提供了使 Transformer 起飞的缺失部分。2018 年，发布了两个将 self-attention 与迁移学习相结合的 Transformer：

GPT

仅使用 Transformer 架构的解码器部分，以及与 ULMFiT 相同的语言建模方法。GPT 在 BookCorpus 11上进行了预训练，其中包括 7,000 本未出版的书籍，这些书籍来自各种类型，包括冒险、奇幻和浪漫。

BERT

使用 Transformer 架构的编码器部分，以及一种称为掩码语言建模的特殊语言建模形式。掩码语言建模的目的是预测文本中随机掩码的单词。例如，给定一个句子，如“我看了看我的 [MASK]，发现[MASK]已经晚了”。该模型需要预测由表示的掩码词的最可能候选者 [MASK]。BERT 在 BookCorpus 和英语维基百科上进行了预训练。

GPT 和 BERT 在各种 NLP 基准测试中树立了最先进的技术水平，并开启了变形金刚时代。

然而，随着不同的研究实验室在不兼容的框架（PyTorch 或 TensorFlow）中发布他们的模型，NLP 从业者将这些模型移植到他们自己的应用程序中并不总是那么容易。随着 Transformers的发布，一个跨越 50 多个架构的统一 API 逐步构建。这个库促进了对变压器研究的爆炸式增长，并迅速渗透到 NLP 从业者身上，使得将这些模型轻松集成到当今许多现实生活中的应用程序中变得很容易。我们来看一下！

Hugging Face Transformers: Bridging the Gap

将新颖的机器学习架构应用于新任务可能是一项复杂的工作，通常涉及以下步骤：

在代码中实现模型架构，通常基于 PyTorch 或 TensorFlow。
从服务器加载预训练的权重（如果可用）。
预处理输入，将它们传递给模型，并应用一些特定于任务的后处理。
实现数据加载器并定义损失函数和优化器来训练模型。

这些步骤中的每一个都需要为每个模型和任务定制逻辑。传统上（但并非总是如此！），当研究小组发布新文章时，他们也会发布代码以及模型权重。但是，此代码很少标准化，并且通常需要数天的工程才能适应新的用例。

这就是变形金刚来拯救 NLP 实践者的地方！它为各种变压器模型以及使这些模型适应新用例的代码和工具提供了标准化接口。该库目前支持三种主要的深度学习框架（PyTorch、TensorFlow 和 JAX），并允许您在它们之间轻松切换。此外，它还提供了特定于任务的头，因此您可以轻松地在文本分类、命名实体识别和问答等下游任务上微调转换器。这将从业者训练和测试少数模型所需的时间从一周缩短到一个下午！

您将在下一节中亲自看到这一点，我们将在其中展示只需几行代码， Transformers 就可以用于处理您可能在野外遇到的一些最常见的 NLP 应用程序。

Transformer应用之旅

每个 NLP 任务都以一段文本开头，例如以下关于某个在线订单的虚构客户反馈：

text = """Dear Amazon, last week I ordered an Optimus Prime action figure
from your online store in Germany. Unfortunately, when I opened the package,
I discovered to my horror that I had been sent an action figure of Megatron
instead! As a lifelong enemy of the Decepticons, I hope you can understand my
dilemma. To resolve the issue, I demand an exchange of Megatron for the
Optimus Prime figure I ordered. Enclosed are copies of my records concerning
this purchase. I expect to hear from you soon. Sincerely, Bumblebee."""

根据您的应用程序，您正在使用的文本可能是法律合同、产品描述或其他内容。在客户反馈的情况下，您可能想知道反馈是正面的还是负面的。这项任务称为 情感分析，是我们将在第 2 章探讨的更广泛的文本分类主题的一部分。现在，让我们看看如何使用Transformers 从我们的一段文本中提取情绪。

文本分类

正如我们将在后面的章节中看到的， Transformers 有一个分层的 API，允许您在不同的抽象级别与库进行交互。在本章中，我们将从管道开始，它抽象出将原始文本转换为来自微调模型的一组预测所需的所有步骤。

在Transformers 中，我们通过调用函数并提供我们感兴趣的任务的名称来实例化管道：pipeline()

from transformers import pipeline
classifier = pipeline("text-classification")

第一次运行此代码时，您会看到一些进度条出现，因为管道会自动从Hugging Face Hub下载模型权重。第二次实例化管道时，库会注意到您已经下载了权重，并将使用缓存的版本。默认情况下，text-classification管道使用专为情感分析而设计的模型，但它也支持多类和多标签分类。

现在我们有了管道，让我们生成一些预测！每个管道都将一个文本字符串（或一个字符串列表）作为输入，并返回一个预测列表。每个预测都是一个 Python 字典，因此我们可以使用 Pandas 将它们很好地显示为 Data⁠Frame：

import pandas as pd

outputs = classifier(text)
pd.DataFrame(outputs)

	label	score
0	NEGATIVE	0.901546

在这种情况下，模型非常确信文本具有负面情绪，考虑到我们正在处理来自愤怒客户的投诉，这是有道理的！请注意，对于情绪分析任务，管道仅返回一个POSITIVE或NEGATIVE标签，因为另一个可以通过计算推断1-score。

现在让我们看看另一个常见的任务，识别文本中的命名实体。

命名实体识别

预测客户反馈的情绪是很好的第一步，但您通常想知道反馈是否与特定项目或服务有关。在 NLP 中，产品、地点和人等现实世界的对象称为命名实体，从文本中提取它们称为 命名实体识别(NER)。我们可以通过加载相应的管道并将我们的客户评论反馈给它来应用 NER：

ner_tagger = pipeline("ner", aggregation_strategy="simple")
outputs = ner_tagger(text)
pd.DataFrame(outputs)

entity_group	score	word	start	end
0	ORG	0.879010	Amazon	5	11
1	MISC	0.990859	Optimus Prime	36	49
2	LOC	0.999755	Germany	90	97
3	MISC	0.556569	Mega	208	212
4	PER	0.590256	##tron	212	216
5	ORG	0.669692	Decept	253	259
6	MISC	0.498350	##icons	259	264
7	MISC	0.775361	Megatron	350	358
8	MISC	0.987854	Optimus Prime	367	380
9	PER	0.812096	Bumblebee	502	511

您可以看到管道检测到所有实体，并且还为每个实体分配了一个类别，例如ORG（组织）、LOC（位置）或 PER（人员）。在这里，我们使用aggregation_strategy 参数根据模型的预测对单词进行分组。例如，实体“擎天柱”由两个词组成，但被分配了一个类别：（MISC 杂项）。分数告诉我们模型对其识别的实体的信心程度。我们可以看到，它对“霸天虎”和第一次出现的“威震天”最没有信心，这两者都未能归类为一个实体。

笔记

看到上表的列中那些奇怪的哈希符号 ( #) 了吗？word这些是由模型的标记器生成的，它将单词分成称为标记的原子单元。您将在第 2 章中了解有关标记化的所有内容。

提取文本中的所有命名实体很好，但有时我们想提出更有针对性的问题。这是我们可以使用问答的地方。

问答

在问答中，我们为模型提供了一段称为context的文本，以及一个我们想要提取其答案的问题。然后模型返回与答案对应的文本范围。让我们看看当我们询问有关客户反馈的特定问题时会得到什么：

reader = pipeline("question-answering")
question = "What does the customer want?"
outputs = reader(question=question, context=text)
pd.DataFrame([outputs])

	score	start	end	answer
0	0.631291	335	358	an exchange of Megatron

我们可以看到，除了答案之外，管道还返回了start与end找到答案跨度的字符索引相对应的整数（就像 NER 标记一样）。我们将在第 7 章中研究几种类型的问答，但这种特殊类型被称为抽取式问答，因为答案是直接从文本中提取的。

通过这种方法，您可以从客户的反馈中快速读取和提取相关信息。但是，如果您收到一大堆冗长的投诉而您没有时间阅读它们怎么办？让我们看看总结模型是否有帮助！

总结

文本摘要的目标是将长文本作为输入，并生成包含所有相关事实的简短版本。这是一项比以前的任务复杂得多的任务，因为它需要模型生成连贯的文本。以现在应该熟悉的模式，我们可以实例化一个汇总管道，如下所示：

summarizer = pipeline("summarization")
outputs = summarizer(text, max_length=45, clean_up_tokenization_spaces=True)
print(outputs[0]['summary_text'])

 Bumblebee ordered an Optimus Prime action figure from your online store in
Germany. Unfortunately, when I opened the package, I discovered to my horror
that I had been sent an action figure of Megatron instead.

这个总结还不错！虽然复制了部分原文，但该模型能够抓住问题的本质，并正确识别出“大黄蜂”（出现在最后）是投诉的作者。max_length在此示例中，您还可以看到我们将一些关键字参数传递clean_up_tokenization_spaces给管道；这些允许我们在运行时调整输出。

但是，当您收到使用您不懂的语言的反馈时会发生什么？您可以使用谷歌翻译，也可以使用自己的转换器为您翻译！

翻译

与摘要一样，翻译是一项输出由生成的文本组成的任务。让我们使用翻译管道将英文文本翻译成德文：

translator = pipeline("translation_en_to_de",
                      model="Helsinki-NLP/opus-mt-en-de")
outputs = translator(text, clean_up_tokenization_spaces=True, min_length=100)
print(outputs[0]['translation_text'])

Sehr geehrter Amazon, letzte Woche habe ich eine Optimus Prime Action Figur aus
Ihrem Online-Shop in Deutschland bestellt. Leider, als ich das Paket öffnete,
entdeckte ich zu meinem Entsetzen, dass ich stattdessen eine Action Figur von
Megatron geschickt worden war! Als lebenslanger Feind der Decepticons, Ich
hoffe, Sie können mein Dilemma verstehen. Um das Problem zu lösen, Ich fordere
einen Austausch von Megatron für die Optimus Prime Figur habe ich bestellt.
Anbei sind Kopien meiner Aufzeichnungen über diesen Kauf. Ich erwarte, bald von
Ihnen zu hören. Aufrichtig, Bumblebee.

同样，该模型产生了一个非常好的翻译，正确地使用了德语的正式代词，如“Ihrem”和“Sie”。在这里，我们还展示了如何覆盖管道中的默认模型以选择最适合您的应用程序的模型 - 您可以在 Hugging Face Hub 上找到数千种语言对的模型。在我们退后一步看看整个 Hugging Face 生态系统之前，让我们来看看最后一个应用程序。

文本生成

假设您希望能够通过访问自动完成功能来更快地回复客户反馈。使用文本生成模型，您可以执行以下操作：

generator = pipeline("text-generation")
response = "Dear Bumblebee, I am sorry to hear that your order was mixed up."
prompt = text + "\n\nCustomer service response:\n" + response
outputs = generator(prompt, max_length=200)
print(outputs[0]['generated_text'])

Dear Amazon, last week I ordered an Optimus Prime action figure from your online
store in Germany. Unfortunately, when I opened the package, I discovered to my
horror that I had been sent an action figure of Megatron instead! As a lifelong
enemy of the Decepticons, I hope you can understand my dilemma. To resolve the
issue, I demand an exchange of Megatron for the Optimus Prime figure I ordered.
Enclosed are copies of my records concerning this purchase. I expect to hear
from you soon. Sincerely, Bumblebee.

Customer service response:
Dear Bumblebee, I am sorry to hear that your order was mixed up. The order was
completely mislabeled, which is very common in our online store, but I can
appreciate it because it was my understanding from this site and our customer
service of the previous day that your order was not made correct in our mind and
that we are in a process of resolving this matter. We can assure you that your
order

好吧，也许我们不想用这个补全来让 Bumblebee 平静下来，但你明白了。

现在您已经看到了一些很酷的 Transformer 模型应用程序，您可能想知道训练在哪里进行。我们在本章中使用的所有模型都是公开可用的，并且已经针对手头的任务进行了微调。但是，一般来说，您会希望根据自己的数据微调模型，在接下来的章节中，您将学习如何做到这一点。

但训练模型只是任何 NLP 项目的一小部分——能够有效地处理数据、与同事共享结果以及使您的工作具有可重复性也是关键组成部分。幸运的是， Transformers 被一个庞大的有用工具生态系统所包围，这些工具支持大部分现代机器学习工作流程。让我们来看看。

拥抱脸生态系统

从Transformers 开始的东西迅速发展成为一个由许多库和工具组成的完整生态系统，以加速您的 NLP 和机器学习项目。Hugging Face 生态系统主要由库族和 Hub 两部分组成，如图 1-9所示。库提供代码，而 Hub 提供预训练的模型权重、数据集、评估指标的脚本等。在本节中，我们将简要介绍各种组件。我们将跳过变形金刚，因为我们已经讨论过它，我们将在本书的整个过程中看到更多它。

【Transformers】第 1 章：Hello Transformers_第17张图片

图 1-9。Hugging Face 生态系统概述

The Hugging Face Hub

如前所述，迁移学习是推动 Transformer 成功的关键因素之一，因为它可以将预训练模型重用于新任务。因此，能够快速加载预训练模型并对其进行实验至关重要。

Hugging Face Hub 拥有超过 20,000 个免费提供的模型。如图 1-10所示，有用于任务、框架、数据集等的过滤器，旨在帮助您浏览 Hub 并快速找到有前途的候选人。正如我们在管道中看到的那样，在您的代码中加载一个有前途的模型实际上只需一行代码。这使得对各种模型的试验变得简单，并允许您专注于项目的特定领域部分。

【Transformers】第 1 章：Hello Transformers_第18张图片

图 1-10。Hugging Face Hub 的模型页面，左侧显示过滤器，右侧显示模型列表

除了模型权重，Hub 还托管用于计算指标的数据集和脚本，让您可以重现已发布的结果或为您的应用程序利用其他数据。

Hub 还提供模型和数据集 卡片来记录模型和数据集的内容，并帮助您就它们是否适合您做出明智的决定。Hub 最酷的功能之一是您可以通过各种特定于任务的交互式小部件直接试用任何模型，如图 1-11所示。

【Transformers】第 1 章：Hello Transformers_第19张图片

图 1-11。来自 Hugging Face Hub 的示例模型卡：推理小部件，允许您与模型交互，显示在右侧

让我们继续我们的 Tokenizers 之旅。

笔记

PyTorch和TensorFlow也提供了自己的集线器，如果 Hugging Face Hub 上没有特定模型或数据集，则值得一试。

拥抱面部标记器

我们在本章中看到的每个管道示例背后都有一个标记化步骤，该步骤将原始文本拆分为称为标记的较小片段。我们将在第 2 章详细了解它是如何工作的，但现在理解标记可能是单词、单词的一部分或只是像标点符号这样的字符就足够了。Transformer 模型在这些标记的数字表示上进行了训练，因此正确执行此步骤对于整个 NLP 项目非常重要！

Tokenizers提供了许多标记化策略，并且由于其 Rust 后端，它在标记文本方面非常快。12它还负责所有预处理和后处理步骤，例如规范化输入和将模型输出转换为所需格式。使用 Tokenizer，我们可以加载一个 tokenizer，就像我们可以使用⁠Transformers。

我们需要一个数据集和指标来训练和评估模型，所以让我们看一下负责这方面的数据集。

拥抱人脸数据集

加载、处理和存储数据集可能是一个繁琐的过程，尤其是当数据集太大而无法放入笔记本电脑的 RAM 时。此外，您通常需要实现各种脚本来下载数据并将其转换为标准格式。

Datasets通过为Hub上的数千个数据集提供标准接口来简化此过程。它还提供智能缓存（因此您不必在每次运行代码时重做预处理）并通过利用称为内存映射的特殊机制来避免 RAM 限制，该机制将文件的内容存储在虚拟内存中并启用多个进程更有效地修改文件。该库还可以与 Pandas 和 NumPy 等流行框架互操作，因此您不必离开您最喜欢的数据整理工具的舒适性。

然而，如果你不能可靠地衡量性能，那么拥有一个好的数据集和强大的模型是毫无价值的。不幸的是，经典的 NLP 指标带有许多不同的实现，这些实现可能略有不同并导致欺骗性的结果。通过为许多指标提供脚本，数据集有助于使实验更可重复，结果更值得信赖。

借助Transformers、 Tokenizers 和 Datasets 库，我们拥有训练自己的 Transformer 模型所需的一切！然而，正如我们将在第 10 章中看到的，在某些情况下，我们需要对训练循环进行细粒度控制。这就是生态系统的最后一个库发挥作用的地方：加速。

拥抱脸加速

如果您曾经不得不在 PyTorch 中编写自己的训练脚本，那么在尝试将笔记本电脑上运行的代码移植到组织集群上运行的代码时，您可能会感到头疼。 Accelerate为您的正常训练循环添加了一个抽象层，负责处理训练基础架构所需的所有自定义逻辑。通过在必要时简化基础架构的更改，这确实加速了您的工作流程。

这总结了 Hugging Face 开源生态系统的核心组件。但在结束本章之前，让我们来看看在现实世界中尝试部署变压器时遇到的一些常见挑战。

Transformers的主要挑战

在本章中，我们已经了解了可以使用 Transformer 模型处理的范围广泛的 NLP 任务。阅读媒体头条，有时听起来他们的能力是无限的。然而，尽管它们很有用，但变形金刚远非灵丹妙药。以下是与它们相关的一些挑战，我们将在整本书中探讨：

语

NLP 研究以英语为主。其他语言有几种模型，但很难找到用于稀有或低资源语言的预训练模型。在第 4 章中，我们将探讨多语言转换器及其执行零样本跨语言迁移的能力。

数据可用性

尽管我们可以使用迁移学习来显着减少模型所需的标记训练数据量，但与人类执行任务所需的量相比，它仍然很多。处理几乎没有标记数据的情况是第 9 章的主题。

处理长文档

Self-attention 在段落长的文本上效果非常好，但是当我们转向像整个文档这样的较长文本时，它变得非常昂贵。第 11 章讨论了减轻这种情况的方法。

不透明度

与其他深度学习模型一样，Transformer 在很大程度上是不透明的。很难或不可能解开模型做出某个预测的“原因”。当部署这些模型以做出关键决策时，这是一个特别艰巨的挑战。我们将在第2章和第4章探索一些方法来探测 Transformer 模型的误差。

偏见

Transformer 模型主要基于来自互联网的文本数据进行预训练。这会将数据中存在的所有偏差都印入模型中。确保这些既不是种族主义、性别歧视或更糟的是一项具有挑战性的任务。我们将在第 10 章更详细地讨论其中一些问题。

尽管令人生畏，但其中许多挑战是可以克服的。除了提到的特定章节，我们将在接下来的几乎每一章中触及这些主题。

结论

希望现在您很高兴学习如何开始训练这些多功能模型并将其集成到您自己的应用程序中！您在本章中已经看到，只需几行代码，您就可以使用最先进的模型进行分类、命名实体识别、问答、翻译和摘要，但这实际上只是“提示冰山。”

在接下来的章节中，您将学习如何使转换器适应广泛的用例，例如构建文本分类器，或用于生产的轻量级模型，甚至从头开始训练语言模型。我们将采用动手实践的方法，这意味着对于涵盖的每个概念，都将附带您可以在 Google Colab 或您自己的 GPU 机器上运行的代码。

你可能感兴趣的:(《,Transformers》,深度学习,自然语言处理,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

【Transformers】第 1 章 ：Hello Transformers

foreword