神洛华

Hugging Face主页课程第一篇《Transformer models》

Hugging Face主页课程第二篇《 Using Transformers》
Hugging Face主页课程第三篇《Fine-tuning a pretrained model》
Hugging Face 主页课程部分解析

文章目录

Chapters 1 Transformer models
- 1. Introduction
- - What to expect?
  - Who are we?
- 2. NLP
- - 为什么它具有挑战性？
  - Transformers, what can they do?
  - transformer无处不在！
  - Working with pipelines
  - - Zero-shot classification零样本分类
    - Text generation文本生成
    - The Inference API
    - Mask filling
    - Named entity recognition
    - Question answering
    - Summarization 摘要生成
    - Translation翻译
- 3. Transformers 是如何工作的?
- - Transformers的历史
  - Transformers 语言模型
  - transformer是big models
  - Transfer Learning迁移学习
  - General architecture一般架构
  - - 介绍
    - Attention layers
    - The original architecture原始架构
    - Architectures vs. checkpoints
- 4.Encoder models
- 5.Decoder models
- 6.Sequence-to-sequence models
- 7.Bias and limitations偏见和限制
- 8.总结

Chapters 1 Transformer models

本文翻译自Hugging Face主页Resources下的课程。

1. Introduction

本课程将使用 Hugging Face 生态系统中的库—— Transformers、 Datasets、 Tokenizers 和 Accelerate——以及 Hugging Face Hub ,来教你自然语言处理 (NLP)。

What to expect?

以下是课程的简要概述：

1 到 4 章介绍了 Transformers 库的主要概念。在本课程的这一部分结束时，您将熟悉 Transformer 模型的工作原理，并将了解如何使用 Hugging Face Hub 中的模型，在数据集上对其进行微调，并在 Hub 上分享您的结果！
5 到 8 章讲解数据集和分词器的基础知识。在本部分结束时，您将能够自己解决最常见的 NLP 问题。
9 到 12 章更为深入，展示了专门的架构（内存效率、长序列等），并教您如何为更奇特的用例编写自定义对象。到本部分结束时，您将准备好解决复杂的 NLP 问题，并为 Transformers 做出有意义的贡献。

这个课程：

需要良好的 Python 知识；
最好先学习深度学习入门课程，例如 Practical Deep Learning for Coders 或 deeplearning.ai 开发的课程；
不需要事先了解 PyTorch 或 TensorFlow 知识，尽管熟悉其中任何一个会有所帮助。

Who are we?

关于作者：

Matthew Carrigan 是 Hugging Face 的机器学习工程师。他住在爱尔兰都柏林，之前在 Parse.ly 担任 ML 工程师，在此之前，他在都柏林三一学院担任博士后研究员。他不相信我们会通过扩展现有架构来实现 AGI，但无论如何都对机器人的不朽寄予厚望。

Lysandre Debut 是 Hugging Face 的机器学习工程师，从早期的开发阶段就一直致力于 Transformers 库。他的目标是通过使用非常简单的 API 开发工具，让每个人都可以使用 NLP。

Sylvain Gugger 是 Hugging Face 的一名研究工程师，也是变形金刚库的核心维护者之一。此前，他是 fast.ai 的一名研究科学家，他与 fastai 和 PyTorch 与 Jeremy Howard 共同编写了面向程序员的深度学习。他的主要研究重点是通过设计和改进允许模型在有限资源上快速训练的技术，使深度学习更容易获得。

你准备好了吗？在本章中，您将学习：

如何使用管道功能解决文本生成和分类等 NLP 任务
关于 Transformer 架构
如何区分编码器、解码器和编码器-解码器架构和用例

2. NLP

在进入 Transformer 模型之前，让我们快速了解一下自然语言处理是什么以及我们为什么关心它。

什么是自然语言处理？
NLP 是语言学和机器学习领域，专注于理解与人类语言相关的一切。 NLP 任务的目标不仅是单独理解单个单词，而且是能够理解这些单词的上下文。

以下是常见 NLP 任务的列表，每个任务都有一些示例：

Classifying whole sentences句子分类：获取评论的情绪，检测电子邮件是否为垃圾邮件，确定句子在语法上是否正确或两个句子在逻辑上是否相关
Classifying each word in a sentence词分类：识别句子的语法成分（名词、动词、形容词）或命名实体（人、地点、组织）
Generating text content文本生成：用自动生成的文本完成提示，用屏蔽词填充文本中的空白
Extracting an answer from a text抽取式问答：给定问题和上下文，根据上下文中提供的信息提取问题的答案
Generating a new sentence from an input text摘要生成：将文本翻译成另一种语言，总结文本
不过，NLP 不仅限于书面文本。它还解决了语音识别和计算机视觉中的复杂挑战，例如生成音频样本的转录或图像描述。

为什么它具有挑战性？

计算机处理信息的方式与人类不同。例如，当我们读到“我饿了”这句话时，我们很容易理解它的意思。同样，给定两个句子，例如“我很饿”和“我很伤心”，我们可以轻松确定它们的相似程度。对于机器学习 (ML) 模型，此类任务更加困难。文本需要以一种使模型能够从中学习的方式进行处理。而且由于语言很复杂，我们需要仔细考虑必须如何进行这种处理。关于如何表示文本已经做了很多研究，我们将在下一章中介绍一些方法。

Transformers, what can they do?

在本节中，我们将看看 Transformer 模型可以做什么，并使用 Transformers 库中的第一个工具：管道pipeline。

单击Open in Colab以打开包含本节所有代码示例的 Google Colab 笔记本。此按钮将出现在包含代码示例的任何部分中。
如果您想在本地运行示例，我们建议您查看设置。

transformer无处不在！

Transformer 模型用于解决各种 NLP 任务，就像上一节中提到的那样。以下是一些使用 Hugging Face 和 Transformer 模型的公司和组织，他们也通过分享他们的模型回馈社区：

Transformers 库提供了创建和使用这些共享模型的功能. Model Hub包含数千个所有人都可以下载和使用的预训练模型。您也可以将自己的模型上传到 Hub！

⚠️ Hugging Face Hub 不限于 Transformer 模型。任何人都可以分享他们想要的任何类型的模型或数据集！创建一个huggingface.co 帐户将会从所有可用功能中受益！

在深入研究 Transformer 模型的底层工作原理之前，让我们先看几个示例，看看它们如何用于解决一些有趣的 NLP 问题。

Working with pipelines

Transformers 库中最基本的对象是pipeline。它将模型与其必要的预处理和后处理步骤连接起来，使我们能够直接输入任何文本并获得可理解的答案：

from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

[{'label': 'POSITIVE', 'score': 0.9598047137260437}]

我们甚至可以传入几个句子！

classifier([
    "I've been waiting for a HuggingFace course my whole life.", 
    "I hate this so much!"
])

[{'label': 'POSITIVE', 'score': 0.9598047137260437},
 {'label': 'NEGATIVE', 'score': 0.9994558095932007}]

默认情况下，此管道选择一个特定的预训练模型，该模型已针对英语情感分析进行了微调。创建分类器对象时，将下载并缓存模型。如果您重新运行该命令，则将使用缓存的模型，无需再次下载模型。

将一些文本传递到管道时涉及三个主要步骤：

预处理：文本被预处理为模型可以理解的格式。
输入模型：预处理的输入传递给模型。
后处理：模型的预测是经过后处理的，因此您可以理解它们。

目前可用的一些管道是：

feature-extraction (get the vector representation of a text)
fill-mask
ner (named entity recognition)
question-answering
sentiment-analysis
summarization
text-generation
translation
zero-shot-classification

让我们来看一看这些管道。

Zero-shot classification零样本分类

零样本分类，这是实际项目中的常见场景，因为注释文本通常很耗时，并且需要领域专业知识。

对于这个用例，零样本分类管道非常强大：它允许您指定用于分类的标签，因此您不必依赖预训练模型的标签。您已经看到模型如何使用这两个标签将句子分类为正面或负面——但它也可以使用您喜欢的任何其他标签集对文本进行分类。

from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445963859558105, 0.111976258456707, 0.043427448719739914]}

此管道称为零样本，因为您无需在您的数据集上微调模型。它可以直接返回您想要的任何标签列表的概率分数！

✏️ 试试看！使用您自己的序列和标签，看看模型的如何运行。

Text generation文本生成

现在让我们看看如何使用管道来生成一些文本。这里的主要思想是您提供一个提示，模型将通过生成剩余的文本来自动完成它。这类似于许多手机上的预测文本功能。文本生成涉及随机性，因此如果您没有得到如下所示的相同结果，是正常的。

from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will teach you how to")

[{'generated_text': 'In this course, we will teach you how to understand and use '
                    'data flow and data interchange when handling user data. We '
                    'will be working with one or more of the most commonly used '
                    'data flows — data flows of various types, as seen by the '
                    'HTTP'}]

参数 num_return_sequences :控制生成多少个不同的序列
参数 max_length :控制输出文本的总长度。

✏️快来试试吧！使用 num_return_sequences 和 max_length 参数生成两个句子，每个句子 15 个单词。

前面的示例针对简单任务使用了默认模型，但您也可以从 Hub 中针对特定任务来选择特定模型的管道例如，文本生成。转到 Model Hub并单击左侧的相应标签，页面将会仅显示文本生成任务支持的模型。您应该进入这个页面。
让我们试试 distilgpt2 模型吧！以下是如何在与以前相同的管道中加载它：

from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

[{'generated_text': 'In this course, we will teach you how to manipulate the world and '
                    'move your mental and physical capabilities to your advantage.'},
 {'generated_text': 'In this course, we will teach you how to become an expert and '
                    'practice realtime, and with a hands on experience on both real '
                    'time and real'}]

模型中心包含多语言模型的checkpoints。您可以通过单击语言标签来优化对模型的搜索，然后选择生成另一种语言文本的模型。

通过单击选择模型后，您会看到有一个小部件，可让您直接在线试用。通过这种方式，您可以在下载模型之前快速测试模型的功能。

✏️快来试试吧！使用filters查找另一种语言的文本生成模型。随意使用小部件并在管道中使用它！

The Inference API

Hugging Face 网站上的Inference API，可以对所有模型直接进行测试。即您可以直接在此页面上使用各种模型，通过输入自定义文本就可以看到模型处理输入数据后的结果。

支持小部件的推理Inference API 也可作为付费产品使用。有关更多详细信息，请参阅定价页面。

Mask filling

您将尝试的下一个管道是 fill-mask。此任务的想法是填充给定文本中的空白（完形填空）：

from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about  models.", top_k=2)

[{'sequence': 'This course will teach you all about mathematical models.',
  'score': 0.19619831442832947,
  'token': 30412,
  'token_str': ' mathematical'},
 {'sequence': 'This course will teach you all about computational models.',
  'score': 0.04052725434303284,
  'token': 38163,
  'token_str': ' computational'}]

top_k 参数控制要显示多少可能的结果。
请注意，这里模型填充了特殊的词，它通常被称为掩码标记。其他掩码填充模型可能具有不同的掩码标记，因此在使用其它模型时要先进行确认。比如是查看右侧Hosted inference API中使用的掩码。

✏️快来试试吧！在 Hub 上搜索 bert-base-cased 模型并在Hosted inference API中识别其掩码。这个模型对上面管道示例中的句子预测了什么？

Named entity recognition

命名实体识别 (NER) 任务中，模型必须找到输入文本各部分分别对应哪些实体（例如人员、位置或组织）。让我们看一个例子：

from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

[{'entity_group': 'PER', 'score': 0.99816, 'word': 'Sylvain', 'start': 11, 'end': 18}, 
 {'entity_group': 'ORG', 'score': 0.97960, 'word': 'Hugging Face', 'start': 33, 'end': 45}, 
 {'entity_group': 'LOC', 'score': 0.99321, 'word': 'Brooklyn', 'start': 49, 'end': 57}
]

在这里，模型正确地识别出 Sylvain 是一个人 (PER)，Hugging Face 是一个组织 (ORG)，而Brooklyn是一个位置 (LOC)。

设定参数 grouped_entities=True ，这样管道会将对应于同一实体的句子部分重新组合在一起。这里模型正确地将“Hugging”和“Face”分组为一个组织，即使该名称由多个单词组成。

事实上，正如我们将在下一章看到的，预处理甚至将一些单词分成更小的部分。例如，Sylvain 被分成四部分：S、##yl、##va 和 ##in。在后处理步骤中，管道会将这些部分重新组合。

✏️快来试试吧！在Model Hub搜索能够用英语进行词性标注（通常缩写为 POS）的模型。这个模型对上面例子中的句子预测了什么？

Question answering

问答管道使用给定的上下文信息来回答问题：

from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn"
)

{'score': 0.6385916471481323, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

请注意，此管道是抽取式问答；它不会生成答案。

Summarization 摘要生成

摘要是将文本缩减为较短文本的任务，同时保留文本中引用的所有（或大部分）重要方面。下面是一个例子：

from transformers import pipeline

summarizer = pipeline("summarization")
summarizer("""
    America has changed dramatically during recent years. Not only has the number of 
    graduates in traditional engineering disciplines such as mechanical, civil, 
    electrical, chemical, and aeronautical engineering declined, but in most of 
    the premier American universities engineering curricula now concentrate on 
    and encourage largely the study of engineering science. As a result, there 
    are declining offerings in engineering subjects dealing with infrastructure, 
    the environment, and related issues, and greater concentration on high 
    technology subjects, largely supporting increasingly complex scientific 
    developments. While the latter is important, it should not be at the expense 
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other 
    industrial countries in Europe and Asia, continue to encourage and advance 
    the teaching of engineering. Both China and India, respectively, graduate 
    six and eight times as many traditional engineers as does the United States. 
    Other industrial countries at minimum maintain their output, while America 
    suffers an increasingly serious decline in the number of engineering graduates 
    and a lack of well-educated engineers.
""")

[{'summary_text': ' America has changed dramatically during recent years . The '
                  'number of engineering graduates in the U.S. has declined in '
                  'traditional engineering disciplines such as mechanical, civil '
                  ', electrical, chemical, and aeronautical engineering . Rapidly '
                  'developing economies such as China and India, as well as other '
                  'industrial countries in Europe and Asia, continue to encourage '
                  'and advance engineering .'}]

与文本生成一样，您可以为结果指定 max_length 或 min_length。

Translation翻译

对于翻译，如果您在任务名称中提供语言对（例如“translation_en_to_fr”），则可以使用默认模型，但最简单的方法是在 Model Hub选择要使用的模型。在这里，我们将尝试将法语翻译成英语：

rom transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")

[{'translation_text': 'This course is produced by Hugging Face.'}]

与文本生成和摘要一样，您可以为结果指定 max_length 或 min_length。

✏️快来试试吧！搜索其他语言的翻译模型，并尝试将前一句翻译成几种不同的语言。

到目前为止显示的pipeline主要用于演示目的。它们是为特定任务编程的，不能执行它们的变体。在下一章中，您将了解管道内部的内容以及如何自定义其行为。

3. Transformers 是如何工作的?

在本节中，我们将深入了解 Transformer 模型的架构。

Transformers的历史

以下是 Transformer 模型（简短）历史中的一些参考点：

Transformer 架构于 2017 年 6 月推出。原始研究的重点是翻译任务。随后推出了几个有影响力的模型，包括：

2018 年 6 月：GPT，第一个预训练的 Transformer 模型，用于各种 NLP 任务的微调并获得最先进的结果
2018 年 10 月：BERT，另一个大型预训练模型，该模型旨在生成更好的句子摘要（下一章将详细介绍！）
2019 年 2 月：GPT-2，GPT 的改进（和更大）版本，由于道德问题未立即公开发布
2019 年 10 月：DistilBERT，BERT 的蒸馏版本，速度提高 60%，内存减轻 40%，但仍保留 BERT 97% 的性能
2019 年 10 月：BART 和 T5，两个使用与原始 Transformer 模型相同架构的大型预训练模型（第一个这样做）
2020 年 5 月，GPT-3，GPT-2 的更大版本，无需微调即可在各种任务上表现良好（称为零样本学习zero-shot learning）

这个列表并不全，只是为了突出一些不同类型的 Transformer 模型。大体上，它们可以分为三类：

GPT类（也称为自回归 Transformer 模型）
BERT类（也称为自动编码 Transformer 模型）
BART/T5 类（也称为序列到序列的 Transformer 模型）

稍后我们将更深入地探讨这些类别。

Transformers 语言模型

上面提到的所有 Transformer 模型（GPT、BERT、BART、T5 等）都是作为语言模型来训练。这意味着他们已经以自我监督的方式接受了大量原始文本的训练。

自监督模型可以对其所训练的语言进行统计理解，但对于特定的实际任务并不是很有用。因此，通用的预训练模型会经历一个称为迁移学习的过程。在此过程中，模型在给定任务上以监督方式进行微调——即使用人工标注的标签。

任务的一个例子是预测一个句子中已经阅读了 n 个前一个单词的下一个单词。这被称为因果语言建模causal language modeling，因为输出取决于过去和现在的输入，而不是未来的输入。

另一个例子是掩码语言建模，其中模型预测句子中的掩码词。

transformer是big models

除了一些例外情况（如 DistilBERT）外，实现更好性能的一般策略是增加模型的大小以及预训练的数据量。
不幸的是，训练模型，尤其是大型模型，需要大量数据。这在时间和计算资源方面变得非常昂贵。它甚至会转化为环境影响 environmental impact，如下图所示。

这展示了一个团队领导的（非常大的）模型项目，有意识地试图减少预训练对环境的影响。运行大量试验以获得最佳超参数的足迹会更高。

想象一下，如果每次研究团队、学生组织或公司想要训练一个模型，它都会从头开始。这将导致巨大的、不必要的全球成本！

这就是共享语言模型至关重要的原因：共享已训练的权重并在已训练权重的基础上进行构建可降低社区的整体计算成本和carbon footprint。

Transfer Learning迁移学习

预训练是从头开始训练模型的行为：权重随机初始化，训练在没有任何先验知识的情况下开始。

这种预训练通常是在非常大量的数据上完成的。因此，它需要非常大的数据语料库，并且训练可能需要长达数周的时间。

另一方面，微调是在模型经过预训练后进行的训练。要进行微调，您首先需要获得一个预训练的语言模型，然后使用特定于您的任务的数据集进行额外的训练。等等——为什么不直接为最终任务训练呢？有几个原因：

预训练模型已经在与微调数据集有一些相似之处的数据集上进行了训练。因此，微调过程能够利用初始模型在预训练期间获得的知识（例如，对于 NLP 问题，预训练模型将对您用于任务的语言有某种统计理解）。
由于预训练模型已经在大量数据上进行了训练，因此微调需要更少的数据就能获得不错的结果。
同理，微调所需的时间和资源要少得多。
例如，可以利用在英语语言上训练的预训练模型，然后在 arXiv 语料库上对其进行微调，从而产生基于科学/研究的模型。微调只需要有限数量的数据：预训练模型获得的知识是“转移”的，因此称为转移学习。

因此，微调模型具有更低的时间、数据、财务和环境成本。迭代不同的微调方案也更快、更容易，因为训练比完全预训练的约束更少。

这个过程也会比从头开始训练获得更好的结果（除非你有大量数据），这就是为什么你应该总是尝试利用预训练模型——一个尽可能接近你手头任务的模型——并进行微调它。

General architecture一般架构

在本节中，我们将介绍 Transformer 模型的一般架构。如果您不了解某些概念，请不要担心；后面有详细的部分介绍了每个组件。

介绍

该模型主要由两个块组成：

编码器：编码器接收输入并构建其表示（其特征）。这意味着模型经过优化以从输入中获取理解。
解码器：解码器使用编码器的表示（特征）和其他输入来生成目标序列。这意味着模型针对生成输出进行了优化。

这些部分中的每一个都可以独立使用，具体取决于任务：

Encoder-only models：适用于需要理解输入的任务，例如句子分类和命名实体识别。
Decoder-only models：适用于生成任务，例如文本生成。
Encoder-decoder models or sequence-to-sequence models：适用于需要输入的生成任务，例如翻译或摘要。

我们将在后面的部分中独立深入研究这些架构。

Attention layers

Transformer 模型的一个关键特征是它们由称为注意力层的特殊层构建而成。事实上，介绍 Transformer 架构的论文的标题是《Attention Is All You Need》！该层将告诉模型在处理每个单词的表示时，特别注意您传递给它的句子中的某些单词（并或多或少忽略其他单词）。

考虑将文本从英语翻译成法语的任务。输入“You like this course”，翻译模型还需要注意相邻的单词“you”以获得单词“like”的正确翻译，因为在法语中动词“like”随主语的不同而变化。而句子的其余部分对于该词的翻译没有用处。同样，在翻译“this”时，模型还需要注意“course”这个词，因为“this”的翻译取决于相关名词是阳性masculine还是阴性feminine。同样，句子中的其他单词对于“this”的翻译无关紧要。对于更复杂的句子（和更复杂的语法规则），模型需要特别注意可能出现在句子中较远的单词以正确翻译每个单词。

相同的概念适用于与自然语言相关的任何任务：一个词本身就具有含义，但该含义深受上下文的影响，上下文可以是正在研究的单词之前或之后的任何其他单词（或多个单词）。

现在您已经了解了注意力层的全部内容，让我们仔细看看 Transformer 架构。

The original architecture原始架构

Transformer 架构最初是为翻译而设计的。在训练期间，编码器接收某种语言的输入（句子），而解码器接收所需目标语言的相同句子。在编码器中，注意力层可以使用句子中的所有单词（因为，正如我们刚刚看到的，给定单词的翻译可以依赖于句子中在它之后和之前的内容）。然而，解码器是按顺序工作的，并且只能关注它已经翻译的句子中的单词（因此，只有当前生成的单词之前的单词）。例如，当我们预测了翻译目标的前三个单词时，我们将它们提供给解码器，然后解码器使用编码器的所有输入来尝试预测第四个单词。

为了在训练过程中加快速度（当模型可以访问目标句子时），解码器被输入了整个目标，但不允许使用未来的词（如果它在尝试预测时可以访问位置 2 的词）位置 2 的词，问题不会很难！）。例如，当尝试预测第四个单词时，注意力层只能访问位置 1 到 3 中的单词。

最初的 Transformer 架构是这样的，左边是编码器，右边是解码器：

请注意，解码器块中的第一个注意力层关注解码器的所有（过去）输入，但第二个注意力层使用编码器的输出。因此，它可以访问整个输入句子以最好地预测当前单词。因为不同的语言语法规则不同，会将单词按不同的顺序排列，或者句子后面提供的某些上下文可能有助于确定给定单词的最佳翻译。

注意力掩码也可以用在编码器/解码器中，以防止模型注意一些特殊的词——例如，特殊的填充词用于在将句子批处理时使所有输入具有相同的长度。

Architectures vs. checkpoints

当我们在本课程中深入研究 Transformer 模型时，您会看到架构和检查点以及模型的提及。这些术语的含义略有不同：

Architectures：这是模型的骨架——每一层的定义和模型中发生的每个操作。
checkpoints：这些是将在给定架构中加载的权重。
Model:这是一个总称，不像“架构”或“检查点”那样精确：它可以同时表示两者。当需要减少歧义时，本课程将指定架构或检查点。
例如，BERT 是一种 Architectures，而 bert-base-cased（谷歌团队为 BERT 的第一个版本训练的一组权重）是一个checkpoints。但是，可以说“the BERT model”和“the bert-base-cased model”。

4.Encoder models

编码器模型仅使用 Transformer 模型的编码器。在每个阶段，注意力层都可以访问初始句子中的所有单词。这些模型通常被描述为具有“双向”注意力，并且通常被称为自动编码模型。

这些模型的预训练通常围绕着以某种方式破坏给定的句子（例如，通过屏蔽其中的随机单词）并让模型找到或重建初始句子。

编码器模型最适合需要理解完整句子的任务，例如句子分类、命名实体识别（以及更一般的单词分类）和提取式问答。

该系列模型的代表包括：
ALBERT
BERT
DistilBERT
ELECTRA
RoBERTa

5.Decoder models

解码器模型仅使用 Transformer 模型的解码器。在每个阶段，对于给定的单词，注意力层只能访问句子中位于它之前的单词。这些模型通常称为自回归模型。

解码器模型的预训练通常围绕预测句子中的下一个单词，最适合涉及文本生成的任务。

该系列模型的代表包括：
CTRL
GPT
GPT-2
Transformer XL

6.Sequence-to-sequence models

编码器-解码器模型（也称为序列到序列模型）使用 Transformer 架构的两个部分。在每个阶段，编码器的注意力层可以访问初始句子中的所有单词，而解码器的注意力层只能访问位于输入中给定单词之前的单词。

这些模型的预训练可以使用编码器或解码器模型的目标来完成，但通常涉及更复杂的事情。例如，T5 是通过用单个掩码特殊词替换随机文本跨度（可以包含多个单词）来预训练的，然后目标是预测该掩码替换的文本。

序列到序列模型最适合根据给定输入生成新句子的任务，例如摘要、翻译或生成式问答。

该系列模型的代表包括：
BART
mBART
Marian
T5

7.Bias and limitations偏见和限制

如果您打算在工作中使用预训练模型或微调版本，请注意，虽然这些模型是强大的工具，但它们也有局限性。其中最重要的是，为了能够对大量数据进行预训练，研究人员通常会抓取他们能找到的所有内容，从互联网上可用的内容中选取最好的和最坏的。

为了快速说明，让我们回到带有 BERT 模型的填充掩码管道的示例：

from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])

['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
['nurse', 'waitress', 'teacher', 'maid', 'prostitute']

当要求填写这两句话中缺失的单词时，模型只给出了一个不分性别的答案（服务员/女服务员）。其他的是通常与一种特定性别相关的工作职业——是的，妓女最终出现在模型与“女人”和“工作”相关联的前 5 种可能性中。尽管 BERT 是罕见的 Transformer 模型之一，但不是通过从互联网上抓取数据构建的，而是使用明显中性的数据（它在英语维基百科和 BookCorpus 数据集上训练），这种情况也会发生。

因此，当您使用这些工具时，您需要牢记您所使用的原始模型很容易产生性别歧视、种族主义或恐同内容。根据您的数据对模型进行微调不会使这种内在偏差消失。

8.总结

在本章中，您看到了如何使用 Transformers pipeline API 来处理不同的 NLP 任务。您还了解了如何在 Hub 中搜索和使用模型，以及如何使用Inference API 直接在浏览器中测试模型。

我们讨论了 Transformer 模型如何高水平地工作，并讨论了迁移学习和微调的重要性。您可以使用完整架构，也可以仅使用编码器或解码器，具体取决于您要解决的任务类型。下表总结了这一点：

模型	例子	任务
Encoder	ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa	句子分类、命名实体识别、抽取式问答
Decoder	CTRL, GPT, GPT-2, Transformer XL	文本生成
Encoder-decoder	BART, T5, Marian, mBART	摘要生成、翻译、生成式问答

第一节是本章目标和作者简介：

如何使用管道功能解决文本生成和分类等 NLP 任务
关于 Transformer 架构
如何区分编码器、解码器和编码器-解码器架构和用例

第二节介绍了transformer库不同任务的pipeline处理，以及Hosted inference API在线测试功能
第三节介绍了Transformers的历史（三种语言模型）、迁移学习的重要性以及Transformers基本结构、Architectures 和 checkpoints的概念。Attention layers关注某些单词（比如影响单词时态语态单复数等等）（并或多或少忽略其他单词）。
4.5.6.8节都是总结三种语言模型的代表模型及适用任务。第7 节介绍了此类模型预训练的限制和偏置，如性别歧视、种族主义或恐同内容等。

章节测试

你可能感兴趣的:(hugging,face,transformer,深度学习,自然语言处理)

什么是 React Native 程序猿经理 react native react.js javascript
ReactNative（简称RN）是Facebook于2015年4月开源的跨平台移动应用开发框架，它是Facebook早先开源的JS框架React在原生移动应用平台的衍生产物，支持iOS和安卓两大平台。以下是关于ReactNative的详细介绍：一、基本概述定义：ReactNative是一个使用React和应用平台的原生功能来构建Android和iOS应用的开源框架。起源：由Facebook开发并
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
Spring AI - 对话模型还是转转 spring 人工智能 java
目录：SpringAI框架介绍SpringAI对话模型核心API简介SpringAI提供了很多便利的功能，主要如下：AIModelAPI“ModelAPI”提供了聊天、文本转图像、音频转录、文本转语音、嵌入等功能，且不局限于某个固定的大模型提供商，如OpenAI，Microsoft，Amazon,Google,AmazonBedrock,HuggungFace等等。下面是支持的AI模型的示意图：C
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
使用 LangChain 构建多PDF文档聊天应用 jkgSFS langchain pdf easyui python
随着大型语言模型（LLMs）的普及，如何将它们应用于文档处理成为了热门话题之一。本文将通过一个教程，展示如何使用LangChain构建一个能够处理多个PDF文档并与之对话的应用。技术背景介绍LangChain是一个广受欢迎的库，能够帮助开发者轻松地与LLMs和不同的嵌入技术进行整合。它提供了方便的接口和工具，使得复杂的自然语言处理任务变得简单高效。核心原理解析我们将利用LangChain来读取多个
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
探索未来，AI-WEBUI：让AI创作触手可及农爱宜
探索未来，AI-WEBUI：让AI创作触手可及ai_webuiAI-WEBUI:AuniversalwebinterfaceforAIcreation,一款好用的图像、音频、视频AI处理工具项目地址:https://gitcode.com/gh_mirrors/ai/ai_webui1、项目介绍AI-WEBUI是一个创新的开源项目，它提供了一个全面的Web界面，让你无需编程背景就能轻松进行AI创作
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
脑机接口：信息安全新领域的机遇与挑战烁月_o9 网络安全 web安全其他
脑机接口：信息安全新领域的机遇与挑战摘要脑机接口（Brain-ComputerInterface，BCI）技术作为连接大脑与外部设备的新兴交互方式，正以前所未有的速度发展，为医疗、娱乐、教育等多领域带来了巨大变革。然而，随着其应用的不断拓展，脑机接口在信息安全方面面临着诸多挑战。本文深入探讨脑机接口技术的发展现状，剖析其在信息安全领域所面临的机遇与挑战，并提出相应的应对策略，旨在为脑机接口技术的安
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
大模型的RAG微调与Agent：提升智能代理的效率与效果 WeeJot 人工智能人工智能
目录编辑引言RAG模型概述检索阶段生成阶段RAG模型的微调数据集选择损失函数设计微调策略超参数调整RAG模型在智能代理中的应用客户服务信息检索内容创作决策支持：结论引言在人工智能的快速发展中，大型预训练模型（LLMs）已经成为推动技术进步的关键力量。这些模型通过在海量数据上的预训练，掌握了丰富的语言知识和模式识别能力，从而在多种自然语言处理任务上展现出卓越的性能。然而，预训练模型的通用性也意味着它
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
25.01.15 SpringSecurity 授权 2401_87910368 笔记
//准备工作在登录通过username查询用户时，把用户对应的角色即角色对应的菜单查出，//根据用户的角色rolerid来查询对应的菜单publicinterfaceAdminMenuDaoextendsBaseMapper{@Select("SELECTm.*FROMadmin_menum,rel_role_menurelWHEREm.mid=rel.midANDrel.rid=#{id}")L
ChatGPT 绘图的工作原理
ChatGPT的绘图功能结合了自然语言处理（NLP）和图像生成的技术，这种综合能力依赖于预训练模型（如GPT-4）和图像生成模型（如DALL-E）之间的紧密协作。ChatGPT本质上是一个大规模的语言模型，但通过与图像生成模型集成，它得以执行基于描述生成图像的任务。接下来，我们将从模型架构、训练方法、推理机制和一些技术挑战等方面，详细讨论ChatGPT进行绘图的工作原理。
快速上手：C OpenCvSharp Yolov8 人脸关键点检测工具卢枫岱
快速上手：C#OpenCvSharpYolov8人脸关键点检测工具COpenCvSharpYolov8FaceLandmarks.rar项目地址:https://gitcode.com/open-source-toolkit/4d2a0项目介绍在当今的数字化时代，人脸识别和关键点检测技术已经成为许多应用的核心组成部分。无论是安防监控、人机交互还是虚拟现实，准确且高效的人脸关键点检测都是不可或缺的。
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
【音视频之SDL2】一篇搞懂纹理与渲染人才程序员音视频基础大合集音视频 c c++SDL2 计算机视觉视频编解码实时音视频
文章目录前言SDL2的纹理与渲染什么是纹理？什么是渲染？比较SDL_SurfaceSDL_Texture纹理与渲染的关系使用纹理与渲染绘制一个BMP图片使用纹理与渲染的流程SDL_CreateRenderer作用函数原型参数返回值SDL_CreateTextureFromSurface作用函数原型参数返回值SDL_UpdateTexture作用函数原型参数返回值何时调用它SDL_RenderCop
人体关键点实操网站 3TV 人体关键点检测
1、Face++：https://www.faceplusplus.com.cn/skeleton-detection/2、百度AI开放平台：https://ai.baidu.com/tech/body/pose?track=cp:ainsem|pf:pc|pp:chanpin-rentifenxi|pu:rentifenxi-guanjiandianshibie|ci:|kw:100065423
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
ATB是什么？人工智能深度学习
1ATB介绍AscendTransformerBoost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为AscendAI处理器，专门为Transformer类模型的训练和推理而设计。ATB加速库采用了一系列优化策略，包括算法优化、硬件优化和软件优化，能够显著提升Transformer模型的训练和推理速度，同时降低能耗和成本。具体来说，ATB加速库通过优化矩阵乘法等核心算子和注意力
直击青藏高原数据匮乏难题！浙江大学团队提出GeoAI新模型，解释青藏高原地表热流分布
在地球科学研究中，地表热流(SurfaceHeatFlow,SHF)作为地球深层热能释放的重要表征，一直备受关注。地表热流不仅是地球内部能量驱动的一面「窗口」，更是揭示地壳热结构、地幔热动力学及地质构造演化的关键参数。通过对地表热流的研究，我们能够深入了解地球内部的热力机制，揭示板块俯冲、地幔上升及裂谷扩张等地质现象背后的动力学过程。尽管地表热流研究在过去几十年中取得了诸多进展，但在全球范围内，某
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR