Sonhhxg_柒

【NLP】第8章将 Transformer 应用于法律和财务文件以进行 AI 文本摘要

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

在前七章中，我们探讨了几个 Transformer 生态系统的架构训练、微调和使用。在第 7 章“使用 GPT-3 引擎的超人变形金刚的崛起”中，我们发现 OpenAI 已经开始尝试零样本模型，无需微调、无需开发，只需几行代码即可实现。

这种进化的基本概念依赖于变形金刚如何努力教机器如何理解一种语言并以类似人类的方式表达自己。因此，我们已经从训练模型转变为向机器教授语言。

拉菲尔等人。(2019) 设计了一个基于简单断言的转换器元模型：每个 NLP 问题都可以表示为文本到文本的函数。每种类型的 NLP 任务都需要某种文本上下文来生成某种形式的文本响应。

任何 NLP 任务的文本到文本表示提供了一个独特的框架来分析转换器的方法和实践。这个想法是让转换器在训练和微调阶段使用文本到文本的方法通过迁移学习来学习语言。

拉菲尔等人。（2019 年）将此方法命名为T ext- T o - T ext Transfer转换器。5 Ts 变成了T5，一个新的模型诞生了。

我们将从介绍 T5 变压器模型的概念和架构开始本章。然后，我们将应用 T5 来总结具有 Hugging Face 模型的文档。

最后，我们会将文本到文本的方法转换为 GPT-3 引擎使用的显示和上下文过程。令人兴奋的，虽然不完美，零镜头的反应超出了人类的想象。

本章涵盖以下主题：

文本到文本转换器模型
T5 模型的架构
T5 方法论
Transformer 模型从训练到学习的演变
Hugging Face transformer模型
实施 T5 模型
总结法律文本
总结财务文本
变压器模型的限制
GPT-3 用法

我们的第一步将是探索Raffel等人定义的文本到文本方法。（2019）。

设计通用的文本到文本模型

Google 的 NLP 技术革命始于Vaswani等人。（2017 年），最初的变形金刚，2017 年。注意力就是你所需要的，推翻了 30 多年的人工智能对应用于 NLP 任务的 RNN 和 CNN 的信念。它把我们从 NLP/NLU 的石器时代带到了 21世纪，这是一场姗姗来迟的演变。

第 7 章，使用 GPT-3 引擎的超人变形金刚的崛起，总结了在 Google 的Vaswani等人之间爆发并爆发的第二次革命。(2017) 原创 Transformer 和 OpenAI 的Brown等人。(2020) GPT-3 变压器。最初的 Transformer 专注于性能，以证明 NLP/NLU 任务只需要注意力。

OpenAI 通过 GPT-3 进行的第二次革命，专注于将变压器模型从经过微调的预训练模型转变为无需微调的少量训练模型。第二次革命是表明机器可以像人类一样学习一种语言并将其应用于下游任务。

了解这两次革命以了解 T5 模型所代表的意义至关重要。第一次革命是注意力技术。第二次革命是教机器理解一种语言（NLU），然后让它像我们一样解决 NLP 问题。

2019 年，谷歌与 OpenAI 的思路相同，思考如何超越技术考虑来感知转换器，并将其带到自然语言理解的抽象层次。

这些革命变得具有破坏性。是时候安定下来了，忘记源代码和机器资源，在更高的层次上分析转换器。

拉菲尔等人。（2019）设计了一个概念性的文本到文本模型，然后实现了它。

让我们来看看第二次变压器革命的这种表现形式：抽象模型。

文本到文本转换器模型的兴起

拉菲尔等人。（2019 年）作为先驱者踏上了旅程，其目标是：使用统一的文本到文本转换器探索迁移学习的极限。致力于这种方法的 Google 团队强调它不会从一开始就修改原始 Transformer 的基本架构。

那时，Raffel等人。(2019) 想要专注于概念，而不是技术。因此，正如我们经常看到的那样，他们对生产最新的变压器模型没有兴趣具有n 个参数和层的所谓的银弹变压器模型。这一次，T5 团队想要了解 Transformer 在理解语言方面的能力。

人类学习一门语言，然后通过迁移学习将这些知识应用到广泛的 NLP 任务中。T5模型的核心概念是找到一个可以像我们一样做事情的抽象模型。

当我们交流时，我们总是从一个序列（A）开始，然后是另一个序列（B）。B 依次成为通向另一个序列的起始序列，如图 8.1所示：

图 8.1：通信的序列到序列表示

我们还通过音乐与有组织的声音进行交流。我们通过有组织的肢体动作跳舞来交流。我们通过协调形状和颜色的绘画来表达自己。

我们通过语言与我们称为“文本”的一个词或一组词进行交流。当我们尝试要理解一个文本，我们要注意句子中各个方向的所有单词。我们尝试衡量每个术语的重要性。当我们不理解一个句子时，我们专注于一个单词并查询句子中的其余关键字，以确定它们的值以及我们必须关注它们。这定义了转换器的注意力层。

花几秒钟，让它沉入其中。这看起来很简单，对吧？然而，推翻围绕 RNN、CNN 以及伴随它们的思维过程的旧观念花了 35 年多的时间！

看着 T5 学习、进步，有时甚至帮助我们更好地思考，真是令人着迷！

同时关注序列中所有标记的注意力层的技术革命导致了 T5 概念革命。

T5 模型可以概括为一个T ext- T o - T ext T传输转换器。因此，每个 NLP 任务都表示为要解决的文本到文本问题。

前缀而不是特定于任务的格式

拉菲尔等人。(2019) 仍有一个问题需要解决：统一特定任务的格式。这个想法是为提交给转换器的每个任务找到一种输入格式。这样，模型参数将针对所有类型的任务使用一种文本到文本格式进行训练。

Google T5 团队想出了一个简单的解决方案：为输入序列添加前缀。如果没有某个被遗忘已久的天才发明前缀，我们将需要多种语言的数千个额外词汇表。例如，如果我们不使用“pre”作为前缀，我们将需要找到描述 prepayment、prehistoric、Precambrian 和数千个其他词的词。

拉菲尔等人。（2019）提出为输入序列添加前缀。T5 前缀不仅仅是一个标签或指示符，就像[CLS]某些变压器模型中的分类一样。相反，T5 前缀包含了转换器需要解决的任务的本质。前缀传达含义如下例所示：

translate English to German: + [sequence]对于翻译，就像我们在第 6 章中所做的那样，使用 Transformer 进行机器翻译
cola sentence: + [sequence]用于语言可接受性语料库 (CoLA)，正如我们在第 3 章微调BERT 模型中使用的那样，当我们微调 BERT 转换器模型时
stsb sentence 1:+[sequence]用于语义文本相似性基准。自然语言推理和蕴涵是类似的问题，如第 5 章，带有 Transformer 的下游 NLP 任务中所述
summarize + [sequence]对于文本摘要问题，我们将在本章的 T5 文本摘要部分解决

我们现在已经为广泛的 NLP 任务获得了一个统一的格式，如图 8.2 所示：

图 8.2：统一 Transformer 模型的输入格式

统一的输入格式导致一个转换器模型，无论它必须在T5中解决哪个问题，它都会产生一个结果序列。许多 NLP 任务的输入和输出已经统一，如图 8.3所示：

图 8.3：T5 文本到文本框架

统一过程使得可以为广泛的任务使用相同的模型、超参数和优化器。

我们已经了解了标准的文本到文本输入输出格式。现在让我们看看 T5 变压器模型的架构。

T5 型号

拉菲尔等人。（2019）专注于设计标准输入格式以获得文本输出。Google T5 团队不想尝试从原始 Transformer 派生的新架构，例如类似 BERT 的仅编码器层或类似 GPT 的仅解码器层。相反，该团队专注于以标准格式定义 NLP 任务。

他们选择使用我们在第 2 章定义的原始 Transformer 模型，Transformer 模型的架构入门，如图 8.4 所示：

图 8.4：T5 使用的原始 Transformer 模型

拉斐尔等人。(2019) 保持最多原始的 Transformer 架构和术语。但是，他们强调了一些关键方面。此外，他们对词汇和功能做了一些细微的改变。以下列表包含一些T5模型的主要方面：

编码器和解码器保留在模型中。编码器和解码器层成为“块”，子层成为包含自注意力层和前馈网络的“子组件”。在类似 LEGO ®的语言中使用“块”和“子组件”一词允许您组装“块”、部件和组件来构建模型。变压器组件是您可以通过多种方式组装的标准构建块。一旦您了解了我们在第 2 章“ Transformer 模型架构入门”中介绍的基本构建块，您就可以理解任何 Transformer 模型。
自注意力是“顺序无关的”，这意味着它对集合执行操作，正如我们在第 2 章中看到的那样。自注意力使用矩阵的点积，而不是递归。它按顺序探索每个单词与其他单词之间的关系。在生成点积之前，将位置编码添加到单词的嵌入中。
这原始变压器将正弦和余弦信号应用于变压器。或者它使用学习的位置嵌入。T5 使用相对位置嵌入，而不是向输入添加任意位置。在 T5 中，位置编码依赖于自注意力的扩展来比较成对关系。有关更多信息，请参阅Shaw等人。(2018) 在本章的参考资料部分。
位置嵌入通过模型的所有层共享和重新评估。

我们已经通过文本到文本的方法定义了 T5 转换器模型的输入标准化。

现在让我们使用 T5 来汇总文档。

使用 T5 进行文本摘要

NLP 总结任务提取文本的简洁部分。本节将首先介绍我们将在本章中使用的拥抱脸资源。然后我们将初始化一个 T5-large Transformer 模型。最后，我们将看到如何使用 T5 来总结任何文件，包括法律和公司文件。

让我们从介绍 Hugging Face 的框架开始。

Hugging Face

Hugging Face设计在更高级别实现 Transformer 的框架。我们在第 3 章“微调 BERT 模型”中使用 Hugging Face 来微调BERT 模型，并在第 4 章“从头开始预训练 RoBERTa 模型”中训练 RoBERTa 模型。

为了扩展我们的知识，我们需要探索其他方法，例如第 6 章中的 Trax ，使用 Transformer 进行机器翻译，以及第 7 章，使用 GPT-3 引擎的超人变形金刚的崛起中的 OpenAI模型。本章将再次使用 Hugging Face 的框架并解释更多关于在线资源的信息。我们使用 GPT-3 引擎的独特潜力来结束本章。

Hugging Face 在其框架内提供了三种主要资源：模型、数据集和指标。

Hugging Face transformer 资源

在本小节中，我们将选择我们将在本章中实现的 T5 模型。

一个大范围模型可以在 Hugging Face 模型页面上找到，如图 8.5 所示：

图 8.5：拥抱脸模型

在此页面Models - Hugging Face上，我们可以搜索模型。在我们的例子中，我们正在寻找t5-large，一个我们可以在 Google Colaboratory 中顺利运行的模型。

我们首先键入T5以搜索 T5 模型并获取我们可以选择的 T5 模型列表：

图 8.6：搜索 T5 模型

我们可以看到有几款原装的T5变压器可用，其中有：

base，这是基线模型。它的设计类似于具有 12 层和大约 2.2 亿个参数的 BERT BASE
small，这是一个较小的模型，有 6 层和 6000 万个参数
large被设计成类似于 BERT LARGE，有 12 层和 7.7 亿个参数
3B和11B使用 24 层编码器和解码器，大约有 28 亿和 110 亿个参数

有关 BERT BASE和 BERT LARGE的更多描述，您可以现在或稍后在第 3 章，微调 BERT 模型中查看这些模型。

在我们的例子中，我们选择t5-large：

图 8.7：如何使用拥抱脸模型

图 8.7显示了如何在我们将编写的代码中使用模型。我们还可以查看文件列表在模型和基本配置文件中。我们将在本章的初始化 T5 大型变压器模型部分中初始化模型时查看配置文件。

Hugging Face 还提供数据集和指标：

这数据集可用于训练和测试您的模型：https ://huggingface.co/datasets
指标资源可用于衡量模型的性能：https ://huggingface.co/metrics

数据集和指标是 NLP 的经典方面。在本章中，我们不会实现这些数据集或指标。相反，我们将专注于如何实现任何要总结的文本。

让我们从初始化 T5 变压器模型开始。

初始化 T5-large transformer 模型

在这个小节，我们将初始化一个 T5-large 模型。打开以下笔记本，Summarizing_Text_with_T5.ipynb您可以在 GitHub 上的本章目录中找到它。

让我们开始使用 T5！

T5 入门

在本小节中，我们将安装 Hugging Face 的框架，然后初始化一个 T5 模型。

我们将首先安装 Hugging Face 的变压器：

!pip install transformers

注意：Hugging Face 转换器不断发展，更新库和模块以适应市场。如果默认版本不起作用，您可能必须使用!pip install transformers==[version that runs with the other functions in the notebook].

我们固定版本0.1.94以sentencepiece使使用 Hugging Face 的笔记本尽可能稳定：

!pip install sentencepiece==0.1.94

Hugging Face 有一个可以克隆的 GitHub 存储库。然而，Hugging Face 的框架提供了一系列我们可以实现的高级转换器函数。

我们可以在初始化模型时选择是否显示模型的架构：

display_architecture=False

如果我们设置display_architecture为True，将显示编码器层、解码器层和前馈子层的结构。

该程序现在导入torch和json：

import torch
import json

研究变压器意味着对研究实验室与我们共享的许多变压器架构和框架持开放态度。另外，我建议尽可能使用 PyTorch 和 TensorFlow 来适应这两种环境。重要的是 Transformer 模型（特定任务模型或零样本模型）的抽象级别及其整体性能。

让我们导入标记器、生成和配置类：

from transformers import T5Tokenizer, T5ForConditionalGeneration, T5Config

我们将在T5-large此处使用该模型，但您可以在本章的“拥抱脸”部分中介绍的“拥抱脸”列表中选择其他 T5 模型。

我们将现在导入T5-large条件生成模型以生成文本和 T5-large 分词器：

model = T5ForConditionalGeneration.from_pretrained('t5-large')
tokenizer = T5Tokenizer.from_pretrained('t5-large')

初始化一个预训练的分词器只需要一行。然而，没有任何证据证明分词词典包含了我们需要的所有词汇。我们将在第 9 章“匹配分词器和数据集”中研究分词器和数据集之间的关系。

程序现在torch.devic用 A CPU 初始化 e'cpu.'对这个笔记本来说已经足够了。torch.device对象是将分配 Torch 张量的设备：

device = torch.device('cpu')

我们准备探索 T5 模型的架构。

探索 T5 模型的架构

在这个小节，我们将探讨 T5 大型模型的架构和配置。

如果display_architecture==true，我们可以看到模型的配置：

if display_architecture==True:
  print(model.config)

例如，我们可以看到模型的基本参数：

.../...
"num_heads": 16,
"num_layers": 24,
.../...

模型为16头24层T5变压器。

我们还可以看到 T5 的 text-to-text 实现，它为输入句子添加前缀以触发任务执行。该前缀可以在不修改模型参数的情况下以文本到文本的格式表示各种任务。在我们的例子中，前缀是summarization：

"task_specific_params": {
    "summarization": {
      "early_stopping": true,
      "length_penalty": 2.0,
      "max_length": 200,
      "min_length": 30,
      "no_repeat_ngram_size": 3,
      "num_beams": 4,
      "prefix": "summarize: "
    },

我们可以看到T5：

实施束搜索算法，该算法将扩展四个最重要的文本完成预测
num_beam当每批句子完成时应用提前停止
确保不重复 ngram 等于no_repeat_ngram_size
min_length用和控制样本的长度max_length
应用长度惩罚

另一个有趣的参数是词汇量：

"vocab_size": 32128

词汇量本身就是一个话题。太多的词汇会导致稀疏的表示。另一方面，词汇量太少会扭曲 NLP 任务。我们将在第 9 章“匹配标记器和数据集”中进一步探讨这一点。

我们还可以通过简单地打印以下内容来查看变压器堆栈的详细信息model：

if(display_architecture==True):
  print(model)

例如，我们可以窥视layer编码器堆栈的块 ( )（编号从0到23）：

(12): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=1024, out_features=1024, bias=False)
              (k): Linear(in_features=1024, out_features=1024, bias=False)
              (v): Linear(in_features=1024, out_features=1024, bias=False)
              (o): Linear(in_features=1024, out_features=1024, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=1024, out_features=4096, bias=False)
              (wo): Linear(in_features=4096, out_features=1024, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )

我们可以看到模型1,024对注意力子层的特征和4,096前馈网络子层的内部计算运行操作，这将产生1,024特征输出。变压器的对称结构贯穿所有层。

您可以花几分钟时间浏览编码器堆栈、解码器堆栈、注意力子层和前馈子层。

您还可以通过仅运行您希望的单元格来选择模型的特定方面：

if display_architecture==True:
  print(model.encoder)
if display_architecture==True:
  print(model.decoder)
if display_architecture==True:
  print(model.forward)

我们已初始化 T5 变压器。现在让我们总结一下文件。

使用 T5-large 汇总文档

本节将创建一个汇总函数，您可以使用要汇总的任何文本调用该函数。我们将总结法律和财务示例。最后，我们将定义该方法的限制。

我们将首先创建一个汇总函数。

创建汇总函数

首先，让我们创建一个名为的汇总函数summarize。这样，我们将只发送文本我们想总结一下我们的功能。该函数有两个参数。第一个参数是preprocess_text，要总结的文本。第二个参数是ml，摘要文本的最大长度。这两个参数都是您每次调用函数时发送给函数的变量：

def summarize(text,ml):

Hugging Face 等提供即用型汇总功能。但是，我建议学习如何构建自己的函数，以便在必要时自定义此关键任务。

然后删除上下文文本或基本事实的\n字符：

preprocess_text = text.strip().replace("\n","")

然后我们将创新的T5任务前缀 summarize应用于输入文本：

t5_prepared_Text = "summarize: "+preprocess_text

T5 模型具有统一的结构，无论任务是通过前缀+输入序列的方法。这看起来很简单，但它使 NLP 转换器模型更接近通用训练和零样本下游任务。

我们可以显示已处理（剥离）和准备好的文本（任务前缀）：

print ("Preprocessed and prepared text: \n", t5_prepared_Text)

简单吧？好吧，从 RNN 和 CNN 到 Transformer，花了 35 年以上的时间。然后，世界上一些最聪明的研究团队从为特定任务设计的转换器转变为几乎不需要微调的多任务模型。最后，谷歌研究团队为转换器的输入文本创建了一个标准格式，其中包含一个前缀，表示要解决的 NLP 问题。这真是一个壮举！

这显示的输出包含预处理和准备好的文本：

Preprocessed and prepared text: 
summarize: The United States Declaration of Independence

我们可以看到summarize表示要解决的任务的前缀。

文本现在被编码为令牌 ID 并将它们作为火炬张量返回：

tokenized_text = tokenizer.encode(t5_prepared_Text, return_tensors="pt").to(device)

编码文本已准备好发送到模型以使用我们在T5 入门部分中描述的参数生成摘要：

# Summarize
  summary_ids = model.generate(tokenized_text,
                                      num_beams=4,
                                      no_repeat_ngram_size=2,
                                      min_length=30,
                                      max_length=ml,
                                      early_stopping=True)

梁的数量与我们导入的模型中的相同。但是，no_repeat_ngram_size已经降级2为3.

生成的输出现在使用以下代码解码tokenizer：

output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
return output

我们导入、初始化和定义汇总函数。现在让我们用一个通用主题来试验 T5 模型。

一般主题示例

在本小节中，我们将通过 T5 模型运行由Project Gutenberg编写的文本。我们将使用示例对我们的汇总函数进行测试。您可以复制和粘贴您希望的任何其他文本或通过添加代码加载文本。您还可以加载您选择的数据集并循环调用摘要。

本章程序的目标是运行一些示例来了解 T5 的工作原理。输入文本是包含美利坚合众国独立宣言的古腾堡计划电子书的开头：

text ="""
The United States Declaration of Independence was the first Etext
released by Project Gutenberg, early in 1971.  The title was stored
in an emailed instruction set which required a tape or diskpack be
hand mounted for retrieval.  The diskpack was the size of a large
cake in a cake carrier, cost $1500, and contained 5 megabytes, of
which this file took 1-2%.  Two tape backups were kept plus one on
paper tape.  The 10,000 files we hope to have online by the end of
2001 should take about 1-2% of a comparably priced drive in 2001.
"""

然后我们调用我们的summarize函数并发送我们想要总结的文本和总结的最大长度：

print("Number of characters:",len(text))
summary=summarize(text,50)
print ("\n\nSummarized text: \n",summary)

输出显示我们发送534的字符、预处理的原始文本（基本事实）和摘要（预测）：

Number of characters: 534
Preprocessed and prepared text: 
 summarize: The United States Declaration of Independence...
Summarized text: 
 the united states declaration of independence was the first etext published by project gutenberg, early in 1971. the 10,000 files we hope to have online by the end of2001 should take about 1-2% of a comparably priced drive in 2001. the united states declaration of independence was the first Etext released by project gutenberg, early in 1971

让我们现在使用 T5 进行更困难的总结。

权利法案样本

以下取自《权利法案》的样本比较困难，因为它表达了一个人的特殊权利：

#Bill of Rights,V
text ="""
No person shall be held to answer for a capital, or otherwise infamous crime,
unless on a presentment or indictment of a Grand Jury, except in cases arising
 in the land or naval forces, or in the Militia, when in actual service
in time of War or public danger; nor shall any person be subject for
the same offense to be twice put in jeopardy of life or limb;
nor shall be compelled in any criminal case to be a witness against himself,
nor be deprived of life, liberty, or property, without due process of law;
nor shall private property be taken for public use without just compensation.
"""
print("Number of characters:",len(text))
summary=summarize(text,50)
print ("\n\nSummarized text: \n",summary)

请记住，转换器是随机算法，因此每次运行时输出可能会有所不同。话虽如此，我们可以看到 T5 并没有真正总结输入文本，而是简单地将其缩短：

Number of characters: 591
Preprocessed and prepared text: 
 summarize: No person shall be held to answer..
Summarized text: 
 no person shall be held to answer for a capital, or otherwise infamous crime. except in cases arisingin the land or naval forces or in the militia, when in actual service in time of war or public danger

该示例很重要，因为它显示了任何 Transformer 模型或其他 NLP 模型在面对诸如此类的文本时所面临的限制。我们不能只提供始终有效的样本，让用户相信 Transformer 已经解决了我们面临的所有 NLP 挑战，无论它们多么创新。

也许我们应该提供更长的文本来总结，使用其他参数，使用更大的模型，或者改变 T5 模型的结构。然而，无论你多么努力地尝试用 NLP 模型总结复杂的文本，你总会发现模型无法总结的文档。

当模型在一项任务上失败时，我们必须谦虚并承认这一点。SuperGLUE 人类基线是一个难以超越的基线。我们需要耐心，更加努力地工作，并改进变压器模型，直到它们能够比现在表现得更好。仍有很大的进步空间。

拉菲尔等人。(2018) 选择了一个合适的标题来描述他们的 T5 方法：使用统一的文本到文本转换器探索迁移学习的限制。

花点时间尝试在法律文件中找到的您自己的示例。作为现代 NLP 先驱，探索迁移学习的极限！有时你会发现令人兴奋的结果，有时你会发现需要改进的地方。

现在，让我们尝试一个公司法示例。

公司法样本

公司的法律包含许多法律细节，使得总结任务相当棘手。

该样本的输入是美国蒙大拿州公司法的摘录：

#Montana Corporate Law
#https://corporations.uslegal.com/state-corporation-law/montana-corporation-law/#:~:text=Montana%20Corporation%20Law,carrying%20out%20its%20business%20activities.
text ="""The law regarding corporations prescribes that a corporation can be incorporated in the state of Montana to serve any lawful purpose.  In the state of Montana, a corporation has all the powers of a natural person for carrying out its business activities.  The corporation can sue and be sued in its corporate name.  It has perpetual succession.  The corporation can buy, sell or otherwise acquire an interest in a real or personal property.  It can conduct business, carry on operations, and have offices and exercise the powers in a state, territory or district in possession of the U.S., or in a foreign country.  It can appoint officers and agents of the corporation for various duties and fix their compensation.
The name of a corporation must contain the word "corporation" or its abbreviation "corp."  The name of a corporation should not be deceptively similar to the name of another corporation incorporated in the same state.  It should not be deceptively identical to the fictitious name adopted by a foreign corporation having business transactions in the state.
The corporation is formed by one or more natural persons by executing and filing articles of incorporation to the secretary of state of filing.  The qualifications for directors are fixed either by articles of incorporation or bylaws.  The names and addresses of the initial directors and purpose of incorporation should be set forth in the articles of incorporation.  The articles of incorporation should contain the corporate name, the number of shares authorized to issue, a brief statement of the character of business carried out by the corporation, the names and addresses of the directors until successors are elected, and name and addresses of incorporators.  The shareholders have the power to change the size of board of directors.
"""
print("Number of characters:",len(text))
summary=summarize(text,50)
print ("\n\nSummarized text: \n",summary)

这结果令人满意：

Number of characters: 1816
Preprocessed and prepared text: 
 summarize: The law regarding the corporation prescribes that a corporation...
Summarized text: 
 a corporations can be incorporated in the state of Montana to serve any lawful purpose. a corporation can sue and be sued in its corporate name, and it has perpetual succession. it can conduct business, carry on operations and have offices

这一次，T5找到了文中的一些重要方面进行总结。花一些时间来合并您自己的样本，看看会发生什么。使用参数来查看它是否会影响结果。

我们已经实现了 T5 来总结文本。是时候尝试使用 OpenAI GPT-3 引擎进行汇总了。

使用 GPT-3 进行总结

了解 T5 变压器的架构至关重要。我们还将看到 GPT-3 如何引擎在其中一个文本上运行。目标不是对公司和模型进行基准测试。目标是让工业 4.0 人工智能大师拥有广泛的 NLP 知识。

首先，访问OpenAI并注册并登录。

然后转到示例页面并为二年级学生选择总结：

图 8.8：GPT-3 示例页面

将打开一个窗口，我们可以输入我们的提示。

我们将上一节的企业样本的文本T提交给 GPT-3 模型。

提示是P = E + T + S：

E告诉模型使解释简单：
My second grader asked me what this passage means:

文本T与上一节中的相同，并用引号引起来：
"""The law regarding corporations prescribes that a corporation can be incorporated in the state of Montana to serve any lawful purpose. In the state of Montana, a corporation has all the powers of a natural person for carrying out its business activities.

.../...

The shareholders have the power to change the size of board of directors."""

S显示预期的任务类型：
I rephrased it for him, in plain language a second grader can understand: """

响应GPT-3 达芬奇引擎所产生的效果相当有说服力：

A corporation is a business.

A corporation is a person.

Corporations can do everything people can do.

Corporations can be sued.

Corporations can buy, sell, or trade things.

A corporation has its own name that is different from the names of the people who own it.

Corporations are formed by people who want to start a business, and they file papers with the government to make it official.

我们可以保留T并修改E和S：

E可以改成：
My MBA college student asked me what this passage means:

S可以改为：
I rephrased it for him, in MBA college language :

GPT-3 引擎生成了上一个请求的响应，但添加了对大学生有用的信息：

Corporations can have directors who are in charge of making decisions for the business. The directors are elected by the shareholders. Shareholders can change the size of the board of directors.

GPT-3 型号非常有说服力，代表了Cloud AI的崛起力量。我们将在第 16 章“变压器驱动副驾驶的出现”中深入总结提示。然而，在我们这样做之前，还有更多更多的东西需要探索。

概括

在本章中，我们看到了 T5 Transformer 模型如何标准化原始 Transformer 的编码器和解码器堆栈的输入。原始的 Transformer 架构对于编码器和解码器堆栈的每个块（或层）具有相同的结构。但是，最初的 Transformer 没有用于 NLP 任务的标准化输入格式。

拉菲尔等人。（2018 年）通过定义文本到文本模型，为各种 NLP 任务设计了标准输入。他们为输入序列添加了前缀，指示要解决的 NLP 问题类型。这导致了标准的文本到文本格式。文本到文本传输转换器( T5 )诞生了。我们看到，这种看似简单的演变使得在广泛的 NLP 任务中使用相同的模型和超参数成为可能。T5的发明使变压器模型的标准化进程更进一步。

然后我们实现了一个可以总结任何文本的 T5 模型。我们在不属于即用型训练数据集的文本上测试了模型。我们在宪法和公司样本上测试了模型。结果很有趣，但我们也发现了变压器模型的一些局限性，正如Raffel等人所预测的那样。（2018 年）。

最后，我们探讨了 GPT-3 引擎的方法论和计算效率的巨大威力。展示变压器是一种绝妙的方法。拥有世界上最强大的变压器引擎之一有助于获得有效但并不总是完美的结果。

目标不是对公司和模型进行基准测试，而是让工业 4.0 人工智能大师对变压器有深入的了解。

在下一章，第 9 章，匹配分词器和数据集，我们将探索分词器的局限性，并定义可能改进 NLP 任务的方法。

你可能感兴趣的:(自然语言处理（NLP）,深度学习（DL）)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
02-Cesium聚合分析EntityCluster完整代码 fxshy html css javascript
1.完整代码Document-->-->Cesium.Ion.defaultAccessToken='eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJqdGkiOiJhZjZkZDAwZC1mNTFhLTRhOTEtOGExNi00MzRhNGIzMDdlNDQiLCJpZCI6MTA1MTUzLCJpYXQiOjE2NjA4MDg0Njd9.qajeJtc4-kp
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
golang实现从服务器下载文件到本地指定目录余生逆风飞翔 golang 服务器开发语言
一、连接服务器，采用sftp连接模式packagemiddlewaresimport("fmt""time""github.com/pkg/sftp""golang.org/x/crypto/ssh")//建立服务器连接funcConnect(user,password,hoststring,portint)(*sftp.Client,error){var(auth[]ssh.AuthMethod
el-table实现全选整表，单元一页复选框功能周bro vue.js elementui javascript 前端
全选整表单选一页0":popper-append-to-body="false":total="tableData.length":page-size="pageObj.pagesize":page-sizes="[10,50,100]"layout="total,sizes,prev,pager,next"@size-change="handleSizeChange"@current-chang
spring security中几大组件的作用和执行顺序阿信在这里 java spring
springsecurity中几大组件的作用和执行顺序在SpringSecurity中，AuthenticationProvider、GroupPermissionEvaluator、PermissionEvaluator、AbstractAuthenticationProcessingFilter、DefaultMethodSecurityExpressionHandler和ManageSecu
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

【NLP】第8章 将 Transformer 应用于法律和财务文件以进行 AI 文本摘要

foreword