深度学习的学习僧

自学大语言模型之BERT

BERT 模型由 Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova在BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding中提出。它是一种双向变换器，使用掩码语言建模目标和对包含多伦多图书语料库和维基百科的大型语料库的下一句预测的组合进行预训练。
BERT 旨在通过联合调节所有层中的左右上下文来预训练未标记文本的深度双向表示。因此，预训练的 BERT 模型只需一个额外的输出层即可进行微调，从而为广泛的任务（例如问答和语言推理）创建最先进的模型，而无需大量任务 -具体的架构修改。
BERT 接受了掩码语言建模 (MLM) 和下一句预测 (NSP) 目标的训练。它在预测掩码标记和一般 NLU 方面是有效的，但对于文本生成来说并不是最佳的。

2018年是自然语言处理（NLP）领域中机器学习模型取得重大突破的关键时刻。我们对于如何更好地捕捉单词和句子的潜在含义和关系的概念性理解正在不断演进。同时，NLP社区不断推出令人惊叹的强大组件，这些组件可以免费下载和应用于自己的模型和流程中。这一进展被称为NLP领域的ImageNet时刻，类似于几年前计算机视觉领域机器学习的发展情况。

BERT的发布是其中的一个重要里程碑，被认为是开启了NLP新时代的标志性事件。BERT突破了处理语言相关任务的模型在多个方面的记录。不久之后，BERT模型的代码被开源，并提供了在大规模数据集上预训练的模型版本供下载。这个发展具有重要意义，因为任何想要构建涉及语言处理的机器学习模型的人现在都可以将这个强大的引擎作为现成的组件使用，从而节省了训练语言处理模型所需的时间、精力、知识和资源。

BERT是在NLP社区中出现的许多创新想法基础上构建起来的，这些想法包括但不限于以下几个方面：半监督序列学习（由Andrew Dai和Quoc Le提出）、ELMo（由Matthew Peters以及来自AI2和UW CSE的团队提出）、ULMFiT（由fast.ai的创始人Jeremy Howard和Sebastian Ruder设计）、OpenAI Transformer（由OpenAI研究人员Radford、Narasimhan、Salimans和Sutskever设计）、以及Transformer模型（由Vaswani等人提出）。

BERT 开发的两个步骤。您可以下载在步骤 1 中预训练的模型（在未注释的数据上训练），只需担心在步骤 2 中对其进行微调。

该论文为 BERT 提供了两种模型大小：

BERT BASE——在大小上与 OpenAI Transformer 相当，以便比较性能
BERT LARGE——一个大得离谱的模型，达到了论文中报道的最先进的结果
BERT 基本上是经过训练的 Transformer 编码器堆栈。现在是指导您阅读我之前的文章The Illustrated Transformer 的好时机，其中解释了 Transformer 模型——BERT 的基本概念以及我们接下来将讨论的概念。

两种尺寸的 BERT 模型都有大量的编码器层（本文称之为 Transformer Blocks）——Base 版本有 12 个，Large 版本有 24 个。与初始论文中 Transformer 参考实现中的默认配置（6 个编码层、512 个隐藏单元、和 8 个注意力头）。

模型输入

第一个输入令牌提供了一个特殊的 [CLS] 令牌，原因稍后会变得明显。这里的 CLS 代表分类。

就像 transformer 的普通编码器一样，BERT 将一系列单词作为输入，这些单词不断向上流动。每一层都应用自注意力，并通过前馈网络传递其结果，然后将其传递给下一个编码器。

在架构方面，到目前为止，它与 Transformer 完全相同（除了大小，这只是我们可以设置的配置）。正是在输出中，我们首先开始看到事情是如何分歧的。

模型输出
每个位置输出一个大小为hidden_ size 的向量（在 BERT Base 中为 768）。对于我们上面看到的句子分类示例，我们只关注第一个位置的输出（我们将特殊的 [CLS] 标记传递给）。

该向量现在可以用作我们选择的分类器的输入。该论文仅使用单层神经网络作为分类器就取得了很好的效果。

如果你有更多标签（例如，如果你是一个电子邮件服务，用“垃圾邮件”、“非垃圾邮件”、“社交”和“促销”标记电子邮件），你只需调整分类器网络以获得更多输出神经元然后通过softmax。

与卷积网络的相似之处
对于那些有计算机视觉背景的人来说，这种向量切换应该让人想起像 VGGNet 这样的网络的卷积部分和网络末端的全连接分类部分之间发生的事情。

嵌入的新时代

这些新的发展带来了单词编码方式的新转变。到目前为止，词嵌入一直是领先的 NLP 模型处理语言的主要力量。Word2Vec 和 Glove 等方法已广泛用于此类任务。在指出现在发生的变化之前，让我们回顾一下它们是如何使用的。

词嵌入回顾
对于机器学习模型要处理的单词，它们需要模型可以在计算中使用的某种形式的数字表示。Word2Vec 表明我们可以使用向量（数字列表）以捕获语义或意义相关关系的方式正确表示单词（例如，判断单词是否相似或相反的能力，或者一对单词像“Stockholm”和“Sweden”之间的关系与“Cairo”和“Egypt”之间的关系相同）以及句法或基于语法的关系（例如“had”和“has”之间的关系是与“是”和“是”之间的相同）。

该领域很快意识到使用在大量文本数据上预先训练的嵌入而不是在通常是小数据集的模型上训练它们是一个好主意。因此，可以下载单词列表及其通过 Word2Vec 或 GloVe 预训练生成的嵌入。这是单词“stick”的 GloVe 嵌入示例（嵌入向量大小为 200）

单词“stick”的 GloVe 词嵌入 - 一个包含 200 个浮点数的向量（四舍五入到两位小数）。它持续了 200 个值。

ELMo：上下文很重要

如果我们使用这个 GloVe 表示，那么无论上下文是什么，单词“stick”都将由这个向量表示。“等等”一些 NLP 研究人员说（Peters 等人，2017 年，McCann 等人，2017 年，还有Peters 等人，2018 年在 ELMo 论文中），“ stick ”有多个含义取决于它的使用位置。为什么不根据它所使用的上下文给它一个嵌入——既捕获该上下文中的单词含义，又捕获其他上下文信息？”。因此，语境词嵌入诞生了。

语境词嵌入可以根据单词在句子上下文中的含义赋予不同的词嵌入。另外，RIP 罗宾·威廉姆斯
ELMo 不是为每个单词使用固定的嵌入，而是在为其中的每个单词分配一个嵌入之前查看整个句子。它使用针对特定任务训练的双向 LSTM 来创建这些嵌入。

ELMo 在 NLP 的背景下向预训练迈出了重要一步。ELMo LSTM 将使用我们数据集的语言在海量数据集上进行训练，然后我们可以将它用作其他需要处理语言的模型的组件。

ELMo 的秘密是什么？

ELMo 通过接受训练来预测单词序列中的下一个单词，从而获得了对语言的理解——一项称为语言建模的任务。这很方便，因为我们拥有大量文本数据，这样的模型无需标签即可从中学习。

ELMo 预训练过程中的一个步骤：给定“Let’s stick to”作为输入，预测下一个最有可能的词——语言建模任务。当在大型数据集上进行训练时，模型开始识别语言模式。在这个例子中，它不太可能准确地猜出下一个词。更实际的是，在诸如“hang”之类的词之后，它会为“out”（拼写为“hang out”）之类的词分配比“camera”更高的概率。

我们可以看到每个展开的 LSTM 步骤的隐藏状态从 ELMo 的脑袋后面突出。完成预训练后，这些在嵌入过程中会派上用场。

ELMo 实际上更进一步，训练了一个双向 LSTM——这样它的语言模型不仅能感知下一个词，还能感知前一个词。

ELMo 上很棒的幻灯片
ELMo 通过以某种方式（连接后加权求和）将隐藏状态（和初始嵌入）组合在一起，提出了上下文嵌入。

ULM-FiT：确定 NLP 中的迁移学习
ULM-FiT 引入了一些方法来有效地利用模型在预训练期间学到的很多东西——不仅仅是嵌入，也不仅仅是上下文嵌入。ULM-FiT 引入了一个语言模型和一个过程，可以针对各种任务有效地微调该语言模型。

NLP 终于有一种方法可以像计算机视觉一样进行迁移学习。

Transformer：超越 LSTM
Transformer 论文和代码的发布，以及它在机器翻译等任务上取得的成果，开始让该领域的一些人认为它们是 LSTM 的替代品。Transformer 比 LSTM 更好地处理长期依赖性这一事实使情况更加复杂。

Transformer 的 Encoder-Decoder 结构使其非常适合机器翻译。但是你会如何用它来进行句子分类呢？您将如何使用它来预训练可以针对其他任务进行微调的语言模型（下游任务是该领域所说的那些利用预训练模型或组件的监督学习任务）。

OpenAI Transformer：预训练用于语言建模的 Transformer 解码器
事实证明，我们不需要整个 Transformer 来采用迁移学习和 NLP 任务的微调语言模型。我们可以只使用Transformer的解码器。解码器是一个不错的选择，因为它是语言建模（预测下一个词）的自然选择，因为它是为了掩盖未来的标记而构建的——当它逐字生成翻译时，这是一个很有价值的特性。

OpenAI Transformer 由来自 Transformer 的解码器堆栈组成
该模型堆叠了十二个解码器层。由于此设置中没有编码器，因此这些解码器层不会像 vanilla transformer 解码器层那样具有编码器-解码器注意力子层。然而，它仍将具有自我注意层（被屏蔽，因此它不会在未来的标记处达到峰值）。

使用这种结构，我们可以继续在相同的语言建模任务上训练模型：使用大量（未标记）数据集预测下一个单词。就是，把7000本书的课文丢给它，让它学！书籍非常适合此类任务，因为它允许模型学习关联相关信息，即使它们被大量文本分隔——例如，当您使用推文或文章进行训练时，您无法获得这些信息.

OpenAI Transformer 现在已准备好接受训练，以预测由 7,000 本书组成的数据集上的下一个单词。
将学习迁移到下游任务
现在 OpenAI transformer 已经过预训练并且其层已经过调整以合理处理语言，我们可以开始将它用于下游任务。让我们首先看一下句子分类（将电子邮件分类为“垃圾邮件”或“非垃圾邮件”）：

OpenAI 论文概述了一些输入转换来处理不同类型任务的输入。论文中的下图显示了执行不同任务的模型结构和输入转换。

这不是很聪明吗？

BERT：从解码器到编码器
openAI Transformer 为我们提供了一个基于 Transformer 的微调预训练模型。但是在从 LSTM 到 Transformers 的转变过程中缺少了一些东西。ELMo 的语言模型是双向的，但 openAI transformer 只训练前向语言模型。我们能否构建一个基于Transformer的模型，其语言模型既向前看又向后看（用技术术语来说——“以左右语境为条件”）？

“拿着我的啤酒”，R 级 BERT 说。

掩码语言模型
“我们将使用Transformer编码器”，BERT 说。

“这太疯狂了”，厄尼回答说，“每个人都知道双向调节会让每个词在多层上下文中间接地看到自己。”

“我们将使用MASK”，BERT 自信地说。

BERT 巧妙的语言建模任务屏蔽了输入中 15% 的单词，并要求模型预测缺失的单词。
找到正确的任务来训练 Transformer 编码器堆栈是一个复杂的障碍，BERT 通过采用早期文献中的“掩码语言模型”概念（在其中称为完形填空任务）解决了这一障碍。

除了屏蔽 15% 的输入之外，BERT 还混合了一些东西，以改进模型后来的微调方式。有时它会随机用另一个词替换一个词，并要求模型预测该位置的正确词。

两句话任务
如果您回顾一下 OpenAI Transformer为处理不同任务所做的输入转换，您会注意到某些任务需要模型说出关于两个句子的一些智能信息（例如，它们只是彼此的释义版本吗？给定一个维基百科条目作为输入，以及关于该条目作为另一个输入的问题，我们可以回答这个问题吗？）。

为了让 BERT 更好地处理多个句子之间的关系，预训练过程包括一个额外的任务：给定两个句子（A 和 B），B 是否可能是 A 之后的句子？

BERT 预训练的第二个任务是双句子分类任务。这张图中的标记化被过度简化了，因为 BERT 实际上使用 WordPieces 作为标记而不是单词——所以一些单词被分解成更小的块。
任务特定模型
BERT 论文展示了将 BERT 用于不同任务的多种方法。

用于特征提取的 BERT
微调方法并不是使用 BERT 的唯一方法。就像 ELMo 一样，您可以使用预训练的 BERT 创建上下文词嵌入。然后，您可以将这些嵌入提供给您现有的模型——该论文显示的过程产生的结果与在命名实体识别等任务上微调 BERT 相差不远。

哪个向量作为上下文嵌入效果最好？我认为这取决于任务。该论文检查了六个选择（与得分为 96.4 的微调模型相比）：

试用 BERT

查看BERT 存储库中的代码：

该模型在modeling.py ( )中构建class BertModel，与普通的 Transformer 编码器几乎相同。
run_classifier.py是微调过程的一个例子。它还为监督模型构建分类层。如果您想构建自己的分类器，请查看create_model()该文件中的方法。

几个预训练模型可供下载。这些涵盖了 BERT Base 和 BERT Large，以及英语、中文等语言，以及一个涵盖 102 种语言的多语言模型，在维基百科上进行了训练。

BERT 不会将单词视为标记。相反，它查看 WordPieces。tokenization.py是分词器，可以将您的单词转换为适合 BERT 的 wordPieces。

#导入Python库并准备环境
!pip install transformers seqeval[gpu]

import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
import torch
from torch.utils.data import Dataset, DataLoader
#从Transformer导入BertConfig、BertModel

from transformers import BertTokenizer, BertConfig, BertForTokenClassification

#判断是否使用GPU算力
from torch import cuda
device = 'cuda' if cuda.is_available() else 'cpu'
print(device)

BertConfig

这是用于存储BertModel或TFBertModel的配置的配置类。它用于根据指定的参数实例化 BERT 模型，定义模型架构。使用默认值实例化配置将产生与 BERT bert-base-uncased架构类似的配置。

# 初始化一个 BERT bert-base-uncased 风格的配置
configuration = BertConfig()


# 从 bert-base-uncased 样式配置初始化模型（具有随机权重）
model = BertModel(configuration)

# 访问模型配置
configuration = model.config

参数解释：
vocab_size ( int, optional , defaults to 30522) — BERT 模型的词汇表大小。inputs_ids定义调用BertModel或TFBertModel时传递的可以表示的不同标记的数量。
hidden_size ( int, optional , defaults to 768) — 编码层和池化层的维数。
num_hidden_layers ( int, optional , defaults to 12) — Transformer 编码器中的隐藏层数。
num_attention_heads ( int, optional , defaults to 12) — Transformer 编码器中每个注意力层的注意力头数。
intermediate_size ( int, optional , defaults to 3072) — Transformer 编码器中“中间”（通常称为前馈）层的维数。
hidden_act ( stror Callable, optional , defaults to “gelu”) — 编码器和 pooler 中的非线性激活函数（函数或字符串）。如果支持字符串、“gelu”、 “relu"和"silu”。“gelu_new”
hidden_dropout_prob ( float, optional , defaults to 0.1) — 嵌入、编码器和池化器中所有完全连接层的丢失概率。
attention_probs_dropout_prob ( float, optional , defaults to 0.1) — 注意概率的丢失率。
max_position_embeddings ( int, optional , defaults to 512) — 该模型可能使用的最大序列长度。通常将其设置为较大的值以防万一（例如，512 或 1024 或 2048）。
type_vocab_size ( int, optionaltoken_type_ids , defaults to 2) —调用BertModel或TFBertModel时传递的词汇表大小。
initializer_range ( float, optional , defaults to 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps ( float, optional , defaults to 1e-12) — 层归一化层使用的 epsilon。
position_embedding_type ( str, optional , defaults to “absolute”) — 位置嵌入的类型。“absolute"选择, “relative_key”,之一"relative_key_query”。对于位置嵌入，请使用"absolute". 有关的更多信息"relative_key"，请参阅 Self-Attention with Relative Position Representations (Shaw et al.)。有关的更多信息"relative_key_query"，请参阅Improve Transformer Models with Better Relative Position Embeddings (Huang et al.)中的方法 4。
is_decoder ( bool, optional , defaults to False) — 模型是否用作解码器。如果False，则该模型用作编码器。
use_cache ( bool, optional , defaults to True) — 模型是否应返回最后的键/值注意事项（并非所有模型都使用）。仅当config.is_decoder=True.
classifier_dropout ( float, optional ) — 分类头的丢弃率。

BertTokenizer

构建一个 BERT 分词器。基于WordPiece。

这个 tokenizer 继承自PreTrainedTokenizer，其中包含大部分主要方法。用户应参考该超类以获取有关这些方法的更多信息。

参数

vocab_file ( str) — 包含词汇表的文件。
do_lower_case ( bool, optional , defaults to True) — 标记化时是否将输入小写。
do_basic_tokenize ( bool, optional , defaults to True) — 是否在 WordPiece 之前进行基本标记化。
never_split ( Iterable, optional ) — 在标记化过程中永远不会拆分的标记集合。仅在以下情况下有效 do_basic_tokenize=True
unk_token ( str, optional , defaults to “[UNK]”) — 未知令牌。不在词汇表中的标记无法转换为 ID，而是设置为此标记。
sep_token ( str, optional , defaults to “[SEP]”) — 分隔符，在从多个序列构建序列时使用，例如两个序列用于序列分类或用于文本和问题回答的问题。它也被用作用特殊标记构建的序列的最后一个标记。
pad_token ( str, optional , defaults to “[PAD]”) — 用于填充的令牌，例如在批处理不同长度的序列时。
cls_token ( str, optional , defaults to “[CLS]”) — 进行序列分类时使用的分类器标记（对整个序列进行分类而不是按标记分类）。当使用特殊标记构建时，它是序列的第一个标记。
mask_token ( str, optional , defaults to “[MASK]”) — 用于屏蔽值的标记。这是使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
tokenize_chinese_chars ( bool, optional , defaults to True) — 是否标记汉字。
对于日语，这可能应该被停用（请参阅本期）。

strip_accents ( bool, optional ) — 是否去除所有重音。如果未指定此选项，则它将由 for 的值确定lowercase（与原始 BERT 中一样）。

以下是该类的方法：

build_inputs_with_special_tokens

参数：
token_ids_0 ( List[int]) — 将添加特殊标记的 ID 列表。
token_ids_1 ( List[int], optional ) — 可选的第二个序列对 ID 列表。

return：
List[int]

具有适当特殊标记的输入 ID列表。

通过连接和添加特殊标记，从一个序列或一对序列为序列分类任务构建模型输入。BERT 序列具有以下格式：

单序列：[CLS] X [SEP]
序列对：[CLS] A [SEP] B [SEP]

get_special_tokens_mask

( token_ids_0 : typing.List[int]token_ids_1 : typing.Optional[typing.List[int]] = Nonealready_has_special_tokens : bool = False ) → List[int]

参数

token_ids_0 ( List[int]) — ID 列表。
token_ids_1 ( List[int], optional ) — 可选的第二个序列对 ID 列表。
already_has_special_tokens ( bool, optional , defaults to False) — 标记列表是否已经使用模型的特殊标记格式化。

return：

List[int]

[0, 1] 范围内的整数列表：1 表示特殊标记，0 表示序列标记。

从没有添加特殊标记的标记列表中检索序列 ID。使用 tokenizer 方法添加特殊标记时调用此方法prepare_for_model。

create_token_type_ids_from_sequences

( token_ids_0 : typing.List[int]token_ids_1 : typing.Optional[typing.List[int]] = None ) → List[int]

参数

token_ids_0 ( List[int]) — ID 列表。
token_ids_1 ( List[int], optional ) — 可选的第二个序列对 ID 列表。

return：

List[int]

根据给定序列的令牌类型 ID列表。

从传递的两个序列创建掩码以用于序列对分类任务。一个 BERT 序列

对掩码具有以下格式：

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| 第一个序列 | 第二序列 |
如果token_ids_1是None，此方法仅返回掩码的第一部分 (0s)。

save_vocabulary

( save_directory : strfilename_prefix : typing.Optional[str] = None )

保存词汇

class transformers.BertModel

( configadd_pooling_layer = True )

#参数

#config ( BertConfig ) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看from_pretrained()方法加载模型权重。

这个模型是基于Bert Model的，它输出原始的隐藏状态，没有特定的头部。

这个模型继承自PreTrainedModel。你可以查看超类的文档，了解库实现的通用方法，比如下载或保存模型、调整输入嵌入的大小、修剪头部等等。

这个模型也是一个PyTorch的torch.nn.Module子类。你可以像使用普通的PyTorch模块一样使用它，并参考PyTorch文档了解与常规使用和行为相关的事项。

该模型可以作为编码器（只使用自注意力）或解码器运行。当作为解码器时，在自注意力层之间添加了一层交叉注意力，遵循Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser和Illia Polosukhin在《Attention is all you need》中描述的架构。

若要作为解码器运行，模型的配置参数中的is_decoder参数需要设置为True。若要在Seq2Seq模型中使用该模型，则需要将is_decoder参数和add_cross_attention参数都设置为True，并且在前向传递中需要提供encoder_hidden_states作为输入。

forward

参数：

input_ids ( torch.LongTensorof shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

attention_mask ( torch.FloatTensorof shape (batch_size, sequence_length), optional ) — 避免对填充标记索引执行注意力的掩码。在以下位置选择的掩码值[0, 1]：
1 对于未屏蔽的标记，
0 表示被屏蔽的标记。

token_type_ids ( torch.LongTensorof shape (batch_size, sequence_length), optional ) — 段令牌索引以指示输入的第一部分和第二部分。指数选择于[0, 1]：
0对应一个句子A token，
1对应一个句子B token。

position_ids ( torch.LongTensorof shape (batch_size, sequence_length), optional ) — 位置嵌入中每个输入序列标记的位置索引。在范围内选择[0, config.max_position_embeddings - 1]。

head_mask（torch.FloatTensor形状为(num_heads,)or (num_layers, num_heads)，可选）— 使自注意力模块的选定头部无效的掩码。在以下位置选择的掩码值[0, 1]：
1表示头部没有被遮盖，
0 表示头部被屏蔽。

inputs_embeds ( torch.FloatTensorof shape (batch_size, sequence_length, hidden_size), optionalinput_ids ) — 可选地，您可以选择直接传递嵌入表示而不是传递。input_ids如果您希望比模型的内部嵌入查找矩阵更多地控制如何将索引转换为关联向量，这将很有用。

output_attentions ( bool, optional ) — 是否返回所有注意力层的注意力张量。attentions有关更多详细信息，请参阅返回的张量。

output_hidden_states ( bool, optional ) — 是否返回所有层的隐藏状态。hidden_states有关更多详细信息，请参阅返回的张量。

return_dict ( bool, optional ) — 是否返回 ModelOutput而不是普通元组。

encoder_hidden_states ( torch.FloatTensorof shape (batch_size, sequence_length, hidden_size), optional ) — 编码器最后一层输出的隐藏状态序列。如果模型配置为解码器，则用于交叉注意。

encoder_attention_mask ( torch.FloatTensorof shape (batch_size, sequence_length), optional ) — 避免对编码器输入的填充令牌索引进行注意的掩码。如果模型配置为解码器，则此掩码用于交叉注意。在以下位置选择的掩码值[0, 1]：
1 对于未屏蔽的标记，
0 表示被屏蔽的标记。

past_key_values（每个元组tuple(tuple(torch.FloatTensor))的长度有 4 个形状的张量）——包含注意块的预计算键和值隐藏状态。可用于加速解码。config.n_layers(batch_size, num_heads, sequence_length - 1, embed_size_per_head)

use_cache ( bool, optional ) — 如果设置为True，past_key_values则返回键值状态并可用于加速解码（参见 past_key_values）。

return transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions或tuple(torch.FloatTensor)


from transformers import AutoTokenizer, BertModel
import torch

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

BertForPreTraining

class transformers.BertForPreTraining

参数

config ( BertConfig ) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看from_pretrained()方法加载模型权重。
在预训练期间完成的顶部有两个头的 Bert 模型：一个masked language modeling头和一个next sentence prediction (classification)头。

该模型继承自PreTrainedModel。检查超类文档以了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入的大小、修剪头等）

这个模型也是 PyTorch torch.nn.Module 的子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以了解与一般用法和行为相关的所有事项。

from transformers import AutoTokenizer, BertForPreTraining
import torch

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = BertForPreTraining.from_pretrained("bert-base-uncased")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

prediction_logits = outputs.prediction_logits
seq_relationship_logits = outputs.seq_relationship_logits

你可能感兴趣的:(语言模型,bert,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
大型语言模型（LLM, Large Language Models）基模和 Chat 模型之间的区别
一、概述最近看大模型相关的知识，有看到大模型都有基础模型（base）和对话模型（chat），不太清楚什么时候用到基础模型，什么时候用到对话模型，故有此文。通过了解，最简单的概述就是基于基础模型会训练出一个对话（Chat）模型，对话模型主要用于对话场景，基础模型主要做文本生成，没有上下文对话的能力。在模型命名上也能看出来区别，例如：Qwen-72B和Qwen-72B-ChatChatGLM3-6B-
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
SpringBoot集成LangChain4j：构建智能AI应用全解析 java干货仓库八股文汇总 Spring 大模型 spring boot 人工智能后端
在企业级应用中融入大语言模型(LLM)能力已成为趋势，而LangChain4j作为专为Java设计的LLM集成框架，与SpringBoot的结合为开发者提供了强大而灵活的解决方案。本文将从基础概念到高级应用，全面解析如何利用这一组合构建智能AI应用。一、LangChain4j概述1.1什么是LangChain4j？LangChain4j是一个开源Java框架，灵感来源于Python的LangCha
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
bert中 [CLS] 和 [SEP] 表示什么意思？
[CLS]和[SEP]是BERT中的两个特殊标记符号，在BERT的输入文本中起到特殊的作用。[CLS]是"classification"的缩写，在文本分类任务中，它通常表示句子或文档的开头。在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是"separator"的缩写，它通常表示句子或文档的结尾。在BERT中，[SEP]对应着输
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f