帅帅梁

论文笔记：Cross-Lingual Ability of Multilingual BERT: An Empirical Study

多语种BERT跨语言能力的实证研究

摘要
介绍
2 BACKGROUND
- 2.1 BERT
- 2.2 MULTILINGUAL BERT
3 WHY MULTILINGUAL BERT WORKS（m-bert工作的原因）
- 3.1数据集和实验设置
- - 3.1.1 跨语言自然语言推理（XNLI）
  - 3.1.2 跨语言命名实体识别（NER）
  - 3.1.3 符号和实验设置
- 3.2 语言特性
- - 3.2.1 WORD-PIECE OVERLAP（词块重叠）
  - 3.2.2 WORD-ORDERING SIMILARITY（词序相似性）
  - 3.2.3 WORD-FREQUENCY SIMILARITY(词频相似性)
  - 3.2.4 STRUCTURAL SIMILARITY（结构相似性）
- 3.3 模型架构
- - 3.3.1 深度
  - 3.3.2 多头注意力
  - 3.3.3 TOTAL NUMBER OF PARAMETERS(参数总数)
  - 3.3.4 GENERALIZATION TO BERT WITH MORE LANGUAGES(泛化到更多语言的 BERT)
- 3.4 INPUT AND LEARNING OBJECTIVE(输入和学习目标)
- - 3.4.1 NEXT SENTENCE PREDICTION (NSP)（下一句预测，这个应该属于学习目标）
  - 3.4.2 LANGUAGE IDENTITY MARKER （语言识别标记，这个属于输入）
  - 3.4.3 CHARACTER VS. WORD-PIECE VS. WORD（这个属于输入）
4 讨论和未来工作

摘要

最近的研究展示了多语言BERT(M-BERT)令人惊讶的跨语言能力-令人惊讶的是，它的训练没有任何跨语言目标，也没有对齐的数据。在这项工作中，我们对M-BERT中不同成分对其跨语言能力的贡献进行了全面的研究。我们研究了语言的语言属性、模型的体系结构和学习目标的影响。这项实验研究是在三种不同类型的语言-西班牙语、印地语和俄语-的背景下进行的，并使用了两种概念上不同的自然语言处理任务：文本蕴涵和命名实体识别。我们的主要结论之一是，语言之间的词汇重叠在跨语言成功中扮演着微不足道的角色，而网络的深度是其中不可或缺的一部分。我们的所有模型和实现都可以在我们的项目页面上找到。

介绍

近年来，通过无监督学习嵌入自然语言文本，再加上足够的监督训练数据，在 NLP 中无处不在，并在广泛的单语 NLP 任务中取得了成功，主要是英语。其他语言的训练模型已被证明更加困难，最近的方法依赖于双语嵌入，允许将高资源语言（如英语）的监督转移到低资源语言的模型；然而，诱导这些双语嵌入需要一定程度的监督（Upadhyay 等，2016）。

多语言Bert(M-Bert)是一种基于Transformer(Vaswani等人，2017)的语言模型，对104种语言的原始维基百科文本进行了培训，提出了一种完全不同的方法。模型不仅与上下文相关，而且它的培训也不需要监督–语言之间没有对齐。然而，尽管没有明确的跨语言目标，M-Bert产生的表征似乎能够很好地跨语言概括各种下游任务(Wu&Dredze，2019)。通过只涉及两种语言，我们可以研究特定目标语言的表现，确保它只受交叉语言的影响。

我们从三个方面分析了M-BERT的双语版本：(I)目标语言和源语言的语言特性和相似性；(Ii)网络结构；(Iii)输入和学习目标。

作为一种解释M-BERT成功的方法，有一个假设被讨论过，它与某种程度的语言相似性有关。这可以是词汇相似(共享单词或单词部分)或结构相似(词序或词频)，或者两者兼而有之。因此，我们首先调查词块重叠的贡献–相同的词块在源语和目标语中出现的程度–并将其与其他相似性区分开来，我们将其归类为源语言和目标语之间的结构相似性。令人惊讶的是，正如我们所展示的，B-BERT是跨语言的，即使在绝对没有单词-片段重叠的情况下也是如此。也就是说，语言相似性的其他方面必须有助于该模型的跨语言能力。这与Pires等人的观点相反。(2019)假设M-BERT从共享的词块中获得权力。此外，我们还表明，B-BERT训练数据中的词块重叠量对性能改进几乎没有贡献。

们对模型体系结构的研究解决了(I)网络深度、(Ii)注意头的数量和(Iii)B-BERT中模型参数的总数的重要性。我们的结果表明，深度和参数总数对B-BERT的单语和跨语成绩都是至关重要的，而多头注意并不是一个显著的因素。一个单独的注意力头部B-BERT已经可以产生令人满意的结果。

为了理解学习目标和输入表示的作用，我们研究了 (i) 下一句预测目标、(ii) 训练数据中的语言标识符和 (iii) 输入表示中的标记化水平的影响（字符、单词片段或单词标记化）。我们的结果表明，下一句预测目标实际上会损害模型的性能，而识别输入中的语言不会影响 B-BERT 跨语言的性能。我们的实验还表明，输入的字符级和单词级标记化导致性能明显低于单词级标记化。

总之，我们对英语-西班牙语、英语-俄语和英语-印地语这三种源语-目标语对进行了广泛的实验，这些语言对是根据不同的脚本和类型特征而选择的。我们评估了B-BERT在两个非常不同的下游任务上的性能：跨语言命名实体识别-一种只需要局部上下文的序列预测任务-以及跨语言文本蕴涵，需要更多的文本全局表示。

我们并不是第一次对M-Bert进行研究。Wu&Dredze(2019)和Pires等人。(2019)发现了该模式的跨语言成功，并试图理解它。前者通过分层考虑M-BERT，将跨语言性能与共享词块的数量联系起来；后者通过将模型在语言之间的迁移能力作为语言中词序相似度的函数来考虑。然而，这两部作品都将M-BERT视为一个黑匣子，比较不同语言的性能。另一方面，这项工作考察了B-BERT如何通过沿多个方面探索其组件来执行交叉语言。

我们还注意到，在其他情况下，如果不进行调查，一些架构结论已经在早期观察到。刘等人。（2019）和杨等人。（2019）认为BERT（单语模型）的下一句预测目标不是很有用；我们表明在跨语言环境中就是这种情况。沃伊塔等人。 (2019) 为基于 Transformer 的机器翻译模型修剪注意力头，并认为大多数注意力头并不重要；在这项工作中，我们表明注意力头的数量在跨语言环境中并不重要。

我们的贡献有三方面：（i）我们首次对 M-BERT 产生跨语言能力的各个方面进行了广泛的研究； (ii) 我们开发了一种方法，有助于分析语言之间的相似性及其对跨语言模型的影响；我们通过将英语映射到一种假英语语言来做到这一点，这种语言在所有方面都与英语相同，但与任何目标语言不共享单词片段；最后，（iii）我们开发了一组对 B-BERT 的见解，以及语言、架构和学习维度，这将有助于进一步理解和开发更先进的跨语言神经模型。

2 BACKGROUND

2.1 BERT

BERT (Devlin et al., 2019) 是一种基于 Transformer (Vaswani et al., 2017) 的预训练语言表示模型，已经得到广泛使用。与在给定上下文的情况下预测下一个单词的传统语言模型目标相比，BERT 学习预测掩码单词的值（所谓的掩码语言建模或 MLM（Taylor，1953 年）），并决定两个句子是否是连续的，称为下一句预测（NSP）。 BERT 的输入是一对句子 A 和 B，这样一半的时间 B 在原始文本中出现在 A 之后，其余时间 B 是随机采样的句子。输入中的一些标记被随机屏蔽，MLM 的目标是预测被屏蔽的标记。德夫林等人。 (2019) 认为 MLM 可以从两个方向进行深度表示，而 NSP 有助于理解两个句子之间的关系，并且有利于表示。

在对大量未标记文本进行 BERT 预训练后，这些表示可以用于下游任务。通常，在 BERT 的顶部添加一个新的特定于任务的层，并且所有参数都在目标任务上进行微调。

2.2 MULTILINGUAL BERT

除了使用前104种语言中的维基百科文本外，多语言BERT的预训练方式与单语BERT相同。为了解释维基百科大小的差异，一些语言进行了亚采样，一些语言使用指数平滑法进行了超采样（Devlin等人，2018年）。值得一提的是，没有专门设计的跨语言目标，也没有使用任何跨语言数据，例如平行语料库。

3 WHY MULTILINGUAL BERT WORKS（m-bert工作的原因）

我们从三个方面分析了多语言BERT(在我们的例子中是B-BERT)的跨语言能力:(I)目标语言和源语言的语言特性和相似性；(ii)网络架构，以及(iii)输入和学习目标

3.1数据集和实验设置

在这项工作中，我们对两个概念上不同的下游任务进行了所有实验——跨语言文本蕴涵（TE）和跨语言命名实体识别（NER）。 TE 在句子和句子对级别测量自然语言理解 (NLU)，而 NER 在标记级别测量 NLU。我们使用跨语言自然语言推理 (XNLI) (Conneau et al., 2018) 数据集来评估跨语言 TE 性能和 LORELEI 数据集 (Strassel & Tracey, 2016) 用于跨语言 NER。

TE致力于在给定两段文本下,判断其中的一个文本段能否在语义上推导出另外一个文本段,从而帮助计算机理解文本间的语义包含关系.
命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词（实体），主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。

3.1.1 跨语言自然语言推理（XNLI）

XNLI 是一个标准的跨语言文本蕴含数据集，它通过创建新的开发和测试集并手动翻译成 14 种不同的语言来扩展 MultiNLI（Williams 等人，2018）数据集。每个输入由一个前提和假设对组成，任务是将前提和假设之间的关系分类为三个标签之一：蕴涵、矛盾和中性。训练时，前提和假设都是英语，而在测试时，两者都是目标语言。 XNLI 对所有语言使用相同的前提和假设集，从而使跨语言比较成为可能。

3.1.2 跨语言命名实体识别（NER）

命名实体识别是将文本跨度识别和标记为命名实体的任务，例如人名和位置。我们使用的 NER 数据集 (Strassel & Tracey, 2016) 包含新闻和社交媒体文本，这些文本由母语人士按照相同的准则以多种语言（包括英语、印地语、西班牙语和俄语）标记。我们对 80%、10%、10% 的英语 NER 数据进行二次抽样作为训练、开发和测试。我们使用印地语、西班牙语和俄语的整个数据集进行测试。词汇量固定为 60000，并通过 SentencePiece 库 (Kudo, 2018) 中的一元语言模型估计。

3.1.3 符号和实验设置

我们将用 A 和 B 语言训练的 B-BERT 表示为 A-B，例如，用英语 (en) 和印地语 (hi) 训练的 B-BERT 表示为 en-hi，西班牙语 (es) 和俄语 (ru) 类似。对于预训练，我们将 en、es 和 ru Wikipedia 子采样到 1GB，并将整个 Wikipedia 用于印地语。除非另有说明，对于 B-BERT 训练，我们使用 32 的批大小、0.0001 的学习率和 2M 的训练步骤。对于 XNLI，我们使用与 BERT 在英语中使用的相同的微调方法并报告准确性。对于 NER，我们将 BERT 表示提取为特征并微调 Bi-LSTM CRF 模型（没有字符嵌入）并报告 5 次运行的平均 F1 分数及其标准差。

3.2 语言特性

皮雷斯等人。（2019）假设 M-BERT 的跨语言能力是由于源语言和目标语言之间共享的单词片段而产生的。然而，我们的实验表明，即使没有词块重叠，B-BERT 也是跨语言的。同样，Wu & Dredze (2019) 假设应该选择源语言，使其与目标语言共享更多的词块，而我们的实验表明结构相似性（例如词序）更为重要。受上述假设的启发，在本节中，我们研究了词块重叠和结构相似性对 B-BERT 跨语言能力的贡献。

3.2.1 WORD-PIECE OVERLAP（词块重叠）

M-BERT是使用来自104种语言的维基百科文本进行训练的，来自不同语言的文本共享一些常见的词条词汇(如数字、链接等)。包括实际单词，如果它们有相同的字母)，我们称之为单词-片段重叠。之前的工作(Pires等人，2019年)假设M-Bert跨语言泛化，因为这些共享的词片迫使其他词片映射到相同的共享空间。

在本节中，我们进行实验来比较有和没有词块重叠的跨语言性能。我们构建了一个新的语料库——假英语（enfake），通过将英语维基百科文本中每个字符的 Unicode 移动一个大常数，严格使得没有字符与任何其他维基百科文本重叠（ Unicode 编码）。我们可以将假英语视为与英语不同的语言，但除了词表形式外具有完全相同的属性。

在将文本输入到 BERT 的 Transformer 模型之前，还有一个额外的词汇嵌入步骤，以便将每个单词片段映射到某个整数（与其 unicode 无关）。因此，BERT 将无法访问 unicode 的确切值，也无法直接从我们介绍的 unicode 的线性移位中学习。

我们测量单词片段重叠的贡献，当单词片段重叠被去除时，表现下降。从表1中，我们可以看到B-BERT是跨语言的，即使没有单词重叠。我们还可以看到，词块重叠的贡献非常小，这相当令人惊讶，与之前的假设相矛盾(Pires et al .，2019；吴和德雷泽，2019)。

词片重叠和结构相似性的影响。对于不同的 B-BERT 语言对和两个任务（XNLI 和 NER），我们展示了单词片段对模型成功的贡献。在每两个连续的行中，我们显示一对（例如，英语-西班牙语）的结果，然后在将英语映射到一组不相交的单词片段后显示相应对的结果。每组两行中的性能差距表明由于完全消除了词片贡献而导致的损失。当结果在 0.05 水平上具有统计显着性时，我们在 NER 的数字上添加一个星号。

3.2.2 WORD-ORDERING SIMILARITY（词序相似性）

不同语言之间的单词顺序不同。例如，英语有主语-动词-宾语顺序，而印地语有主语-宾语-动词顺序。我们分析了单词排序方式的相似性是否会影响学习跨语言迁移性。我们通过在预训练期间随机排列句子中某些百分比的单词来破坏词序结构，从而研究词序相似性的影响。我们置换源语言（假英语）和目标语言（尽管置换其中任何一种也足够了）。这样，词序的相似性就对 B-BERT 隐藏了。我们通过对?L 2 ? 的 25%、50%、100% 进行采样来量化排列量。句子中的单词对与 L 个单词片段，并交换每一对（例如 wpi，…，wpj 变为 wpj，…，wpi）。这种洗牌方式绝不会在排列上产生均匀的随机分布，但提供了一种控制随机性的大致好方法。请注意，对于每个单词片段，出现在其上下文中的其他单词片段（句子中的其他单词片段）没有改变，尽管顺序发生了变化。我们也不会在微调期间进行置换，因为我们只想控制在预训练期间获得的跨语言能力。

表 2：词序相似度的贡献：我们通过分析 XNLI 和 NER 在降低一定百分比的词序相似度时的性能来研究词序相似度的重要性。百分比 p 控制相似度（每个句子排列的随机程度）。我们可以看到，词序相似度是相当重要的，但是必须有其他结构相似性的组成部分可能有助于跨语言能力，因为几乎随机的性能仍然可以通过。

从表 2 可以看出，当我们减少两种语言之间的词序相似度时，性能显着下降。然而，跨语言性能仍然明显优于随机，这表明存在结构相似性的其他成分，这可能有助于 B-BERT 的跨语言能力。

3.2.3 WORD-FREQUENCY SIMILARITY(词频相似性)

我们还研究了是否只有知道单字词频才能获得良好的跨语言表征。事实上，齐普夫定律表明，单词出现的频率不同，人们可能会认为，在两种语言中，意义相似的单词以相对相似的频率出现，这有助于B-Bert进行跨语言学习。

我们收集目标语言中单词的频率，并基于频率对单词进行采样，生成新的单语语料库，即每个句子都是从原始单字频率采样的一组随机单词（从相同频率的词组中，抽取出来一个组成句子，但是这样会不会导致拼凑出来的不是一个合理的句子呢？）。B-Bert从这些语言中学到的唯一信息是它们的单字频率，也许还有子词级信息和句子长度的分布（2）。我们使用假英语和这个新生成的目标语料库来训练B-BERT。从表3可以看出，性能非常差。因此，单字频率本身并不能为跨语言学习提供足够的信息。

1、从相同频率的词组中，抽取出来一个组成句子，但是这样会不会导致拼凑出来的不是一个合理的句子呢？
2、为什么学到了单字频率，如是频率都一样的话，那么学到的应该是没有频率信息的啊，因为都一样。
3、这样拼装出来的句子，跟我之前的句子有啥太大差别吗，不就是换了一个句子吗？为什么性能直接跨了呢？

表3：单语言频率的跨语言能力：我们研究单语言频率是否有助于跨语言迁移。Enfake-es表示用假英语和新创建的语料库训练的B-BERT，其中每个句子都是从与ES相同的一元语法分布中抽样的一组随机单词。结果表明，仅有单字频率是不足以达到合理的跨语言表现的。

3.2.4 STRUCTURAL SIMILARITY（结构相似性）

我们将语言的结构定义为单个语言的每个属性，这些属性对于语言的字母是不变的（例如，形态、词序、词频都是语言结构的一部分）。从表 1 中，我们可以看到 BERT 从 Fake-English 到英语的转换非常好。另请注意，尽管不共享任何词汇，但假英语几乎可以像英语一样转换为西班牙语、印地语、俄语。在可以比较语言之间分数的 XNLI 上，从假英语到西班牙语的跨语言可迁移性比从假英语到印地语/俄语要好得多。由于它们不共享任何单词片段，因此这种更好的可转移性来自西班牙语和假英语之间的结构相似性更接近。

通过第3.2.2节我们知道，在两种语言之间，即使没有词块重叠，也没有句子中任何特定的单词顺序，B-BERT仍然可以学习一些跨语言特征。第3.2.3节从另一方面显示，如果B-BERT只获得很少的信息（单码频率），它几乎不会学习任何跨语言特征。这些结果表明，我们应该更多地研究语言之间的结构相似性，这些结果表明我们应该更多地研究语言之间的结构相似性，例如，更高阶的 k-gram 或 k-共现频率（请注意，词序实验可以看作是给 B-BERT k-共现词频，其中 k 是语料库中最长句子的长度）。在这项研究中，我们不会进一步剖析语言的结构。尽管其定义不明确，但我们的实验清楚地表明，结构相似性对于跨语言迁移至关重要。

3.3 模型架构

从第 3.2 节中，我们观察到 B-BERT 有效地识别语言结构。在本节中，我们假设这种能力是模型架构的一个新兴属性。我们研究了 B-BERT 架构的不同组件的贡献，即 (i) 深度、(ii) 多头注意力和 (iii) 参数总数。其动机是了解哪些组件对其跨语言能力至关重要。

我们在 XNLI 数据集上执行所有跨语言实验，以假英语作为源语言，俄语作为目标语言；我们通过假英语和俄语的表现之间的差异来衡量跨语言能力（差异越小，跨语言能力越好）。

3.3.1 深度

我们假设 B-BERT 提取良好语义和结构特征的能力是其跨语言有效性的关键原因，而 B-BERT 的深度有助于它提取良好的语言特征。在本节中，我们研究了深度对 B-BERT 的单语和跨语言性能的影响。我们固定注意头的数量并改变隐藏单元和中间单元的大小，使得参数总数几乎相同（中间单元的大小始终是隐藏单元大小的 4 倍）。

从表 4 中，我们可以看到更深层次的模型不仅在英语上表现更好，而且在跨语言上也表现更好。我们还可以看到英语表现与跨语言能力（Δ）之间存在很强的相关性，这进一步支持了我们的假设，即提取良好语义和结构特征的能力是其跨语言有效性的关键原因。

表 4：B-BERT 架构深度的影响：我们使用 Fake-English 和俄语 B-BERT，研究 B-BERT 深度对 XNLI 的影响。我们改变深度并固定注意力头的数量和参数的数量——隐藏单元和中间单元的大小发生了变化，使得参数的总数几乎保持不变。我们只训练假英语，测试假英语和俄语，并报告他们的测试准确性。 Fake-English 和 Russian (Δ) 的性能差异是我们衡量跨语言能力的指标（差异越小，跨语言能力越好）。

3.3.2 多头注意力

在本节中，我们研究了多头注意力对 B-BERT 跨语言能力的影响。我们固定了深度和参数总数——它是隐藏层和中间层的深度和大小的函数，并研究了不同数量的注意力头的性能。从表 5 可以看出，注意力头的数量对跨语言能力（Δ）没有显着影响。即使只有一个注意力头，B-BERT 也能令人满意地跨语言，这与最近关于单语 BERT 的研究一致（Voita 等人，2019；Clark 等人，2019）。

表 5：多头注意力的影响：我们研究了 B-BERT 的注意力头数对假英语和俄语在 XNLI 数据上的性能的影响。我们固定了 B-BERT 的深度数量和参数数量，并改变了注意力头的数量。假英语和俄语（Δ）的表现之间的差异是我们衡量跨语言能力的指标。

3.3.3 TOTAL NUMBER OF PARAMETERS(参数总数)

与深度类似，我们还预计大量参数可能有助于 B-BERT 提取良好的语义和结构特征。我们通过固定注意力头的数量和深度来研究参数总数对跨语言性能的影响；我们通过改变隐藏单元和中间单元的大小来改变参数的数量（中间单元的大小总是隐藏单元的 4 倍）。从表 6 可以看出，参数的总数不如深度显着；然而，低于阈值，参数的数量似乎很大，这表明 B-BERT 需要一定的最小参数数量来提取良好的语义和结构特征。

表 6：参数总数的影响：我们研究了 B-BERT 的参数总数对假英语和俄语在 XNLI 数据上的性能的影响。我们固定了 B-BERT 的深度数和注意力头数，并通过改变隐藏单元和中间单元的大小来改变参数的总数。假英语和俄语（Δ）的表现之间的差异是我们衡量跨语言能力的指标。

3.3.4 GENERALIZATION TO BERT WITH MORE LANGUAGES(泛化到更多语言的 BERT)

在这里，我们表明模型结构的结果也适用于更多语言的案例；为了进一步说明这一点，我们对四种语言 BERT（en、es、hi、ru）进行了实验。从表 7 中，我们可以看到即使只有 15% 的参数，当深度足够好时，只有 1 或 3 个注意力头，XNLI 的性能也是相当的，这与我们在正文中的观察结果一致。

表 7：在四种语言的 M-BERT 上的类似结果：我们表明，从双语 BERT 得出的见解在多语言 BERT（4 语言 BERT）的情况下也是有效的。此外，我们还表明，如果有足够的深度，我们只需要较少数量的参数和注意力头即可获得可比较的结果。

3.4 INPUT AND LEARNING OBJECTIVE(输入和学习目标)

在本节中，我们研究了输入表示和学习目标对 B-BERT 跨语言能力的影响。回想一下，BERT 是使用掩码语言建模 (MLM) 和下一句预测 (NSP) 目标进行训练的。我们研究了 NSP 的影响，因为最近的工作（Conneau & Lample，2019；Joshi 等人，2019；Liu 等人，2019）表明 NSP 目标会损害几个单语任务的性能。为了验证 B-BERT 是否可以在与语言无关的环境中学习，我们还研究了语言身份标记的使用。我们也有兴趣研究标记化和语言表示的效果，使用字符和单词词汇而不是单词片段。

3.4.1 NEXT SENTENCE PREDICTION (NSP)（下一句预测，这个应该属于学习目标）

BERT 的输入是一对由特殊标记分隔的句子，这样第二个句子的一半时间是下一个句子，其余一半时间是一个随机句子。 BERT (B-BERT) 的 NSP 目标是预测原文中的第二个句子是否出现在第一个句子之后。我们通过比较有和没有这个目标的预训练 B-BERT 的性能来研究 NSP 目标的效果。从表 8 中，我们可以看到 NSP 目标对跨语言性能的影响甚至超过了单语性能。
(的确是，没有效果更好)

表8：下一句预测目标的影响：我们研究了NSP目标对XNLI和NER的影响。NSP和No NSP列分别显示了在有和无NSP目标的情况下训练B-BERT时的表现（XNLI的准确性和NER的平均（stdev）F1分数）。NSP和非NSP之间的差异表明，NSP目标会损害绩效。

3.4.2 LANGUAGE IDENTITY MARKER （语言识别标记，这个属于输入）

在第 3.2 节中，我们认为 B-BERT 是跨语言的，因为它能够识别语言结构的相似性，因此我们假设添加语言标识标记不会影响其跨语言能力。即使我们不添加语言身份标记，BERT 也会学习语言身份（Wu & Dredze，2019）。为了在输入中加入语言标识，我们为不同的语言添加不同的字符串标记（[SEP]）结尾（即，我们的输入格式是 [CLS] SENT1 [SEP-A] SENT2 [SEP-B]，其中 A 和 B是分别对应于 SENT1 和 SENT2 的语言）。从表 9 中，我们可以看到添加语言标识标记不会影响跨语言性能。

表 9：输入中语言标识标记的效果：我们研究了在输入数据中添加语言标识符的效果。我们为不同的语言使用不同的字符串结尾 ([SEP]) 标记作为语言身份标记。 “With Lang-id”和“No Lang-id”列显示了在输入中使用和不使用语言标识标记训练 B-BERT 时的性能。

3.4.3 CHARACTER VS. WORD-PIECE VS. WORD（这个属于输入）

感觉是词汇表的选择不通

我们将 B-BERT 的性能与字符、单词片段和单词标记化输入进行比较。对于字符 B-BERT，我们使用所有字符作为词汇表，对于单词 B-BERT，我们使用最频繁的 100000 个单词作为词汇表。从表 10 中我们可以看出，词片标记化的 B-BERT 的跨语言性能（源语言和目标语言性能之间的差异）与词标记化的相似，但都优于字符标记化。我们认为这是因为单词片段和单词比字符携带更多的信息，使 B-BERT 更容易学习两种语言之间的相似性。

（感觉需要看一下bert的源输入）

值得注意的是，模型是无法处理文本字符的，所以不管是英文还是中文，我们都需要通过预训练模型BERT自带的字典vocab.txt将每一个字或者单词转换成字典索引（即id）输入。

表 10：Character vs Word-Piece vs Word tokenization 的效果。我们在 XNLI 和 NER 数据上比较了 B-BERT 与不同标记化输入的性能。 Char、Word-Piece、Word 列分别报告了 B-BERT 在字符、词块和工作标记化输入的性能。我们使用 2k 批大小和 500k epoch

4 讨论和未来工作

本文对 B-BERT 的跨语言能力进行了系统的实证研究。分析涵盖三个维度： (i) 目标语言和源语言的语言特性和相似性； (ii) 网络架构，以及 (iii) 输入和学习目标。

为了衡量使 B-BERT 成功所需的语言相似性方面，我们创建了一种新语言——假英语——这使我们能够研究单词重叠的影响，同时保持源语言的所有其他属性。我们的实验揭示了一些有趣和令人惊讶的结果。最显著的发现是词片重叠和多头注意都不显著，而结构相似性和深度对B-BERT的跨语言能力至关重要。

虽然为了更好地控制语言之间的干扰，我们研究了 B-BERT 而不是 M-BERT 的跨语言能力，但现在扩展这项研究会很有趣，允许更多语言之间的交互。我们将其留给未来的工作来研究这些相互作用。特别是，一个重要的问题是了解添加与目标语言相关的 M-BERT 语言在多大程度上有助于模型的跨语言能力。

我们引入了结构相似性这个术语，尽管它的定义模糊不清，并展示了它在跨语言能力中的重要性。另一个有趣的未来工作可能是开发一个更好的定义，并因此进行更精细的实验，以更好地理解结构相似性并研究其各个组成部分。

最后，我们注意到表 11 中的一个有趣观察。当前提和假设使用不同的语言时，我们观察到 B-BERT 的蕴涵性能急剧下降。（此数据是使用 XNLI 创建的，在原始形式中，语言包含相同的前提和假设对）。一种可能的解释可能是 BERT 正在学习通过将前提中的单词或短语与假设中的单词或短语匹配来做出文本蕴涵决定。这个问题也留作未来的方向。

表11：不同语言中的前提和假设：使用XNLI测试集，我们构建了不同语言中带有前提和假设的文本蕴涵数据。A-B栏(例如Enfake-Target)指的是A语言中的前提(Enfake)和B语言中的假设(Target)的测试数据。我们总是训练假英语，并报告测试的准确性。

你可能感兴趣的:(自然语言处理,bert,深度学习)

大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
Python 库包 sentence-transformers 音程机器学习人工智能 python 开发语言
sentence-transformers是一个非常流行的Python库，专门用于将文本（句子、段落、文档）转换为高质量的语义向量（嵌入）。它基于Transformer架构（如BERT、RoBERTa、DistilBERT等）的预训练模型，并在大量语义相似性数据上进行了微调，能够捕捉句子之间的深层语义关系。什么是sentence-transformers？项目地址：https://www.sber
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
AI原生应用必知：5大高效多轮对话框架对比 AI原生应用开发 AI-native easyui 前端 ai
AI原生应用必知：5大高效多轮对话框架对比关键词：AI原生应用、多轮对话、对话框架、自然语言处理、上下文管理、意图识别、对话状态跟踪摘要：本文深入探讨了构建AI原生应用时必备的5大多轮对话框架，包括Rasa、Dialogflow、MicrosoftBotFramework、AmazonLex和IBMWatsonAssistant。通过对比分析它们的架构设计、核心功能和应用场景，帮助开发者选择最适合
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
Nystromformer：一种基于 Nyström 方法的自注意力近似算法 AI专题精讲 Paper阅读人工智能自然语言处理 AI
1.摘要Transformer已经成为广泛自然语言处理任务中的强大工具。推动Transformer展现出卓越性能的一个关键组件是self-attention机制，它对每个token编码了其他token的影响或依赖关系。虽然self-attention机制具有诸多优势，但其在输入序列长度上的二次复杂度限制了其在较长序列上的应用——这是当前社区积极研究的一个主题。为了解决这一限制，我们提出了Nystr
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe