BQW_

【自然语言处理】【实体匹配】用于实体匹配中blocking环节的深度学习：一个设计空间的探索

用于实体匹配中blocking环节的深度学习：一个设计空间的探索 《Deep Learning for Blocking in Entity Matching: A Design Space Exploration》

论文地址：http://vldb.org/pvldb/vol14/p2459-thirumuruganathan.pdf

相关博客：
【自然语言处理】【实体匹配】用于实体匹配中blocking环节的深度学习：一个设计空间的探索
【自然语言处理】【实体匹配】PromptEM：用于低资源广义实体匹配的Prompt-tuning
【自然语言处理】【知识图谱】利用属性、值、结构来实现实体对齐
【自然语言处理】【知识图谱】基于图匹配神经网络的跨语言知识图谱对齐
【自然语言处理】【知识图谱】使用属性嵌入实现知识图谱间的实体对齐
【自然语言处理】【知识图谱】用于实体对齐的多视角知识图谱嵌入
【自然语言处理】【知识图谱】MTransE：用于交叉知识对齐的多语言知识图谱嵌入
【自然语言处理】【知识图谱】SEU：无监督、非神经网络实体对齐超越有监督图神经网络？

一、简介

实体匹配 $\text{(Entity Matching,EM)}$ 是寻找指向现实中相同实体的数据实例。大多数的实体匹配解决方案都会先执行blocking再执行matching。已经有许多工作将深度学习应用到matching环节，但很少有工作将深度学习应用在blocking阶段。这些blocking的工作也具有局限性，其仅考虑了深度学习的简单形式，并且一部分工作还需要标注数据。在本文中，开发了 $\text{DeepBlocker}$ 框架，其显著改进了深度学习在实体匹配blocking阶段的state-of-the-art。作者先定义了一个用于blocking的深度学习解决方案的解空间，其包含了不同复杂性的解决方案并包含了大量先前的工作。接下来，作者在解空间中开发了8个具有代表性的解决方案。这些解决方案不需要标注数据，并能够利用深度学习近期的进展。实验结果显示本文的最优方案在dirty数据和textual数据上超越了现有的最优深度学习解决方案和非深度学习解决方案，并在结构化数据上展示出好的竞争力。最终，实验展示了合并最优的深度学习和非深度学习解决方案能够得到更好的效果。

二、背景知识

1. 实体匹配

实体匹配有许多的场景，例如：直接匹配两个表、同一个表中的tuple进行匹配、匹配表和知识库等。本文仅考虑常见的匹配场景：给定两个具有相同schema的表 $A$ 和 $B$ ，目标是发现指向现实中相同实体的匹配tuple对 $(a\in A,b\in B)$ 。具有相同schema的匹配场景非常常见，即使是匹配两个不同schema的表，许多解决方案都仅会考虑两个表的公共属性。本文的解决方案也会处理不同schema的表，但仅在表的共享属性上进行测试。

大多数的实体匹配解决方案都包含两个步骤：blocking和matching。blocking阶段会使用启发式的方法快速过滤掉不可能匹配的对 $(a, b)$ 。matching阶段则会使用一个匹配器来预测保留下来的实体对是否匹配。本文主要专注在blocking阶段。

2. 非深度学习Blocking

常见的blocker都是基于属性等价 $\text{(attribute equivalence)}$ 、哈希或者相邻排序 $\text{(sorted neighborhood)}$ 。属性等价方法会输出共享相同属性值的tuple对。哈希方法是属性等价的推广，其会输出两个具有相同哈希值的tuple对。相邻排序则是会输出哈希值在指定范围内的tuple对。

更复杂的blocker还有基于相似度、基于规则或者复合的方法。基于相似度的方法类似于属性等价，它只使用了编辑距离、 $\text{Jaccard}$ 等方式来处理脏数据、错误拼写、缩写。基于规则的blocking则会利用多个规则以及逻辑谓词。

3. 深度学习Blocking

相较于大量基于非深度学习的blocking，基于深度学习的工作要少的多。最早的工作时 $\text{DeepER}$ ，其通过对单个单词的向量进行未加权聚合为tuple向量。近期， $\text{AutoBlock}$ 通过标注数据来学习聚合词的权重。 $\text{DeepBlock}$ 仍然会执行基于关键词的聚合，但是会使用词向量计算关键词的语义相似度来进行优化。

4. 本文的问题设定

本文考虑的问题是对两个具有相同schema的表 $A$ 和 $B$ 来进行blocking。此外，不假设存在任何标注数据。令 $C$ 表示在表 $A$ 和 $B$ 上应用blocker产生的候选样本对集合。本文的目标是寻找能够最大化召回 $|C\cap G|/|G|$ ，并且最小化 $∣ C ∣$ 和时间消耗的blocking解决方案。

三、设计空间

1. 架构模板与设计空间

上图展示了用于blocking的深度学习解决方案架构模板。给定两个表 $A$ 和 $B$ ，通过合并所有的属性值来将每个tuple转换为一个字符串。举例来说，表 $A$ 中元组 $a_1$ 转换为Daniel Smith LA 18。由于缺乏人类的输入和标注好的训练数据，不知道什么属性更加重要，所以使用所有的属性。一个合理的解决方案是将所有属性都拼接，然后让深度学习解决方案来以无监督的方法来确定哪些特征最重要。

得到的字符串被送入三个主要的模块：Word Embedding、Tuple Embedding和Vector Pairing。Word Embedding模块将每个字符串中的单词转换为高维向量。Tuple Embedding模块则将这些向量合并成一个单值向量，用来表示整个字符串(原始tuple)。举例来说，表 $A$ 中的元组 $a_1$ 可以被转换为字符串Daniel Smith LA 18。Word Embedding模块将其转换为4个向量，然后Tuple Embedding模块将这4个向量合并为单个向量。

表 $A$ 和 $B$ 中的每个元组被转换为嵌入向量。举例来说，上图中的表 $A$ 转换为三个向量的表 $S$ ，类似的表 $B$ 转换为表 $T$ 。最终，Vector Pairing模块会使用程序 $\text{Q(S,T)}$ 来快速搜索表 $S$ 和 $T$ ，来寻找相似的向量对。

此时，表 $A$ 和 $B$ 中的每个元组被转换为嵌入向量。举例来说，上图中的表 $A$ 转换为三个向量的表 $S$ ，类似的表 $B$ 转换为表 $T$ 。最终，Vector Pairing模块会使用程序 $\text{Q(S,T)}$ 来快速搜索表 $S$ 和 $T$ ，来寻找相似的向量对。

2. Word Embedding选择

该模块将字符串中的每个单词转换为嵌入向量。这里主要有4个选择：

2.1 单词级粒度 vs 字符级粒度

给定一个单词序列，一个词级别的嵌入会将每个单词编码为固定维度的向量。通常，这是通过映射表来实现的。但不在词表中的任意单词会触发 $\text{OOV}$ ，并且会被替换为特殊的token。

字符级的嵌入将每个单词看作是子词序列，例如：独立的字符、bi-grams、tri-grams等，并使用神经网络来产生基于整个词的向量。这个方法可以处理单词的形态学变体(例如，data、database、dataset)，并为任意的袋外词产生嵌入，而且对错误拼写具有鲁棒性。因此，该方法更加适合 $\text{EM}$ 场景。

2.2 预训练 vs 学习嵌入

另一个正交设计选择是如何训练嵌入。word2vec和GloVe是流行的词级别嵌入，fastText则是流行的字符级嵌入。通常有在大规模外部语料 $\text{Wikipedia}$ 、 $\text{Common Crawl}$ 或者 $\text{PubMed}$ 上预训练好的嵌入向量，可以在实体匹配中直接使用。

3. Tuple Embedding选择

该模块会将一个tuple中的向量序列转换为整个tuple的向量表示。主要挑战是，在没有标注数据的情况下确保相似tuple具有相同的嵌入。为了解决这个问题，考虑两种深度学习技术：aggregation和self-supervision。

3.1 Aggregation

这类方法会应用一个聚合函数 $F:\mathbb{R}^{d_e\times\cdot}\rightarrow\mathbb{R}^{d_u}$ 来生成一个tuple嵌入向量 $\textbf{u}_t$ 。最常见的方法是取平均，例如 $\text{DeepER}$ 对所有词向量使用不加权平均，而 $\text{SIF}$ 使用加权平均。

由于后续会在 $\text{SIF}$ 上进行实验，所以现在描述其更多的细节。首先，在每个tuple中所有单词向量上计算一个加权平均来获得聚合向量。给定一个tuple字符串中的单词 $w$ ，其权重为 $f (w) = a / (a + p (w))$ ，其中 $a$ 是超参数并且 $p (w)$ 是数据集中单词 $w$ 的规范化频率。接下来，使用 $\text{PCA}$ 计算聚合向量的第一主成分。最终，通过从聚合向量中减去第一主成分来计算每个tuple的嵌入向量。具体来说，令 $\textbf{v}_t$ 表示元组 $t$ 的聚合向量， $\textbf{p}$ 是第一主成分，tuple的嵌入向量为 $\textbf{u}_t=\textbf{v}_t-\textbf{pp}^T\textbf{v}_t$ 。 $\text{SIF}$ 推广了 $\text{DeepER}$ 中的不加权拼接方法，其在文本相似度上实现了与复杂 $\text{NLP}$ 任务相当的效果。

如上所述，aggregation不涉及到学习并且能够高效的实现。但是其使用的是词袋的方法，序列信息被忽略了。因此，元组A bought B和B bought A将具有相同的嵌入向量。此外，其也不能处理多义词，即相同的单词/短语具有不同的含义，样在Apple tv和Apple tree中的Apple具有相同的嵌入向量。

3.2 Self-Supervised

该方法会采用最近深度学习工作中流行的自监督想法。其按如下工作：(1) 定义一个监督学习任务，也称为辅助任务，其能够自动从表 $A$ 和 $B$ 中推导出标注训练数据。(2) 在标注数据上训练一个深度学习模块来解决上面的任务；(3) 使用训练好的深度学习模块为表 $A$ 和 $B$ 中的元组产生嵌入向量。

下面会考虑4种类型的辅助任务：self-reproduction、cross-tuple training、triplet loss minimization和hybrid。对于每种类型，讨论一些有前景的深度学习解决方案。

现有的工作仅考虑了blocking中的聚合方法。因此，这个工作的关键技术贡献是，在实体匹配的blocking中采用了近期深度学习中流行的自监督，并且开发了一系列的解决方案。

4. Self-Reproduction方法

该方法将一个元组 $t$ 输入至一个神经网络，并输出一个稠密向量 $\textbf{u}_t$ ，然后将 $\textbf{u}_t$ 送入至第二个神经网络，尝试恢复原始的tuple。若能恢复原始的tuple， $\textbf{u}_t$ 则可以看作是元组 $t$ 的稠密摘要，并且可以用作是元组 $t$ 的嵌入向量。上面两个神经网络称为encoder和decoder。这种称为自编码的框架已经被用于各种任务中，例如维度缩减。但目前还没有在实体匹配的blocking中使用。

下面讨论两种自编码方法： $\text{Autoencoder}$ 和 $\text{Seq2Seq}$ 。

4.1 $\text{Autoencoder}$

这是一种相对简单的自编码方法。回忆一下，该方法希望构建一个模型来接受词向量序列 $\textbf{e}_t$ 作为输入，并生成一个输出向量 $\textbf{o}_t$ 来恢复 $\textbf{e}_t$ 中的信息。理想情况下，我们希望模型能够精确的恢复 $\textbf{e}_t$ ，并以这个目标来训练模型。

正如上图所示，模型是由一个aggregator、一个encoder和一个decoder组成。使用两层的前馈网来作为encoder和decoder。前馈神经网络不能够接收可变长度的词向量序列。因此，通过一个聚合操作 $f(\cdot)$ ，在第一步中将 $\textbf{e}_t\in\mathbb{R}^{d_e\times\cdot}$ 转换为固定尺寸的向量 $\textbf{v}_t=f(\textbf{e}_t)\in R^{d_e}$ 。具体聚合器则使用 $\text{SIF}$ 模型。接下来，将 $\textbf{v}_t$ 送入encoder，并生成隐向量 $\textbf{u}_t\in\mathbb{R}^{d_u}$ 。最后，解码器使用 $\textbf{u}_t$ 来产生输入 $\textbf{o}_t\in\mathbb{R}^{d_e}$ ，其用于近似 $\textbf{v}_t$ 。

元组 $t$ 的训练损失函数定义为 $l_t=\parallel\textbf{v}_t-\textbf{o}_t\parallel_2^2$ ，其是聚合向量和输入向量的均方 $l_2$ 距离。训练时优化encoder和decoder的参数。一旦训练完成，给定一个元组 $t$ 来生成元组嵌入，将词向量序列 $\textbf{e}_t$ 送入聚合器后再送入encocder。对于元组 $t$ 使用生成的隐表示 $\textbf{u}_t$ 作为元组嵌入向量。

4.2 $\text{Seq2Seq}$

$\text{Autoencoder}$ 不能感知顺序。其对输入字符串的任意自排列都会产生相同的聚合向量。 $\text{Seq2Seq}$ 则是一个序列感知的方法：给定一个词序列 $w_t$ 和其对应的嵌入向量序列 $\textbf{e}_t$ ，其重新生成 $w_t$ 。类似于 $\text{Autoencoder}$ ， $\text{Seq2Seq}$ 也是由一个encoder和一个decoder组成的。但是它们都使用 $\text{LSTM-RNNs}$ ，其能够处理变长的序列。基于 $\text{LSTM}$ 的encoder将 $\textbf{e}_t$ 中的每个嵌入向量逐个读入来产生隐表示向量 $\textbf{u}_t$ 。

5. Cross-Tuple训练方法

self-reproduction方法会利用单个元组中的信息来生成tuple嵌入向量。本方法 $\text{CTT}$ 则会利用跨元组的信息。关键想法是扰动表 $A$ 和 $B$ 中的元组来生成合成标注数据，合成数据是一个tuple对 $t_i,t_j)$ 的集合，具有匹配和不匹配的标签。使用该数据来训练一个深度学习模型来产生tuple嵌入，这样匹配的tuple对嵌入向量更加接近，而不匹配tuple对的嵌入向量则彼此远离。为了解释 $\text{CTT}$ ，先考虑一个具有标签的理想场景，然后展示如何生成合成数据。

5.1 理想模型实现

假设给定一个具有匹配/不匹配标签的tuple对集合 $C\subseteq A\times B$ 。可以训练一个分类器来预测 $C$ 中的每个对的标签。整个方法分为两个步骤：(1) 给定一个tuple对 $(a\in A, b\in B)$ ，将其嵌入序列 $\textbf{e}_a$ 和 $\textbf{e}_b$ 转换为元组嵌入 $\textbf{u}_a$ 和 $\textbf{u}_b$ 。接下来训练一个分类器，其输入为 $\textbf{u}_a$ 和 $\textbf{u}_b$ ，并且预测正确的标签。关键想法是，为了在预测任务上做得好，模型必须学会生成有效的tuple嵌入，以便从tuple对中正确预测匹配。

理想情况下，集合 $C$ 的生成如下。假设有集合 $M\subseteq A\times B$ 包含所有的匹配对，可以简单的将 $\textbf{M}$ 中的所有对作为正样本。为了生成负样本数据，可以选择从 $A\times B$ 中选择不在 $M$ 中的tuple对作为负样本。具体来说，令 $E=A\cup B$ ，对于每个元组 $t\in E$ ，随机选择具有 $p$ 个元组的集合 $S_t\subseteq E$ ，用来形成一个不匹配对 $N_t=\{(t,s)|s\in S_t\}$ 满足每个对 $(t,s)\notin M$ 。为每个元组 $t\in E$ 重复这个过程，并合并作为最终的负样本训练数据 $N=\cup_{\{t\in E\}}N_t$ 。

使用标注数据集 $C=M\cup N$ 来学习嵌入向量。上图展示了模型的架构，该模型是由三个模块组成：一个aggregator、一个Siamese summarizer和一个classifier。从 $C$ 中选择一对词嵌入向量序列 $e_1$ 和 $e_2$ ，首先应用aggregator来转换每个嵌入序列为一个固定尺寸的向量，表示为 $\textbf{v}_1\in\mathbb{R}_e^d$ 和 $\textbf{v}_2\in\mathbb{R}_e^d$ 。使用 $\text{SIF}$ 模型作为嵌入序列的aggregator。接下来，对于 $\textbf{v}_1$ 和 $\textbf{v}_2$ 使用两层前馈网络的Siamese summarizer，生成摘要向量 $\textbf{u}_1\in\mathbb{R}^{d_u}$ 和 $\textbf{u}_2\in\mathbb{R}^{d_u}$ 。将 $\textbf{u}_1$ 和 $\textbf{u}_2$ 的差值的绝对值向量送入至两层前馈网络的classifier，用于预测输入对是匹配还是不匹配。

训练目标是学习两个summarizer的模型参数。使用Siamese网络来缩减模型的容量，即两个summarizer使用相同的模型参数。

5.2 近似理想模型实现

为了实现上面提及的理想方法，需要预先知道所有的匹配对 $M\subseteq A\times B$ 。然而，这意味着早已经解决了实体匹配问题。接下来提出了一种数据生成程序，用于在不访问 $M$ 的情况下来近似理想训练数据。令 $E=A\cup B$ 。对于每个 $t\in E$ ，必须生成一个正样本训练实例和 $p$ 个负样本实例。

使用一个简单但高效的启发式方法来生成正样本对。给定一个元组 $t$ ，通过拼接来获得单词序列 $w_t$ 。需要生成一个与 $t$ 高概率匹配的元组 $t^{'}$ 。然而，并不知道哪个元组匹配 $t$ 。为了解决这个难题，随机从 $w_t$ 中选择单词子集来生成合成匹配元组字符串，并表示为 $w_t'$ 。因为 $w_t'$ 是从 $w_t$ 中选择的，为这个样本对 $w_t,w_t')$ 关联标签1来表示其匹配。改变重叠字符串的比例可以改变匹配的可能性。在本文的实验中，确保合成的元组至少有60%的覆盖。

为了生成一个负实例，从 $E$ 中随机的选择一个元组 $s$ ，拼接 $s$ 的属性值来获得 $w_s$ 。因为元组 $s$ 是随机选择的，其很有可能与 $t$ 是不匹配的，因为相比于不匹配，匹配是稀缺的。关联标签0表示样本对 $w_t,w_s)$ 是不匹配的。重复这个过程 $p$ 次来从 $E$ 中选择 $p$ 个元组作为负实例。对于表 $A$ 和 $B$ 中的每个元组重复这个过程，并最终将每个元组的训练实例集合作为近似训练数据。一旦有了近似数据就能像理想的训练场景中一样训练 $\text{CTT}$ 模型。

6. Triplet Loss最小化方法

该方法采用triplet loss方法。具体来说，首先会生成一个tripelts集合的训练数据。每个triplet可以表示为 $(x, y, z)$ ，其中 $x$ 是一个tuple， $y$ 是与 $x$ 匹配的tuple， $z$ 是不匹配的tuple。对于表 $A$ 或者 $B$ 的每个元组 $t_i$ ，从 $t_i$ 中至多随机移除40%的单词来生成 $L$ 扰动 $p_{i,1},\dots,p_{i,L}$ 。然后挑选 $L$ 个随机元组 $n_{i,1},\dots,n_{i,L}$ 。最终，生成 $L$ 个triplets： $\{(t_i,p_{i,1},n_{i,1}),\dots,(t_i,p_{i,L},n_{i,L})\}$ 。

随后，训练一个深度学习模型为 $x$ ， $y$ 和 $z$ 产生向量嵌入，其中 $x$ 和 $y$ 彼此接近，而 $x$ 和 $z$ 则彼此远离。使用预训练的 $\text{BERT}$ 来产生向量嵌入，并且 $\text{SBERT}$ 方法用于元组聚合。Triplet loss的定义如下：
$max(\parallel Emb(x)-Emb(y)\parallel^2-\parallel Emb(x)-Emb(z)\parallel^2+alpha,0)$
$\text{Emb(x)}$ 提供元组 $x$ 的嵌入向量， $\alpha$ 是确保正负元组对的距离边界的超参数。

7. Hybrid方法

到目前为止所讨论的单个辅助任务都能够计算tuple嵌入向量：self-reproduction、cross-tuple training或者triplet loss minimization。可以进一步开发更混合的方法，其能够使用两个或者更多的辅助任务。

举例来说，能够合并 $\text{Autoencoder}$ 和 $\text{CTT}$ 来产生元组嵌入，其能够同时考虑元组内信息和跨元组信息。这样做，使用由两个子训练任务堆叠的训练过程。给定 $A$ 和 $B$ 中元组的词嵌入序列，训练一个 $\text{Autoencoder}$ 模型 $M_1$ 和一个 $\text{CTT}$ 模型 $M_2$ 。 $M_2$ 的训练步骤如前描述，除了使用一个原始 $\text{CTT}$ 模型的修改版本，其没有使用 $\text{SIF}$ ，而是使用 $M_1$ 的encoder作为 $M_2$ 的aggregator。

需要注意的是， $M_1$ 和 $M_2$ 是通过先训练 $M_1$ 然后再训练 $M_2$ 进行堆叠的，而不是联合训练 $M_1$ 和 $M_2$ 。原因是希望保持两个模型 $M_1$ 和 $M_2$ 分离来避免交叉元组信息扩散到 $M_1$ 的模型参数中，这样模型 $M_1$ 就不能很好的摘要元组内的信息了。一旦训练完成，堆叠模型可以用于生成元组嵌入。给定 $A$ 或者 $B$ 中元组 $t$ 的嵌入序列 $\textbf{e}_t$ ，将 $\textbf{e}_t$ 送入aggregtor后，再送入 $M_2$ 的Siamese summarizer，并使用其输入作为tuple嵌入向量。

上图解释了提出的架构，将其简单的称为 $\text{Hybrid}$ 。

8. $\text{Vector Pairing}$ 选择

目前讨论的许多方法都是计算tuple的嵌入向量，现在讨论vector pairing。令 $S$ 和 $T$ 为表 $A$ 和 $B$ 中对应tuple嵌入向量的表。目标是使用 $Q (S, T)$ 来快速的搜索 $S$ 和 $T$ ，从而发现相似的向量对。这里采用非深度学习的方法，其可以分为：基于哈希(hash-based)、基于排序、基于相似度(similarity-based)以及复合方法(composite)。这里仅介绍基于哈希、基于相似度和复合方法。

8.1 Hashing-based Pairing

该方法会对每个tuple的向量表示进行哈希化，并保留共享相同哈希值的tuple对。其能够被高效的实现。因为tuple嵌入是数值向量，Locality Sensitive Hashing(LSH)是一个很好的选择，其能够以高概率将相似的items散列到相同的桶中。 $\text{DeepER}$ 和 $\text{AutoBlock}$ 使用了基于hashing-based的pairing。

8.2 Similarity-based Pairing

基于 $\text{cosine}$ 或 $\text{Euclidean}$ 距离这种相似度，仅保留非常相似的tuple对。一种选择是保留超过相似度阈值的tuple对，另一种则是保留 $k$ 个最近邻。举例来说，使用 $\text{cosine}$ 度量，每个元组 $a_i\in A$ 具有tuple嵌入向量 $\textbf{u}_{a_i}$ ，先计算 $\textbf{u}_{a_i}$ 与每个 $u\in T$ 的 $\text{cosine}$ 分数。然后挑选具有 $k$ 个最高 $\text{cosine}$ 分数的tuple $B'\subseteq B$ 。最终，形成 $k$ 个tuple对 $a_i,b_j)$ ，其中 $b_j\in B'$ 将包括在候选集合中。

8.3 Composite Pairing

该方法会合并上面的方法。举例来说，先使用 $\text{LSH}$ 来获得一个哈希桶，然后在每个桶中选择最高cosine相似度的分数。

四、代表性的深度学习解决方案

先前的章节描述了blocking的深度学习解决方案的解空间，其给出了大量的解决方案。这里会选择8个代表性的解决方案进行深入评估，其对应于各种复杂度的深度学习模型。这8个解决方案在tuple嵌入模块上的选择具有显著的不同，并进行了对应的命名。

每个解决方案都使用 $\text{fastText}$ ，因为其能够处理单词形态学以及袋外词，并且对错误拼写具有鲁棒性。因此，它是一个词嵌入向量模块的好选择，并被用于多个近期的用于实体匹配的深度学习方法中。基于transformer的解决方案中， $\text{SBERT}$ 和 $\text{Trans-encoder}$ 使用 $\text{BPE(Byte Pair Encoding)}$ 。此外，所有8个解决方案的vector pairing模块使用top-k cosine相似度。其可以控制blocking的输出尺寸，其在实际应用中是非常理想的性质。上表给定了每个组件实例化的摘要。

五、评估

数据集

实验使用来自不同领域和不同规模的数据集，除了Hospital以外都是公开数据集，并已经用于了先前的 $\text{EM}$ 工作中。其中包含6个结构化实体匹配数据集，3个textual实体匹配数据集，dirty数据集则主要来自于对应的结构化数据，然后将属性值注入至错误的属性下。此外，本文还会在三个真实数据集上进行额外的实验： $\text{Restaurants}$ 、 $\text{Book}$ 和 $\text{Cora}$ 。
方法

评估了8个有代表性的深度学习解决方案、以及一些state-of-the-art的深度学习和非深度学习解决方案。令 $C$ 是候选集合(在两个表 $A$ 和 $B$ 上blocking输出)，并令 $\text{G}$ 表示 $A$ 和 $B$ 真正匹配的集合。那么 $\text{recall}$ 则称为 $|G\cap C|/|G|$ ，候选集合的尺寸 $\text{(CSSR)}$ 则是通过 $|C|/|A\times B|$ 来衡量。理想情况下，期望有高 $\text{recall}$ 、低 $\text{CCSR}$ 以及低的运行时间。

1. $\text{Recall}$ 和 $\text{CSSR}$

首先从 $\text{Recall}$ 和 $\text{CSSR}$ 来评估8种深度学习解决方案。因此，绘制了 $\text{R-C(recall-candidate set size ration)}$ 曲线，展示了 $\text{vector pairing}$ 模块中这两个量如何随着top-k变换的。

1.1 结构化数据

上图是6个结构化数据的 $\text{R-C}$ 曲线。除了Song-Song数据集外， $x$ 轴是 $\text{recall}$ ， $y$ 轴是 $\text{CSSR}$ 。由于Song-Song数据集的尺寸非常大，会导致 $\text{CSSR}$ 很小。因此，该数据集上只报告 $\text{K}$ ，随着 $K$ 的增加， $\text{recall}$ 和 $\text{CSSR}$ 也会增加。 $\text{R-C}$ 曲线越接近右下角表示效果越好，因为其对应着更小的候选集尺寸以及更高的召回。

上图也展示了8个解决方案能够在相对小的候选集上实现高的召回。 $\text{Autoencoder}$ 在所有数据集上都实现了最好的表现。 $\text{Hybrid}$ 尽管在所有数据集上表现都不错，但是仅在 $\text{Walmart-Amazon}$ 上实现了最好的效果。消融实验表明这是因为使用近似训练数据的质量导致的。 $\text{Seq2Seq}$ 在结构化和dirty数据集上被其他解决方案显著超越，包括 $\text{SIF}$ 。这是由于在结构化和dirty数据集中的tuples相对较短。在这些表格中不同属性值的数量有限。此外，结构化数据集中不存在训练信息，不同于文本数据集。相反，在文本数据集中词表要大很多，其中 $\text{Seq2Seq}$ 表现的也更好。

1.2 Textual数据

上图展示了textual数据集上的 $\text{R-C}$ 曲线。各种解决方案的效果非常相似， $\text{R-C}$ 曲线也彼此接近。相比于结构化数据，这些 $\text{R-C}$ 曲线离右下角更远。这意味着对于这些包含长文本属性的数据集来说，深度学习方案从这些tuple中抽取有用的信息并生成好的blocking结果更具有挑战性。然后，正如后面的实验展示的，该场景中深度学习方法仍然优于非深度学习方法。图中显示 $\text{Hybrid}$ 的平均结果是最好的，捕获交叉元组信息有助于生成更好的元组嵌入。 $\text{SBERT}$ 表示也非常好。有趣的是， $\text{Autoencoder}$ 仅使用元组的信息就接近第三名。

1.3 Dirty数据

上图展示了dirty数据集上的 $\text{R-C}$ 曲线，这些数据是都结构化数据进行综合破坏后得到的。

作者在dirty数据集的两个不同的变体上执行了实验。图8展示了dirty数据集中的 $\text{R-C}$ 曲线，这些数据是对结构化数据进行综合破坏后得到的。

2. Runtime

下面会在运行时间方面评估解决方案，主要专注在tuple嵌入模块的训练时间和向量匹配模块的时间。

2.1 tuple嵌入模块的训练时间

上表展示了每个数据集的训练时间，其中 $\text{SIF}$ 不涉及学习， $\text{SBERT}$ 使用预训练模型。 $\text{Seq2Seq}$ 的训练时间比其他方法的时间高一个数量级。不幸的是， $\text{LSTMs}$ 由于其天然的序列属性无法轻易的并行化。其他的一些解决方案非常高效，并且在大数据集上能够很好的缩放。 $\text{Autoencoder}$ 在结构化和dirty数据上效果最好，特别是训练有效性上。

2.2 向量匹配模块

基于 $\text{FAISS}$ 的向量匹配模块，在 $\text{GPU}$ 加速下除了 $\text{Song-Song}$ 数据集以外，生成候选的时间都小于1分钟， $\text{Song-Song}$ 则小于35分钟。

3. 现有深度学习解决方案比较

已知有三个用于blocking的深度学习解决方案： $\text{DeepER}$ 、 $\text{AutoBlock}$ 和 $\text{DeepBlock}$ 。 $\text{DeepBlock}$ 只使用了少量的 $\text{DL}$ ，并在一篇4页的论文中进行了描述，没有足够的细节进行实现。 $\text{DeepER}$ 的效果显然差于本文的解决方案。最终，选择比较本文方案与 $\text{AutoBlock}$ 。 $\text{AutoBlock}$ 使用标注数据集来学习tuple的嵌入。对于每个tuple，其使用 $\text{LSH}$ 来从候选中检索出top-K个最近邻。

上图展示了 $\text{AutoBlock}$ 、 $\text{Autoencoder}$ 和 $\text{Hybrid}$ 的结果。实验会重复5次并报告平均召回。曲线 $\text{AB-5}$ 、 $\text{AB-10}$ 和 $\text{AB-15}$ 展示了使用5%、10%和15%标注数据训练 $\text{AutoBlock}$ 的结果。 $\text{Autoencoder}$ 和 $\text{Hybrid}$ 的效果都优于 $\text{AutoBlock}$ 。此外，还评估了 $\text{AutoBlock}$ 的变体 $\text{AB-Hy}$ ，其使用 $\text{Hybrid}$ 生成的近似标注数据来训练 $\text{AutoBlock}$ 。这个变体接近 $\text{Hybrid}$ ，但仍然低于两种接近方案。

你可能感兴趣的:(自然语言处理,深度学习,自然语言处理,人工智能,实体匹配,blocking)

基于深度学习的行人检测与识别系统：YOLOv5、YOLOv8、YOLOv10与UI界面的实现 2025年数学建模美赛深度学习 YOLO ui 人工智能分类
引言行人检测与识别技术作为计算机视觉领域的一个重要应用，广泛应用于智能监控、自动驾驶、公共安全等多个领域。行人检测系统的目标是通过图像或视频中的内容，自动识别并定位行人，这项任务在复杂环境中面临着不同的挑战，如多样的行人姿态、遮挡、光照变化等。近年来，深度学习的进步，尤其是目标检测领域的快速发展，为行人检测提供了强有力的支持。YOLO（YouOnlyLookOnce）系列模型，作为目前目标检测领域
基于深度学习的行人检测识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能分类
1.引言行人检测与识别是计算机视觉中的一个重要领域，广泛应用于安防监控、智能交通、自动驾驶等多个领域。传统的行人检测方法面临着许多挑战，如低光照、复杂背景、遮挡等问题。随着深度学习技术的迅猛发展，基于卷积神经网络（CNN）的方法，尤其是YOLO（YouOnlyLookOnce）系列算法，在行人检测中取得了显著的效果。YOLOv8作为YOLO系列的最新版本，继承了YOLO一贯的高效性和准确性，在速度
ElasticSearch第十六讲 ES 索引模板Index Template与Dynamic Template 程序员路同学 ElasticSearch elasticsearch java 大数据
IndexTemplateIndexTemplates可以帮助你设定Mappings和Settings，并按照一定的规则，自动匹配到新创建的索引之上。模版仅在一个索引被新创建时，才会产生作用。修改模版不会影响已创建的索引，你可以设定多个索引模版，这些设置会被“merge”在一起，你可以指定“order”的数值，控制“merging”的过程索引模板中的内容settings:指定index的配置信息,
Python Flask框架基础（五）数据库 525小白菜 Python Web编程数据库 python flask
数据库是大多数动态Web程序的基础设施，本章主要介绍如何给Flask程序添加数据库支持，具体来说就是在Python中使用DBMS来对数据库进行管理和操作。使用ORM不光可以解决SQL注入的问题，而且它为不同的DBMS提供统一的Python接口库，使得切换数据库非常简单。ORM把底层的SQL数据实体转化成高层的Python对象，这样甚至不用了解SQL，只需要通过Python代码即可完成数据库操作，O
（3-5）文生图模型架构：扩散模型码农三叔训练 RAG 多模态)人工智能 python 深度学习大模型文生图多模态
3.5扩散模型扩散模型（DiffusionModels）是一类用于生成图像的深度学习模型，近年来在图像生成任务中取得了显著的进展。扩散模型的基本思想是通过逐步添加噪声到数据中，然后学习从噪声中恢复原始数据的过程。3.5.1扩散模型的基本概念扩散模型是一种基于随机过程的生成模型，通过逐步添加和去除噪声，实现从随机噪声到高质量数据的转化，其独特的训练和生成机制使其在图像生成领域表现出色。1.扩散过程扩
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
毕业设计项目深度学习人体目标检测 bee_dc 毕业设计毕设大数据
1简介今天学长向大家介绍一个机器视觉的毕设项目，基于深度学习的人体目标检测算法研究与实现项目运行效果：毕业设计深度学习行人目标检测系统项目分享:见文末!2目标检测概念普通的深度学习监督算法主要是用来做分类，如图1所示，分类的目标是要识别出图中所示是一只猫。在ILSVRC（ImageNetLargeScaleVisualRecognitionChallenge)竞赛以及实际的应用中，还包括目标定位和
表格化数据处理中大语言模型的微调优化策略研究 C7211BA 人工智能自然语言处理大语言模型
论文地址ResearchonFine-TuningOptimizationStrategiesforLargeLanguageModelsinTabularDataProcessing论文主要内容这篇论文的主要内容是研究大型语言模型（LLMs）在处理表格数据时的微调优化策略。具体来说，论文探讨了以下几个关键方面：背景与挑战：大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著进展，但在处
【人工智能】基于Python的机器翻译系统，从RNN到Transformer的演进与实现蒙娜丽宁 Python杂谈人工智能人工智能 python 机器翻译
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界机器翻译（MachineTranslation,MT）作为自然语言处理领域的重要应用之一，近年来受到了广泛的关注。在本篇文章中，我们将详细探讨如何使用Python实现从传统的循环神经网络（RNN）到现代Transformer模型的机器翻译系统。文章将从机
备战美赛！2025美赛数学建模C题模拟预测！用于大家练手模拟！灿灿数模数学建模
完整的思路代码模型见文末2025美赛数学建模C题模拟题：城市交通拥堵指数的预测与管理策略背景随着全球城市化进程的加快，交通拥堵问题成为城市发展的重要挑战之一。交通拥堵不仅影响居民出行效率，还增加了能源消耗和碳排放。近年来，各大城市开始尝试通过实时数据监控和人工智能技术对交通拥堵进行预测和管理。然而，由于城市交通系统的复杂性，现有方法在实际应用中仍面临诸多挑战。任务作为一名数据分析专家，你的任务是基
AI计算的未来：中心化与去中心化的博弈智识微光Intelligence 人工智能去中心化区块链
引言人工智能（AI）技术的迅猛发展正在全球计算格局中。最新发布的DeepSeekr1模型，以远低于传统大模型的成本实现了相当水平的推理能力，甚至能够在工作站上本地运行。一次突破AI计算正在经历从中心化（云计算）到去中心化（本地推理）的重大转变。这种变化不仅影响AI产业的商业模式，还可能构建全球计算基础设施、经济利益格局，并加速人工超级智能（ASI）的到来。因此，本文将探讨人工智能训练成本的降低、推
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度窦育培
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度PaddleFleetX飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。项目地址:https://gitcode.com/gh_mirrors/pa/PaddleFleetX在人工智能的快速发展中，大模型已经成为推动技术创新的重要力量。如今，我们有幸向您推荐一个全新的开源项目——Paddle
【TVM教程】为 Mobile GPU 自动调优卷积网络 HyperAI超神经 TVM 人工智能机器学习 TVM 编程编译器 GPU CPU
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
深度学习篇---数据存储类型 Ronin-Lotus 深度学习篇深度学习人工智能学习笔记 C Python 数据类型
文章目录前言第一部分：C语言中的数据存储类型1.char（通常是8位）优点缺点2.short（通常是16位）优点缺点3.int（通常是32位）优点缺点4.long（通常是32位或64位）优点缺点5.longlong（通常是64位）优点缺点6.float（通常是32位）优点缺点7.double（通常是64位）优点缺点第二部分：Python中的数据存储类型1.int（整数类型）优点缺点2.float（
Python中的正则表达式完全指南一键难忘 python 正则表达式 mysql
Python中的正则表达式完全指南正则表达式（RegularExpressions，简称regex）是一个非常强大的工具，广泛应用于文本处理、数据清洗、日志分析等领域。Python提供了re模块来处理正则表达式，它可以帮助我们在字符串中查找、替换、分割、匹配复杂模式等操作。本文将全面介绍Python中正则表达式的使用，包括基础语法、常用操作符、实用技巧，并配有代码实例，帮助大家深入理解。正则表达式
Cursor 的 AI 模型：代码生成与理解的原理 drebander AI 编程 Cursor
引言在当今的软件开发领域，人工智能（AI）正在迅速改变开发者的工作方式。Cursor作为一款智能编程助手，通过集成先进的AI模型，为开发者提供了强大的代码生成、补全和优化功能。Cursor的核心竞争力在于其AI模型的能力，这些模型不仅能够理解代码的上下文，还能生成高质量的代码建议。本文将深入探讨Cursor使用的AI模型（如GPT系列或其他定制模型），并解析这些模型如何理解代码上下文并生成高质量的
AI对接之对话API对接指南我码玄黄 AI 探索 AI 工具教你一招人工智能 AI AI对接前端
AI对接之对话API对接指南本系列AI的API对接均以DeepSeek为例，其他大模型的对接方式类似。在人工智能领域，对话系统是连接人与机器的重要桥梁。DeepSeekAPI提供了一个强大的对话补全功能，使得开发者能够轻松地将智能对话集成到自己的应用中。本文将详细介绍如何对接DeepSeek的对话补全API，并展示几种典型的使用形式。1.API概览DeepSeek的对话补全API通过一个POST请
AI人工智能代理工作流 AI Agent WorkFlow：在物流与供应链中的应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在物流与供应链中的应用1.背景介绍1.1物流与供应链行业面临的挑战物流与供应链行业是现代经济的重要组成部分,涉及原材料采购、产品生产、仓储配送、销售等多个环节。随着全球化进程加快,供应链日益复杂,企业面临着成本控制、效率提升、风险管理等诸多挑战。传统的物流与供应链管理模式已难以适应市场变化,亟需引入新技术和创新方法。1.2人工智能在物流供应链中
深度学习篇---深度学习框架 Ronin-Lotus 深度学习篇深度学习人工智能 python Pytorch TensorFlow paddlepaddle
文章目录前言第一部分：框架简介1.PyTorch简介特点动态计算图易于上手强大的社区支持与Python的集成度高核心组件2.TensorFlow简介特点静态计算图跨平台强大的生态系统Keras集成核心组件3.PaddlePaddle简介特点易于使用高性能工业级应用丰富的预训练模型核心组件第二部分：基本操作PyTorch基本操作TensorFlow基本操作PaddlePaddle基本操作总结前言以上
python字体反爬纵码奔腾 python
python字体反爬importreimportbase64importrequestsimporturllib.requestasdownfromfontTools.ttLibimportTTFont#字体解析库fromxml.etree.ElementTreeimportparsefromdifflibimportSequenceMatcher#序列匹配器defsimilarity(a,b):
强化学习在自动驾驶中的实现与挑战 Echo_Wish 人工智能前沿技术自动驾驶人工智能机器学习
强化学习在自动驾驶中的实现与挑战自动驾驶技术作为当今人工智能领域的前沿之一，正通过各种方式改变我们的出行方式。而强化学习（ReinforcementLearning,RL），作为机器学习的一大分支，在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程，为车辆提供动态、灵活的导航与控制能力。然而，强化学习在实际应用中并非一帆风顺，还面临着诸多技术和现实挑战。本文将从原理、实现与挑战
AI：263-强化学习在自动驾驶领域的应用与前沿挑战一键难忘精通AI实战千例专栏合集自动驾驶汽车强化学习人工智能
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向，而强化学习（ReinforcementLearning，RL）因其在复杂动态环境中的决策能力，成为推动自动驾驶技术的重要工具。本文将探讨强化学习在自动驾驶中的应用、面临的挑战，并提供一个简单的代码实例以展示如何在自动驾驶中应用强化学习。1.强化学习的基础概念强化学习是一种通过试错的方式来学习最佳策略的机器学习方法。
强化学习在自动驾驶技术中的应用与挑战电气_空空自动驾驶人工智能机器学习
摘要：围绕强化学习在自动驾驶领域的应用进行了多方面的概括和总结。对强化学习原理及发展历程进行了介绍；系统介绍了自动驾驶技术体系以及强化学习在自动驾驶领域的应用所需的基础；按不同的应用方向分别介绍了强化学习在自动驾驶领域中的应用案例；深入分析了现阶段强化学习在自动驾驶领域存在的挑战，并提出若干展望。关键词：强化学习；自动驾驶；人工智能近年来，人工智能在各个领域得到了广泛应用。其快速发展为智能交通系统
强化学习：在无人驾驶中的应用 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
强化学习：在无人驾驶中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着科技的飞速发展，无人驾驶技术逐渐成为汽车工业和人工智能领域的热点。无人驾驶汽车被认为是未来交通系统的重要组成部分，它能够提高道路安全性、缓解交通拥堵、降低环境污染等。然而，实现无人驾驶面临着诸多挑战，其中最为关键的是如何让汽车在复杂多变的交通环
基于强化学习的自动驾驶决策规划算法 AI天才研究院 LLM大模型落地实战指南 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于强化学习的自动驾驶决策规划算法作者：禅与计算机程序设计艺术1.背景介绍自动驾驶技术是当前人工智能领域最受关注和投入的方向之一。自动驾驶汽车需要在复杂多变的交通环境中做出安全、舒适和高效的决策和行动。传统基于规则和模型的决策规划方法已经难以满足自动驾驶的需求。近年来,基于强化学习的决策规划算法越来越受到关注,它能够在复杂动态环境中学习出高效的决策策略。2.核心概念与联系强化学习是一种通过与环境的
原创prompt：员工加班助手姚瑞南 prompt实战应用案例 prompt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）#Role:员工加班填报助手##Profile:你是一个在公司内部帮助员工填报加班信息、审批的办公室助手，主要任务是通过友好且礼貌的引导员工对话填报加班方式来帮助员工完成加班信息填报
深入探讨：如何在Python中使用流式传输技术高效调用大型语言模型 m0_57781768 python 语言模型 microsoft
深入探讨：如何在Python中使用流式传输技术高效调用大型语言模型在现代人工智能应用中，大型语言模型（LargeLanguageModels,LLM）已经成为了强大的工具，能够生成高质量的自然语言文本，并且被广泛应用于各种任务中，如对话系统、文本生成、内容总结等。然而，如何更加高效地调用这些模型，特别是在实时交互的应用中，往往是开发者面临的挑战。流式传输（Streaming）技术提供了一种解决方案
从0到1：C++ 开启游戏开发奇幻之旅（二）小周不想卷艾思科蓝学术会议投稿 c
目录游戏开发核心组件设计游戏循环游戏对象管理碰撞检测人工智能（AI）与物理引擎人工智能物理引擎性能优化技巧内存管理优化多线程处理实战案例：开发一个简单的2D射击游戏项目结构设计代码实现总结与展望游戏开发核心组件设计游戏循环游戏循环是游戏运行的核心机制，它就像是游戏的“心脏”，不断地跳动，驱动着游戏世界的运转。在游戏循环中，程序会不断地重复执行一系列的操作，包括处理用户输入、更新游戏状态、进行物理模
【Python】解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9A in position xxx: illegal multibyte 云天徽上 python运行报错解决记录 python numpy 机器学习深度学习 pandas
【Python】解决UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x9Ainpositionxxx:illegalmultibytesequence博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人
jhyperscan性能优化过程大明__ hyperscan java c++
因业务需求，对正则匹配进行优化，使用hyperscan进行文本内容提取优化；Hyperscan是一款来自于Intel的高性能的正则表达式匹配库；因为业务代码是java编写的，所以参照hyperscan-java的方法，使用C/C++编译Hyperscan，然后使用JNA调用的方式使用Hyperscan；不过经性能测试，发现Hyperscan-java，并未能产生明显的性能优化；隧开始定位为什么Hy
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring