zhugeheihei

为Tesseract适配多语言模型

摘要：我们描述了将Tesseract开源OCR引擎用于多种脚本和语言的工作。人们的努力集中于实现通用的多语种操作，以至于一种新的语言除了提供文本语料库之外，还需要进行微不足道的定制。尽管需要对各个模块进行更改，包括物理布局分析和语言后处理，但字符分类器不需要更改几个限制。Tesseract的分类器很容易适应简体中文。从随机抽取的书籍中的英语，欧洲语言的混合物，和俄语进行测试，结果显示出相同且一致的错误率，即在3.72 %和5.78 %之间，而简化汉字的错误率仅为3.77 %。

介绍（radicals in Han, Jamo in Hangul, and letters in Hindi）

汉语和日语都是汉字，包含几千种不同的字形。研究特定语言的解决方案比通用更容易实现。例如，汉字、韩文和印地语的大型字符集主要由数量少得多的组成部分组成，这些组成部分在汉语中被称为偏旁/部首，在韩文中被称为词根，在印地语中被称为字母。由于为少数类开发分类器要容易得多，一种方法是识别偏旁[参考文献1,2,5]，并从偏旁的组合推断出实际的字符。这种方法对韩文来说比对汉文或印度语更容易，因为韩文中词根形状变化不大，但是在汉语中，偏旁经常被压扁来适应汉字，而且大多与其他偏旁挨着。又比如阿拉伯语，很难通过将连通区域分割为字符的方法来确定字符边界。一种常用方法是将单个垂直像素strips分类，每个像素strips都是一个字符的一部分，并将分类中引入HMM模型，该模型对字符边界建模[参考文献3]。

本文基于Tesseract，讨论了我们在其国际化的方向上所做的工作，其中一些可能能够轻松实现。我们采用了语言泛化的模式/方法，以此来尽量少覆盖多语言的手工工作。

拉丁语的Tesseract的回顾

Tesseract的新的版面分析技术从一开始就被设计为语言无关的[参考文献10]，但引擎的其余部分是为英语开发的，并没有过多考虑如何适配其他语言。在注意到当时的商业引擎严格的使用black-on-white文本后，Tesseract最初的设计目标之一是它应该像识别black-on-white黑白文本一样容易识别white-on-black(逆视频)文本。这使得设计(结果很偶然)朝着连接组件(CC，Connected component)分析的方向发展，并对组件的轮廓进行操作。在连通组件分析后的第一步就是在文本区域中寻找blobs。一个blob是一个假定的分类单元，可能是一个/多个水平重叠的CCs及其内部的嵌套轮廓/洞（holes）。问题在于检测box内的inverse文本还是字符里面的洞。对于英语来说，很少有字符有超过2级的轮廓（如© and ®），而且也很少有超过2个的洞，因此任何打破这些规则的blob一定是一个包含有inverse 字符的box，甚至是围绕黑白black-on-white字符的框架的内部/外部。

在确定哪些轮廓构成blobs后，文本行检测器通过文本行上相邻字符的垂直重叠来检测(仅水平)文本行。【参考文献11】。对于英语，这个重叠和基线表现得很好以至于他们可以用来非常精确地检测到一个非常大角度的倾斜。在找到文本行后，固定音高检测器检查固定音高字符布局，并根据固定音高采用两种不同的单词分割算法之一进行运行。识别过程的大部分是独立地对每个单词进行操作，然后是最终的模糊空间解析阶段，在这个阶段中确定不确定的空间。

下图2是单词识别器的架构。在大多数情况下，一个blob对应一个字符，因此单词识别器首先对每个blob进行分类，并将结果提供给字典搜索，以便在单词中每个blob的分类器选择的组合中找到一个单词。如果结果不好，则下一步就是删除难以识别的字符，这提高了分类器的置信度。在穷举分割可能性后，对所得到的分割图进行最佳搜索，这会将切碎的字符片段或在原始图像中被分割成多个CCs的字符部分重新组合在一起。在最佳优先搜索的每一步中，对任何新的blob组合进行分类，并将分类器结果再次提供给字典。单词的输出是根据单词是否在字典中和/或是否有合理的标点符号排列进行加权后，具有最佳的基于距离的总体评级的字符串。在英文版本中，大多数标点规则都是硬编码的。

图像中的文字被处理了两次。在第一阶段中，成功的单词，即字典中没有危险歧义的单词，被传递给自适应分类器进行训练。一旦自适应分类器有足够的样本，它就可以提供(最后的)分类结果，即使是在第一阶段。在第二阶段中，第一次传递中不够好的单词进行第二次处理，第二次处理，以防自适应分类器在第一次遍历单词后获得了更多信息。

从前面的描述来看，对于非拉丁语言，这种设计显然存在问题，一些更复杂的问题将在第3、4和5节中处理，但有些问题只是简单的复杂工程。例如，字符类的一个字节代码是不够的，但是它应该被UTF-8字符串或更宽的整数代码所取代吗?起初，我们为拉丁语言改编了Tesseract，并将字符代码更改为UTF-8字符串，因为这是最灵活的，但这最终导致了字典表示的问题(参见第5节)，因此我们最终使用UTF-8字符串表的索引作为内部类代码。

版面预处理

Tesseract的“textord”(文本排序)模块的几个方面需要更改，以使其更加独立于语言。本节将讨论这些更改。

3.1 垂直文本布局

汉语、日语和韩语在不同程度上都是水平或垂直阅读文本行，而且经常在同一页上混淆方向。这个问题并不是CJK独有的，因为英文杂志页面经常在照片或文章旁边使用垂直文字来表示摄影师或作者。

垂直文本由页面布局分析检测。如果大多数在制表位上的ccs都满足：CCs的左边在左边制表位上，CCs的右边在右边制表位上，那么制表位之间的所有内容都可以是一行垂直文本。为了防止表中的假阳性，进一步的限制要求垂直文本在ccs之间的垂直间距中值小于ccs的平均宽度。如果页面上的大多数ccs是垂直对齐的，则将页面旋转90度，并再次运行页面布局分析，以减少在垂直文本中发现假列的机会。

在旋转后的页面中，原本水平的少数文本将变成垂直文本，而文本正文将是水平的。

在最初的设计中，Tesseract没有处理垂直文本的能力，并且在代码中有很多地方假设字符被安排在水平文本行上。幸运的是，Tesseract操作的是有符号整数坐标空间中ccs的轮廓，这使得90度的倍数旋转变得微不足道，并且它不关心坐标是正还是负。的垂直和水平文本块进行不同的旋转。因此，解决方案很简单，就是不同地旋转页面上的垂直和水平文本块，并根据分类需要旋转字符。图3显示了英文文本的一个例子。图3(a)中的页面包含右下角的垂直文本以及其余的文本，在图3(b)中检测到。在图4（下图）中，垂直文本区域顺时针旋转90度，(在图像的左下角居中)，因此它看起来远低于原始图像，但在水平方向。

图5显示了中文文本的示例。主要垂直的主体文本从图像中旋转出来，使其水平，而最初水平的标题则保持在起始位置。垂直和水平文本块在坐标空间中分离，但Tesseract只关心文本行是否水平。文本块的数据结构记录了在块上执行的旋转，因此当字符传递给分类器时，反向旋转可以应用于字符，使它们直立。自动方向检测[12]可用于确保文本在传递给分类器时是直立的，因为垂直文本可能具有相对于阅读方向至少有3个不同方向的字符。在Tesseract处理旋转后的文本块后，坐标空间将重新旋转回原始图像方向，以便报告的字符包围框仍然准确。

3.2 文本行和单词查找

最初的Tesseract文本行查找器[11]假设组成字符的cc大部分垂直重叠文本行。唯一的例外是i点。对于一般语言来说，这是不正确的，因为许多语言的变音符号位于文本行的上方和/或下方。例如，对于泰语，从文本行主体到变音符的距离可能非常大。Tesseract的页面布局分析旨在通过将文本区域细分为具有统一文本大小和行间距的块来简化文本行查找。这使得强制拟合行间距模型成为可能，因此文本行查找已被修改以利用这一点。页面布局分析还估计文本区域的剩余倾斜，这意味着文本行查找器不再对倾斜不敏感。

改进后的文本行查找算法从布局分析开始对每个文本区域独立工作，首先搜索小CCs的邻域(相对于估计的文本大小)来寻找最近的body-text-size CC，如果附近没有body-text-size CC，则将小CC视为可能的噪声，并丢弃。(虚线导语除外，通常在目录中可以找到。)否则，将构造一个包含小CC及其较大邻居的包围框，并在接下来的投影中使用刚构造的框来代替小CC的包围框。

使用包围小CCs的新修改框，从CCs的边界框构建与估计的倾斜水平平行的“水平”投影轮廓。然后，动态规划算法在投影轮廓中选择最佳分割点集。成本函数是在切点处的剖面项之和加上它们之间间距的方差度量。对于大多数文本，其和为零，加入方差有助于选择最规则的行间距。对于更复杂的情况，方差和修改后的小ccs的包围框一起使用来帮助指导行切割，以最大限度地增加与适当的主体字符保持一致的变音符的数量。

一旦确定了切线，整个连接的组件被放置在它们垂直重叠最多的文本行中(仍然使用修改后的框)，除非某个组件强烈重叠多条线。这样的ccs要么被假定为来自多行相互接触的字符，因此需要在切线处进行切割，要么是下沉的首个字母（drop-caps），在这种情况下，它们被放置在顶部重叠的行中。这个算法运行良好，即使对阿拉伯语也是如此。

文本行提取后，一行上的blob被组织成识别单元。对于拉丁语言，逻辑识别单元对应于以空格分隔的单词，这自然适合基于字典的语言模型。对于不以空格分隔的语言，例如中文，对应的识别单元应该是什么就不那么清楚了。一种可能是将每个汉字符号视为一个识别单位。然而，由于汉语符号是由多个字形(偏旁)组成的，如果没有识别的帮助，很难得到正确的字符分割。考虑到在处理的早期阶段可用的信息量有限，解决方案是在标点处分解blob序列，这可以根据它们的大小和与下一个blob的间距非常可靠地检测到标点符号。尽管这并不完全解决一个非常长的blob序列的问题，长的blob序列是在搜索分割图时决定效率和质量的关键因素，但这至少会将识别单元的长度减少到更易于管理的大小。

如第2节所述，黑白文本white-on-black的检测是基于轮廓的嵌套复杂度。同样的过程也拒绝非文本，包括半色调噪声，侧面的黑色区域，或侧栏或反向视频区域中的大容器框。部分过滤是基于blob的拓扑复杂性的度量，复杂度由内部组件的数量、嵌套孔的层数、周长与面积比等进行估计。然而，繁体字的复杂性，无论以何种标准衡量，往往都超过了一个框内的英文单词。解决方案是为不同的语言应用不同的复杂度阈值，并依赖于后续的分析来恢复任何被错误拒绝的blobs。

3.3 估算西里尔文字中的x高度

在完成文本行查找步骤并将blob块组织成行之后，Tesseract估计每个文本行的x高度。

x高度估计算法首先根据为块计算的初始行尺寸确定可接受的x高度最大值和最小值的界限。然后，对于每一行，分别将该行上出现的blobs的边界框的高度进行量化并聚合为直方图。从这个直方图中，x-height查找算法寻找两个最常出现的高度模式，它们之间的距离足够远，成为潜在的x-height和上升器高度。为了实现对一些噪声的鲁棒性，该算法确保选择为xheight和上升器高度的高度模式相对于直线上的blobs总数有足够的数量或出现次数。

这种算法适用于大多数拉丁字体。然而，当按原样应用于西里尔字母时，Tesseract无法为大多数行找到正确的xheight。结果，在一组俄语书籍的数据集上，Tesseract的单词错误率达到了97%。错误率如此之高的原因是双重的。首先，西里尔字体的高度上升统计数据与拉丁字体有很大不同。用西里尔字体写的统计数据与用拉丁字体写的有很大不同。

简单地降低每行上升字母/器的预期数量的阈值并不是一个有效的解决方案，因为一行文本包含一个或没有上升字母的情况并不少见。性能如此糟糕的第二个原因是西里尔字体的大小写高度模糊。例如，在33个大写的现代俄语字母中，只有6个字母的小写形状与大多数字体中的大写字母有显著不同。因此，在使用西里尔字母时，Tesseract很容易被错误的x高度信息误导，并很容易将小写字母识别为大写字母。

我们解决西里尔字母x高度问题的方法是调整一行上上升字母的最小预期数量、考虑到下降字母的统计数据并更有效地使用来自同一文本块中相邻行的x高度信息(块是由页面布局分析确定的文本区域，块具有一致的文本blobs和行间距，因此很可能包含相同或相似字体大小的字母)。对于给定的文本块，改进的x-height查找算法首先尝试单独查找每行的x-height。基于计算结果，每条线分为如下四类：

（1)发现了x-height和上升模式的线，(2)发现了下降模式的线，(3)发现了可用于估计字母高或x-height的普通blob高度的线，(4)没有发现上述任何一种模式的线(极有可能是包含噪声的线条，包含太小、太大或只是大小不一致的blob)。如果在块中发现第一类中的任何具有可靠的x高度和上升高度估计的线，那么它们的高度估计将用于第二类中具有类似x高度估计的线(存在下降高度的线)。同样的x-高度估计用于第三类(没有发现上升或下降线)的线条，其最常见的高度在x-高度估计的小范围内。如果逐行方法没有找到任何可靠的x-height和ascender height模式，则聚合文本块中所有blob的统计信息，并使用此累积信息重复对x-height和ascender height模式的相同搜索。

由于上述改进的结果，用一套俄语书籍作为测试集，单词错误率降低到6%。在改进之后，测试集仍然包含一些错误，因为无法估计文本行的正确x高度。然而，在许多这种情况下，即使是人类读者也必须使用来自邻近文本块的信息或关于书籍共同组织的知识来确定给定的行是大写还是小写。

单词/字符识别

将Tesseract应用于多语言OCR需要克服的主要挑战之一是将主要为字母语言设计的功能扩展到处理表意语言，如汉语和日语。这些语言的特点是拥有大量的符号，缺乏明确的单词边界，这对搜索策略和分类引擎构成了严峻的考验，这些搜索策略和分类引擎是为小写字母表中划分良好的单词设计的。

我们将在下一节讨论大量表意文字的分类，并首先描述为解决检索问题而需要进行的修改。

4.1 分割和搜索

如3.2节所述，对于非空格分隔的语言，如中文，在西方语言中同等的识别单元现在对应于标点分隔的短语。处理这些短语需要考虑两个问题:它们涉及比拉丁语中典型单词更深入的搜索，并且它们与字典中的条目（entry）不对应。Tesseract在分割图上使用最佳优先搜索策略，分割图随着blob序列的长度呈指数增长。虽然这种方法处理的是较短的拉丁词，切分点较少，并且在词典中找到结果时存在终止条件，但在对中文短语进行分类时往往会耗尽可用的资源。为了解决这个问题，我们需要大幅减少置换/排列中计算的分割点数量，并设计一个更容易满足的终止条件。

为了减少分割点的数量，我们在像中文和日语这样的单行距语言中加入了字符宽度大致恒定的约束。在这些语言中，字符大多具有相似的长宽比（aspect radios），并且他们的位置不是全音高就是半音高。尽管标准化的宽度分布会因字体而异，间距也会因行对齐和包含数字或拉丁单词而变化(这并不罕见)，但总的来说，这些约束为特定的分割点是否与另一个分割点兼容提供了强有力的指导。因此，使用分割模型的偏差作为代价，我们可以消除大量不合理的分割状态，有效地减小搜索空间。我们还使用这个估计来修剪基于局部最优解的搜索空间，使其有效地进行波束搜索。当没有进一步的扩展可能产生更好的解决方案时，这也提供了终止条件。

另一个强大的约束是短语中字符脚本的一致性。当我们从多个脚本中包含形状类时，不同脚本中的字符之间的混淆错误就不可避免了。虽然我们可以确定该页面的主要文字或语言，但我们也必须考虑到拉丁字符，因为英语单词在外文书籍中出现是如此普遍。基于一个识别单元内的字符具有相同的脚本的假设，如果一个字符解释能够提高整个识别单元的整体脚本（中文/英文/拉丁文？）一致性，我们就会推广它。但是，如果子/词组是真正的混合文字，那么盲目地基于先验知识推广文字，反而会对效果造成影响。因此，只有当顶部（排分靠前？）解释中超过一半的字符属于同一脚本时，我们才应用约束，并且像任何其他排列一样，调整是根据形状识别得分加权的。

4.2 形状分离

对大量类别进行分类仍然是一个研究问题;即使在今天，特别是当它们需要以OCR所需的速度运行时[13,14]。维度的诅咒在很大程度上是罪魁祸首。Tesseract形状分类器在5000个汉字上工作得令人惊讶地好，这不需要任何重大修改，因此它似乎非常适合处理大型类/大类别的问题。这个结果值得/需要一些解释，因此在本节中我们将描述Tesseract形状分类器。

特征是形状轮廓的多边形近似的组成部分。在训练中，从多边形近似的每个元素中导出(x, y位置，方向，长度)的4维特征向量，并聚类形成原型特征向量。(因此得名:Tesseract)。在识别中，多边形的元素被分割成等长的更短的片段，从而从特征向量中消除长度维度这一维。多个短特征与训练中的每个原型特征相匹配，这使得对破损的字符的分类更有鲁棒性。

图7(a)显示了字体Times Roman中字母“h”的示例原型。绿色线段表示“重要聚类 significant clusters”的聚类方法，其中包含了Times Roman中几乎所有“h”样本中的样本。蓝色的部分是簇均值，它与另一个簇合并形成一个重要的簇。品红段没有被使用，因为它们与现有的重重要聚类相匹配。红色片段没有足够的样本来组成重要聚类，不并且能与任何相邻的聚类合并形成重要聚类。

图7(b)显示了未知的短特征如何与原型匹配以实现对破碎字符的不敏感/丢弃。

短而粗的线条是未知的特征，是一个破碎的“h”，较长的线条是原型特征。颜色代表匹配质量:黑色->良好，品红->合理，青色->较差，黄色->不匹配。垂直的原型都匹配得很好，尽管h是破碎的。

形状分类器分为两个阶段。第一阶段称为类修剪器，使用与局部敏感哈希(LSH)[13]密切相关的方法，将字符集减少到1-10个字符的短列表。最后一个阶段计算未知字符与短列表中的字符原型之间的距离。

类修剪器最初设计为一个简单而重要的节省时间的优化器，通过单独考虑每个3-D特征来划分高维特征空间。用一个简单的查找表替代LSH的哈希表，查找表返回一个范围为[0,3]的整数向量，一个向量代表字符集中的每个类，其值表示该特征与字符类原型的近似匹配度。对未知字符的所有特征进行求和得到向量形式的结果，并返回总得分在最高分数内的类作为第二阶段分类的短名单。类修剪器速度相对较快，但其时间规模与类数和特征数呈线性关系。

第二阶段分类器计算每个特征到其最近的原型的距离df，作为(x,y)特征坐标到二维空间中原型线的欧氏距离d的平方，加上与原型的角度θ的加权(w)差值:

这本质上是一个生成式分类器，在某种意义上，它计算了与理想的距离。利用下式将特征距离转换为特征证据Ef:

常数k用于控制证据evidence随距离衰减的速率。随着特征与原型的匹配，特征证据evidence Ef被复制到原型Ep。由于原型期望多个特征与它们匹配，并且“最佳匹配”的收集是为了速度而独立完成的，因此特征和原型证据evidence的总和可能是不同的。这些和通过特征的数量和原型长度之和Lp进行归一化，并将结果转换回距离dfinal:

请注意，实际的实现使用了定点整数算术，上面的方程省略了许多会使计算变得模糊的缩放常数。

第二阶段分类器的部分优势在于允许每个类标签中有多个理想(在Tesseract中称为配置configs)，因此允许由字体或排版的任意差异引起的多模态分布。上述匹配过程在计算最终距离时选择最佳配置config。从这个意义上说，分类器实际上是一个最近邻分类器。

我们假设类修剪器和二级分类器对于大量的类都能很好地工作，因为它们使用了在多个小维的“弱分类器”之间投票，而不是依赖于一个高维的单一分类器。这就是提升[15]背后的概念，只是目前的弱分类器没有加权。特征空间的维度被量化到256级，这提供了足够的精度来存储CJK字符和印度音节的复杂形状，dfinal计算以类似于类修剪的方式避免了维度的诅咒。

基于上下文的后处理过程

Tesseract通过提供了一种从任意单词列表生成新语言字典的方法，其训练过程支持部分扩展语言模型。为了紧凑compactness和快速搜索，这些字典用有向无环词图(dawg)表示。在最初的实现中，DAWG数据结构用于按顺序搜索几个字典，包括预先生成的系统字典、文档字典(从已经OCR过的文档中的单词动态构造)和用户提供的单词列表。

最初，DAWG中的每条边都存储了一个8位字符，以表示DAWG中用于相应转换的字母。然而，这种表示是有限制的，因为以这种方式操作多字符字形和多字节Unicode字符是很困难的。DAWG数据结构被修改为存储字符分类器使用的单字符集id。这大大简化了构造和搜索dawg的过程。另一个改进是在所有的dawg上并行搜索。为了确定给定的字符串是否是有效的字典单词，现在搜索从一组初始的“活跃”dawgs开始。由于考虑了单词中的每个字母，这个集合被简化为只包含那些仍然“接受”部分字符串的字母。在进程结束时，“活跃”的dawgs集合仅由包含单词的dawgs组成。这种重组允许我们动态加载任意数量的dawgs，而不需要添加任何自定义支持来搜索每个新添加的dawgs。它也是允许Tesseract支持任意语言组合的必要修改之一——这是Tesseract在多语言文本上工作所需的特性。

5.1 约束模式

Tesseract中的标点符号和数字状态机是硬编码的，除了拉丁脚本之外没有推广。即使是拉丁脚本，状态机也不能接受相当一部分有效的标点符号和数字模式。为了帮助Tesseract处理非拉丁文字中的标点符号和数字，Tesseract的训练过程扩展了代码，以收集和编码一组经常出现的标点符号和数字模式。收集这些模式的步骤是与处理大型文本语料库以构建给定语言的字典并行实现的。为了表示和匹配生成的模式，使用了用于生成和搜索单词dawgs的现有代码。对算法进行了一些修改，以确定给定的分类器选择是否是语言中的有效单词，这一改变使Tesseract能够同时搜索所有包含单词、标点符号和数字模式的dawgs。通过这种修改，可以删除所有特定于语言和脚本的数字和标点符号的硬编码规则。生成和搜索标点符号和数字模式的过程被设计为完全由数据驱动的，到目前为止，对于任何特定的语言都不需要特殊的大小写。

5.2 解决形状歧义

除了预先训练好的形状模板，Tesseract的形状分类器还包括一个自适应组件，该组件可以学习OCRed文档中看到的字符的模式。为了确保自适应组件是在可靠的数据上进行训练，分类器只适应字典中无歧义的单词。OCRed单词如果满足两个条件，就被称为“明确的/无歧义的”。首先，形状分类器必须在单词的所有备选选项中识别出一个明确的获胜者(即最优选择的分类器评分必须显著高于次优选择的评分)。第二个约束是字典中不可能存在形状模糊的词来为该词进行最佳选择。这个要求对识别速度也很重要，因为(取决于分类器的得分)一旦Tesseract发现这样的单词选择，它就可以接受识别结果并停止对单词的进一步处理。

对于拉丁字体，Tesseract包含一个手工制作的数据文件(称为“危险的歧义”文件)，该文件指定在大多数拉丁字体中哪些字母组合固有地/天然地具有歧义。为使用其他脚本的语言启用此功能的可伸缩解决方案是开发一种自动生成任意给定语言的模糊/歧义的n-gram对列表的方法。从一个大型文本语料库中收集了一组n-grams(在本例中是单格、双格)，其组合权重占语言中所有n-grams的95%。n-grams是用一组常用字体在一些退化模式和曝光下渲染得到的。然后在渲染的图像上运行Tesseract的形状分类器，以此为每个n-grams获得一组得分最高的分类。为每个n-grams聚合分类评分统计数据，丢弃分类器评分低的异常值(在某些字体和退化模式下，字符被渲染得无法识别，这种情况只会污染数据)。然后对每个不正确的OCRed n-gram和对应的正确n-gram对计算歧义评分。歧义评分被定义为形状分类器感知的错误和正确n-gram之间的相似性(在所有字体和退化模式中聚合)和语言中正确n-gram的频率的函数。为了在Tesseract的速度和精度之间达到理想的平衡，有必要选择由于n-gram形状模糊性而允许发生的预期错误数量的阈值(从n-gram频率和分类器错误统计数据计算)。为了生成“危险歧义”文件，歧义n-gram对按照其歧义分数的非递增顺序进行排序，并在文件中包含适当数量的得分最高的歧义，以确保期望的错误率。

使用这种自动化方法生成的数据文件，与使用手工制作的“危险的歧义”文件相比，可以在拉丁脚本(EFIGS数据集)上实现类似的改进(尽管在某些语言中，结果略弱)。在俄语数据集上使用自动生成的文件可以降低10%的单词错误率。检查为其他语言生成的文件还显示，自动生成的文件包含相当多的常见混淆形状，但还需要对相应的数据集进行进一步测试，以量化改进。

5.3 处理变形验证的语言

Tesseract的速度和准确性与字典的质量息息相关，在最大限度地提高速度和准确性的同时，尽量减少存储字典所消耗的空间，这始终是一个挑战。从严重变形语言的语料库生成字典是一项特别困难的任务。在严重变形语言中，单词的频率分布更均匀，因此要达到相同的语言覆盖范围，就需要一本更大的词典。此外，即使是更频繁的单词的许多词形也可能在训练语料库中出现的次数不够多，无法被收录到字典中，因此字典可能无法很好地泛化到训练语料库之外。图8通过绘制语料库的覆盖范围与构成字典的最常用单词数量的关系图，说明了在语言集合上的这个问题。

由于DAWG数据结构的头部和尾部压缩，添加DAWG中已经存在的单词的变形形式可能会导致字典的总体大小略微增加。这是因为单词的开头和结尾可能已经存储在DAWG中(例如，如果已经插入了“talk”和“making”，那么将单词“talking”添加到字典中就相对便宜了).

为了解决捕获更多形变单词形式的问题，对字典生成过程进行了修改，即先生成单词变体(在单词列表中不存在)并将它们添加到字典中。首先，正如前面所做的，DAWG是从单词列表构建的。然后为DAWG中的每个词根root收集一组后缀。使用组平均分层聚类算法对集合进行聚类。结果聚类集群中的后缀集合并为扩展后缀集。然后，对于每个词根和相应的后缀集(在第一次遍历DAWG期间预先计算)，确定最近的扩展后缀集。由扩展集的后缀组成的新词形被插入到DAWG中。

实验结果

我们的数据集由谷歌图书搜索项目收集的随机选择的书籍页面组成。对于每种语言，随机选择100本书，并从每本书中随机选择10页进行手工实地调查。因此，这些页面涵盖了从布局、字体typeface、图像质量到主题和术语使用的各个方面。

然后，数据集被分解为训练集、验证集和测试集，其中训练集和验证集用于在开发期间学习和对标/评估算法，而测试集则保留用于发布期间的最终评估。表1总结了数据集的大小和在一些语言上当前的准确性。

对于字母语言，我们报告了字符级别和单词级别的错误率。对于词义模糊的汉语，我们只报告了字符替换率。EFIGSD是英语、法语、意大利语、德语、西班牙语和荷兰语的结合

对于简体中文，我们注意到不同书籍的错误率有很大的偏差。这种差异主要是由于字体和质量的差异。在页面质量和精度合理的情况下，错误主要是由于相似或几乎相同的形状类之间的混淆造成的。我们计划增加形状匹配器中特征空间的容量，这应该有助于区分相似的形状。

在几乎相同的情况下，字体之间的类内变化可能比类间变化更大。幸运的是，它们的用法和先前情况（priors）是如此不同，当我们为CJK引入语言模型时，它们很容易被纠正。

结论和展望

我们描述了我们对Tesseract进行改造以适应多种语言的实验，并惊奇地发现这主要是一个工程问题。在没有对分类器进行任何重大更改的情况下，我们能够为各种基于拉丁的语言、俄语甚至简体中文获得良好的结果。到目前为止，印地语的测试结果令人失望，但我们发现我们的测试集包含新旧字体的混合，很大一部分错误是由于训练集不包含旧字体的字符造成的。这项工作还没有涵盖从右向左书写的语言，这主要是另一个工程问题，但阿拉伯语有自己的一组问题，Tesseract可能无法解决——即字符分割。另一种我们没有讨论的语言是泰语，它的字符存在高度歧义的问题，并且就像中文一样，单词之间没有空格。

一个重要的未来项目是改进训练过程，以便能够使用真实数据进行训练，而不仅仅是带有字符边界框的合成数据。这将大大提高印地语的准确性。我们还需要测试阿拉伯语和泰语，我们预计这两门语言会出现更多问题。对于中文、日语和泰语，我们需要允许语言模型搜索任意连接的单词的空间，因为这些语言的单词之间没有空格（For Chinese, Japanese, and Thai, we need to allow the language model to search the space of arbitrarily concatenated words, since there is no whitespace between the words of these languages）。同样的功能对于德语也很有用，尽管德语复合具有大小写更改和插入字母的额外复杂性。

你可能感兴趣的:(前端,python,人工智能)

Python 潮流周刊#71：PyPI 应该摆脱掉它的赞助依赖（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，1则音视频，全文2000字。以下是本期摘要：文章&教程①PyPI应该摆脱掉它的赞助依赖②创建不分大小写的Python字符串类③用Tree-sitter&Jedi重
Python 潮流周刊#72：Python 3.13.0 最终版已发布！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了14篇文章，12个开源项目，4则音视频，全文2300字。以下是本期摘要：文章&教程①Python3.13.0最终版已发布！②关于Python3.13，了解这些信息就够了③Python3.13
Python 潮流周刊#67：uv 的重磅更新（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①uv：统一的Python打包工具②PyJWT和python-jose在处理JWT令牌时的差异③Kindle+Pytho
Python 潮流周刊#68：2023 年 Python 开发者调查结果（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2100字。以下是本期摘要：文章&教程①2023年Python开发者调查结果②为什么在Docker中我仍然要用Python虚拟环境？③我如何用P
vue 前端优化性能优化方法 lfl18326162160 vue.js 前端 javascript
1.列表使用唯一keyv-for="iteminactiveList":key="item.id"原因是不使用key或者列表的index作为key的时候，每个元素对应的位置关系都是index，直接导致我们插入的元素到后面的全部元素，对应的位置关系都发生了变更，所以在patch过程中会将它们全都执行更新操作，再重新渲染。这可不是我们想要的，我们希望的是渲染添加的那一个元素，其他四个元素不做任何变更，
Python WebSocket服务器介绍一只会写程序的猫 Python python websocket 服务器
PythonWebSocket服务器介绍WebSocket是一种在Web浏览器和服务器之间实现全双工通信的协议。它允许服务器主动发送消息到浏览器，而不需要浏览器发起请求。Python提供了许多库和框架来实现WebSocket服务器，本文将介绍如何使用Python构建一个简单的WebSocket服务器。WebSocket协议和工作原理WebSocket协议是通过HTTP协议的升级实现的。在HTTP协
python如何读取csv文件？ gaogsf Python python 开发语言
CSV（CommaSeparatedValues）文件是一种常见的文件格式，它将数据以逗号分隔的形式存储，通常用于存储表格数据。在Python中，我们可以使用多种方法来读取CSV文件，本文将从多个角度分析Python如何读取CSV文件。一、Python内置的csv库Python内置了csv库，可以使用该库中的reader对象来读取CSV文件。下面是一个示例代码：importcsvwithopen(
探索装饰器的奥秘：Python里的超级英雄披风大梦百万秋知识学爆 python 开发语言
引言：每一行代码都可以是一件披风有没有想过，代码写得再帅气，读起来再优雅，它始终是千篇一律的套路？有时候，代码中的函数就像是穿着普通衣服的路人，默默地完成任务。而这时候，你可能会想：“嘿，我要给它们一点魔法，让它们更具超能力！”别担心，Python里的装饰器正是你需要的神秘工具，它能给你的函数加上一件“超级英雄披风”，让它们瞬间拥有更多的功能，且不改变它们原本的外貌。今天我们就来一起揭开装饰器的面
在 Python 中使用 PyPDF2 向 PDF 文件批量添加水印信息科技云课堂 python pdf
目录：使用PyPDF2添加水印到PDF文件批量添加水印到PDF文件所有页PDF文件广泛用于不同的设备和平台上，在某些情况下，可能需要在PDF文件中申明版权，需要将水印、条形码、二维码等添加到PDF中。PyPDF2提供了一种将另一个PDF文件作为水印，添加到PDF文件的方法。在下面的示例中，制作一个PDF水印文档，可以加入文字、二维码，通过合并的方法为PDF文件添加水印。使用PyPDF2添加水印到P
Python 潮流周刊#86：Jupyter Notebook 智能编码助手（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①介绍JupyterNotebook智能助手②用纯Python写一个“Redis”，速度比原生Redis还快？③30分钟
Python 中最易误解的功能前端
有些功能即使是经验丰富的开发者也会被难住。我也曾被它们绊倒，花数小时挠头苦思，最终才学会如何正确应对。所以，不浪费时间，让我们来探索Python中最易误解的功能，它们为何棘手，以及你如何能最终掌握它们。1.可变默认参数问题：如果你曾写过一个带有默认列表或字典参数的函数，你可能会注意到一些奇怪的现象。它会在函数调用之间“记住”值！defadd_item(item,items=[]):items.ap
python注册nacos服务 MTonj Python python 开发语言
根据nacosopenapiOpenAPI指南主要是实现以下接口：创建服务注册实例注销实例删除服务发送实例心跳实现demo如下：一个web服务1http_server1.py#coding:utf-8importsocketfrommultiprocessingimportProcessdefhandle_client(client_socket):"""处理客户端请求"""request_dat
《智守数据堡垒——AI驱动的MySQL数据治理合规框架》墨夶数据库学习资料2 人工智能 mysql 数据库
在当今数字化转型加速的时代，企业面临着前所未有的数据挑战。一方面，海量的数据为企业带来了巨大的商业价值；另一方面，如何确保这些数据的安全性、一致性和合法性成为了亟待解决的问题。尤其是在金融、医疗等高度监管行业中，任何数据泄露或不当使用都可能导致严重的法律后果和社会影响。为此，构建一个既高效又能满足法律法规要求的数据治理体系显得尤为重要。今天，我们将探讨一种创新性的解决方案——利用人工智能（AI）技
用Python进行websocket接口测试代码小念软件测试自动化测试技术分享 python websocket 开发语言
这篇文章主要介绍了用Python进行websocket接口测试，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下我们在做接口测试时，除了常见的http接口，还有一种比较多见，就是socket接口，今天讲解下怎么用Python进行websocket接口测试。SocketSocket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可
Next.js服务器操作：优势、局限与审慎应用 exploration-earth javascript 服务器开发语言
类似于任何技术，它们亦非尽善尽美，故而保持警觉至关重要。通过亲身经历中的挫折汲取了教训，现将之与诸位共勉。一大诟病在于潜在的紧密绑定问题。若服务器端代码嵌入组件之中，则可能导致代码库模块化程度削弱，维护成本攀升。后端逻辑的任何变动或许都将迫使前端相应更新，反之亦然。对于追求关注点严格分离的大型项目或团队而言，这无疑构成了严峻挑战。唯有秉持严谨的纪律与条理，方能避免代码库陷入混乱。再者，便是学习曲线
使用 Python 实现 WebSocket 服务器与客户端通信又蓝 python websocket
简介WebSocket是一种基于TCP协议的通信协议，能够在客户端与服务器之间进行全双工（双向）通信。相比传统的HTTP协议，WebSocket可以实现实时数据的传输，尤其适合需要实时交互的应用场景，如在线游戏、实时聊天、金融交易等。我通过Python实现一个简单的WebSocket服务器，并使其与客户端进行通信。我们将创建两个Python文件：websocket.py和main.py，webso
基于Python实现读取嵌套压缩包下的文件袁袁袁袁满 Python实用技巧大全 python 嵌套压缩包下文件读取 Python实现嵌套压缩包压缩包 zipfile BytesIO
文章目录前言思路完整代码代码优化前言工作中遇到的问题，需要用Python实现嵌套压缩包下文件读取，这里记录下方法，希望能帮助到更多的人。思路打开外层zip压缩包并遍历文件：使用withzipfile.ZipFile(outer_zip_path,'r')asouter_zip语句以读取模式'r'打开用户输入的外层zip压缩包对应的文件，这样在代码块结束后会自动关闭该文件，避免资源泄露。通过oute
【如何利用Python抢演唱会门票】python利用selenium实现大麦网抢票 Python小炮车 python selenium 数据库
一、selenium原理介绍Selenium是一个用于Web[应用程序](https://link.juejin.cn/?target=https%3A%2F%2Fbaike.baidu.com%2Fitem%2F%25E5%25BA%2594%25E7%2594%25A8%25E7%25A8%258B%25E5%25BA%258F%2F5985445%3FfromModule%3Dlemma_i
Python 实现七大排序算法 weixin_30527323 python shell 数据结构与算法
技术博客：github.com/yongxinz/te…本文用Python实现了插入排序、希尔排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序。先整体看一下各个算法之间的对比，然后再进行详细介绍：排序算法平均时间复杂度最好情况最坏情况空间复杂度排序方式稳定性插入排序O(n²)O(n)O(n²)O(1)In-place稳定冒泡排序O(n²)O(n)O(n²)O(1)In-place稳定选择排
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【Python小技巧】使用prettytable格式化显示dataframe数据 IT里的交易员 Python经验池 python
文章目录前言一、安装prettytable二、函数打包三、应用示例总结前言经常我们使用print(df)输出dataframe数据，打印输出的数据没有格式，看起来屏幕一篇乱。有没有一种可以格式化输出的工具？还真有，那就是prettytable。一、安装prettytablePrettyTable是Python中的一个库，用于以美观的表格形式显示数据。要使用PrettyTable，首先需要安装它，可
Python中用ollama库实现连续对话 longnershot python 开发语言 AI编程
找来找去没找到一个简单示例，用4o和问心来回调整简单生成了一个，抛砖引玉了。importollamadefchat_with_ollama():#初始化一个列表来存储对话历史，每个元素是一个包含用户输入和模型回复的元组history=[]whileTrue:#获取用户输入，并转换为小写，方便后续判断退出条件user_input=input("\nUser:")#判断用户是否想要退出对话ifuser
Python电子书教程汇总 iteye_3941 python
From:http://bathome.net/thread-15554-1-1.html[转载教程]Python电子书教程汇总（2012-02-16更新）简明Python教程(AByteofPython)_1.20_中文版pdfhttp://www.rayfile.com/zh-cn/files/6cdcc561-58b2-11e1-ad5e-0015c55db73d/Python语言从入门到精
深入理解观察者模式 —— Qt信号槽机制的实现拾工软件设计观察者模式 qt 开发语言
观察者模式是一种行为型设计模式，允许一个对象（被观察者）状态发生变化时通知一组依赖它的对象（观察者），从而实现对象之间的解耦。在这篇文章中，我们将探讨如何用C++和Python实现观察者模式，并在代码中清晰地体现这一设计模式的核心思想。其实Qt的信号槽机制，就是借住了这一设计模式，并对其进行了一些扩展。由于Qt广泛的被C++和Python用户使用，所以这里给出Python和C++两个版本的简单实现
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
Python网络编程之UDP套接字编程 Ssaty. udp 网络 python
第1关：UDP初体验任务描述本关任务：完成一个客户端程序，向服务器端发出请求，传输数据，并设置超时丢包，体验UDP的基本连接过程。相关知识为了完成本关任务，你需要掌握：创建socket对象；发送UDP数据；接收UDP数据；设置超时。创建socket对象创建socket对象是第一步，后续所有的操作都是通过socket对象完成的。创建对象使用socket()函数：s=socket(参数1,参数2)#s
使用Python访问和操作Llama的方法起风了~~~。 python llama 人工智能 Python
使用Python访问和操作Llama的方法Llama是一个流行的Python库，用于处理和操作数据集。它提供了丰富的功能和工具，使我们能够轻松地对数据进行处理、转换和分析。本文将介绍如何使用Python来访问和使用Llama库，并提供相应的示例代码。安装Llama库首先，我们需要安装Llama库。可以使用pip命令在Python环境中安装Llama。打开终端或命令提示符，并运行以下命令：pipin
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
手把手教你使用 Python 制作贪吃蛇游戏｜Python游戏程序员CC_ Python教程 python 学python pygame python 开发语言
贪吃蛇游戏是有史以来最受欢迎的街机游戏之一。在这个游戏中，玩家的主要目标是在不撞墙或不撞墙的情况下抓住最大数量的水果。在学习Python或Pygame时，可以将创建蛇游戏视为一项挑战。这是每个新手程序员都应该接受的最好的初学者友好项目之一。学习构建视频游戏是一种有趣而有趣的学习。我们将使用Pygame来创建这个蛇游戏。Pygame是一个开源库，专为制作视频游戏而设计。它具有内置的图形和声音库。它也
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi