zhugeheihei

基于制表位停止检测的页面布局分析方法_TesseractOCR内置

基于制表位的混合页面版面分析技术:

摘要：提出了一种新的混合页面布局分析算法，该算法使用自底向上的方法形成初始数据类型假设，并定位页面格式化时使用的制表符。检测到的制表符停止符用于推断页面的列布局。然后以自顶向下的方式应用列布局，对检测到的区域施加结构和读取顺序。完整的c++源代码实现可以在http://code.google.com/p/tesseract-ocr上作为Tesseract开源OCR引擎的一部分获得。

物理页面布局分析是OCR的第一步之一，它将图像划分为文本和非文本区域，并将多列文本划分为列。本文不讨论逻辑布局分析，这种分析可以检测文章的页眉、页脚、正文文本、编号列表和分段。物理布局分析对于使OCR引擎能够处理任意页面的图像是必不可少的，例如书籍、杂志、期刊、报纸、信件和报告。物理布局分析方法大致分为两类:

自底向上方法是最古老的[1]方法和最近发布的[2,3]方法。它们对图像的小部分(像素、像素组或连接的组件)进行分类，并像类型一样聚集在一起形成区域。自底向上方法的关键优势在于，它们可以轻松处理任意形状的区域。关键的缺点是它们很难考虑到图像中的高级结构，比如列。这通常会导致区域过度碎片化。

自顶向下方法[4]在垂直和水平方向沿空白区域递归地切割图像，这些空白区域被认为是列边界或段边界。尽管自顶向下方法具有这样的优势，即通过从页面上最大的结构开始查看，但他们无法处理许多杂志页面中出现的各种格式，例如非矩形区域和无缝地融合在下面的列中的跨列标题

第三种方法[5-7]是基于分析图像中的空白。这解决了递归自顶向下方法中的一些缺陷，通过自底向上的间隙分析找到列之间的间隙，显式地寻找白色矩形。这些算法大多仍然存在无法处理非矩形区域的问题。

当一个页面由专业的出版系统或普通的字处理程序布局时，页面的区域由制表符tap-stops限定。表的页边、列边、缩进和列都放置在固定的x位置上，在这个位置，文本行的边缘或中心是垂直对齐的。制表符-stops将表格与正文文本区分开来，它们还可以绑定矩形的非列元素，例如插入图像和拉出引号。

图1示例中的制表符-stop是列边界，带有用于段落缩进的附加制表符，而段落缩进不是查找页面布局所必需的。非矩形嵌入图像通常会偏离列边界。

在某种意义上，白色矩形与制表符匹配，但白色矩形可能会被背景噪声或背景图像打乱。此外，白色矩形的端点与制表符限定的区域的端点不匹配，因为白色矩形延伸到垂直的空白区域。

所提出的算法类似于空白矩形方法，因为它使用自底向上的方法来查找自顶向下的结构，但它不是查找列之间的空间，而是查找标记其边缘的制表符，并且通过进一步组合自底向上和自顶向下的方法，可以轻松处理非矩形区域。

主要阶段有:预处理，在预处理中，自下而上的形态和连接成分分析在局部数据类型上形成初始假设;自底向上的制表符stop检测;查找列的布局;最后应用列布局来创建有序的类型化区域集。这些阶段将在第3-6节中详细介绍。

3、预处理

预处理步骤的目的是识别行分隔符，图像区域，并将剩余的连接组件分离为可能的文本组件和较小数量的其他不确定的类型。

从图1的图像开始，Leptonica[8]的形态学处理检测出图2(a)所示的垂直线和图2(b)所示的图像掩码（image mask）。在将清洗后的图像传递给连接的组件分析之前，从输入图像中减去这些检测到的元素。

根据宽度、w和高度、h，连接组件(connected components, ccs)被过滤成小、中、大尺寸，如下:

这种过滤很重要，因为小的ccs(噪声或变音符)和大的非文本ccs(线条图、logo或框架)可能会混淆文本行算法，但大的文本标题对阅读顺序检测也很重要。在这个阶段，如果左邻或右邻具有相似的笔画宽度(stroke width)，那么大的ccs被认为是文本。在“stressed”字体上，垂直线上的笔画宽度比水平线上的笔画宽度大，因此在两个方向上分别计算笔画宽度。笔划宽度是根据CC的二值图像上距离函数的水平和垂直局部最大值计算的。如图3所示，CCs被过滤为中型或大型文本。

4、寻找制表符位置作为分割线

查找制表符线段的过程有几个主要的子步骤:找到看起来可能位于文本区域边缘的候选制表符ccs，然后将它们分组到制表符行中，然后找到制表符行之间的连接，从而消除误判。

4/1 找到候选制表符组件

通过从预处理的每个已过滤的CC开始进行径向搜索，以找到初始候选制表符停止CCs。假设CC位于制表位，搜索将在应该有空间的沟槽中寻找对齐的邻居和邻居。每个CC都是独立处理的，并根据它是候选左选项卡、右选项卡还是都不是进行标记。图4(a)说明了候选制表符停止ccs。

4.2 分组候选制表组件

候选选项卡cc被分组成行，如果一个组中有足够多的ccs，则保留它们。最小平方中值算法用于将一行拟合到组中每个CC的适当(左或右)边缘。在找到所有制表符停止线段后，所有的线都被重新调整到页均值方向，使所有的成员制表ccs落在线段的一侧。

4.3 跟踪文本行以连接制表符

下一步通过跟踪从一个制表符到另一个制表符的文本行来连接制表符。紧密相邻，垂直重叠的ccs符合条件，但不能跳过较大的间隙。有文本行连接的制表符停止符彼此关联，就像文本列的两端一样。图4(b)显示了制表符行以及连接的文本行。没有连接的制表符行将被丢弃。

记录连接制表位的文本行最常出现的宽度，以便在查找列布局时使用。

4.4 清理制表位结束

最后一步尝试使连接的制表线在相同的y坐标处结束，方法是允许末端在制表线边缘使用的最后一个成员CC和该线相交的第一个非成员CC之间移动。图5显示了最终的制表线段分割结果。

在构建制表位之后，ccs将被重新分类，使用与上面用于查找制表位stop之间连接相同的文本行跟踪算法，将其分类为“Text”或“Unknown”。如果一组具有显著宽度的ccs组成一个文本行，则将它们分类为文本。从形态学预处理的图像掩模中创建与体-文本CCd大小相同的人工图像ccs。

5、找到列布局

下一个主要步骤是找到页面的列布局。其余所有步骤都将使用现在创建的列分区/分割(CP)对象。从左到右、从上到下扫描ccs，将分类相似(文本、图像或未知)的ccs收集到CPs中，约束是没有CP可以越过制表符行。图6显示了该过程的结果。来自单个水平扫描的CPs集合存储在列分区集(Column Partition Set, CPset)中。

每个CPset都可能是在该垂直位置将页面划分为列。因此，寻找列布局是一个寻找最优cpset集的过程，它最好地“解释”(见下文)页面上的所有cpset，但首先给出一些定义:

一个好的CP要么在它的包围框的两个垂直边缘上接触制表行，要么它的宽度接近一个经常出现的宽度。(参见4.3)。

CPset的覆盖范围是它包含的所有好的CPs的总宽度。

CPset A优于CPset B，如果A有更大的覆盖率，或相同的覆盖率，但有更多的好CPs，或相同的好CPs，但有更多的总CPs。

CPset A解释了set B，除非下列一个或多个为真:

1. B的一个CPs的边缘在所有A的CPs之外。这是不允许的，因为这表明B的文本比A多。2. B的一个CP的边落在A的不同CP上，B CP的宽度是一个共同的CP。这意味着A分割了一个公共宽度的列。3.B的其中一个CP的右边缘与下一个B CP的左边缘位于相同的A CP中，并且B CP的宽度大致相同。看起来A和B的列数不同。相同宽度的条件允许A用拉出来解释B。4. B的两个CP的两条边都落在A的同一个CP上。这意味着A合并了B的两列。

注意，B的一个CPs的两条边允许落入A的两个CPs，只要宽度不是公共的。这允许合并B中的列的标题由A解释。

从页面上的cpset集合中生成一个候选列列表，将最佳列排在前面，并通过上面的A解释B规则消除重复项。在此过程中，将忽略所有图像CPs。

在创建初始候选对象之后，通过添加新的CPs和扩大现有CPs来改进它们，方法是在不同CPSet中使用CP的边缘，同时扩大不会导致CP重叠。

然后，迭代过程标记由候选列之一解释的连续页面的最长段(允许非常小的故障区域)y坐标。图7显示了该过程的结果。

6、发现区域

在找到列之后，根据CPs所跨越的列的数量为其指定类型。单个列中的CPs是流动的（flowing），涉及多个列但不跨越任何一个列的外边缘的分区是拉出的（pull-out），完全跨越多个列的分区是标题的（heading）。

6.1 创建CPs流

每个CP选择其最佳匹配的上下伙伴，即水平重叠的垂直方向上最近的CP。由于每个CP将自己注册到其选择的合作伙伴，因此每个CP可以有零个或多个注册的上、下合作伙伴。

注册合伙人列表的大小被强制为0或上下各为1，使用以下规则:

1. 类型。如果有多种类型，文本只能使用自己的(确切的)类型，而图像可以使用任何其他图像类型。

2. 可传递的伙伴快捷方式被破坏了。如果A有两个伙伴B和C, B也有C作为同一方向的伙伴，那么删除C作为A的伙伴，留下一个干净的A-B-C链。同样，如果A有一个伙伴B, B也有一个方向相同的伙伴A，打破这个循环。

3.(仅限文本)如果A仍然有两个伙伴B, C，跟踪B和C的伙伴，看谁的链最长。

从A中删除链最短的伙伴，并将最短链的类型转换为pull-out。

4. (仅供图片)选择水平重叠最大的伙伴CP。

所有CPs现在都有0或1个伙伴。即便如此，(重新)运行上面的规则1。这将所有文本链净化为单一类型，并将文本链从图像链中分离出来。通过将链中的所有CPs设置为链中最一般的类型，可以净化图像链。图8显示了最终输入的CPs，其中流动文本为蓝色，标题文本为青色，标题图像为品红，拉出图像为橙色。

文本CPs链被进一步划分为统一行间距的组，这些组构成文本块。现在，每个CPs链代表一个候选区域，但是这些区域必须是有序的。

6.2 读取顺序的确定

回想一下，图像和文本分区有三种类型:流动、拉出和标题。此外，页面被划分为一致的列布局的部分。有了这些信息，合理的阅读顺序就包含了几个简单的规则:

1. 流动的块后面跟着列中的y位置。

2. 拉出块之后，在它们接触的实列之间的虚列中y的位置。

3.标题跨越多个列，并跟随在所跨越的列中或列之间高于它的任何内容。位于标题下面同一列中的任何内容都在标题之后。

4. 列布局的改变就像标题一样。

任何已更改列中的任何内容(或它们之间的任何内容)都放在新列中的任何内容之前。

未更改的列不受列布局更改的影响。

5. 在标题之间，列的内容从左到右排序

6.3 找出每个区域的多边形边界

为了实现简单，区域多边形是等线的:即边缘在水平和平行于平均制表线之间交替(大约垂直)。多边形边的选择是为了使顶点数量最小化，同时满足所有的CPs都包含在其区域多边形内，并且没有来自其他区域的CP相交的约束。图9显示了为图1的输入图像创建的最终块。

7、测试和结果

本文描述的算法是用c++实现的，源代码可作为Tesseract开源OCR系统的一部分[9,10]。它在3.4 GHz的奔腾4上运行一个典型的8MPixel图像，大约1秒。

正确地测试页面布局分析是一个困难的问题[11]，因为对于复杂的杂志页面，公开可用的集很少。除非在所有正文文本之后放置了图标题，否则UNLV测试集[12]只测量文本区域，并计算数数错误。

ICDAR页面布局分析比赛提供了更好的整体精度测量，该算法的结果出现在2009年的比赛[13]。图10显示了一些图形结果，表1显示了与ICDAR 2007竞赛参赛者的数值比较。

表1中的结果仅在2007年测试集上计算，作者要感谢Apostolos Antonocopoulos提供了这些结果。关于测试方法的详细信息，请参见参考文献[11]和[13]。

10、结论展望

制表符是一种有趣且有用的替代白色矩形来寻扎页面列结构的方法。

将自顶向下的列结构概念与自底向上的分类方法相结合，使页面布局分析能够轻松处理现代杂志页面上复杂的非矩形布局，而不会丢掉“大图片”，而这在单独使用自下而上的方法时经常发生。所描述的算法没有表检测或分析，但是制表符停止对两者都非常有用，因此将来将添加表分析。

Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
【AIGC半月报】AIGC大模型启元：2024.07（上） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.07（上）(1)AIGVBench-T2V（文生视频基准测评）(2)Gen-3Alpha（Runway）(3)Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）(4)InternVL2.0“书生·万象”（上海人工智能实验室）(5)CodeGeeX4-ALL-9B（智谱AI）(6)TTT（全新LLM架构）(1)AIGVBench-T2V（文生视频基准
认知的形式化：数学是建立在明确的公设定理体系之上的高级语言形态 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知形式化，数学语言，公设理体系，高级语言，人工智能，逻辑推理，算法设计1.背景介绍在当今数据爆炸和人工智能飞速发展的时代，如何有效地理解和处理信息成为了一个至关重要的课题。认知科学、人工智能和计算机科学等领域都在积极探索如何将人类的认知能力形式化，并将其转化为可计算的模型。数学作为一种高度抽象和形式化的语言，在认知科学和人工智能领域扮演着至关重要的角色。它为我们提供了描述和推理世界的逻辑框架，并
【cs.AI】25.1.11 arxiv更新速递 hinmer arxiv cs.AI每日更新 chatgpt gpt 人工智能自然语言处理自动驾驶深度学习 aigc
25.1.1012:00-25.1.1112:00共更新75篇—第1篇----=====MultilingualPerformanceofaMultimodalArtificialIntelligenceSystemonMultisubjectPhysicsConceptInventories关键词:多语言,多模态,人工智能,GPT-4,物理教育,物理概念清单链接1摘要:我们研究了一种基于大型语言
【LLM】25.1.11 Arxiv LLM论文速递 hinmer arxiv LLM每日更新 chatgpt gpt 人工智能自然语言处理 ai aigc 深度学习
25.1.1012:00-25.1.1112:00共更新36篇—第1篇----=====Supervisionpoliciescanshapelong-termriskmanagementingeneral-purposeAImodels关键词:通用型人工智能，风险管理，监督政策，模拟框架PDF链接摘要:通用型人工智能（GPAI）模型，包括大型语言模型（LLM）的快速普及和部署，给AI监管实体带来
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
AI需要的基础数学知识大囚长机器学习大模型人工智能
AI（人工智能）涉及多个数学领域，以下是主要的基础数学知识：1.线性代数矩阵与向量：用于表示数据和模型参数。矩阵乘法：用于神经网络的前向传播。特征值与特征向量：用于降维和主成分分析（PCA）。奇异值分解（SVD）：用于数据压缩和降维。2.微积分导数与偏导数：用于优化算法（如梯度下降）。链式法则：用于反向传播算法。积分：在概率和统计中有应用。3.概率与统计概率分布：如高斯分布、伯努利分布等。贝叶斯定
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
人工智能与人工计算的发展——孙凝晖院士一位安分的码农大语言模型人工智能
人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日，OpenAI公司推出一款人工智能对话聊天机器人ChatGPT，其出色的自然语言生成能力引起了全世界范围的广泛关注，2个月突破1亿用户，国内外随即掀起了一场大模型浪潮，Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现，2022年也被誉为大模型元年。当前信息时代
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
基于Hough变换与分数阶变分PDE的图像去雨算法实现（附带Matlab源码）心之飞翼算法 matlab 计算机视觉 Matlab
基于Hough变换与分数阶变分PDE的图像去雨算法实现（附带Matlab源码）图像去雨是计算机视觉领域的一个重要问题，它的目标是从雨滴造成的图像中恢复出原始的清晰图像。本文将介绍一种基于Hough变换和分数阶变分PDE（PartialDifferentialEquation）的图像去雨算法，并提供相应的Matlab源代码。算法步骤如下：导入图像首先，我们需要导入包含雨滴的图像。可以使用Matlab
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
算法中的时间复杂度和空间复杂度 CM莫问人工智能算法常见概念算法人工智能 python 时间复杂度空间复杂度
一、背景随着人工智能的纵深发展，我们会发现现在做算法很多时候都是通过掉包来解决问题了。Torch或者Tensorflow之类的深度学习库大大减少了算法工程师的工作量，而且在张量运算、反向传播等环节，这些深度学习库的模块设计也尽最大可能地降低了计算的时间和空间复杂度，从而不需要我们额外进行过多的干预。如果不是科班读计算机相关专业的，相信不少朋友第一次听说时间复杂度和空间复杂度的概念是在找工作刷lee
Anthropic 正计划为其聊天机器人 Claude 推出“双向语音模式”和一个新的记忆功能新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/Anthropic正计划为其聊天机器人Claude推出“双向语音模式”和一个新的记忆功能
DeepMind的新突破：GenCast 新加坡内哥谈技术人工智能大数据语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/如今，人工智能（AI）在天气预报领域的表现已经可以与传统计算方法媲美。然而，AI模型的训
AI跟踪报道第62期-本周AI新闻: 微软推出Copilot的AI Agent和Computer Control 新加坡内哥谈技术人工智能 copilot 大数据
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/油管视频:https://youtu.be/_Egli1MlVWk?si=DIjVm2l
360智算中心万卡GPU集群架构分析科技互联人生科技数码人工智能硬件架构系统架构人工智能
360智算中心：万卡GPU集群落地实践 360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨3
AI赋能电商：从个性化推荐到智能化运营 w(ﾟДﾟ)w吓洗宝宝了当下编程领域的分析大数据人工智能
引言随着互联网技术的飞速发展，电子商务已经成为人们日常生活的重要组成部分。然而，在激烈的市场竞争中，如何提升销售效率和用户体验成为了电商平台面临的主要挑战。近年来，人工智能（AI）技术的迅猛发展为这一挑战提供了新的解决方案。从个性化推荐到会员分类，从商品定价到供应链管理，AI技术的应用不仅提高了电商平台的运营效率，还极大地提升了用户的购物体验。本文将深入探讨AI技术在电商领域的多种应用场景，分析其
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞 Echo_Wish 前沿技术人工智能人工智能 gan python
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞随着人工智能技术的飞速发展，生成对抗网络（GenerativeAdversarialNetworks，GANs）在图像生成、视频生成、音频合成等领域展现出了惊人的创造力。特别是在艺术创作方面，GANs以其独特的生成能力，为艺术家和创作者提供了新的灵感和工具。本文将探讨GANs在艺术作品生成中的应用与创新，并通过具体代码示例展示其实现过程。一
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
大模型密度定律：AI代码生成器将迎来爆发式增长？前端
近年来，人工智能（AI）技术飞速发展，尤其是在代码生成领域，涌现出许多强大的AI代码生成器。清华大学刘知远团队近期提出的“大模型密度定律”，为我们理解AI技术的发展速度提供了新的视角，也预示着AI代码生成技术的未来发展趋势。该定律指出，模型能力密度每3.3个月翻倍，这将如何改变我们对AI发展的认知，并对AI代码生成器产生怎样的影响呢？让我们深入探讨。大模型密度定律：能力密度与指数级增长“大模型密度
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾（含资料发布）数据库
随着生成式人工智能（GenerativeAI）的崛起，从图像生成、自然语言处理到个性化推荐系统，生成式AI技术正迅速改变着各行各业的面貌。而在这场变革背后，数据的管理和治理显得尤为重要。对于企业来说，数据不仅是基础资源，更是构建AI应用和增强业务能力的关键。ApacheGravitino（incubating）与Databend作为数据领域两个知名的开源项目，正通过各自的创新技术和实践，为数据管理
大模型密度定律：AI代码生成器将迎来爆发式增长？前端
近年来，人工智能（AI）技术飞速发展，尤其是在代码生成领域，涌现出许多强大的AI代码生成器。清华大学刘知远团队近期提出的“大模型密度定律”，为我们理解AI技术的发展速度提供了新的视角，也预示着AI代码生成技术的未来发展趋势。该定律指出，模型能力密度每3.3个月翻倍，这将如何改变我们对AI发展的认知，并对AI代码生成器产生怎样的影响呢？让我们深入探讨。大模型密度定律：能力密度与指数级增长“大模型密度
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。月野难浔丶 python pdf 开发语言
现在市场上有很多PDF文件的识别，转化，等等。有些业务可能需要总结摘要和关键词等等一系列的操作。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。本篇文章旨在自动化处理PDF文档，提取并清理文本数据，然后使用一种大型模型生成摘要和关键词。最后，处理结果会被整理并输出到Excel文件中，便于后续分析和查看。人工智能（AI）是一种模拟人类智能的科技，它
多Agent框架之-CrewAI-人工智能代理团队的未来 WorkAgent 人工智能 ai langchain
CrewAI-aroleplayingAIAgentsgit地址：https://github.com/joaomdmoura/crewai#why-crewailangchain地址：CrewAIUnleashed:FutureofAIAgentTeamsAgent具有与另一个Agent联系的能力，以委派工作或提出问题。任务可以使用特定的代理工具覆盖，这些工具应该被使用，同时还可以指定特定的代理
双足机器人开源项目广州深情Yangy_Jiaojiao 机器人
双足机器人（也称为人形机器人或仿人机器人）是一个复杂的领域，涉及机械设计、电子工程、控制理论、计算机视觉等多个学科。对于想要探索或开发双足机器人的开发者来说，有许多开源项目可以提供帮助。这些项目通常包括硬件设计文件、固件代码以及高级软件框架，以实现运动控制、导航、感知等功能。双足机器人开源项目推荐1.OpenHumanoids简介：由GeorgiaTech的AMBER实验室开发的开源双足机器人平台
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

基于制表位停止检测的页面布局分析方法_TesseractOCR内置

你可能感兴趣的:(计算机视觉,人工智能)