盼小辉丶

智能文档图像处理技术：解决大数据时代文档图像处理难题

- 0. 前言
- 1. 智能文档处理
- - 1.1 智能文档处理简介
  - 1.2 智能文档处理应用
- 2. VALSE 视觉与学习青年学者研讨会
- - 2.1 VALSE 2023
  - 2.2 合合信息亮相 VALSE 2023
- 3. 版面分析技术
- - 3.1 版面分析
  - 3.2 文档还原
- 4. 其他相关智能文档处理技术
- - 4.1 图像矫正
  - 4.2 摩尔纹去除
  - 4.3 手写板反光擦除
- 小结
- 相关链接

0. 前言

智能文档图像处理技术是指利用计算机视觉和人工智能等技术对文档图像进行处理和分析，实现自动化识别、提取、分类和管理的技术。随着人工智能时代的到来和各行业信息化进程的加速，越来越多的个人和企业用户开始借助智能文档图像处理技术来提高工作效率，降低人力成本，并减少出错率。
本文将探讨智能文档图像处理技术的基本原理和特点，回顾了合合信息在 VALSE 2023 会议上关于智能文档图像处理技术的相关分享，并详细介绍了版面分析技术及其应用，最后，对智能文档图像处理技术的发展趋势进行展望，以深刻认识智能文档图像处理技术的重要性和应用价值，用于在实际应用中降低成本，提高生产力。

1. 智能文档处理

1.1 智能文档处理简介

智能文档图像处理是指通过应用计算机视觉、自然语言处理等人工智能技术，对文档图像进行自动化处理、分析和识别的过程。可以帮助用户快速高效地对文档图像信息展开深入的分析和理解，实现对文档中的重要信息进行提取。同时，在处理大量文档的情况下，可以显著地减少人力成本和时间成本，提高文档处理的准确度和效果，防止出现错误或遗漏等问题。
具体来说，智能文档图像处理技术主要包括以下方面：

文档图像预处理：在进行文档图像处理之前，对文档图像进行预处理和优化，其主要用于解决文档图像中存在的噪声、变形和失真等问题，以提高文档图像的质量和稳定性，包括图像去噪、切边增强、弯曲矫正和摩尔纹去除等
文档图像分析：利用计算机视觉技术对文档图像信息进行分析、理解和处理，其主要用于文档图像的识别、分类和提取等方面，包括文档图像文字识别和提取、清晰化和增强和文档数据信息分析等
文档解析与识别：对文档进行结构化分析、编码、识别的提取，可以实现对文档中信息的自动识别和提取，从而提高文档处理效率和准确性，包括结构化分析、语义理解与编码、文字识别 (Optical Character Recognition, OCR) 和表格识别等
版面分析与还原：对文档版面进行结构化分析、理解和编码，然后对分析结果中的各个对象进行矫正、拼接和还原，实现文档版面的恢复和重构，主要用于自动化识别、分割和提取文档中重要信息的位置和排版等，包括版面结构分析、对象识别、区域分割和版面纠正、拼接、重构等
文档信息抽取与理解：从文档中自动提取出关键信息，并对文档信息进行理解和推理，应用于自动化分析、推理和应用文档信息等，包括关键字提取、实体识别和文本分类等

1.2 智能文档处理应用

文档图像智能分析与处理是一种将图像和文本结合起来的技术，可以将图像中的文字识别为计算机可读的文本，并将其用于数据分析、信息检索、自然语言处理以及其他信息处理任务中，因此文档图像智能分析与处理在现实场景具有重要意义：

自动化分析与处理：文档图像智能分析与处理可以自动地识别和提取文本信息，能够自动化完成很多需要大量手动操作的任务，从而降低人力成本，并提高生产效率
提高信息可访问性：文档图像智能分析与处理可以将图像中的文本转换为计算机可读的文本，使得信息可搜寻、可利用、可访问
丰富信息处理应用场景：文档图像智能分析与处理可以将文本和图像信息结合起来，实现更加丰富、多样化的应用场景

智能文档图像处理技术可以帮助用户实现文档图像信息自动抽取、分类、填写等功能，这些功能可以广泛应用于多个不同领域，提高工作效率和准确性：

办公自动化：实现对办公文档的自动化处理，包括文档分析、版面还原、信息抽取、文本识别等功能，可以大幅提高办公效率，降低人力成本
金融业：实现对客户资料、合同协议等文件的自动化处理，可以提高金融机构的工作效率，缩短业务处理时间，减少错误率
医疗保健：帮助医疗保健机构实现对医疗记录、病历、处方等文件的自动化处理，可以提高医疗保健机构的工作效率，优化医疗服务体验
法律行业：实现对案件合同、律师文书等文件的自动化处理，可以提高法律机构的工作效率和准确性
教育行业：实现对学生档案、考试答卷、科研论文等文件的自动化处理，可以提高教育机构的工作效率，降低管理成本

2. VALSE 视觉与学习青年学者研讨会

2.1 VALSE 2023

VALSE (Vision And Learning SEminar) 发起于 2011 年，每年举办一次，以“倡导学术平等，深度前沿交流；恪守科学精神，践行学术契约；热心学术服务，促进沟通合作”为理念和使命，旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供一个平等、自由的学术交流舞台。以促进国内青年学者的思想交流和学术合作，从而在相关领域做出重量级学术贡献，提升中国学者在国际学术舞台上的学术影响力。
近期，VALSE 2023 在无锡顺利落幕，相关报告和展示从内容上涵盖了计算机视觉、图像处理、模式识别与机器学习领域的大部分热点研究方向，研讨了上述研究领域的国内外前沿进展。智能文档图像处理是计算机视觉在产业中的重要应用，现阶段还面临着诸多挑战：

多样性：文档类型的多样产生了繁杂的版式与结构，同时文档图像来源的多样导致了形式、格式、布局、字体、大小等方面具有的差异性
噪声和失真：受拍摄器材、背景环境影响，文档图像可能存在噪声、失真、模糊等问题，这会影响到图像的质量和识别准确度
隐私和安全：文档图像中可能存在敏感信息，如银行账号、身份证号码等，需要注意避免泄露和滥用

2.2 合合信息亮相 VALSE 2023

作为智能文档处理领域的代表，合合信息出席了 VALSE 2023 会议，在会议上主要分享了合合信息关于智能文档处理技术的研发与实践成果，在解决工业界中面临的各类问题中所做的一些相关研究成果，并重点介绍了在版面分析领域的工作进展。
合合信息是行业领先的人工智能及大数据科技企业，深耕智能文字识别、图像处理、自然语言处理和大数据挖掘等领域，其研发的智能图像处理引擎提供多种图像智能处理黑科技，例如图像切边增强、PS 篡改检测以及图像矫正等，相关黑科技的体验可以登录合合信息官网。

3. 版面分析技术

版面分析技术是一种向系统输入文档图像后，机器会对文字部分和版面元素进行分析和识别，把若干行文字关联起来，从而获得正确的顺序与段落关系技术，主要包括版面分析与还原。它可以在文本、图形和表格等复杂元素之间建立关联性，进而实现自动化文档处理和排版。具体而言，版面分析与还原的主要任务包括：

区块分割：对原始文档进行分块和定位，确定页边距、标题、页眉、页脚、正文、图片和表格等元素的位置和大小
版面分析：通过分析文档的排版风格和结构规则，自动推测并还原出文档的版面设计
文字识别：通过光学字符识别 (Optical Character Recognition, OCR) 技术将文本从图像中提取出来
图形识别：对文档中的图形进行自动识别和提取，如条形码、二维码、统计图表等
表格识别：对文档中的表格进行自动识别和提取，并将表格转换为电子表格或数据库
校对和修正：对自动还原的版面进行校对和修正，确保版面输出的准确性和可读性

版面分析与还原技术可以应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本，提高生产效率和质量，并且解决了传统排版中可能出现的人为错误和疏漏问题，在实际生产和生活环境中，具有重要用途：

自动化排版：自动识别文本和图像的位置和大小，实现自动化排版，在出版业和广告设计等领域具有重要作用，可以极大的提高生产效率、节省人力成本
文字识别：可以识别文字区域并进行 OCR 处理，将纸质文档数字化，方便进一步实现文本分析和搜索
印刷品质检测：对印刷品进行自动化检测，包括页面缺失、印刷模糊等问题，可以用于提高印刷品质量
图像识别：识别图像中的不同元素并分类，可以应用于自动化图像分类、生产流程监控等领域
信息提取：提取出指定页面中的关键信息，例如产品价格、评论、用户评价等，便于实现自动化数据采集和营销分析等

3.1 版面分析

版面分析可以分为物理版面分析和逻辑版面分析两个方面。物理版面分析主要是指对文档的视觉排版进行分析，即识别出文档中的各种视觉元素(如文本、图片、表格、分隔线等)，并判断其在文档页内的位置、大小、颜色等属性，物理版面分析通常需要进行图像处理和计算机视觉等技术的支持，以提取文档中的视觉信息。逻辑版面分析则是指对文档的逻辑结构进行分析，即识别出文档中各种语义元素的类型和语义关系(如标题、正文、段落、列表、脚注、注释等)，并将其转换成可机器读取的结构化数据，逻辑版面分析通常需要进行自然语言处理、机器学习等技术的支持，以便于理解文本的语义信息。
虽然版面分析技术已经得到了较大的发展，但仍然存在以下问题：

精准度问题：由于版面分析涉及到很多细节，如字体、排版、颜色、背景等因素，因此，当处理的数据量较大或数据质量较差时，往往会出现漏判、错位等问题，降低了版面分析结果的可靠性
多语言兼容问题：由于不同语言的文字、格式、排版规则等存在较大差异，因此版面分析技术在多语言兼容问题上也存在着巨大的挑战
处理速度问题：由于版面分析需要对大量图像进行处理，需要耗费大量的计算资源和时间

如果版面分析的精准度无法得到提升，那么在文件材料被拍照、扫描成电子文档的过程中就会出现漏字和错位的问题。这些质量问题可能会导致识别出的文本内容与原始文档存在一些差异或错误，特别是在需要对文档进行高精度的处理和分析的情况下(比如图片转换成 Word/Excel 等)，这些问题将会严重影响文档的正确性和可用性。
为了解决复杂的版面分析问题，目前主流的方法多基于深度学习，能够自动从原始图像中抽取特征，并通过不同层次的网络结构实现版面结构的分析和识别，具有强大的表达能力和泛化能力。合合信息提出的版面分析算法采用了基于图像和文本的特征融合方式，能够自适应地处理不同种类、不同形态的文档，算法利用深度学习网络结构从原始文档中自动提取特征，并通过端到端的训练实现文本块的检测和分类。同时，网络结构简洁，相比其他算法，计算速度更快，能够满足实时应用场景。

3.1.1 版面元素检测

版面元素检测是版面分析的重要任务之一，其目的是将文档中的各类版面元素如文字块、标题、页眉页脚等区域进行自动识别和标注，通常，基于深度学习的版面元素检测和识别算法需要以下步骤：

图像预处理：对原始文档图像进行预处理，例如调整图像大小、颜色归一化等
版面元素定位：利用图像处理和分割技术，将文档中的各版面元素进行定位和分割，实现文本块的定位
特征提取：对不同版面元素进行特征提取和描述，利用深度学习网络从文本块中抽取卷积特征
版面元素分类：采用监督或无监督学习方法对文档中的各版面元素进行分类，例如使用卷积神经网络实现文本块分类
标注输出：将各版面元素的分类结果输出为可读格式，例如采用 XML 或 JSON 格式进行表示和存储

合合信息提出的版面元素检测模型如下图所示：

但是，获取的物理版面元素获取后并不能直接用于文档排版，这是因为同等视觉信息的文档可能是通过多种不同的编辑方式获得的，如下图所示，同样长度的间隙可以通过使用 Tab 键获得，也可以直接使用空格键获得。如果直接应用这些物理版面元素进行排版，可能会产生不符合要求的格式或布局，影响文档的可读性和美观度性，需要将获取到的物理版面元素根据需求进行进一步处理和解析，才能用于文档排版，这就需要文档排版引擎对版面元素进行排版。

3.1.2 文档排版引擎

文档排版引用于将文档内容和样式信息转换为具有良好排版效果的可编辑文档，合合信息提出的文档排版引擎架构如下所示。首先从文档中提取出四类嵌入向量：

字符嵌入 (Character embedding)：将字符表示为向量的技术，其基本思想是将每个字符映射到一个高维向量空间中的特定坐标点，以此来表示字符和不同字符之间的相似度和差异性，在字符嵌入过程中，需要首先构建一个字符表，包括所有需要表示的字符，然后使用算法来计算每个字符在向量空间中的坐标，以及它们之间的相对距离。
文本行嵌入 (Textline embedding)：将文本行表示为向量的技术，可以将文本行中的每个字符和单词表示为向量，并将其组合成一个高维向量，以此来描述文本行的特征和属性，基本思想是将文本行中的每个字符转换为向量，通常采用的方法是将每个字符通过预先训练好的字符嵌入进行编码，然后通过一些组合方法将这些向量合并成一个文本行向量
段落嵌入 (Paragraph embedding)：将段落表示为向量的技术，基本思想是将段落中的每个句子通过嵌入技术转换为向量，然后将这些向量合并为一个高维向量，以此来描述整个段落的特征和属性，在段落嵌入过程中，可以使用不同算法和模型来计算每个句子在向量空间中的坐标，然后采用一些组合方式将这些向量合并为一个段落向量
关系嵌入 (Relation embedding)：将关系表示为向量的技术，基本思想是将实体和关系通过嵌入技术转换为向量，然后将它们组合成一个高维向量，以此来描述实体之间的关系和属性，在关系嵌入过程中，首先需要构造关系图谱或知识库，包括实体和实体之间的关系，然后可以使用多种算法来计算每个实体和关系在向量空间中的坐标，通过组合实体向量和关系向量，可以得到整个关系的向量表示

得到以上四类嵌入向量后，利用 Transformer 模型执行文档排版渲染。Transformer 是一种基于自注意力机制( Self-Attention )的神经网络模型，可以用于自然语言处理中的各种任务，如文本分类、机器翻译、情感分析等，其核心思想是利用自注意力机制实现对序列信息的编码和解码，从而提高模型的效率和精度。相比于传统的循环神经网络和卷积神经网络，Transformer 具有以下优势：

并行计算：Transformer 中每个位置的输出只与输入序列中与之相关的位置有关，这使得 Transformer 可进行并行计算，并且在长序列输入时表现良好
自注意力机制：通过自注意力机制，使得模型能够有效地抓住输入序列中的重要信息，进而提高了模型的表现
多头注意力机制：Transformer 中采用多头注意力机制，使得模型能够关注不同层次的语义信息，从而更加准确地抽象和表示

Transformer 的基本结构为编码器-解码器架构，在编码器和解码器中，均采用了多层自注意力机制和前向神经网络，来提高模型的表现。

3.2 文档还原

版面还原技术可以将扫描得到的文档图像转换为具有可编辑性和复制性的电子文档(如 PDF、Word 和 Excel 等)，还原原始文档页面布局和文本格式，应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本，提高生产效率和质量，并且解决了传统排版中可能出现的人为错误和疏漏问题。

合合信息提出的文档还原系统综合了文字检测识别、版面元素检测识别、图层分离、排版布局等一系列深度学习模型，并通过合理的方式糅合各个模块，并搭配文档渲染引擎，最终生成可供用户编辑修改的 Word/Excel 文档。合合信息文档还原模型的效果如下所示：

4. 其他相关智能文档处理技术

除了版面分析技术外，在 VALSE 2023 会议上，合合信息还分享了其他一些实用文档图像处理技术，包括图像矫正、摩尔纹去除和反光擦除等，这些技术可以互相结合，形成完整的文档图像处理流程，提供高效、准确的文档处理服务。

4.1 图像矫正

由于相机的姿态、文档放置状态、文档自身变形等不确定因素，在使用移动设备采集文档照片时会出现角度和弯曲变形，这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响，因此需要进行一定的变形矫正处理。
合合信息图像矫正可以智能定位图像中文档主体的边缘，并进行背景切除(文档提取)，对形变文档进行矫正，主要包括角度矫正和弯曲矫正两种复杂的矫正，体验地址：合合信息图像矫正。

可以看到利用合合信息图像矫正功能能够将图像恢复至正面垂直拍摄的效果，解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。

4.2 摩尔纹去除

使用数码相机拍摄数字屏幕时会在照片中会出现令人反感的屏幕纹，屏幕纹的存在不仅严重降低了图像的质量，并且也会影响到我们后续的分析和处理。同时，由于屏幕纹对重复结构的轻微变换具有极度敏感性，因此图像结构的多样性导致屏幕纹也具有复杂性和不规则性，屏幕纹的消除一直以来都是具有极具挑战性的任务。
合合信息图像去屏幕纹支持去除因拍屏幕产生的各种纹理(屏幕纹、摩尔纹)，还原清晰真实图像，体验地址：合合信息图像去屏幕纹。

可以看到合合信息图像去屏幕纹功能能够高效的完成图像恢复任务，最大程度的恢复被屏幕纹污染的屏摄照片，能够去除所有样式的屏幕纹，并且能够保证图片细节信息完整，便于我们后续对图像进行进一步的分析。

4.3 手写板反光擦除

手写板反光是在拍摄电子手写板时，由于表面反光或者暴露在强烈的光源下，导致写下的文字或图像无法清晰显示和识别的问题。反光问题会影响手写板的使用体验和准确度，如果不加以处理，反光甚至可能会使得书写或绘画结果无法被识别。为了解决这些问题，合合信息技术团队研发了反光擦除模块，可以识别和消除图像中的反光区域，得到无反光的清晰图像，反光擦除效果如下图所示：

小结

随着大数据时代的到来，文档图像也随之大量生成和涌现，如何高效地处理和利用这些文档资料是一个亟待解决的问题。智能文档处理技术，尤其是版面分析技术，提供了一种有效的解决方案。
合合信息的版面分析技术通过解决版面分割、区域间逻辑关系处理等难题，能够将文档图像切分成不同类型内容的区域，例如文本、图形、公式、表格等，并进行区域间关系的分析，能够更加精准地确定文档中文字位置、字体、大小和排版方式，并从各类版式复杂的文档图像中精准地获取信息。帮助用户从复杂的版面结构中提取有用信息，从而实现文档的智能化处理。综合来看，智能文档处理技术，特别是版面分析技术的应用，为我们带来更高效、更准确、更便捷的文档处理体验。

相关链接

图像智能处理黑科技，让图像处理信手拈来
多模态大模型时代下的文档图像智能分析与处理

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

智能文档图像处理技术：解决大数据时代文档图像处理难题