之乎者也·

大模型内容分享(二十六)：大模型时代，如何完成IDP智能文档处理领域的OCR大一统？

1 像素级OCR统一模型：UPOCR

1.1、为什么提出UPOCR？

1.2、UPOCR是什么?

1.3、UPOCR效果如何？

2 OCR大一统模型前沿研究速览

2.1、Donut：无需OCR的用于文档理解的Transformer模型

2.2、NouGAT：实现文档图像到文档序列输出

2.3、SPTS v3：基于SPTS的OCR大一统模型

3 大模型时代下的智能文档处理应用

3.1、LLM与文档识别分析应用

3.2、智能文档处理应用产品

2023年12月28-31日，由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开，会议吸引了学术界和企业界专家与青年学者，会议面向国际学术前沿与国家战略需求，聚焦最新前沿技术和热点领域，共同探讨图象图形学领域的前沿问题，分享最新的研究成果和创新观点，在垂直领域大模型专场，合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。

本文将围绕以下问题，分享主题报告中大模型时代下的智能文档图像处理领域研究问题与深度思考：

•以GPT4-V Gemini为代表大模型能为IDP领域的技术方案和研发范式上带来什么样的启发？

•能否吸取大模型的优点，提出精度好、泛化强的OCR大一统模型？

•能否更好的将LLM与文档识别分析引擎相结合来解决IDP领域的核心问题？

1 像素级OCR统一模型：UPOCR

UPOCR是合合信息-华南理工大学文档图像分析识别与理解联合实验室于2023年12月提出的像素级OCR统一模型。UPOCR基于视觉Transformer（ViT）的编码器-解码器架构，将多样OCR任务统一为图像到图像变换范式，并引入了可学习任务提示，将编码器提取的通用特征表示推向任务特定空间，使解码器具有任务意识。实验表明，模型能够具有对不同任务的建模功能，能够同时实现文本擦除、文本分割和篡改文本检测等像素级OCR任务。

1.1、为什么提出UPOCR？

当前通用文字识别（OCR）领域面临多项主要问题，这些问题实然限制了其在各个应用领域的广泛应用。

1.任务特定性模型的碎片化：虽然OCR领域研究涌现出许多面向特定任务的模型，但每个模型都仅针对特定领域进行优化，模型过于碎片化，不同任务之间难以协同使用，跨领域和多场景的通用性受到较大限制。

2.缺乏统一接口：现有的一些通用模型依赖于特定的接口或解码机制如VQGAN，这种依赖性限制了模型在像素空间的灵活性和适应性，难以关联实现不同任务。

3.像素级OCR难题：当前模型在生成像素级的文本序列方面仍然面临挑战。这是因为文本生成不仅涉及语义理解，还需要考虑像素级别的细节，改善模型在生成像素级文本方面的能力仍是一个重要的研究方向。

1.2、UPOCR是什么?

UPOCR是一个通用的OCR模型，其采用了华南理工大学团队AAAI 2024录用论文中的ViTEraser作为主干网，同时借鉴基于MIM和分割图引导的一种自监督文档图像预训练方法SegMIM进行自监督预训练，然后结合文本擦除、文本分割和篡改文本检测等3个不同的任务提示词进行统一训练。

模型训练好后即可直接用于下游任务，无需再进行专门的精调，模型主要从统一范式、统一架构和统一训练策略三个方面进行研究。

1.2.1、Unified Paradigm统一范式

如图所示，作者提出了一个OCR任务统一范式，其将各种像素级OCR任务转化为RGBtoRGB的转换问题。尽管这些任务的目标不同(例如图像生成和分割)，但它们都可以被统一为在共享的特征空间中进行操作：

1.文本擦除任务：对于文本擦除任务，输出是与输入对应的去除文本的图像，属于RGBtoRGB任务。

2.文本分割任务：文本分割旨在将每个像素分配给前景（即文本笔画）或背景，在统一的图像到图像翻译范式下，UPOCR预测具有白色和黑色颜色的RGB图像，通过对比生成的RGB值与预定义的前景RGB值的距离来确定类别。

3.篡改文本检测任务：将篡改文本检测任务定义为篡改文本、真实文本和背景类别的每像素分类，进而UPOCR分别为篡改文本、真实文本和背景分配红色（255, 0, 0）、绿色（0, 255, 0）和蓝色（0, 0, 255）颜色。在推断过程中，通过比较预测的RGB值与这三种颜色的距离来确定每像素的类别。

1.2.2、Unified Architecture统一架构

如图所示，作者通过采用基于ViT的编码器-解码器实现了一个统一的图像到图像翻译范式来处理各种像素级OCR任务。其中，编码器-解码器架构采用了ViTEraser作为主干网络，编码器包括四个顺序块，每个编码器块包含一个用于下采样的块嵌入层和Swin Transformer v2块。解码器部分包括五个顺序块，每个解码器块包含一个用于上采样的块分割层和Swin Transformer v2块。另外，作者在编码器-解码器架构中引入可学习的任务提示，对应的提示被添加到编码器生成的隐藏特征的每个像素上，推动由编码器生成的通用OCR相关表示朝着任务特定区域。随后，解码器将调整后的隐藏特征转换为特定任务的输出图像。基于这种架构，UPOCR能够在极小的参数和计算开销下简单而有效地同时处理多样的任务。

1.2.3、Unified Training Strategy 统一训练策略

由于模型采用图像到图像的转换范式进行训练，所以在训练过程中，模型优化的目标只需要考虑最小化生成预测图像和真实图像在像素空间和特征空间上的差异，而不用考虑任务之间的差异。

1.像素空间损失：通过输出图像和真实图像之间的L1距离来测量像素空间中的差异：

其中，

表示输出图像，

表示真实图像。

2.特征空间损失：对于与真实图像生成相关联的任务，还需要将输出图像和真实图像在特征空间对齐：

3.整体损失：模型整体损失是像素损失和特征损失的和：

1.3、UPOCR效果如何？

实验结果如上图三个表所示，左上方表格是文本擦除实验对比，即使与擦除领域专用的精调模型相比，UPOCR统一模型在大部分指标上也领先领域的SOTA方法；右上方表格是文本图像分割实验对比，可以看到，UPOCR在所有指标都比专门单一任务的分割方法好；左下方表格是文本篡改检测，UPOCR也取得了很好的效果。图5显示UPOCR模型设计的任务相关Prompt也可以很好的区分不同的任务，下图是文本擦除、分割、及篡改检测与现有子任务的SOTA方法的可视化对比图。

综上所述，UPOCR提出了一种简单而有效的统一像素级OCR接口，其采用基于ViT的编码器-解码器，通过可学习的任务提示来处理各种任务，在文本去除、文本分割和篡改文本检测等任务上都表现出极高的性能。

2 OCR大一统模型前沿研究速览

2.1、Donut：无需OCR的用于文档理解的Transformer模型

论文地址：https://link.springer.com/chapter/10.1007/978-3-031-19815-1_29

项目地址：https://github.com/clovaai/donut

Donut模型是一种基于Transformer架构的新颖的OCR-free VDU模型，Donut模型首先通过一个简单的规则生成布局，然后应用一些图像渲染技术来模拟真实的文档，其通过预训练和微调两个阶段进行训练。在预训练阶段，模型使用IIT-CDIP数据集进行视觉语言建模，学习从图像中读取文本。在微调阶段，模型被训练为生成JSON格式的输出，以解决下游任务，如文档分类、文档信息提取和文档视觉问答等。与其他基于OCR的模型相比，Donut不需要依赖于OCR引擎，因此具有更高的速度和更小的模型大小。在多个公共数据集上进行的实验表明，Donut在文档分类任务中表现出了先进性能。

2.2、NouGAT：实现文档图像到文档序列输出

论文地址：https://arxiv.org/abs/2308.13418

项目地址：https://github.com/facebookresearch/nougat

Nougat模型是一种通过Swing Transformer 和 Transformer Decoder实现文档图像到文档序列输出的OCR模型，模型采用基于OCR-free Transformer的端到端训练方法，采用预训练和微调的方式进行训练。在预训练阶段，Donut使用文档图像和它们的文本注释进行预训练，通过结合图像和之前的文本上下文来预测下一个词，从而学习如何读取文本。在微调阶段，Donut根据下游任务学习如何理解整个文档。各种VDU任务和数据集上的大量评估证明了Donut具有较强的理解能力。

2.3、SPTS v3：基于SPTS的OCR大一统模型

论文地址：https://arxiv.org/abs/2112.07917

项目地址：https://github.com/shannanyinxiang/SPTS

SPTS，全称Single-Point Text Spotting，是一种单点文本识别技术，它的主要创新之处在于：方法使用极低成本的单点标注进行训练将文本检测任务形式化为语言建模任务，只需要对每个文本实例进行单一点的标注，就可以训练出场景文本识别模型。SPTS基于自回归Transformer的框架，可以简单地将结果生成为顺序令牌，从而避免复杂的后处理或独占采样阶段。基于这样一个简洁的框架，SPTS在各种数据集上显示出先进性能。

3 大模型时代下的智能文档处理应用

3.1、LLM与文档识别分析应用

大语言模型能够理解自然语言文本，并具备上下文理解的能力，在文档识别分析应用中，将文档理解相关的工作交给大语言模型，自动进行篇章级的文档理解和分析，可以帮助系统更好地理解文档内容，包括上下文中的关系、实体识别、情感分析等。目前最常见和最广泛的应用包括检索增强生成（RAG）、文档问答、版面分析。

1.检索增强生成：已经有大语言模型针对从大量文档中检索相关信息，并以生成的方式提供更详细、准确的答案。这在信息检索的场景中具有重要的应用价值。

2.文档问答：LLM可以直接用于构建文档问答系统，使用户能够通过提出问题来获取文档中的相关信息，可以应用于如法律文件的解读、技术手册的查询、知识库理解等场景。

3.2、智能文档处理应用产品

智能文档处理（Intelligent Document Processing，IDP）利用人工智能和机器学习技术来自动分析和理解文档，它通过识别、解析、理解文档内容，并将其转换成可操作的数据或信息，以提高业务流程的自动化程度，提升工作效率，降低成本。丁凯博士还为我们带来合合信息文档图像识别与分析产品分享，基于这样的智能文档处理技术，产品可以快速、准确地处理大量的文档，帮助银行、保险、物流、供应链、客户服务等多个领域数智化转型，实现更高效、更可靠的业务流程管理。

合合信息TextIn智能文字识别产品基于自研的文字识别技术、计算机图形图像技术和智能图像处理引擎，能够快速将纸质文档或图片中的文字信息转化为计算机可读的文本格式，在纸质文档电子化、办公文档/报表识别、教育类文本识别、快递面单识别、切边增强、弯曲矫正、阴影处理、印章检测、手写擦除等诸多场景中提供更好的文档管理解决方案，帮助企业实现数字化转型和自动化管理。

虽然GPT4-V为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展，但并没有完全解决图像文档处理领域面临的问题，还有很多问题值得我们研究，如何结合大模型的能力，更好的解决IDP的问题，值得我们做更多的思考和探索。

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
vue keep-alive标签的运用
keep-alive，想必大家都不会很陌生，在一些选项卡中会使用到。其实，它的作用大概就是把组件的数据给缓存起来。比如果我有一个选项卡，标签一，标签二，标签三。现在，我需要实现，当我在标签一的表单中输入内容后，点击标签二，再回到标签一，表单的内容依然存在。如果按以往的做法，不使用keep-alive，那是不能实现的。然而，我们只需要在选项卡的内容最外层包一个keep-alive标签即可。但这儿有一
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

大模型内容分享(二十六)：大模型时代，如何完成IDP智能文档处理领域的OCR大一统？

1 像素级OCR统一模型：UPOCR

1.1、为什么提出UPOCR？

1.2、UPOCR是什么?

1.3、UPOCR效果如何？

2 OCR大一统模型前沿研究速览

2.1、Donut：无需OCR的用于文档理解的Transformer模型

2.2、NouGAT：实现文档图像到文档序列输出

2.3、SPTS v3：基于SPTS的OCR大一统模型

3 大模型时代下的智能文档处理应用

3.1、LLM与文档识别分析应用

3.2、智能文档处理应用产品

你可能感兴趣的:(大模型(Foundation,Model),内容分享,AI(人工智能),内容分享,ocr,人工智能,模型)