中杯可乐多加冰

CCIG 2023 从视觉-语言模型到智能文档图像处理

前言

一、视觉-语言模型是什么？

二、视觉-语言模型可以用来做什么？

三、视觉-语言预训练模型

3.1、模型架构

3.2、训练目标

3.2.1、图像-文本匹配损失（ITM）

3.2.2、掩码语言建模损失（MLM）

3.2.3、掩码视觉建模损失（MVM）

3.3、SOTA模型

四、视觉到语言的数字化转型——智能文档分析

4.1、智能文档分析的技术难题

4.2、智能文档图像处理新应用

4.2.1、手写板发光擦除

4.2.2、文档图像篡改检测

4.3、智能文档图像处理利器

最后

前言

最近，中国图像图形大会（CCIG 2023）在苏州成功结束。本次大会以“图像图形·向未来”为主题，由中国科学技术协会指导，中国图像图形学学会主办，苏州科技大学承办。论坛邀请了5位学术界和产业界的专家做特邀报告，共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况，并探讨未来技术及产业发展趋势，本次大会，来自北京大学的邹月娴教授和合合信息的丁凯博士带来的报告令人印象深刻。

一、视觉-语言模型是什么？

视觉作为一种主要的感知模态，使我们能够感知和理解周围的世界，促使物体识别、运动感知和美景欣赏等能力的形成，是使我们能够与外部现实建立联系的一扇关键的窗口。

而语言则作为一种认知工具，是认知的媒介，用于思考、交流和表达。通过语言，我们使用抽象符号来表达概念、情感和思想，帮助我们组织和理解知识、推理和解决问题以及与他人进行沟通和合作。

在多模态领域中，视觉提供图像和视频的视觉信息，语言则提供文字和语音的语义信息，通过多模态输入的融合，模型能够从视觉与语言的相互关系中汲取灵感。通过结合视觉和语言信息，更全面地感知和认知世界，更好地理解和表达复杂的场景和任务。

视觉-语言模型是一种结合了图像和文本信息的典型跨模态模型，其主要目的是学习图像和文本之间的语义关系。它可以用于多种视觉-语言任务，例如图像描述生成、图像问答、视觉推理等。

二、视觉-语言模型可以用来做什么？

视觉-语言模型可以帮助计算机更好地理解图像和文本之间的语义关系，从而实现更加智能化的视觉-语言交互，其中包括但不限于以下几个方面：图像描述生成、视频理解和摘要生成、视觉问答、跨模态检索、视觉语音合成。

这里我列了一张表格，总结了视觉-语言中部分任务、数据集、评价指标及其主流模型：

类型任务输入输出数据集评价指标部分主流模型

生成图像字幕图像句子 COCO 、Flickr30K 、Flickr8K 、CC3M 、CC12M 、SBU Captions BLEU、METEOR、ROUGE 、CIDEr ,SPICE m-RNN、BUTD、AoANet、AutoCaption、ORT、CPTR

生成文本生成图像文本图像 COCO、CUB Inception Score、FID、R StackGAN、AttnGAN、DF-GAN

理解视觉问答图像+文本短语 VQA、VQAv2、DAQUAR、COCO QA VQA Accuracy SAN、BUTD、MCB、MUTAN

理解视觉推理图像+文本+图形文本 GQA、CLEVER、NLVR、VCR Accuracy NMN、N2NMN、PG+EE、TbD-net、NS-VQA、XNM-Det

检索图像-文本检索、文本-图像检索文本/图像图像/文本 COCO、Flickr30k、Flickr8K Recall@K, Median r MNLM、m-CNN、m-RNN、SCAN、Deep Fragment

类型	任务	输入	输出	数据集	评价指标	部分主流模型
生成	图像字幕	图像	句子	COCO 、Flickr30K 、Flickr8K 、CC3M 、CC12M 、SBU Captions	BLEU、METEOR、ROUGE 、CIDEr ,SPICE	m-RNN、BUTD、AoANet、AutoCaption、ORT、CPTR
生成	文本生成图像	文本	图像	COCO、CUB	Inception Score、FID、R	StackGAN、AttnGAN、DF-GAN
理解	视觉问答	图像+文本	短语	VQA、VQAv2、DAQUAR、COCO QA	VQA Accuracy	SAN、BUTD、MCB、MUTAN
理解	视觉推理	图像+文本+图形	文本	GQA、CLEVER、NLVR、VCR	Accuracy	NMN、N2NMN、PG+EE、TbD-net、NS-VQA、XNM-Det
检索	图像-文本检索、文本-图像检索	文本/图像	图像/文本	COCO、Flickr30k、Flickr8K	Recall@K, Median r	MNLM、m-CNN、m-RNN、SCAN、Deep Fragment

三、视觉-语言预训练模型

视觉-语言模型的训练通常分为两个阶段：预训练和微调。预训练阶段是在无监督的情况下，通过最大化某种预训练目标函数来学习模型参数。微调阶段是在有监督任务中对模型进行微调，以提高模型的表现能力。视觉-语言预训练模型是视觉-语言模型的一种预训练形式，旨在通过联合训练图像和文本数据，在无监督的情况下，通过最大化某种预训练目标函数来学习模型参数从而使计算机能够理解和表达视觉和语言之间的关联。这些模型通常使用大规模的视觉和语言数据集进行预训练，以学习图像和文本之间的对应关系和语义表示。

3.1、模型架构

视觉-语言预训练模型的典型架构是使用Transformer或类似的注意力机制模型。它由两个主要组件组成：视觉编码器和语言编码器。

视觉编码器负责处理图像数据，并将其转换为高维的视觉特征表示。这一过程通常通过卷积神经网络（CNN）来实现，将图像输入模型，并提取出图像的特征向量。这些特征向量捕捉了图像中的语义和结构信息。
语言编码器则用于处理文本数据，将文本转化为语义向量表示。常见的方法是使用循环神经网络（RNN）或Transformer模型，将文本序列输入模型，并将其编码为具有语义信息的固定长度向量。

从多模态融合的角度来看，视觉-语言预训练模型主要分为两种架构：单信息流体系结构和多信息流体系结构。

单流架构指将文本和视觉特征连接在一起，然后馈送到单个Transformer块中，如下图所示，单流结构利用合并的注意力来融合多模态输入。

多信息流架构是指文本和视觉特征不连接在一起，而是单独发送到两个不同的Transformer块，如下图所示。这两个Transformer块不共享参数，而为了获得更高的性能，一般使用交叉注意来实现跨模态交互。

3.2、训练目标

为了学习视觉和语言的联合表示，视觉语言预训练方法通常使用几个自监督学习损失来在大数据集上预训练模型，预训练方法主要有三种，分别是图像文本匹配(Image Text Matching)、掩模语言建模(Masked Language Modeling)和掩模视觉建模(Masked Vision Modeling)。

3.2.1、图像-文本匹配损失（ITM）

图像-文本匹配（Image-Text Matching，简称ITM）是指通过计算机视觉和自然语言处理技术，将图像和文本进行匹配和对齐的任务。其目标是衡量图像和文本之间的相似性或关联程度。ITM的目标是通过建立一个模型，能够将每个图像与其相关的文本进行匹配，以便衡量它们之间的相似性或相关性，其可以表述为一个二元分类任务：

$\mathcal{L}_{\mathrm{ITM}}=-\mathbb{E}_{(\mathcal{W}, V) \sim D} \log p(y \mid \mathcal{W}, V)$

其中，W表示文本符号序列，而V表示视觉内容，y=0时表示图像和文本匹配，y=1时表示图像和文本不匹配。

3.2.2、掩码语言建模损失（MLM）

掩码语言建模（Masked Language Modeling，MLM）损失是用于训练基于掩码语言建模任务的预训练模型的损失函数，被用来鼓励模型学习语言标记和视觉内容之间的隐式关系，其从已知的语言标记和视觉内容中重构被屏蔽的语言标记，使模型能够学习到单词的上下文表示和语义关联，可以被表述为：

$\left.\mathcal{L}_{\mathrm{MLM}}=-\mathbb{E}_{(\mathcal{W}, V) \sim D} \log p\left(w_{i} \mid \mathcal{W}_{\backslash i}, V\right)\right)$

其中，W\i表示没有第i个单词的句子，公式通过最大似然估计（MLE）计算掩码语言建模任务的损失，具体而言，其根据上下文W\i和可见特征V的信息，预测位置i的掩码单词wi的概率分布。然后，通过计算预测概率与真实值的交叉熵（取负号），得到对应位置的损失值。对整个数据集中的所有位置进行求和或平均，即可得到最终的MLM损失。

3.2.3、掩码视觉建模损失（MVM）

受MLM的启发，掩码视觉建模损失（Masked Vision Modeling，MVM）通过重构被屏蔽的视觉内容来学习语境化的视觉表示，其用于对图像中的掩模区域进行建模和预测，通过对图像中的一部分区域进行遮挡（或掩模），然后根据已知的图像信息预测被掩盖区域的内容。与具有词汇字典的语言模型类似，可视化建模与可视化字典（Visual Modeling with Visual Dictionary，MVMVD）需要一个视觉词汇字典(VD)，而MVMVD的目标是重建被屏蔽的VD令牌，其可以被表述为：

$\mathcal{L}_{\mathrm{MVM}}=-\mathbb{E}_{(\mathcal{W}, f(\mathcal{V})) \sim D} \log p\left(f\left(v_{j}\right) \mid \mathcal{W}, f(\mathcal{V})_{\backslash j}\right)$

其中，f()表示从图像网络到VD中可视标记的映射，j表示VD中掩码标记的索引。

3.3、SOTA模型

VisualBERT是第一个图像-文本预训练模型，它使用Faster R-CNN提取视觉特征，将提取出的视觉特征与文本嵌入连接起来，馈送到BERT初始化的单个转换器中。Unicoder-vl、UNITER、ImageBERT、VL-BERT等许多视觉-语言模型也采用了类似的特征提取和架构。

最近，VDBERT通过 迁移学习 对大规模图像-文本对进行预训练，对视觉和语言中的深层视觉-语言对齐进行建模。VLMO则利用图像的补丁嵌入和文本的单词嵌入，并将连接的嵌入与模态专家一起馈送到单个Transformer中，实现了令人印象深刻的性能。METER使用单模态预训练模型并提出了双流架构模型来处理多模型融合，从而实现了很好的性能。

四、视觉到语言的数字化转型——智能文档分析

随着数字化时代的到来，越来越多的企业和组织开始将纸质文档转化为数字文档，以提高工作效率和准确性。然而，随着文档数量的不断增加，如何高效地处理和分析这些文档成为了一个亟待解决的问题，丁凯博士为我们带来了智能文档处理技术的相关内容。

4.1、智能文档分析的技术难题

传统的文档处理方式往往需要大量的人力和时间，效率低下且容易出错。而智能文档分析是指利用人工智能技术对文档进行自动化处理和分析，例如文本分类、文本摘要、实体识别等。智能文档处理可以帮助人们更加高效地处理和管理文档，提高工作效率和准确性。

文档图像智能分析与处理是一个重要且极具挑战性的研究问题：

文档的场景和板式多样。不同的文档可能采用不同的排版方式和格式，这给文档的处理和分析带来了很大的挑战。
采集设备不确定，文档的来源和采集方式也会影响文档的质量和可处理性。
用户需求多样化，不同的用户可能对文档的处理和分析有不同的需求和要求。这就需要智能文档处理系统具备一定的灵活性和可定制性，以满足不同用户的需求。
文档图像质量退化严重。由于文档的保存时间和方式不同，文档图像可能会出现模糊、失真、噪声等问题，这会影响文档的识别和分析效果。
文字检测及版面分析。特别是对于复杂的文档，如手写文档、印刷体和手写体混合的文档等，文字检测和版面分析的难度更大。
非限定条件文字识别率低。由于文档中的文字可能出现各种字体、大小、颜色和方向，这会影响文字识别的准确率和效率。
结构化智能理解能力差。结构化智能理解即如何将文档中的信息进行结构化处理和分析，以便更好地理解和利用文档中的信息。因此，智能文档处理系统需要具备一定的结构化智能理解能力，以实现更加智能化的文档处理和分析。

4.2、智能文档图像处理新应用

作为一家专注于人工智能技术研发和应用的企业，合合信息一直致力于解决以上智能文档图像处理面临的各种技术难题，专注于智能文字识别、图像处理、自然语言处理（NLP）、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术，还为全球C端用户和多元行业B端客户提供身份证、票据数字化、PS篡改检测等智能图像处理产品及服务。

4.2.1、手写板发光擦除

在拍摄黑板上的文字时，由于光线的反射和折射，会产生反光干扰，影响手写内容的识别和显示。合合信息在手写板反光抑制技术中使用了背景提取模块和信息融合模块。

背景提取模块会对手写板的背景进行提取，并将手写内容与背景进行分离。基于深度学习的分割方法是最常用的方法之一，其通过使用卷积神经网络等深度学习技术，自动学习图像中的特征，实现高效准确的图像分割并将图像分为前景和背景，常见的方法有基于U-Net的深度学习背景提取方法和基于Mask R-CNN的深度学习背景提取方法。信息融合模块会将手写内容与背景进行融合，并将结果显示在手写板上。通过这种方式，可以有效减少反光干扰，提高手写板的使用效果，为用户提供更好的使用体验。

4.2.2、文档图像篡改检测

在数字化时代，文档图像的篡改已经成为了一种常见的问题，文档图像篡改检测技术可以有效地保护文档图像的完整性和真实性。传统基于文件标记篡改检测方法通过在文件中添加特殊的标记，用于检测文件是否被篡改。当文件被篡改时，标记的信息也会被改变，从而可以检测出文件的篡改。但该方法很容易受到篡改攻击的影响，一些高级的篡改攻击可以绕过该方法的检测，一些第三方软件已经可以抹除文档的Exif信息，已经存在很大的安全隐患。

基于此问题，合合信息提出了一种图像篡改检测系统，其主要包括两个方面：特征提取和篡改检测。特征提取是指从文档图像中提取出包括纹理、颜色、形状等一系列特征。篡改检测是指通过比较文档图像的特征，检测文档图像是否被篡改。

4.3、智能文档图像处理利器

合合信息 C 端产品方面的扫描全能王（智能扫描及文字识别 APP）、名片全能王（智能名片及人脉管理 APP）、启信宝（企业商业信息查询 APP）这些耳熟能详的产品覆盖了全球百余个国家和地区的亿级用户；

智能文字识别服务平台 TextIn，基于合合信息自主研发的领先的智能文字识别及商业大数据核心技术，也为面向企业客户提供以智能文字识别、商业大数据为核心的服务，形成了包括基础技术服务、标准化服务和场景化解决方案的业务矩阵，满足客户降本增效、风险管理、智能营销等多元需求。

合合信息专注于智能文字识别、图像处理、自然语言处理（NLP）、知识图谱、大数据挖掘等技术，很多产品已在银行、保险、制造业等多个行业得到了应用。

最后

本次大会，来自知名高校和企业的研究者们，围绕文档图像处理的前沿技术展开了“头脑风暴”，在文档图像处理领域的未来进阶方向上为我们带来了很多有意思的观点分析。

我认为在大模型时代，视觉-语言跨模态模型的研究已经成为一个重要趋势，它可以实现对图像和文本信息的联合建模和深度理解，从而提高文档图像处理的准确性和效率。在文档图像处理方面，其可以对图像和文本信息深度理解和分析，从而提高处理的准确性和效率。随着人工智能技术的不断发展和应用，我相信视觉-语言跨模态模型和文档图像处理技术将发挥越来越重要的作用。

3月8日，第②期"教育行走一起写吧"挑战300天活动第220天文章汇总小尘老师
3月8日，第②期"教育行走一起写吧"挑战300天活动第220天。我们的任务:每天一记录(500字以上自由写作)，每月一精品(2000字以上主题作文)我们的标准动作:写文（推荐）+挑战群中接龙（字数、题目+链接）+“教育行走一起写吧”小打卡圈打卡(字数、标题、内容)。每月精品文还需要登记在腾讯文档(链接入口查看群公告)2022年3月份主题文：“公益”(2000字以上精品文)特别提醒:打卡和接龙要求加
直返APP是什么?直返APP是干嘛的一起高省
亲爱的朋友们，你们是否对直返的概念感到陌生，或者对直返APP是否正规有所疑问呢？让我来用最简单、最直接的语言为你解答。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码555888，注册送2皇
《顿悟智慧禅文化》之八世界和平_众生安康
圣人同心，心灯相传传说中有一天，佛陀在灵山会上，亲手拈花，百万人天者都各自茫然，唯迦叶尊者破颜微笑。世尊乃曰：“吾有正法眼藏，涅槃妙心，实相无相，微妙法门，不立文字，教外别传，付嘱摩诃迦叶。”佛陀于是将法门付嘱大迦叶，“禅”就这样开始传承下来。佛陀曾经谈经三百余会，说法四十九年，三藏十二部经典，浩瀚无涯，无数的文字般若，薪火相传——而禅，微妙法门，教外别传；不立文字者，亦不离文字。往下之后，无论宗
手游内部福利号是什么意思官方手游内部扶持号在哪些平台拿诸葛村夫123
要说现在游戏中，平民玩家能白嫖的福利确实不多，但是礼包兑换码是其一，内部号，内测号是其二，下面小编就来给大家汇总一下目前最好用的游戏平台有哪些？手游内部福利号是什么意思官方手游内部扶持号在哪些平台拿排行榜第一：游人特权站官网-【目前拥有400多款游戏内部号的发放权】推荐指数：⭐⭐⭐⭐⭐游人特权站是大量游戏玩家的首选，其中最具代表性的就是内部号手游平台。它以多种多样的游戏玩法和丰富的游戏地图而受到众
配镜风波㴠佑宝妈
这几天虽然听了院长的课，但是我还是无力到了极点！原因还是老公闹的我心里不舒服。周五晚上导师班上课前，老公不吭声用我的钉钉登录在导师班群里诋毁心时代和院长，我被移出群，后来给婷婷说了情况又把我拉进群里，谁知道第二天早上上课才发现又被踢出钉钉群了，给婷婷联系才知道他半夜又登我的钉钉群又发诋毁信息，对于他的做法我的心真是凉透了，特别是他一而再的这样做，我有强烈的耻辱感！于是从周五晚上到现在非必要没再给他
早起一小时，你就赢了金塔488潘顺英
有位前辈跟我算过一笔账：如果每天早起一小时，一个月就比别人多了30个小时。这30个小时，你可以看完几本书，可以在一门新技能上初入门槛……人与人的差距就是这样逐渐拉开的。这笔账算得我热血沸腾，二话不说，当即着手去实施。可是这激情来得快褪去得也快，每天早上被闹钟吵醒的电光石火之间，就为自己找了无数的理由和借口开脱：睡眠不足影响一天的效率；学习不差这一会儿，先再补个觉；明天一定把今天欠下的补回来……等心
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
基于STM32单片机车牌识别系统摄像头图像处理设计的论文 weixin_112233 单片机单片机 stm32 图像处理
摘要本设计提出了一种基于32单片机的车牌识别系统摄像头图像处理方案。该系统主要由STM32F103RCT6单片机核心板、2.8寸TFT液晶屏显示、摄像头图像采集OV7670、蜂鸣器以及LED电路组成。在车牌识别过程中，STM32F103RCT6单片机核心板发挥着关键的控制作用。摄像头图像采集OV7670负责获取车辆的图像信息，能够清晰地捕捉车牌区域。采集到的图像数据传输至单片机进行处理，通过一系列
二维码：理解二维码 / 生成二维码 / 小程序支持哪种类型的二维码 / 小程序识别GS1码快雪时晴-初晴融雪前端前端
一、理解二维码1.1、概念二维码（2-dimensionalbarcode），又称二维条码，最早发源于日本，它是用某种特定的几何图形按一定规律在平面（二维方向上）分布的黑白相间的图形记录数据符号信息的；在代码编制上巧妙地利用构成计算机内部逻辑基础的“0”、“1”比特流的概念，使用若干个与二进制相对应的几何形体来表示文字数值信息，通过图象输入设备或光电扫描设备自动识读以实现信息自动处理。它具有条码技
如何为微信小程序添加二维码扫描和识别功能
为微信小程序添加二维码扫描和识别功能需要使用到微信提供的扫描二维码API以及相关的库函数。下面将详细介绍如何实现这个功能。一、创建小程序首先，你需要在微信开发者工具中创建一个小程序项目。在项目中，我们需要添加一个页面用于扫描二维码，以及相关的代码逻辑。二、添加扫描二维码页面在小程序项目的pages文件夹下创建一个新的页面，命名为scan。在scan页面的js文件中添加如下代码：constapp=g
python坦克大战名难取aaa python pygame 开发语言贴图
文章目录前言资源获取一、项目介绍1.pygame是什么？2.操作指南3.项目演示二、项目实现1.安装库2.引入库3.项目代码3.1主逻辑类3.2背景类3.3基类3.4坦克类3.5MyTank类3.6EnemyTank类3.7子弹类3.8爆炸类3.9墙壁类3.10水晶类3.11音乐类4.项目打包参考文档总结前言《坦克大战》，1985年由日本开发商南梦宫（Namco）开发，是第一款可以双打的红白机游戏
《寄诸用明书》心得汇鑫财税崔丹
今天从“凡后生美质，须令晦养厚积。天道不翕聚，则不能发散，况人乎？花之千叶者无实，为其华美太发露耳。”这句话中体会到人只有沉下心来学习，才能拥有真正的学问和本领，工作亦是如此。在工作中，如果你兢兢业业、诚恳负责，谦卑有礼，那么不管做什么你都能做出不一般的成绩。而如果你只会投机取巧，逃避责任，那么你将一无所成。一颗心，决定你的态度，也决定你一生的成就。
《黄帝内经》：顺应春天，向阳而生，护肝养心！ 761f79bdcdad
三月仲春，最宜养心《黄帝内经》说：“心为五脏六腑之大主，主明则下安，主不明则十二官危。”所以，护肝要先养心。这里的养心，并不是单纯意义上的心脏，还包括人的情绪、心境的控制。中医认为春季主木，肝火旺盛，如果日常生活工作遇到不顺心的事，就会脾气大容易发火。人生气时，人体会分泌一种叫“儿茶酚胺”的物质，作用于中枢神经系统，使血糖升高，脂肪酸分解加强，血液和肝细胞内的毒素相应增加。我国医学界也有人曾调查过
再不学画就老了，2019百幅图之小雏菊枫树林Fany
心素如简，人淡如菊图片发自App彩铅：得力72色油性彩铅纸张：普通A5素描纸图片发自App图片发自App图片发自App图片发自App图片发自App
特殊的经历我是静心
20190614:今天上午我们一行四人到市局送材料，谁知在市局审核材料时比较顺利，时间不长都结束了，此时已接近中午，送我们来的老师下午还有课，于是让他自己开车先回来了，留下我们办公室的三个女同事们在那，再办完别的事下午一块儿去逛街买东西。多年来，很少来洛阳逛商场，这次由两个小年轻同事做向导，我不用操啥心，一直跟着她两转，在百货大楼里转了半天都没停，待最后出商场门时已是下午六点多，这时估计回来的公交
触心朋友圈语录搁浅的流年
1你是我众所周知的喜欢，也是我明目张胆的宠爱。2“在这个世间，总有一些我们无法抵达的地方、无法靠近的人、无法完成的事、无法占有的感情和无法修复的缺陷。”——安妮宝贝《莲花》3“你不去努力，永远都不会有人对你公平。只有你努力了，有了资源、有了话语权以后，你才有可能为自己争取公平的机会。”——俞敏洪4“真正的失望不是怒骂，也不是嚎啕大哭，更不是冲你发脾气。而是沉默不语，是无论你做什么我都觉得和我再也没
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
信息差是什么，怎么可以利用信息差赚零花钱？古楼
在古代我们就能够看到交换信息是可以直接赚钱的，只要你这里有别人用得上的信息就能够赚到钱。当然想要通过信息差赚钱，一个是你能够第一时间得到信息，另外一个行动速度要快，当大家都知道了，自然也就赚不到钱了。天给大家介绍一款自用省钱分享赚钱神器！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。古楼导师高省邀请码16666
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
一事专注表践行体会：芝麻开门ENERGY
一事专注表践行体会（非官方，是个人收获）：【行动】上周除一天元旦假期外做到四天使用255工作，有两天按时下班并完成10个番茄钟（元旦前无打扰），有一天加班到19:00完成10个番茄钟。【收获】*如桌游带给我的收获，时间需要精打细算【尝试1】*在A区写下一件事，没有预估番茄钟个数，而是根据事情推移进展记录番茄钟个数*弊端：没有通过预估番茄钟设定时限，易导致事情进展较慢【尝试2】*在A区写下所有今日待
Python 代码生成 LaTeX 数学公式：latexify 示例 examples
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。latexify示例本notebook提供了多个使用latexify的示例。更多细节请参阅官方文档。如有任何疑问，请在issuetracker中提出。安装latexify#运行下方示例前请先重启运行时。%pipinstalllatexify-pyCollectinglatexify-pyDownloadi
如何海淘显卡？海淘能买到原价显卡吗？高省APP珊珊
海淘显卡的方法如下：【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。珊珊导师高省邀请码666123，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。准备双币信用卡和谷歌Chrome浏览器（可翻译
亚历山大的远征李翠花
书的作者是阿里安，一位罗马共和国时期的希腊人。当时希腊已经是罗马帝国的一部分，希腊化的塞琉古和托勒密也受到来自罗马的强大压力。作为一个亡国人，回想继往同胞的伟业，心生感触，因此不免有夸大嫌疑。亚历山大其人其事早已经是妇孺皆知了，他创建的亚欧帝国，极大的传播了希腊化文化，推动了技术的传播和发展。我只想聊聊亚历山大的一些闪光点，正是这些时刻给了我思考。在我看来，一个人的生与死是最大的闪光点。生，蕴含着
解惑 zzyy2222
大学同学向我哭诉她的遭遇，她偶然翻看老公的手机，发现他老公和其他异性的聊天记录。我的同学是非常贤惠的人，虽然也有工作，但是几乎承包了一切的家务，还有教育孩子的重担。他的老公每天晚上加班，两个人虽然居住在一起，却分居两室。一方面她要照顾孩子，另一方面他的老公也怕回来的打扰他们。这种生活看似波涛平静，但暗藏汹涌。两个人虽然身在一起，心离得却越来越遥远。我同学因为需要老公手机，随手翻到了老公和异性的聊天
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
揭秘FloodFill算法：图像填充利器 KENYCHEN奉孝 python实践大全算法 python 开发工具
FloodFill算法概述FloodFill是一种用于填充连通区域的算法，常用于图像处理、绘图工具（如“油漆桶”工具）和迷宫求解等场景。其核心思想是从一个起始点出发，向四周（四邻域或八邻域）扩展，直到遇到边界或满足停止条件。算法原理连通性定义：根据需求选择四邻域（上、下、左、右）或八邻域（包含对角线方向）作为填充方向。边界条件：填充需在指定区域内进行，遇到边界颜色或特定标记时停止。实现方法递归实现
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
买手机怎样挑选一部好手机？买手机需要注意哪些方面？金钱保卫科长
手机是人人不可或缺的一个通信工具，而且更新换代特别快，我们怎样才可以挑选一部好手机，可以使用好几年呢？买手机赶上年货节，先领红包吧，最高9999呢淘宝搜索：【开心领红包211】京东搜索：【我要大红包211】淘宝/京东/拼多多/唯品会/外卖等平台超级红包|活动无门槛红包https://www.chaojiyouhui选手机注意这三点，手机性能会更好，运行一般不卡顿1、处理器手机处理器相当于手机的“心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
随笔：读庄子之何为定？狗家的猫
晨起焚香微坐烧水取茶八年白茶入紫砂，焖泡，坐定翻开《庄子内篇.德充符》“常季曰：“彼为己以其知，得其心以其心。得其常心，物何为最之哉？”仲尼曰：“人莫鉴于流水而鉴于止水，唯止能止众止。受命于地，唯松柏独也正，在冬夏青青；受命于天，唯舜独也正，幸能正生，以正众生。夫保始之征，不惧之实；勇士一人，雄入于九军。将求名而能自要者，而犹若是，而况官天地，府万物，直寓六骸，象耳目，一知之所知，而心未尝死者乎！
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

CCIG 2023 从视觉-语言模型到智能文档图像处理

前言

一、视觉-语言模型是什么？

二、视觉-语言模型可以用来做什么？

三、视觉-语言预训练模型

3.1、模型架构

3.2、训练目标

3.2.1、图像-文本匹配损失（ITM）

3.2.2、掩码语言建模损失（MLM）

3.2.3、掩码视觉建模损失（MVM）

3.3、SOTA模型

四、视觉到语言的数字化转型——智能文档分析

4.1、智能文档分析的技术难题

4.2、智能文档图像处理新应用

4.2.1、手写板发光擦除

4.2.2、文档图像篡改检测

4.3、智能文档图像处理利器

最后

你可能感兴趣的:(心源易码,人工智能,计算机视觉,文档图像,深度学习,图像处理)