Vincy_King

【Image Captioning】Improve Image Captioning by Estimating the Gazing Patterns from the Caption

Improve Image Captioning by Estimating the Gazing Patterns from the Caption

Department of Computer Science, The George Washington University, CVPR 2022

Abstract

CNN等神经网络模型中提取的图像特征中产生类人描述方面达到了良好的性能。然而，之前没有一种明确的方法能够反映人类对图像的感知，比如凝视模式。在本文中，作者假设在image caption中的名词（即实体）及其顺序反映了人类的凝视模式和感知。为此，作者从caption中的单词中预测注视序列gaze sequence，然后训练一个指针网络pointer network来学习在新图像中给定一组object后自动生成gaze sequence。作者将pointer network生成的gaze sequence与现有的image caption模型融合，并研究其性能。实验表明，当使用object的gaze sequence作为额外特征时，image caption模型的性能显著提高。

1. Introduction

image caption是自动生成图像的human-like自然语言描述的过程。其能为医生提供指导和帮助视觉受损人士理解视觉内容。然而，image caption并不是一项简单的任务，它还受到了人类认知的启发，即图像感知（理解图像内容，包括物体及其关系）和句子规划和生成（用自然语言描述图像）的启发。

为了生成一个image caption，目前最先进的模型严重依赖于CNN和R-CNN来提取视觉特征作为模型的输入。这些研究仅仅依赖于这些特征，而没有明确地建模图像的细微差别和caption之间的关系。最近的研究提出了不同的机制来解决这个问题，注意机制可以隐式地学习图像中实体和区域之间的关系。也有研究将图卷积网络集成到图像编码器中以学习图像中对象之间的关系。虽然这些模型可以成功地生成human-like caption，但这些图像并不能用于字幕的目的。具体来说，CNN和R-CNN分别构建和训练用于识别和检测目的，但这些图像并不是为了caption而被感知的。研究表明，在检测和描述任务中，人类的感知（特别是凝视模式）是不同的。因此，图像编码器可以通过从反映图像最初描述时的凝视行为的caption中获得的显式视觉特征来增强。

一些工作利用凝视信息来提高image caption模型中的注意力。这些研究表明了将凝视信息整合到image caption中的有效性。然而，凝视信息是从眼球追踪系统中提取的，这是昂贵的，并不是所有的研究人员都可以获得的，目前并没有研究提出一种在没有使用眼球追踪系统的情况下为看不见的图像生成注视信息的方法。在本文中，作者假设当人类最初生成由心理语言学研究驱动的caption时，caption中提到的实体可以反映人类对图像的感知，这表明单词生成与眼球运动之间存在关系。例如，许多研究人员研究了描述图像的说话者的句子产生，同时跟踪他们的眼球运动。

现有研究说明，凝视物体的顺序与在一个句子（描述）中提及这些物体的顺序是相关联的。caption中提到的实体是人类选择描述的更多的重要对象，它们的顺序反映了人类最初生成标题时对图像（凝视模式）的感知。本文开发了一个基于指针网络的模型，该模型从caption中的实体中学习，自动生成gaze sequence，然后将学习到的gaze sequence集成到image caption模型中。指针网络已被广泛用于排序句子或故事。作者将这种凝视模式作为一个子网络集成到当前的image caption模型中。

贡献如下：

直接从说明中提到的实体来估算凝视模式，而不是使用昂贵的眼球追踪系统。
提出了基于指针网络的注视模式预测模型，该模型可以自动生成看不见图像的注视模式。
提出了一个 model-agnostic的凝视模式子网络，它可以作为一个附加的视觉特征集成到image caption模型中。

2. Related Work

Image Captions. 大多数image caption方法利用CNN对图像进行编码，并将递归神经网络作为语言模型。为了进一步提高图像字幕模型，在image caption模型中引入了注意机制，使图像编码器和语言模型之间有更多的交互。更具体地说，每个区域的重要性得分被计算出来，同时生成一个特定的单词，然后用softmax函数进行归一化；然后将这些分数应用于区域，以反映其在生成该单词中的重要性。图像的区域要么表示为从固定大小网格CNN特征中提取的向量，语义属性，或者表示为从R-CNN检测区域中提取的自下而上的特征。为了生成丰富的图像描述，大部分研究引入了具有多个lstm的从粗到细的多阶段模型，从早期阶段生成粗描述到后期阶段为描述添加细节。此外，Transformer已被用于image caption作为图像编码器或作为语言建模。在这项工作中，我们专注于通过利用可以从caption中学习到的视觉特征来增强基于LSTM的image caption模型。

在image caption模型中，一些工作提出了提高视觉特征的方法，通过将图卷积网络集成到图像编码器。比如整合图像中对象之间的语义和空间关系，或明确地将该关系建模为卷积图中的一个附加节点。

与本文工作类似，Cornia等人和Alahmadi等人集成了在caption中的实体与他们相应的序列或区域集对应的image caption模型。相反，本文学习的凝视序列更有可能是由人类自动描述图像而产生的，且提出的凝视预测模型可以嵌入到不同的image caption模型中，以提高其性能。

Image Captions with Gazing Information.

很少有研究将注视信息结合注意机制来改进image caption模型。注视数据从眼球追踪系统中获得，然后整合到注意力模型中。一些研究将凝视数据汇总成一个静态显著性图，而没有考虑它们的顺序性质。其他研究将顺序注视信息在图像标题中整合，以提高注意。与之前的研究不同，本文从标题中自动提取凝视模式，而不是使用获取成本昂贵的眼球追踪系统。我们使用学习到的凝视数据作为模型的输入，而不是替换或增强注意机制。

3. Model

模型体系结构的概述如图2所示，由两部分组成：1) Gazing Pattern Prediction Model：用来产生gaze sequence；2）Image Caption with Gazing Sequence：融合gaze sequence的image caption模型。

3.1 Gazing Pattern Prediction Model

图像描述由可以在视觉上基于图像区域的单词序列组成。根据这些描述和它们在图像中的基准区域grounding regions，可以构建一个图像区域序列，以反映它们在caption中的顺序，并称之为gazing sequence R。

$R=[r_1,r_2,...,r_n]$

其中 $r_t$ 是 $t$ 位置的一个与caption中的一个实体相关联的区域，n是注视区域的数量gazed regions。

给定 $m$ 个区域 $r = [r_{o_1},r_{o_2},...,r_{o_m}]$ 的任意顺序 $o=[o_1,o_2,...,o_m]$ ，其中 $r$ 是R-CNN检测到的区域集合， $o$ 是它们的任意顺序， $m$ 是R-CNN检测到的区域数。该小结的目的是通过最大化 $P(o^∗|r)$ 找到最接近gold order $o^∗= [o^∗_1，o^∗_2,...,o^*_n]$ 来找的凝视序列R的顺序 $\hat{o}=[\hat{o_1},\hat{o_2},...,\hat{o_n}]$

$P(o^∗|r)>P(o|r) \forall o \in \psi$

其中 $ψ$ 是 $o$ 的所有排列的集合， $n$ 是caption中提到的区域数， $n \leq m$ 。

3.1.1 Model Features

一个区域 $r_t$ 通过连接三个特征来表示：视觉、文本和空间特征，例如： $r_t=[v_t;t_t;l_t]$ 。从Faster R-CNN中提取视觉特征，然后由两个全连接层进行处理，文本特征是对该区域的类标签的glove嵌入，并由一个全连接层进行处理。空间特征是区域边界框的标准化位置和大小。然后通过一个完全连接的层对所连接的特征进行编码。

3.1.2 Pointer Network

作者使用指针网络对注视模式预测进行建模。指针网络由Bi-LSTM作为编码器，从任意顺序的区域序列中学习特征，而LSTM作为解码器，学习指向区域以生成凝视序列。用从编码器中学习到的特征来初始化解码器中的第一个时间步长。剩余的时间步长使用从上一步学到的信息。解码器还利用来自注意机制的信息，计算所有编码器输入的概率分布；概率最高的区域被选择为位置 $i$ 中的区域。

$h_i^d,c_i=LSTM(h^d_{i-1},c_{i-1},r_i)$

$u_j^i=v^T tanh(W_1h_j^e+W_2h_i^d)$

$P(r_i|r_{i-1},...,r_0)=Softmax(u^i)$

其中 $v∈R^d$ ， $W_1$ 和 $W_2∈R^{d×d}$ 可学习参数， $j \leq m$ 和 $P(r_i|r_{i-1},...,r_0)$ 是时间 $i$ 下chosen region的概率， $u^i_j$ 是在输入作为指针输入元素的输出分布。在时间步长 $i$ 处对解码器的输入是先前预测的区域。在第一个时间步中，输入是图像的特征，因此模型可以在指向第一个区域之前拥有上下文信息。

备注：Pointer Network 计算 Attention 值之后不会把 Encoder 的输出融合，而是将 Attention 作为输入序列 P 中每一个位置输出的概率。这也是为什么本文使用pointer network的原因。

3.2 Image Caption with Gazing Sequence

3.2.1 Model-agnostic Gazing Pattern Sub-network

本文基于LSTM（简称VisualLSTM）以指针网络生成的注视区域序列 $x_0,x_1,x_2,...,x_n]$ 作为输入，并得到隐藏层向量 $h_n^v=VisualLSTM(x_n,h_{n-1}^v)$ 。其中n为regions的数量。在此基础上，再用一个LSTM（简称LanguageLSTM）进行优化，得到 $h_e^1=LanguageLSTM(w_1,h_{n}^v)$ ，其中 $w_1$ 是caption第一个word 的word embedding。

3.2.2 Integrating Image Captioning Models with Gazing Patterns

作者整合凝视模式子网络三个基线image caption模型：不应用任何注意的Neural Image Captioning (NIC)，应用注意固定网格CNN特性的Adaptive attention model (Ada-att)和应用注意自下而上特性的Attention on attention model (AoA)。

这三个模型都使用LSTM作为编码器来生成caption。在NIC中，图像被编码到从CNN的最后一层提取的特征向量中。作者选择NIC作为基线之一，以展示将凝视模式集成到一个简单模型中的有效性，并将其性能与注意力模型进行比较。另一方面，Ada-att和AoA都是基于注意力的模型。在生成一个单词时，Ada-att动态地决定是否参加卷积图中的一个区域。AoA通过添加一个加权最终注意信息的注意门来扩展注意操作符。

4. Experiments

4.1 Datasets

对于gaze sequence prediction模型，使用公开可用的COCO entities release，其为COCO图像caption数据集提供的caption中的每个实体提供了一个带有边界框和类标签的区域。这些区域与预先训练的快速R-CNN模型检测到的区域相连，在ImageNet 和Visual Genome数据集上训练ResNet-101，以提供自下而上的特征，获得每个区域2048维向量。注视模式预测模型的输入是被检测区域的shuffled set。

对于image caption模型，使用MS COCO数据集，其包含123,287张图像，作者剔除了在整个训练语料库中出现次数小于5次的单词。

4.2 Conditions

+GP： gazing pattern generated by pointer network

+GT-Seq： ground truth gazing sequence

+GT-Set： the ground truth gazing set extracted from the captions

4.3 Image Captions Results

Gazing Pattern Sub-network Performance.

所有的image caption模型都在一定程度上受益于凝视模式子网络。
在NIC（NIC+GP）中集成凝视子网络时，所有指标的显著改善。

Attention vs. Gazing Pattern

NIC+GP在注意力方面略优于NIC。
NIC+GT-Seq与NIC+Att性能存在显著差异。
NIC+GT-Seq的性能与Ada-att+GT-Seq相当，但NIC+GT-Seq仍然低于AoA。

Ground Truth Gazing Sequence and Set.

用两种凝视模式来评估image caption模型的性能：the ground truth gazing sequence and the ground truth gazing set。这两个模式都包含相同的object。ground truth gazing sequence（+GT-Seq）包含了根据其在caption中的位置进行排序的object，ground truth gazing set（+GT-Set）是在caption中提到的一组object。
该实验的目的是测试被注视的序列中物体的顺序是否会对性能产生影响。使用GT-Set训练模型显著提高了基线的性能，因为模型有关于更有可能被描述的对象的信息，而不管它们的顺序如何。这表明了在凝视模式中包含凝视对象的重要性。从GT-Seq中可看出在凝视模式中保持顺序可以进一步提高性能。
AoA+GP的性能与其使用ground truth注视模式的性能相当。

Comparison with state-of-the-art model.

比较AoA+GP与最先进的模型在offline COCO Karpathy test split上的性能。我们报告了两种优化的结果：交叉熵损失和CIDEr优化。

4.4 Gazing Sequence Model results

PtrNet-GP的性能显著优于Sinkhorn network。指针网络选择重要的对象，然后根据caption中的实体顺序对它们进行排序，而Sinkhorn网络只对预先选择的对象进行排序。
为了进行公平的比较，作者训练了指针网络模型对caption PtrNet-order中已经提到的区域进行排序。PtrNet-order的性能显著优于Sinkhorn网络。

4.5 Qualitative Results

虽然AoA可以生成与图像相关的字幕，但添加凝视模式可以产生更准确的描述。

5. Conclusion

本文我们提出了一个凝视子网络gaze sub-network，它将人类感知作为image caption模型的附加视觉特征进行建模。首先从caption中的实体中估计凝视序列gaze sequence，然后采用自动产生类似序列的指针网络point network。实验表明，在图像编码器中添加一个凝视模式作为一个附加的特征提高了image caption模型的性能。

6. Limitation

gaze sequence prediction模型的数据集和image caption的数据集不一样，并不能确保gaze sequence prediction训练出来的模型能够很好的去预测image caption中的gaze sequence。
虽然可以不使用昂贵的眼动仪，但并没有理论和实验证明这种预测方式是否真的符号人类浏览过程。

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
Cesium加载各类数据总结 zhu_zhu_xia cesium JavaScript javascript
接触到的加载数据类型：源地图、shp、Geojson、png、wms、地形底图一.Cesium加载各类底图#此类加载的本质在于newCesium.ImageryProvider()Apidefination：“Providesimagerytobedisplayedonthesurfaceofanellipsoid.Thistypedescribesaninterfaceandisnotinten
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Excel控件Spire.XLS 更新至7.12.144 | 附下载 cocacola456 文档管理更新 Excel控件 Spire.XLS更新 Spire.XLS Spire.XLS下载
Excel控件Spire.XLS更新至7.12.144，修复了转换PDF时字幕对齐的问题。Spire.XLS7.12.144更新修复修复了将Chart转换为Image时图表数据标签重复的问题。修复了CalculateAllValue方法抛出异常的问题。修复了将工作表转换为PDF时图表字幕对齐不正确的问题。
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
STM32 ADC详解月入鱼饵 stm32 嵌入式硬件单片机
本文介绍stm32ADC的使用，本文较长，可以配合目录跳转到需要的地方阅读。ADC转换原理本文重点在于STM32的ADC的使用，介绍ADC转换原理是为了更好理解STM32中关于ADC的配置，所以这里只是简单介绍一下ADC的转换原理，想详细了解ADC的转换原理可以看看看完这篇文章，终于搞懂了ADC原理及分类！和ADC基本工作原理-CSDN。简单来说，模拟信号输入进来，经过低通滤波操作预处理信号之后，
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
三、【docker】docker和docker-compose的常用命令
文章目录一、docker常用命令1、镜像管理2、容器管理3、容器监控和调试4、网络管理5、数据卷管理6、系统维护7、实用组合命令8、常用技巧二、docker-compose常用命令1、基本命令2、构建相关3、运行维护4、常用组合命令5、实用参数一、docker常用命令1、镜像管理#查看本地镜像dockerimages#拉取镜像dockerpull:#删除镜像dockerrmi#构建镜像docker
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
微信小程序开发：从漫画阅读到商业变现永远的12
本文还有配套的精品资源，点击获取简介：微信小程序作为一种轻量级应用平台，在无需下载安装的情况下提供便捷服务，尤其在漫画阅读领域得到广泛应用。本文介绍了微信小程序的基础开发框架，包括WXML、WXSS和JavaScript的使用，以及漫画小程序的核心功能设计，如漫画分类、搜索、详情展示、阅读模式等。同时，探讨了在小程序中加入广告ID以实现商业变现，包括广告组件的集成和广告政策的遵守。最后，强调了漫画
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
Kotlin协程使用
一、开启协程的方式1、顶层开启协程的函数基本使用://方法一，使用runBlocking顶层函数runBlocking{ getImage(imageId)}//方法二，使用GlobalScope单例对象// 可以直接调用launch开启协程，或者aysnc需要await接收结果GlobalScope.launch{ getImage(imageId)}//方法三，自行通过Coro
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
原生微信小程序研发，如何对图片进行统一管理？清颖~ 前端小程序微信小程序小程序
目标：统一在配置文件中管理图片，用变量存储，换图标时只需修改链接即可，无需更改业务代码，且方便查找。tips:不建议在asset中存储大量图片，原因是官方要求小程序内存要限制在2M以内，图片放多了占资源，会扩大包体积。若仅放几个代表性小图标则影响不大。1.创建config/img文件，放置图片链接，方便统一管理管理图片的cdn链接(或其他链接，只要能加载出图片即可)//config/image.j
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
超越RAG的搜索革命！分层框架让AI像专家团队一样深度思考 Python_金钱豹人工智能深度学习网络知识图谱大数据
❝一句话概括：与其训练一个越来越大的“六边形战士”AI，不如组建一个各有所长的“复仇者联盟”，这篇论文就是那本“联盟组建手册”。（原论文题目见文末，点击阅读原文可直接跳转至原文链接，Publishedonarxivon03Jul2025,byRenminUniversityofChina）*第一阶段：核心思想概览**论文的动机*在面对“未来的家庭娱乐会是什么样？”或“结合最新的财报和市场趋势，分析
从原理到实战：ISP（图像信号处理器）深度解析与应用指南
从原理到实战：ISP（图像信号处理器）深度解析与应用指南摘要本文系统解析ISP（ImageSignalProcessor，图像信号处理器）的核心功能，详细拆解其工作流程（RAW处理→黑电平校正→AWB→3DNR→Defog→Gamma），深入解读关键参数（吞吐量、WDR类型、低照度性能）的技术意义，并详解寄存器表与在线调试工具的配置方法。通过表格对比、分点解析等方式，从基础原理到工程实践，覆盖IS
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
android mvvm官方demo,Android mvvm架构demo(DataBinding+LiveData+ViewModel+ Repository)
1.实现效果实现页面加载Bing每日一图的功能2.项目结构image(忽略没有按分类创建).png3.实现过程1.注入依赖//ViewModel与LiveDataimplementation"android.arch.lifecycle:extensions:1.1.1"//图片加载implementation'com.github.bumptech.glide:glide:4.9.0'//网络请
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb