August-us

视觉问答综述（VQA Datasets Alogritgms and Future Challenge）

视觉问答领域中的数据和评价指标

视觉问答简介
数据集特点

DAQUAR(DAtaset for QUestion Answering on Real-world images)
COCO-QA
VQA Dataset
Freestyle Multilingual Image Quenstion Answering(FM-IQA)
Visual Genome

Visual7W

SHAPES

评价指标

准确率
Wu-Palmer Similarity (WUPS)
共识评价
手动评估

下一篇 [视觉问答领域中的常用方法](https://august-us.blog.csdn.net/article/details/106103435)

此文章仅作为交流讨论之用，文章中如果有我理解不到位的地方欢迎指出。文章中大部分内容来源于VQA Datasets Alogritgms and Future Challenge这篇文章，因为本人的认知容易出现错误，建议大家阅读原文对内容有个直接的认识。

视觉问答简介

首先视觉问答是把图像和关于图像的自然语言问题作为输入，针对问题生成自然语言答案作为输出。可以看到这实则是一个跨领域的任务，既包含了计算机视觉(CV)，又包含了自然语言处理(NLP)。同时视觉问答因为问题的不同，可以被划分到多个计算机视觉领域。比如：

物体识别：What is in the image?
目标检测：Are there any cats in the image?
属性分类：What color is the cat?
场景分类：Is it sunny?
计数问题：How many cats are in the image?
谈到了特点，就可能会联想到图像描述(Image Caption)，视觉问答与图像描述还是有区别的，前者在于学习图像中的信息，针对问题进行回答，后者则是针对图像信息生成描述的话。显然前者就偏向于针对特定的任务，是面向问题的，而问题的空间则可能是非常巨大的，并且针对一个图像的问题可能有很多个，而后者只需要针对图像的主干信息生成一些正确的描述，不需要全面的了解图像。
视觉问答的潜在应用又在哪里，最直接的应用就是为盲人和视觉障碍人士提供帮助。此外还可能对于人机交互和信息检索有所帮助。

数据集特点

数据包括图像数据和问题数据，两者成对出现，我们先了解问题是什么样的。大致有这么两种模式，一种是开放式问题(Open-Ended)，一种是选择题(Multiple-Choice)。
开放式问题一般没有固定答案。选择题则是针对特定的问题，提供一些候选答案，系统只需要在多个答案中进行选择即可。相当于把问答转换成了分类。选择的结果优于开放式问题的结果，但是所有的方法都比人表现的差很多。

DAQUAR(DAtaset for QUestion Answering on Real-world images)

最早的数据集，也是最小的之一。328,000张图像，91种目标类别，2M个标签实例，平均每张图像5个描述标签，它包括基于NYU-DepthV2数据集的图像的6795个培训和5673个测试问答对。
如果仅使用其中37个类别就得到了DAQUAR-37，包括3825个训练和297个测试问答对。
最早的数据集，问题也比较多。

首先就是数据量小，数据量小则不足以构建复杂的模型。
经常在像素上会产生损坏和混乱，低分辨率也是一个问题
仅包含室内场景，内容混乱，灯光昏暗，即使人类也只能实现50.2%的准确率
在该数据集上，单单使用问题不看图像比两者都用性能竟然还好
问题的答案被约束在有限类型中，特别是把开放问题转成单选问题
数据集有强烈的不平衡偏向(bias)

COCO-QA

数据集基于COCO图像数据集，把COCO划分成四种问题，仅限于COCO标题描述的种类，其中包括counting(7.47%), location(6.10%), color(16.59%), object(69.84%)。使用图像描述算法生成的描述，然后对之建立了问题，比如对描述中的物体提问，举个例子，A boy is playing Frisbee可以生成问题What is the boy playing? 这时，连答案也都一同产生了。感觉这个过程有点类似于bert的mask技术。
数据量包括78,736个训练和38,948个测试问答对，每个问题的答案都是一个词，因为比较好生成。也因此，这么多问题，只有435个无重复答案。同时一个词的答案，评估也就更加容易一些。
问题在于NLP算法生成的句子，不能很好的应对词法和句法的变化，会导致尴尬的提问句子和许多语法错误。

VQA Dataset

数据来源于COCO的真实图像和合成的抽象卡通图像，比较侧重于COCO的真实图像，真实场景的部分又叫COCO-VQA，合成部分叫SYNTH-VQA。
其中COCO-VQA相对其他数据集，数据量算是非常大的，总共14,163个问答对，其中包括248,349 训练, 121,512 验证还有244,302个测试数据。
SYNTH-VQA包含50000张卡通合成场景，100个不同目标，30个不同动物模型，20个人类模型，包含变形的四肢，八种不同的面部表情，囊括不同的年龄，性别和种族。每张图像三个问题，每个问题十个答案。通过生成可以创建更多多样化和平衡的数据集。
问题类型包括单选和开放式，单选包含18个不同的选项。
数据集问题：

许多问题可以不需要使用图像然后准确回答，仅看问题不看图像就能取得49.6%的准确率，如：树是什么颜色的问题就有70个。
许多问题力求解释性或者具有冗长的描述，同时体现了人类标注的不可靠。回答是否的问题占比38%，而且其中59%的答案是yes，最常见的答案yes，可能对给定问题是完全错误的。
主观问题容易造成分歧，且缺乏客观的答案

Freestyle Multilingual Image Quenstion Answering(FM-IQA)

另一个基于COCO的数据集，原始问题收集是中文的，提供了英文翻译。
数据集允许答案是完整的句子，所以很难使用指标评价，作者建议人类来评估，主要来判断答案是否由人提供，以及评估答案的等级质量{0,1,2}。所以代价昂贵，难以开发和部署。

Visual Genome

由108249张图像组成，图像同时出现在YFCC100M和COCO中，平均一张图17个问题答案对，总共1.7M问答对。相比于其他数据集，问题多样性更丰富，1000个最常出现的答案仅仅覆盖了0.65的答案。
问题的多样性给指标评估带来巨大挑战，答案倾向于选择更加简洁的回答，来消除答案的多样性。
尽管答案的长度具有长尾分布的特性，但是相对于其他数据集较好，一个单词的答案占比57%, COCO-VQA是88%, COCO-QA是100%,DAQUAR是90%。
提问有两种形式，一是自由提问，自由提问的时候标注者容易问图像全面信息的问题；另一种是基于边框对图像区域提问，这是作者鼓励的方式。
问题类型可概括为六W问题，即Waht，Where，How，When，Who，Why。没有回答是否的问题。

Visual7W

Visual Genome的子集，包含其中47300张数据，这些数据同样出现在COCO中。此外还包括指向性任务(which提问的问题)，相对于Visual Genome，在6W提问的基础上加了一种which的问题，例如Which object can you stab food with？
使用单选框架作为标准评估，评估过程中使用四个可能的答案，干扰选项是通过让标注者不看图像回答问题得到的合理的答案。对于指出性问题，选项则是围绕答案的四个合理的边界框。

SHAPES

有不同的排列，类型，颜色变化，形状，属性，关系和位置的数据组成，这样创建了大量数据，而不会其他数据集中的bias(偏向)问题。总共由244个独立的问题组成，每个问题都会询问数据集中的64张图像，以实现偏向的消除和数据平衡。
所有的问题都是是否类型，许多问题需要对形状的布局和属性进行位置推理。如针对下图中的问题。

计数问题：How many triangles are there
空间推理(spatial reasoning)：Is there a red shape above a circle
推断： Is there a blue shape red

在其他数据集上运行良好的算法很难在SHAPES上表现很好，可能是因为其他数据集中方法仅仅捕获了有限的信息。

评价指标

通常来说一个好的数据集，应该足够大以捕捉真实世界场景中问题和图像内容中的各种可能性，还应该有一个公平的评估方案。评价指标大多和数据相关，这里大致整理一下常用的评价指标。

准确率

选择问题可以使用简单的准确率作为度量指标，比较好评价是对的是错的。但是准确率很难使用在开放式问题上，如果要使用，则需要预测答案完全匹配真实答案，这个通常是很难的。
但是使用准确率的有点在于，简单而且容易解释。适用于少数独特的答案。缺点同样很明显，那就是错误不能够进一步的区分，对于不同错误惩罚是相同的。比如答案是秃鹰的时候，鹰和鸟就应该比斑马更接近正确答案，而不该有相同的惩罚。答案的完全匹配也不适用答案是句子或者短语的情况，同时会带来特殊答案的大量生成。

Wu-Palmer Similarity (WUPS)

上述提到不同的错误的需要有区分，就有想法通过语义来度量这个区分性，有些答案与真实标注更加接近，则应该具有较少的惩罚。依赖于WordNet提出语义树，来对答案和基本事实中的词语构建相似性距离来度量预测结果与答案之间的差距。根据两个单词的语义找到最不常见的使用，并根据需要遍历语义树的距离找到该共同使用者，然后分配相似性分数，取值范围在
通常来说语义相似但是不相同的参数惩罚相对较小。例如bald eagle和eagle的相似性是0.96，而bald eagle和bird的相似性是0.88。但是即便非常不相关的词，WUPS分配的相似性也不是很小，为了克服这一点，提出了基于阈值的WUPS，低于阈值的分数将会以一个比例缩小，比如阈值设置为0.9，低于阈值的分数将乘以0.1。这种方法常用于DAQUAR和COCO-QA性能的标准度量。
也因此，这种指标具有易于评估简单的特点，同时对答案之间的未系哦啊差异变化和错误比较宽容。即便如此这种指标还是会存在一些问题。比如依赖于语义相似性，对于语义的差异刻画的不是很准确，黑色，绿色和红色的相似性也都很高。而且只能在小词的条件下工作，不适于句子和短语。并且只有在词汇之间具有WordNet含义时才起作用。

共识评价

DAQUAR数据集，为每个问题平均收集5个标注。然后指向以下两种度量。平均共识(average consensus)：最终分数会通过加权倾向于标注者提供的更流行的答案，有多个独立的Ground Truth答案，设置频率最高的是正确的。最小共识(min consensus)：答案需要至匹配一位标注者。
而在VQA数据集中，与准确率度量一起使用， $Accuracy_{VQA}=min\left(\frac{n}{3},1 \right)$ 。意味着如果预测结果与3个人以上的标注的答案一致，这就是完全正确。这样就能够较好的解决歧义问题。
这个指标也会存在很多问题，比如在COCO-VQA使用这种方式上实现的最高准确率是0.833，不可能完全准确。而且有59%的why问题答案少于三个标注者，
这种评价的优点在于可以处理相同答案的常见差异，如果差异答案也很常见，也可能正确。而且一旦收集了标注数据之后，比较容易评估。
但是缺点也比较明显，收集真实答案比较麻烦，因为通常需要多个标注。而且不同的人之间缺乏共识，允许一个问题具有多个正确答案，甚至有些答案是完全相反的语义(在…左边，在…右边)。还有13%的yes/no数据同时存在两种情况，并且两种情况都超过三个人，也就意味着都是对的。这就是因为多数的答案没有在权重上起到作用。这些问题也使得评估结果更好，在所有回答是否的问题上回答yes，分数是71%。
这种指标反而不适用于开放性问题。

手动评估

就是使用人类来判断评估答案是否正确。在FM-IQA中提出两种评价方法，第一种指标是判断答案是否由人产生的。但是显然单独使用这个指标无法很好的指示系统的性能，而且评价容易被潜在先验操纵。
第二种通过3-point评分正确性，把答案的级别分为三级然后对答案的性能进行评级，0：完全错误，1：部分正确，2：完全正确。
手动评价的优点在于变化的答案容易被评价，也能够很好的处理句子短语答案和句子答案。但是随之而来的缺点就是成本高，需要耗费时间和资源，并且很难反复的训练测试来提升算法的性能，因为每一次训练和测试都是很大的人力开销。除此之外使用人力评估，必须制定明确标准的指导方案，以便在判断之间产生良好的协议，能够正确评估。
认真去学习，感觉这里的内容真的是非常多，我也写的累了，感觉本文已经达到了别人太长不看的标准了，但是好像VQA的相关算法才是重点，见下一篇文章。

下一篇视觉问答领域中的常用方法

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明 zhxup606 C++c++开发语言
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明。根据搜索结果，C++人脸考勤系统通常使用OpenCV库进行人脸检测和识别，这需要一定的库配置和基础知识。以下是一个基于OpenCV的简单人脸考勤系统源码示例，适合初学者理解，代码实现基本功能：捕获摄像头画面、检测人脸、记录考勤信息，并保存到文件。C
探索虚拟世界的裂缝：CVE-2021-3929与3947漏洞利用工具详解缪昱锨Hunter
探索虚拟世界的裂缝：CVE-2021-3929与3947漏洞利用工具详解去发现同类优质开源项目:https://gitcode.com/在安全研究的最前沿，有一类工具因其独特魅力和教育价值而备受关注。今天，我们将深入探讨一个面向专业安全研究人员与对系统底层运作好奇者的开源项目——CVE-2021-3929-3947，这是一套针对特定虚拟机逃逸漏洞的实际演示代码。项目介绍本项目旨在展示如何利用已知的
【安全漏洞】深入剖析CVE-2021-40444-Cabless利用链 IT老涵安全网络漏洞安全安全漏洞网络安全
背景CVE-2021-40444为微软MHTML远程命令执行漏洞，攻击者可通过传播MicrosoftOffice文档，诱导目标点击文档从而在目标机器上执行任意代码。该漏洞最初的利用思路是使用下载cab并释放、加载inf文件的形式执行恶意代码。独立安全研究员EduardoB.在github公开了一种新的“无CAB”的漏洞利用方法及其POC。公众号之前发布的研判文章中已对在野利用中出现的新的Cable
深入剖析 CVE-2021-3560 与 CVE-2021-4034：原理、区别与联系 vortex5 安全 web安全
CVE-2021-3560和CVE-2021-4034是2021年曝光的两个Linux本地权限提升漏洞，均涉及Polkit组件。由于它们影响广泛且利用门槛较低，迅速引起安全社区关注。本文将深入分析这两个漏洞的技术原理、影响范围、区别与联系，并结合实际案例，提供缓解措施及安全建议。1.CVE-2021-3560：Polkit认证绕过漏洞1.1漏洞原理CVE-2021-3560是一个认证绕过漏洞，源于
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
OpenCV CUDA模块设备层-----线性插值函数log() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样。主要应用于图像缩放、旋转等几何变换中需要亚像素级精度的场景。为输入图像构造一个基于“双线性插值”的访问器对象LinearInterPtrSz，可以在CUDA核函数中按需访问缩放后的像素值
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
Next.js漏洞风暴：CVE-2025-29927全网爆发，你的项目躺枪了吗？前端菜鸡日常服务端渲染 javascript 开发语言后端 node.js
Next.js中间件鉴权绕过漏洞(CVE-2025-29927)全面解析与应急指南近日，Next.js框架曝出一个高危安全漏洞CVE-2025-29927，该漏洞允许攻击者通过构造特殊HTTP请求头绕过中间件的安全控制，可能导致未授权访问、数据泄露等严重后果。本文将全面剖析该漏洞的技术细节、影响范围、检测方法及修复方案，帮助开发者快速评估风险并采取应对措施。漏洞概述与技术原理CVE-2025-29
Java静态static详解 Obltv Java基础 java
更多内容请看我的个人网站date:2025-06-04tags:八股基础静态变量特点被该类的所有对象共享不属于对象，属于类优先于对象存在，随着类的加载而加载调用方式类名调用对象名调用（不推荐）静态方法没有this关键字publicclassStudent{privateStringname;privateintage;privateStringteacherName;publicvoidshow(
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation justtoomuchforyou 智驾
NVidia，CVPR20233DOccupancyPredictionChallengeworkshoppaper：https://arxiv.org/pdf/2307.1492code：https://github.com/NVlabs/FB-BEV大参数量imagebackboneInternImage-H，1B外部数据集预训练：object365nuscenes：有点云label，强化网络
树莓派中 Python+opencv打开摄像头 68lizi 光电设计 python
树莓派中Python+opencv打开摄像头注意不要使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)，我在树莓派使用这个的时候会报错，在windows不会报错，具体原因不清楚cap=cv2.VideoCapture(0)#使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)会报错whileTrue:status,img=cap.read()i
代码随想录算法训练营第52天 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Amor_Fati_Yu 算法 java 数据结构
101.孤岛的总面积importjava.util.*;publicclassMain{privatestaticintcount=0;privatestaticfinalint[][]dir={{0,1},{1,0},{-1,0},{0,-1}};//四个方向privatestaticvoidbfs(int[][]grid,intx,inty){Queueque=newLinkedList=gr
PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection justtoomuchforyou 目标检测人工智能计算机视觉智驾
ECCV2022paper：[2205.07403]PillarNet:Real-TimeandHigh-PerformancePillar-based3DObjectDetectioncode：https://github.com/VISION-SJTU/PillarNet-LTS纯点云基于pillar3D检测模型网络比较SECOND基于voxel，one-stage，基于sparse3Dc
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
并行归并排序的 Java 实现 empti_ 数据结构与算法 java 算法排序算法
并行归并排序Java实现importjava.util.concurrent.RecursiveAction;importjava.util.concurrent.ForkJoinPool;publicclassParallelMergeSort{//主方法，供外部调用publicstaticvoidparallelMergeSort(int[]array){ForkJoinPoolpool=ne
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d