Gao+Ling

视觉答题的方法、数据集和评价指标综述

A survey of methods, datasets and evaluation metrics for visual question answering

介绍
- VQA目前的主要困境
- VQA的应用
特征的提取
- 图像特征的提取：
- 问题特征的提取：
- - 基于计数方法
  - 基于预测的方法
  - Hybrid models混合模型
  - 最新的文本嵌入模型
数据集
- DAQUAR[109]（benchmark数据集，但数据集规模较小）
- COCO-QA[50]（包含四种类型的问题：对象(69.84%)、颜色(16.59%)、数字(7.47%)和位置(6.10%)。）
- the VQA dataset[11]（一张图片对应三个问题，每个问题对应十个答案）
- FM-IQA[55]（答案是句子，问题需要进行常识性推理，数据集的QA对有中英文版本，问题和答案由人类给出，但是暂无好的评估方法）
- Visual Genome[110]（问题类型:What, Where, How, When, Who, and Why。没有是/否问题）
- Visual7W[12]（七类问题：What,Where, How, When, Who, Why, and which。问题以选择题的形式进行评估，每个问题有四个候选答案，其中只有一个是正确的。）
- shapes[111]
- KB-VQA[82]
- FVQA[83]
- Visual Madlibs[112]（为了在“填空”任务上评估系统）
- CLEVR[177]（用于测试VQA模型的视觉推理能力）
- FigureQA[208]（线状图、点状图、水平和垂直柱状图以及饼状图）
- DVQA[209]（仅用于评价柱状图的不同方面）
- Diagram[210]（用于评价VQA系统的图解释能力）
- TDIUC[211]（任务导向图像理解挑战）
- VizWiz[122]（处理盲人用户问题的面向目标的VQA数据集）
- VQA- Med[128]（医疗VQA数据集）
- ICQA[92]
- 场景文本阅读VQA模型的扩展
- - TextVQA的新数据集
  - 场景文本VQA (ST-VQA)
  - OCR-VQA-200 K dataset
评估指标（可参考）
- simple accuracy
- Wu-Palmer Similarity (WUPS)
- 用于VQA的accuracy
- 人工裁判
- mean -type (MPT)评价指标，归一化指标（算术归一化MPT和谐波归一化MPT）针对分布不均衡任务
- 平均归一化Levenshtein Similarity (ANLS)
- 双语评价替补BiLingual Evaluation Understudy (BLEU)和 METEOR (Metric for Evaluation of Translation with Explicit ordered 显式排序翻译的评价指标)
- 一致性指标Consistency metric，有效性度量The validity metric，可信度评分The plausibility score，分布度量The distribution metric
Results
- Comparison of the SOTA methods on VQA 1.0 dataset
- Comparison of the SOTA methods on VQA 2.0 dataset
- Comparison of the SOTA methods on COCO-QA and DAQAUAR datasets
- Comparison of the SOTA methods on Visual7W and CLEVR datasets
- Comparison of the SOTA methods on FVQA, Visual7W + KB and OK-VQA datasets
- Comparison of the SOTA methods on GQA dataset
- Comparison of the scene-text reading VQA models on TextVQA, ST-VQA and OCR-VQA datasets

本文讨论了VQA系统中使用的一些核心概念，并对过去为解决这个问题所做的努力进行了全面的调查。除了传统的VQA模型，我们还讨论了视觉问题回答模型，这些模型需要阅读图像中的文本，并在最近开发的数据集(如TextVQA、ST-VQA和or -VQA)上进行评估。除了在之前的调查中讨论的标准数据集，我们还讨论了2019年和2020年开发的一些新数据集，如GQA、OK-VQA、TextVQA、ST-VQA和oc - vqa。对新的评价指标如BLEU、MPT、METEOR、平均归一化Levenshtein相似度(ANLS)、效度(Validity)、似然(合理性)、分布(Distribution)、一致性(Consistency)、接地(接地)、f1得分(F1-Score)等进行了说明。最后，我们对VQA任务每个阶段的开放问题进行了讨论，并提出了一些有希望的未来方向。

本文详细讨论了VQA任务所涉及的所有步骤，如图像编码、问题表示、不同的注意机制以及迄今采用的各种融合策略。图3显示了VQA任务所涉及的所有步骤。这项调查的主要贡献是:
•详细讨论了SOTA模型的图像和问题特征提取，包括最近的(2020)SOTA模型。
•除了在之前的调查中讨论的标准数据集，我们还讨论了2019年和2020年开发的一些新数据集，如GQA、OK-VQA、TextVQA、ST-VQA和oc - vqa。直到今天，这些数据集还没有在任何调查中讨论过。
•对新的评价指标如BLEU, MPT, METEOR，平均标准化Levenshtein相似度(ANLS)，有效性，似然性，分布，一致性，接地，F1-Score进行了解释，以及之前调查讨论的评价指标。
•还讨论了视觉特征和问题特征之间的各种注意力机制，即单跳和多跳。深入讨论了SOTA VQA模型采用的不同融合策略。
•也解释了，并基于不同的基准数据集与这些最近开发的数据集比较了不同的基准方法。另一个重要贡献是，我们讨论了需要阅读图像中的文本的视觉问题回答模型，并对最近开发的数据集(如TextVQA、ST-VQA和or - vqa)进行了评估。据我们所知，这是第一次将传统视觉问答与场景文本视觉问答相结合的调查。
•介绍了几乎所有VQA数据集的详细结果分析，如VQA 1.0, VQA 2.0, COCO-QA, DAQUAR, Visual7W, CLEVR, FVQA, Visual7W + KB, GQA, OK-VQA, TextVQA, ST-VQA，和OCRVQA。
•最后分析了一些开放的挑战，并列出了未来的指导方针。

介绍

VQA目前的主要困境

对开放式回答和多项选择题任务的评估:
面向应用程序的数据集的需求:
数据集偏差:
来自真实VQA数据集的图像特征:
数据集规模相对较小:
平衡的二元问题:
可回答和不可回答的类之间的不平衡:（do）
Conversational questions: 可连续的提问:（do）
需要阅读场景文本的问题:
现实世界中的许多问题可能需要阅读图像中的文本的能力。在复杂的自然图像中，最大的挑战是将文本从背景中分离出来，这是非常复杂的。此外，各种异域字体样式也给文本的定位和识别带来了困难。由于光照不规律，相机传感器的反应也不规律，提取出失真恶化的视觉特征，从而产生不正确的场景文本检测和识别。

VQA的应用

特征的提取

图像特征的提取：

问题特征的提取：

基于计数方法

one-hot 编码是最简单的词嵌入方法。
另一种基于计数的方法是共现矩阵Co-occurrence Matrix，其大小为|V| × |V|。矩阵中包含的值表示一个单词在另一个单词的上下文中出现的情况。我们可以将上下文定义为围绕特定单词的k大小窗口。

基于预测的方法

这些方法使用神经网络模块。连续词袋Continuous bag-of-words(CBOW)和skip-gram模型是Mikolov等人提出的两种基于预测的词嵌入技术。图6显示了CBOW(左)和Skip-gram(右)架构的抽象框架。

在CBOW中，当给定(n‐1)个上下文单词时，模型使用前馈神经网络进行单词预测，并将其视为一个多类分类问题。此外，该模型根据一组上下文单词生成一个输出单词。
在Skip-gram模型中(图6)，该模型预测给定输入单词两侧的上下文单词。在他的另一篇论文中，Mikolov等人建议对基本skip-gram模型进行不同的修改，以处理在输出层执行的昂贵操作的问题。负采样是word2vec中常用的一种修改方法。
Word2vec是谷歌为skip-grams开发的一个开源项目。

Hybrid models混合模型

全局向量(Glove)由Pennington等人提出。[23]。在GloVe中，基于计数的方法和基于预测的方法被融合在一起生成单词表示。此外，[23]使用了加权最小二乘方法。此外，从共生矩阵中获得的全局信息用于训练该模型。用非零项代替整个稀疏矩阵进行训练。

数据集

DAQUAR[109]（benchmark数据集，但数据集规模较小）

真实世界图像问答数据集(DAQUAR)[109]被设计为第一个主要的VQA数据集作为基准benchmark。它被认为是VQA任务中最小的数据集之一。它基于NYU-DepthV2 Dataset[114]图像; 共12468对问答，其中6795对问答用于train，5673对问答用于test。本数据集中的图像分为795张用于train，654张用于test，共包含1449张室内场景图像。总共有894个对象类object classes被分配到图像的每个像素。

DAQUAR-37数据集是DAQUAR的一个小版本，只包含37个对象类。它总共由4122对问答组成，其中3825对问答用于train，297对问答用于测试。这个数据集有一定的局限性。
首先，DAQUAR虽然是VQA任务的第一个数据集，但由于数据集规模小，无法有效训练和评估更高复杂性的VQA模型。
第二，可用的问题种类有限，因为这个数据集只包含室内场景。
第三，由于某些情况下极端的光照条件和杂乱的图像，许多问题都很难回答。

COCO-QA[50]（包含四种类型的问题：对象(69.84%)、颜色(16.59%)、数字(7.47%)和位置(6.10%)。）

在COCO-QA[50]中，基于MS-COCO图像字幕，采用自然语言处理(NLP)算法生成QA对。MS-COCO数据集在一句话中包含对一个图像的5个描述。假设我们对一个女孩骑自行车的图像有一个标题，我们可以生成一个问题“这个女孩骑的是什么?”用自然语言回答，就像自行车一样。它由1,17684个问答对组成，其中78,736个QA对用于train，38,948个QA对用于测试。
本数据集中的问题大致属于四类:对象(69.84%)、颜色(16.59%)、数字(7.47%)和位置(6.10%)[9]。数据集中的图像总数为1,23,287张。
COCO-QA的主要局限性是使用NLP算法生成QA对，存在缺陷。COCO-QA中很多问题都有语法错误，很荒谬。另一个限制是由于自动从标题转换而产生的问题的高度重复。另一个主要的限制是数据集只包含四种类型的问题，而这些问题仅限于COCO的标题中描述的那一类问题。

the VQA dataset[11]（一张图片对应三个问题，每个问题对应十个答案）

VQA数据集[11115]包括来自MS-COCO的真实图像和抽象剪贴画图像。它是VQA任务中使用最广泛的数据集，并作为VQA挑战的一部分公开发布。真实图像的VQA数据集总共包含6,14,163个问题，其中2,483,49个问题用于训练1,21,512个问题用于验证，2,44,302个问题用于测试。每张图片的问题都是由亚马逊土耳其机器人(AMT)生成的，这些问题的答案由不同的工作人员给出。这个数据集包括与一张图片对应的三个问题和与给定问题对应的十个答案。十个独立的注释者回答了给他们的每个问题。图像总数为2,04,721张。最长的问题由32个单词组成，最长的答案由20个单词组成。
剪贴画的VQA数据集由5万个抽象图像和1.5万个问题组成。这些抽象的图像是由20多个卡通人物模型制成的。100种不同的物品和30种不同的动物模型。
这个数据集有两种类型的图像，即真实和剪贴画图像的开放式和多项选择问题。选择题还提供了18个不同的选项。这些问题由相同的QA对组成。提供的选项包括:
正确答案:这是十个独立注释者给出的最常见的答案。
似是而非的答案:它由3个从独立的注释者那里收集来的答案组成。
热门答案:以下是数据集中最受欢迎的10个答案。
随机答案:对于其他类型的问题，这些是随机首选的正确答案。

然而，这个数据集有许多限制。首先，由于语言偏差，很多问题不考虑图像也能正确回答。例如，二元问题占所有问题的38%，其中59%的问题的答案是“是”。很难说算法是在真正解释VQA任务还是只是在猜测答案。

FM-IQA[55]（答案是句子，问题需要进行常识性推理，数据集的QA对有中英文版本，问题和答案由人类给出，但是暂无好的评估方法）

自由式多语言图像问答(FM-IQA)[55]数据集基于MS-COCO。在这个数据集中，答案和问题都是由人类生成的。数据集中的QA对有中英文版本。它使用百度人群资源服务器构造问题和答案。本数据集中的答案是完整的句子。这个数据集包含了大量与人工智能相关的问题，这些问题需要在视觉内容上进行常识性推理(例如:“为什么公共汽车会停在这里?”)。这个数据集由158,392张图片和3,16,193对质量保证(QA)对组成，这些图片最初是中文版本，后来被翻译成英文。因此，使用通用度量的自动评估是困难的。因此，作者建议利用人类法官进行评估，其中法官被委托选择是否由人类给出适当的回答，并在0-2的范围内评估答案的性质。这种方法对大多数研究集会来说是不合逻辑的，并且使算法变得困难。

Visual Genome[110]（问题类型:What, Where, How, When, Who, and Why。没有是/否问题）

Visual Genome数据集[110]包含108,249张图像，170万对图像可用QA对。对于一个图像，平均有17个QA对可用。视觉基因组是VQA任务中最大的数据集之一。在Visual Genome数据集中，问题可以以6个w '开头:What, Where, How, When, Who, and Why。该数据集通过两种不同的方式收集数据。对于开放式的自由形式问题，注释者可以问与图像相关的任何问题。
在这个数据集中，有两种类型的问题:特定型和自由形式的开放式问题。
在自由形式的问题中，人工注释者会看到一张图片，并被要求生成8对QA对。
在基于特定的问题中，人工注释人员必须为特定的情况提供QA对

与其他数据集相比，Visual Genome数据集的答案范围更大。在Visual Genome中有高概率出现的前1000个答案只覆盖了数据集中出现的所有答案的65%。数据集中存在的答案的多样性涉及到开放式问题评估的挑战。此外，由于问题类别本身被认为只属于六种“W”形式中的一种，回答的异质性有时可能只是人为地由措辞的差异造成的，而这种差异可以通过鼓励注释者选择更具描述性的回答来避免。此数据集没有二进制(是/否)问题。

Visual7W[12]（七类问题：What,Where, How, When, Who, Why, and which。问题以选择题的形式进行评估，每个问题有四个候选答案，其中只有一个是正确的。）

Visual7W[12]数据集是Visual Genome数据集的一个子集。该数据集有来自Visual Genome的47,300张图像，也可在MS-COCO中获得。Visual7W包含七个问题类别:What,Where, How, When, Who, Why, and which。该数据集包括两种不同类型的问题。关于“telling”的问题与Visual Genome数据集中的问题相同，它们的回答都是基于文本的。以“Which”开头的问题被认为是“点”问题，系统将在这些问题可用的选项中选择准确的边界框。
在这个数据集中，问题以选择题的形式进行评估，每个问题有四个候选答案，其中只有一个是正确的。然而，所有在问题中列出的对象都是视觉基础的，即在图像中与其描述的边框对齐。同样，该数据集不像Visual Genome数据集那样包含二进制问题。

shapes[111]

SHAPES数据集[111]由各种排列、形状和颜色的对象组成。问题是关于形状的特征、关系和位置。它强调学习不同物体之间的空间和逻辑关系。这种方法使构建大量数据成为可能，不受许多不同程度影响其他数据集的限制。
SHAPES数据集由244个独特的问题和15616张图片组成。所有问题都是二元问题，只有是或否的答案。该数据集是完全平衡的，没有语言偏见。

KB-VQA[82]

FVQA[83]

Visual Madlibs[112]（为了在“填空”任务上评估系统）

CLEVR[177]（用于测试VQA模型的视觉推理能力）

FigureQA[208]（线状图、点状图、水平和垂直柱状图以及饼状图）

FigureQA数据集包含5类图形图和图形。
这些类是线状图、点状图、水平和垂直柱状图以及饼状图。有15类问题用于寻找图中对象之间的不同关系。
这些问题可以用来检查诸如最大值、最小值、平滑度、区域下面积和交集等属性。

DVQA[209]（仅用于评价柱状图的不同方面）

DVQA(数据可视化问答)是一个合成数据集，仅用于评价柱状图的不同方面。在这个数据集中有三类问题:结构理解、数据检索和推理。结构理解问题的例子是“这些条是垂直的吗?”数据检索问题的例子是“从右起第二个水平条的标签是什么?”数据检索问题的例子是“哪种算法对VQA数据集的准确率最高?”

Diagram[210]（用于评价VQA系统的图解释能力）

Diagram (AI2D) dataset 主要用于评价VQA系统的图解释能力。它包含了5000多个代表小学科学的图表，每个图表都注释了组件分割，它们彼此之间的关联以及与图表画布的连接。在AI2D数据集中，有超过118 K个组件和53 K个关联的注释。与图表相关的选择题超过15000道。训练集有4000幅图像，盲测集有1000幅图像。

TDIUC[211]（任务导向图像理解挑战）

TDIUC (Task Directed Image Understanding Challenge，任务导向图像理解挑战)数据集包括12种代表传统计算机视觉任务的问题类型和一组需要推理能力的新高级任务。是/否 object 存在检测相关问题得到平衡。该数据集包含荒谬的问题，以验证问题是否对给定的图像有效。TDIUC数据集中的问题来自COCO-VQA、Visual Genome和人类注释器。

VizWiz[122]（处理盲人用户问题的面向目标的VQA数据集）

VizWiz是第一个处理盲人用户问题的面向目标的VQA数据集。它起源于视障用户。盲人用户拍摄的图像质量一般较差。数据集中的问题以口语形式收集，可能存在听觉缺陷。数据集中的许多问题是无法回答的，因为盲人用户无法验证捕获的图像及其视觉内容。

VQA- Med[128]（医疗VQA数据集）

VQA- med数据集是迈向医疗领域VQA的第一步。VQAMed数据集包含带有与医学相关的问答对的医学图像。这项任务的成功提高了通过患者参与对医学图像的解读。此外，如果图像复杂，医生可以听取第二意见。采用半自动方法生成问答对。这些问题首先使用基于规则的方法生成，然后由人类专家进行手工验证。

ICQA[92]

在图标问题解答(ICQA)数据集中，大约有100个不同的30 × 30分辨率的互联网图标形状。它还为这些形状和它们的背景定义了21种不同的颜色。ICQA的作者创建了多组数据。集合A包含260840个问题，对应42021张图片。集合B包含226406个问题，对应42300张大图;集合C包含5408个问题，对应1000张大图(图34)。

场景文本阅读VQA模型的扩展

TextVQA的新数据集

Singh等人[105]提出了一个名为TextVQA的新数据集，包含28,408张图像上的45336个问题，需要对文本和视觉内容进行场景文本检测和推理来回答问题。
TextVQA从开放的图像数据集收集了所有的图像。它共有45,336个问题，其中有37,912个独特问题。在这个数据集中，问题的平均长度是7.18。问题的最小长度是3个。唯一的答案是26,263。它有21,953个训练图像，3166个验证图像和3289个测试集图像。提出了一种将普通VQA模型与独立训练的OCR模块相结合的新模型。这个模块有一个“拷贝”，它基于指针网络，允许在需要时使用OCR识别的单词作为预测答案。

场景文本VQA (ST-VQA)

Biten等人[106]提出了一种根据图像中出现的文本回答问题的方法。他们还提出了一个新的可视化问答数据集，称为场景文本VQA (ST-VQA)[23]。ST-VQA数据集包括来自不同公共数据集的图像，如ICDAR 2013[119]和ICDAR2015[120]、I ma e et[121]、V I z W I z[122]、IIIT场景文本检索[123]、V I u ag g N om e[110]和COCO-Text[124]。它包含了来自这六个数据集的23,038张图像，这些数据集都与通用计算机视觉数据集和场景文本理解数据集有关。它包含了来自这些数据集的总共31791个问题/答案对。其中19,027张图片和26308个问题用于训练，2993张图片和4163个问题用于测试。

OCR-VQA-200 K dataset

OCR-VQA-200 K dataset中的图像来自Iwana等人构建的数据集[171]。该数据集包含图书的封面图片、图书作者名称、书名和图书类别。书的类别可以是艺术、宗教、科学、漫画等。这些问题是通过询问与作者姓名、书名、版本等相关的问题来准备的。为了使疑问句发生变化，需要对疑问句进行释义。例如，“这本书的作者是谁?”可以转述为“谁写的这本书?””

评估指标（可参考）

simple accuracy

VQA任务中的问题可以是开放式的，系统必须生成一个字符串来回答问题，也可以是选择题，系统从给定的选项中选择一个选项。
当算法做出正确的选择，得到正确的答案时，可以使用简单精度来评估VQA任务的多项选择题。当算法给出的预测答案与地面真理答案完全匹配时，也可以使用简单精度来评估开放式VQA任务。
这种简单的精度度量有其局限性，因为它需要精确匹配。考虑一下关于图像的问题，“图像中出现了什么水果?”‘，算法输出’ apple ‘，但正确的标签是’ apples ‘，它被认为是错误的，当系统输出’ mango '时，它也同样被认为是错误的。

Wu-Palmer Similarity (WUPS)

第二个评价指标是Wu-Palmer Similarity (WUPS)[125]，作为简单精度的替代品。该指标旨在评估算法预测的答案与数据集中可用的ground truth答案之间的差异，这取决于它们语义内涵的差异。基于它们之间的相似性，WUPS将根据数据集中的ground truth答案和算法对问题的预测答案在0到1之间分配值。例如，apple和apples的相似度为0.98，而apple和fruit的相似度为0.86。

NQ : 问题总数，PA : 预测答案集，GA:ground-truth答案集，
WUP(a,b):它将基于分类树与最小公共子单元the Least Common Subsumer(a, b)位置的关系，返回单词’ ’ a ‘和’ b '的位置。

WUPS度量存在一定的局限性，使得其难以在VQA任务中使用。首先，某些词在词汇上非常相似，但它们的含义可能非常不同。这个问题可能出现在颜色问题上。例如，如果某个问题的答案是白色的，而系统预测答案是黑色的，这个答案仍然会得到0.92的WUPS分数，这似乎很高。另一个限制是，WUPS不能用于短语或句子的答案，因为它总是处理死板的语义概念，这些概念最有可能是单个单词。

用于VQA的accuracy

另一种评估VQA系统的方法是为每个问题收集多个独立的ground- truth answers。这被称为共识度量consensus metric。对VQA数据集[11]进行跟踪。在VQA数据集中，十个不同的受试者为每个问题收集了十个ground- truth answers。通过将生成的答案与10个不同的受试者给出的10个ground- truth answers进行比较，在VQA数据集上进行评估:

如果至少有三个被试提供了这个答案，那么这个答案就被认为是100%正确的。
这个指标也有一定的局限性：

首先，它可以为一些问题提供两个正确答案。
其次，为每个问题收集ground- truth answers是非常麻烦的。
第三，对于“why”这类问题，人与人之间的共识很差，因为很难让三个人给出完全相同的答案。

人工裁判

根据FM-IQA数据集开发人员的建议，VQA系统的另一种评估方法是使用人工裁判来评估多词答案。但这需要大量的时间和资源，而且非常昂贵。它可以包括参与过程的每个人的主观意见。在VQA数据集、Visual7W和Visual Genome中，多项选择范式可以作为评价多词答案的替代方法。在这种情况下，系统必须只选择给定选项中哪个是正确的，而不是生成一个答案。

mean -type (MPT)评价指标，归一化指标（算术归一化MPT和谐波归一化MPT）针对分布不均衡任务

VQA数据集的一个关键限制是问题类型分布的不平衡。对于较少见的题型，简单的准确性并不是有效的评价指标。因此，Kafle和Kanan (2017a)提出了一种mean -type (MPT)评价指标来处理不平衡的问卷类型分布。MPT表示评估的算术或调和平均精度为每个问题类型。他们还建议使用归一化指标，例如算术归一化MPT和谐波归一化MPT，以解决每个问题类型的答案分布的偏见。

平均归一化Levenshtein Similarity (ANLS)

[106]提出的度量是平均归一化Levenshtein Similarity (ANLS)，定义为:

其中，(anspred和ansGT分别为预测答案和ground-truth答案，disL为编辑距离)对所有问题求平均值。在计算平均数之前，小于阈值0.5的分数被截断为0。

双语评价替补BiLingual Evaluation Understudy (BLEU)和 METEOR (Metric for Evaluation of Translation with Explicit ordered 显式排序翻译的评价指标)

双语评价替补BiLingual Evaluation Understudy (BLEU)由Papineni等人提出。采用Denkowski和Lavie(2014)提出的METEOR (Metric for Evaluation of Translation with Explicit ordered 显式排序翻译的评价指标)作为机器翻译自动评估的评价指标。
Gurari等人(2018)讨论了这两种指标都可以用于VQA任务，并使用VizWiz数据集进行了测试。BLEU检验了n-grams在ground truth标签和预测答案之间的共现情况。通常，它不适合在短句子中使用。另一方面，METEOR可以通过查找GT答案词和预测答案词之间的对齐来使用。有时，这种一对一的对应关系很难捕捉到。

一致性指标Consistency metric，有效性度量The validity metric，可信度评分The plausibility score，分布度量The distribution metric

一致性指标Consistency metric评估不同问题的回答一致性。当给出一个新问题时，VQA系统不会与之前的答案相矛盾。
有效性度量The validity metric验证给定的答案是否在问题范围内，例如以水果的形式回答与水果相关的问题。
可信度评分The plausibility score验证生成的答案是否合理或正当，给定的问题(例如，猫通常不喝酒，不说话，酒)。
分布度量The distribution metric 通过应用 Chi-Square statistic [207]，计算gt答案分布与系统生成分布之间的校准[207]。这个指标用于分析模型是否同时预测了最常见的答案和不常见的答案。
F-measure
准确性并不是测量有偏差数据的有效方法。这意味着，如果我们在给定的输入数据中有任何一个类是正的或负的，那么准确性就不被接受为一个显著的度量。因此，我们采用F-measure来评价涉及精度和召回率的加权平均值。假设tp, tn, fp, and fn为连续的真正、真负、假正、假负，将单个问题答案与ground truth进行比较，F1测度可计算如下（F1 Score 需要最大化）:

Results

Comparison of the SOTA methods on VQA 1.0 dataset

Comparison of the SOTA methods on VQA 2.0 dataset

Comparison of the SOTA methods on COCO-QA and DAQAUAR datasets

Comparison of the SOTA methods on Visual7W and CLEVR datasets

Comparison of the SOTA methods on FVQA, Visual7W + KB and OK-VQA datasets

Comparison of the SOTA methods on GQA dataset

Comparison of the scene-text reading VQA models on TextVQA, ST-VQA and OCR-VQA datasets

你可能感兴趣的:(论文阅读,博士期间学术杂记,计算机视觉,算法,人工智能)

Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究摘要本报告详细阐述了韩国HanbitPoDAS便携式GIS局部放电检测仪软件中相分辨局部放电（PRPD）图的生成方法。报告旨在阐明其技术原理、数据采集、信号处理以及分析功能，这些功能共同实现了对气体绝缘开关设备（GIS）绝缘状态的精确评估。HanbitPoDAS系统利用超高频（UHF）传感器和智能软件算法来捕获、处理并显示PRPD模式
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
基于FPGA的Verilog电子密码锁设计资源文件：为安全而生，智控锁码
基于FPGA的Verilog电子密码锁设计资源文件：为安全而生，智控锁码【下载地址】基于FPGA的Verilog电子密码锁设计资源文件基于FPGA和Verilog语言设计的电子密码锁项目，提供完整的硬件设计原理图、Verilog代码、仿真波形图和硬件描述文档。通过FPGA的可编程特性，实现密码设置、验证及锁定功能，适合学术研究、教学演示或个人兴趣学习。项目文件清晰，包含详细的使用说明，帮助用户快速
基于FPGA的快速傅里叶变换（FFT）设计在嵌入式系统中的应用风吹麦很 fpga开发嵌入式
基于FPGA的快速傅里叶变换（FFT）设计在嵌入式系统中的应用快速傅里叶变换（FastFourierTransform，FFT）是一种重要的信号处理算法，在许多领域中都得到广泛的应用，例如通信系统、雷达技术、图像处理等。为了提高FFT的计算性能和实时性，将其设计为硬件加速器常常是一个明智的选择。本文将介绍基于现场可编程门阵列（Field-ProgrammableGateArray，FPGA）的FF
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
Python爬虫实战：研究python-nameparser库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 nameparser
1.引言在当今数字化时代，姓名作为个人身份的重要标识，在许多领域都有着广泛的应用需求。例如，在客户关系管理系统中，准确解析姓名可以帮助企业更好地了解客户背景；在学术研究中，分析作者姓名分布有助于发现研究团队的地域特征；在社交网络分析中，姓名信息可以辅助进行用户画像构建。然而，由于不同文化背景下姓名结构的多样性以及书写方式的差异，准确解析姓名成为一项具有挑战性的任务。Python作为一种功能强大的编
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
让 Python 代码飙升330倍：从入门到精通的四种性能优化实践 python
花下猫语：性能优化是每个程序员的必修课，但你是否想过，除了更换算法，还有哪些“大招”？这篇文章堪称典范，它将一个普通的函数，通过四套组合拳，硬生生把性能提升了330倍！作者不仅展示了“术”，更传授了“道”。让我们一起跟随作者的思路，体验一次酣畅淋漓的优化之旅。PS.本文选自最新一期Python潮流周刊，如果你对优质文章感兴趣，诚心推荐你订阅我们的专栏。作者：ItamarTurner-Traurin
2025B卷 - 华为OD机试七日集训第5期 - 按算法分类，由易到难，循序渐进，玩转OD 哪吒搬砖工逆袭Java架构师华为od 算法华为OD机试 2025B卷 java
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第5期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、字符串处理第5天、正则表达式第6天、深度优先搜索dfs第7天、深度优先搜索dfs六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605
2025B卷 - 华为OD机试七日集训第4期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 算法 python 华为OD机试 2025B卷
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第4期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、贪心算法第5天、二分查找第6天、字符串处理第7天、字符串处理六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSon
人工智能开源的大模型训练微调框架LLaMA-Factory
LLaMA-Factory是一个开源的大模型训练微调框架，具有模块化设计和多种高效的训练方法，能够满足不同用户的需求。用户可以通过命令行或Web界面进行操作，实现个性化的语言模型微调。LLaMA-Factory是一个专注于高效微调LLaMA系列模型的开源框架（GitHub项目地址：https://github.com/hiyouga/LLaMA-Factory）。它以极简配置、低资源消耗和对中文任
2025B卷 - 华为OD机试七日集训第2期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第2期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、数组第3天、双指针第4天、贪心算法第5天、字符串处理第6天、深度优先搜索DFS第7天、动态规划六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSo
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
csdn-AI测评 Right.W 人工智能
一、你平时会使用这类AI工具吗？你对这类型的工具有什么看法？AI工具灵活、多样、能够回答各种问题，大为方便了人们日常学习、工作、生活的需要。目前很流行的chartgpt就是一款超火爆的ai工具，可以写论文、敲代码各种功能十分强大，为各个领域的数字化和智能化进程给予了很大帮助。但是人的智慧和意识是机器无法取代的，人类对人工智能不能过度依赖，人工智能只是改善生活、提高效率的工具而已。二、你可以花几分钟
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
华为OD机试专栏--1.3 算法基础：1.3.3 动态规划入门 xiaoheshang_123 华为OD机试真题题库解析华为od 面试职场和发展算法
目录1.3算法基础1.3.3动态规划入门一、动态规划的核心思想1.1什么是动态规划？1.2动态规划的特点二、动态规划的基本步骤三、经典动态规划问题3.1斐波那契数列（FibonacciSequence）问题描述动态规划解法代码实现（Python）3.2背包问题（KnapsackProblem）问题描述动态规划解法代码实现（Python）3.3最长公共子序列（LongestCommonSubsequ
前端面试专栏-算法篇：20. 贪心算法与动态规划入门
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情贪心算法与动态规划入门在计算机科学领域，算法是解决问题的核心工具。而贪心算法与动态规划作为两种重要的算法设计策略，广泛应用于优化问题中。本文将深入浅出地介绍这两种算法的基本概念、适用场景、实现方法，并通过经典案例帮助读者理解和掌握它们的核心思
基于大模型的急性出血坏死性胰腺炎预测技术方案 LCG元人工智能 python
目录一、算法实现伪代码1.数据预处理与特征工程2.大模型训练（以Transformer为例）3.实时预测与动态调整二、模块流程图1.术前预测流程2.术中动态决策流程3.术后护理流程三、系统集成方案1.系统架构图2.核心模块交互流程四、系统部署拓扑图1.物理部署拓扑2.部署说明五、技术验证方案1.交叉验证流程2.实验验证设计六、健康教育模块示例一、算法实现伪代码1.数据预处理与特征工程#数据清洗与归
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，