是尘埃呀！

视觉问答阶段性总结

前言，目前精读的论文不多，这篇博客中的部分论文是略读的，所以这篇博客更多的体现了本人的主观认识，可能会有很多错误欢迎批评指正。另外，能力有限就不研究数据集了，目前复现的代码的代码大多基于VQA2.0。每一小节中尽量重点讲目前使用最好的情况。

一，VQA

视觉问答（Visual Question Answering,VQA）是一项结合计算机视觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处理，包括图像识别，图像分类等任务。自然语言处理主要是对自然语言，文本形式的内容进行处理以及理解，包括机器翻译，信息检索，生成文本摘要等任务。视觉问答是需要对给定图像和问题进行处理，经过一定的视觉问答技术处理过后生成自然语言答案，是对二者的结合。
目前VQA比较先进方法包括（1）基于融合的方法：MUTAN和BLOCK；（2）基于注意力的方法：DFAF和MLIN；（3）视觉推理方法：Counting、Dual-MFA和Graph；（4）其他VQA方法：MuRel 等。

1.1提取特征

提取特征包括图像特征和问题特征的提取。

1.1.1 图像特征提取

目前VQA提取图像特征的方法大多是使用faster RCNN, 在yolo5出现之前，yolo系列没有faster RCNN表现的好，而且yolo系列还没有应用到VQA任务的图像特征提取。

RCNN、FastRCNN、FasterRCNN、YOLO、SSD网络结构通俗解读（一）
yolo和faster RCNN对比（参考链接）
两种型号的最终对比，表明YOLO v5在运行速度方面具有明显优势。小型YOLO v5模型的运行速度提高了约2.5倍，同时在检测较小物体方面具有更好的性能。结果也更干净，几乎没有重叠的框。

1.1.2 问题特征提取

问题特征提取技术，经历了从词袋到RNN，到LSTM，到GRU，到现在的Glove和transformer。其发展伴随着NLP自然语言处理问题的发展。其中transformer来自论文《Attention is all your need》中，具体可以参考这篇博客讲解的比较详细。

1.2特征融合

图像特征融合偏向于目标检测方向，问题特征融合偏向于NLP方向，所以真正属于VQA的关键内容就在于特征融合。大多数的方法主要是把VQA视为分类任务。

关于将图片特征和问题特征两种特征结合来生成答案的一般处理方法都包括：
a. 使用一些简单的方法将两种特征结合起来，比如讲两个特征矩阵连接，矩阵元素点乘，矩阵元素对应相加，然后将合并后的特征输入到一个线性分类器或者神经网络中。

b. 用双线性池化或者相关机制将两个特征结合起来并输入到神经网络中

c. 使用问题特征的分类器来计算视觉特征的空间注意力图，或则是基于注意力的重要性来获得视觉图像的自适应尺度局部特征

d. 使用贝叶斯模型来计算“问题-图像-答案”分布之间的潜在关系

e. 将一个大问题划分为一系列的小问题

当然，VQA任务不可能仅仅是将提取好的图像和问题特征，为了更好地提高视觉问答的实际效果和水平，在特征融合分类前还要一些任务要处理，比如使用注意力机制，提高鲁棒性，利用图卷积进行关系推理等等。

二，目前效果最好的几篇论文

目前，在VQA问题上取得较好效果的，都是利用的注意力机制的融合。另外，由于这些论文中将图像中的每个区域，问题中的每个单词都用到了，没有使用任何方法舍弃不重要的信息，所以目前很难想到能够进一步提高效果的方法，下列论文中用到的方法大同小异，主要是用到了自注意和协同注意的结合使用，只是连接方式不一样。目前有一个思路是，进一步在原来的基础上对图像添加一些关系推理，因为之前的纯粹的注意力不足以对复杂的推理特征或者高层次的任务进行建模，
在读下面这些论文之前，请重新阅读BERT相关的知识点，因为大多用到了transformer中的自注意方式。
BERT（双向transformer）

1，Dynamic Fusion With Intra- and Inter-Modality Attention Flow for Visual Question Answering（DFAF）

2，Deep Modular Co-Attention Networks for Visual Question Answering（MCAN）有代码，参考

整个网络分为了三个模块：①对输入的图像和问题进行特征表示（representation）；②提出两个协同注意力模型，即stacking和encoder-decoder，这两个模型都是由多个MCA层串联而成，能够对之前的问题特征和图像特征进行进一步提炼；③利用一个简单的多模态融合模型对两个特征进行融合，最后再将其输入到一个多标签类别分类器中进行正确答案的预测。
和DFAF差不多，都用到了自注意，只是自注意和协同注意的链接方式不一样。

其中SA指自我注意，GA指协同注意。
3，Multimodal Unified Attention Networks for Vision-and-Language Interactions（MUAN）没代码

4，Multimodal Encoder-Decoder Attention Networks for Visual Question Answering（MEDAN）参考链接

如上图所示，每个MEDA层都包括一个编码器模块和一个解码器模块（这里和transformer很像）。编码器的核心是一个文本自我注意单元，用来建模细粒度的文体特征；解码器主要包含一个问题引导注意单元和一个图像自注意单元，用来提取细粒度的图像区域特征。
这个相当于MCAN中只用了MCAN中的编码解码部分，不同点在于后期做了一个MLP（双线性池化）。所以这两个的结果差别不多。

5，Deep Multimodal Neural Architecture Search（MMnasNet）综合性能最好，没代码

上述论文中2（MCAN），3（MUAN），5（MMnasNet）是同一个团队写的。其中MMnasNet的结果是目前阅读到的论文中最好的。

6，Multi-modality Latent Interaction Network for Visual Question Answering（ICCV2019参考链接）

MFIN与DFAF这两篇也是同一个团队写的。而且这个效果也比较好，和上面的5，MMnasNet差不多。

MFIN与DFAF比较，DFAF是先进行模态间的交互，然后是模态内的自注意，这两个块重复多次后，得到最终更新的视觉与问题特征；而MFIN是先进行模态间的交互后的融合体（这一点和DFAF是差不多的，只是DFAF中模态间的交互后生成更新后的图像图问题贴特征，而MFIN生成的是模态间交互后的融合体），然后问题特征和图像特征分别与这个融合体以Transfomer的key-query注意力机制更新图像和问题特征，这个过程重复很多次，得到最终更新的视觉与问题特征。而且MFIN比DFAF更轻量化。这两篇文章中值得借鉴的是transformer的使用。

三，之前VQA论文的分类总结

3.1、Attention

目前大部分的工作都会使用Attention机制，而且确实取得了比较好的效果，二中所讲的论文都用到了注意力机制。
最开始应用注意力机制的论文（比如Stacked Attention Networks for Image Question Answering （CVPR 2016）），是用问题引导，去关注图像。而现在，注意力机制主要分为自注意和协同注意，协同注意可以理解为问题引导图像的同时图像也引导问题，自注意就是问题中的单词其他单词，图片特征引导其他特征。事实证明，协同注意与自注意共同使用（尤其是加上transformer这种注意力机制将模态融合），在VQA问题上取得了较好的效果。具体在二中已经讲了。

3.2、模态融合Modality interaction

现在的论文模态融合使用的都是和注意力分不开的，但是最初的模态融合只是指文本与图像融合，不包含注意力。

1，基于双线性池化从MCB，MLB，MFB到MUTAN，到BLOCK
相关链接1
相关链接2
这些方法和协同注意力不一样，其实就是种融合方式，本身是不含有注意力机制的，但实际应用中，整个模型通常将其与注意力机制结合处理视觉问答VQA任务。

2，MUTAN: Multimodal Tucker Fusion for Visual Question Answering（参考链接）
3，BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection（参考链接）

MUTAN和BLOCK是同一个作者，BLOCK可以认为是MUTAN改进版，MUTAN基于Tucker分解，BLOCK基于块项张量（block-term tensor）分解，这种分解技术使用了块项秩（block-term）的概念来定义张量的复杂度。复杂度的分析能够提供一种新的方式，以控制融合模型的表示和复杂度之间的平衡。

3.3、关系推理Relation Reasoning

如今在涉及真是图像的VQA任务中，多模态注意力网络时性能最好的，忽略了 Image region 间的 spatial 和 semantic 间的关联，这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。
关于视觉推理这个研究主要是通过CLEVR数据集，这个数据集提供了一些需要推理的简单问题。其中处理CLEVR数据集比较好的模型有FiLM,MAC network。

MUREL: Multimodal Relational Reasoning for Visual Question Answering（CVPR2019参考链接）
本文作者认为注意力可以集中在与问题相关的图像区域上，但这种简单的机制对于建模VQA或其他高级任务所需的复杂推理特性来说，无疑是不够的。所以作者引入了MuRel cell，这是一种原子推理原语，通过丰富的矢量表示来表示问题和图像区域之间的交互，并通过成对组合来建模区域关系。其次，将细胞合并到一个完整的MuRel网络中，它可以逐步细化视觉和问题交互，并可以用来定义比单纯的注意力地图更好的可视化方案。如下图所示，cell用来更新视觉信息，在原始问题的引导下，构成MuRel网络。
MuRel cell首先以N个可视特征作为输入，这些特征都带着坐标bi。它有两个模块做成，第一个是双线性混合模型，可以合并问题和区域特征向量提供的局部多模态嵌入，第二个是成对的建模组件。然后重新与图像特征结合得到关系建模后的图像更新特征。然后这个细胞的输出和原始的问题特征重新作为下一个细胞的输入。
为了获得多个目标之间的相互关系，根据文献，选择了成对交互模型（pairwise relationship modeling），一个区域对应于K个相似邻域，也就是说MuRel cell的邻域由图像中的每个区域构成。另外作者合并空间和语义表示建立关系向量的方法来代替文献中使用标量成对注意力和高斯核卷积的方法。
本文是来自2019年的CVPR，在2018年有一篇图像描述的论文用到了图卷积，分析了图像空间和语义关系。和这篇文章的方法有些区别，一般都用到了图卷积，将图片中的每个区域作为顶点V，将关系作为边E。参考

3.4、Module Network

可解释性，将神经网络变得多模块化，使他变得具有可解释性（不具有可解释性也是视觉问答中的一个缺点，但是近几年相关论文似乎不多）
1，Neural Module Networks（CVPR2016）（参考链接）

3.5、Count

LEARNING TO COUNT OBJECTS IN NATURAL IMAGES FOR VISUAL QUESTION ANSWERING（参考链接）
本文的关键思想在于将相关 object proposal 描述成点 V，其间的内部与外部关系描述成边 E，形成图 G=(V,E)G = (V, E)G=(V,E)，全文设计策略，通过在极端情况分析，设计算法，而实际的激活函数学习到的参数可适用于真实场景。但是并没有用到深度学习。

目前很多模型都在记数问题上表现很差，所以需要单独解决这个问题。
在 VQA 领域中，造成计数类问题表现不佳的原因主要有：
(1) Soft-Attention 的广泛运用，（软注意力机制要额外的参数学习。HAN 只需要一个额外的、可解释的超参数，）
(2) 区别于标准的计数问题，对于 VQA 来说，没有明确的标签标定需要计数对象的位置，
(3) VQA 系统的复杂性，表现在不仅要处理计数类问题，同时还要兼顾其他复杂的问题，
(4) 真实场景中，对某个对象区域可能存在多次重叠采样。即使是 Hard Attention 和 structured Attention 表现也并不乐观

3.6、Robust

现在的VQA模型有各种各样的鲁棒性问题，针对模型的某一个问题（即缺点），加以改进就可以提高模型的准确率。鲁棒性问题相关的论文虽然没有取得注意力机制那样好的效果，但是个人认为要想提高VQA的整体效果，还是要靠鲁棒性去解决VQA问题中的缺点。

（1）Cycle-Consistency for Robust Visual Question Answering
这篇文章针对的两个意思相同，表达方式不一样的问题，会出现答案不一致的鲁棒性问题。

（2）Self-Critical Reasoning for Robust Visual Question Answering
这篇文章针对的是，语言先验性强，回答问题不考虑图片的内容，作者采用增强对正确答案对图片中region的敏感度。减小训练时问题与图片数据分布在测试数据时的影响。

（3）Counterfactual Samples Synthesizing for Robust Visual Question Answering（参考链接）
本文工作主要在于实现，理想的VQA模型的两个不可缺少的特征。(a)视觉解释能力:模型不仅需要预测正确的答案(如“冲浪”)，还需要依靠正确的参考区域来进行预测。(b)对问题敏感的能力:模型应该对语言变化敏感，例如，将关键字“luggage”替换为“bus”后，两个问题的预测答案应该是不同的。这个能力可以参考3.4

3.7.Sence Text

1 Scene Text Visual Question Answering
本篇文章主要是提出一个数据集，数据集中的问题需要通过分析图片中的文本进行回答。

2 Towards VQA Models That Can Read

3，On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering（CVPR2020）参考链接
（目前论文代码没有公开，只公开了数据集www.est-vqa.org）
讲这篇文章主要是因为，文章先是分析了文本VQA的一些挑战，场景文本面临的一些困难和挑战同样属于视觉问答面临的挑战，挑战越大，机遇越大，甚至代表着进一步的可研究方向。
文本VQA的挑战：
比如(a)可以不根据任何文本进行回答的，（b）有着不止一个正确答案，（c）需要先验知识来回答，（d）的答案则不能根据图片中的文本直接获得。
当前的VQA的泛化性，严重依赖于训练集中的答案空间的构建。比如
（b）表明了传统VQA方法对于图像特征变化非常敏感即使没有改变图像的语义，（c）和（d）表明当没有出现文本时，传统的VQA方法倾向于根据语言偏见给出一个答案。
然后作者针对场景文本提出了一个QA RCNN模型，在原来的VQA输入（图像和问题）上，增加了OCR的推理模块（这是基本的文本VQA的结构，具体怎么操作每篇论文是不一样的），本文先从图像中用一个得到含有文字区域的box，经过嵌入特征融合和分类之后的分数R-Score与之前图片与问题融合得到的的F-Score结合，进行预测。

另外，作者在最后的结果中也没有给出这个模型的实验结果表（可能是因为不好），而是通过一张图给出了几个例子。

四，发展方向，改进与趋势

总结来说，虽然目前的视觉问答研究取得了一些成就，但是就目前发展形势来看，还是面临有一定的发展局限性，主要有以下几个问题：
（1）**整体的准确率不高。**虽然计算机视觉和自然语言处理在不断地发展进步促进了视觉问答的准确率在不断提高，但是就整体来看，其准确率远远低于人类水平，距离高水平的 AI 视觉问答系统还有很长的一段距离。可能的改进方向为在于层次协同注意机制的基础上，继续研究图像和文本的相互协同注意，使得二者具有较强的交互，另外还注重提高模型对文本和图像的表达能力。
（2）**推理能力不强。**不能够将问题语义具有的特征和图片像特征非常完美的融合起来，导致高层次的逻辑推理出现时，模型往往不能给出正确的预测。可能的改进方向为构建关于图像和关于问题的知识图谱和补充常识知识库来增加模型的知识从而增强模型的推理能力。
（3）**图像特征过于单一。**视觉问答中对于图像的处理，一般都是使用在数据集 ImageNet 训练好的 CNN 模型，面对用户开放式的问题，目前使用的 CNN 模型提取特征过于单一化。可能的改进方向为尝试更多的模型或融合模型来进行图像处理法，或者将图像分类补充真对象的图片数据集来微调或重新训练 CNN 模型。
（4）**深度学习的不可解释性。**这是深度学习共同的问题，尽管深度学习目前被广泛应用，但是其不可解释性也是深度学习继续发展的局限，同时也会对处理的任务产生局限。可能的改进方向为致力于研究和使用别的可解释的新型模型来实现视觉问答任务。

一些个人想法：

基于以上的分类，可以看出，目前的VQA技术还是集中于解决以上某一个分类中的一个问题，想要提高整体性能，可能还需要将这些方法和技术融合，来共同克服VQA的目前存在的一些缺陷。以效果较好的注意力机制为基础，进一步解决计数问题和鲁棒性问题，进一步提高推理能力和场景文本的处理能力，最好能将这些能力放在同一个模型下解决。目前其他技术都有了一定的发展，但是计数问题还没解决，可参考文献也不多。

参考

参考2019年VQA论文整理
参考Visual Question Answering: Datasets, Algorithms, and Future Challenges
VQA- 近五年视觉问答顶会论文创新点笔记
其他链接在文中相应地方给出

双目视觉之获取三维坐标（立体校正、Q矩阵与三角测量原理）乐平要加油啊 YOLO+双目视觉计算机视觉 opencv
前言双目视觉是一种模拟人类立体视觉的计算机视觉技术，它通过两个相机从不同的角度拍摄同一个场景，然后利用三角测量原理，计算出场景中物体的三维坐标信息。这种技术在机器人导航、自动驾驶、物体跟踪、三维重建等领域有广泛的应用。获取三维坐标是双目视觉的核心任务之一。通过对左右相机拍摄的图像进行特征匹配和视差计算，我们可以得到场景中每个像素点的视差值。视差值表示了同一个物体在左右图像中的位置差异，它与物体距离
【安装cudnn】 Eternal-Student linux linux
官网下载并安装如果打算使用深度学习框架，如TensorFlow或PyTorch，并且需要GPU加速，可能还需要安装NVIDIA的cuDNN库，它是一个GPU加速的深度神经网络库。officialweb:https://developer.nvidia.com/cudnn下载具体：cuDNN9.5.0Downloads历史版本下载：https://developer.nvidia.com/rdp/c
Pytorch深度学习指南卷I --编程基础（A Beginner‘s Guide）第1章一个简单的回归 liuhui244 深度强化学习深度学习 pytorch 回归
本章正式开始使用pytorch的接口来实现对应的numpy的学习的过程，来学习模型的实现，我们会介绍numpy是如何学习的，以及我们如何一步步的通过torch的接口来实现简单化的过程，优雅的展示我们的代码，已经我们的代码完成的事情numpy的线性回归在此之前，先看看现在的numpy实现的学习的过程是什么样的#引入计算模块importnumpyasnpfromsklearn.linear_model
Python 在股票分析中的高级应用：挖掘金融数据的深度洞察三带俩王 python 金融开发语言
在当今的金融世界中，股票分析是投资者和金融从业者必备的技能。Python作为一种强大且灵活的编程语言，为股票分析提供了丰富的工具和技术。本文将深入探讨使用Python进行股票分析的高级用法，涵盖从数据获取与清洗、高级分析指标计算到机器学习和深度学习在股票分析中的应用等多个方面。一、数据获取与预处理：构建坚实的分析基础1.数据来源与获取直接从证券交易所获取数据：许多证券交易所提供了数据接口，例如，上
如何在 Ubuntu 18.04 上升级 gcc 到 9.4：一步步详细指南草莓奶忻 #Linux ubuntu linux 运维 c++
文章目录问题描述问题解决1.添加Toolchain测试PPA2.安装GCC和G++3.更新替代版本4.验证安装5.出现报错在执行sudoaptinstallgcc-9g++-9时，出现以下报错。解决方案更换默认的Ubuntu软件源问题描述在尝试编译PyTorch时遇到的报错提示需要GCC版本9.3或更高，但系统中安装的是版本7.5.0。因此，需要升级GCC到至少9.3版本。damon@damon-
目标检测算法以及常用库概述 YOLO大师目标检测算法人工智能
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例目标检测是在图像中发现并识别物体的过程，它是深度学习和图像处理领域的重要成果之一。在创建物体定位时，识别物体时，常见的一种方法是使用边界框。这种方法具有很高的通用，可以训练目标检测模型来识别和检测多个特
PyTorch中，view, reshape, 或者 permute 的区别和联系不是吧这都有重名 pytorch pytorch 人工智能 python
在PyTorch中，view、reshape和permute都是用于改变张量形状的方法，但它们的工作方式和使用场景略有不同。以下是它们的区别和联系：1.view功能：view函数用于改变张量的形状，返回的是一个新张量，它与原始张量共享数据内存（相当于浅拷贝）。要求：view只能在张量是连续的（contiguous）的情况下使用。如果张量在内存中不是连续存储的（例如经过transpose或permu
PyTorch transpose、permute、view和einops.rearrange qq_27390023 pytorch 人工智能 python 深度学习
einops.rearrange和PyTorch中的transpose、permute以及view都用于张量的操作，但它们的功能侧重和用法各有不同。以下是它们的详细比较和区别：1.功能和用途对比功能/操作einops.rearrangetorch.transposetorch.permutetorch.view维度交换支持直接通过模式字符串交换维度，同时支持插入、移除维度交换两个特定维度以任意顺序
pytorch torch.vmap函数介绍 qq_27390023 pytorch 人工智能 python
torch.vmap是PyTorch提供的一个高效矢量化映射函数，用于对批量数据上的操作进行自动矢量化。它可以显著提高代码的性能和可读性，避免显式使用循环来操作批量数据。torch.vmap的核心功能对函数进行批量化操作。自动扩展函数，使其可以作用于批量输入（即N个样本）。提供对批量维度的灵活控制，包括指定输入输出的批量维度。函数签名torch.vmap(func,in_dims=0,out_di
基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版) 矩阵猫咪 cnn transformer pytorch 卷积神经网络深度学习
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。随着城市化进程的加速，交通流量预测成为城市交通管理与规划中的关键任务。准确的交通流量预测
pytorch中tensor的底层存储方式，维度变换permute/view/reshape，维度大小和数目 lppfwl pytorch pytorch
记录一下pytorch中tensor的底层存储方式，维度变换permute/view/reshape，维度大小和数目。tensor的底层存储方式tensor的底层存储是按照行优先的原则存储的，比如：>>importtorch>>a=tensor.rand((2,2,3))>>atensor([[[0.1345,0.4907,0.8740],[0.4888,0.5481,0.8513]],[[0.1
大语言模型应用指南：OpenAI大语言模型简介 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：OpenAI大语言模型简介1.背景介绍1.1问题的由来在过去几年中,自然语言处理(NLP)领域取得了长足的进步,这主要归功于大型语言模型(LargeLanguageModels,LLMs)的出现和发展。LLMs是一种基于深度学习的人工智能模型,能够从大量文本数据中学习语言模式和语义关系,从而生成看似人类写作的自然语言输出。随着计算能力和数据可用性的不断提高,LLMs的规模也在不
一、深度学习的基本介绍关关钧深度学习深度学习人工智能神经网络
机器学习的基本步骤：前馈运算、反向传播计算梯度、根据梯度更新参数值。一、定义及基本概念深度学习，就是一种利用深度人工神经网络来进行自动分类、预测和学习的技术。它可以从海量的数据中自动学习，找寻数据中的特征。所以说，它的本质就是自动提取特征的能力。可以说，深度学习就等于深度人工神经网络。一般认为超过三层的神经网络就可以叫做深度神经网络。深度学习属于一种特殊的人工智能技术。反向传播算法：此算法是人工神
# AI绘图中的Embedding、CLIP、Flux中的Clip与LCM SDXL加速生成解析迪小莫学AI 人工智能 embedding
AI绘图中的Embedding、CLIP、Flux中的Clip与LCMSDXL加速生成解析在现代AI绘图和深度学习中，涉及了多个复杂的概念和技术，这些技术在图像生成、训练加速以及多模态学习等方面起着至关重要的作用。在这篇博客中，我们将讨论几个关键概念：Embedding、CLIP模型、Flux中的Clip，以及LCMSDXL加速生成技术的实现原理。1.AI绘图中的Embedding是什么意思？在A
计算机视觉 ---图像读取与显示(OpenCV与Matplotlib) 两千连弹计算机视觉计算机视觉 opencv matplotlib
前言本文分别介绍了使用OpenCV和Matplotlib进行图像读取与显示的方法，如cv2.imread()、cv2.imshow()、plt.imread()、plt.imshow()等，并提及了使用OpenCV时的注意事项。OpenCV与Matplotlib图像读取与显示的差异图像读取：OpenCV：使用cv2.imread()函数读取图像，默认读取的图像格式是BGR（蓝绿红）。Matplot
Python文件操作(json、csv、tsv、excel、pickle文件序列化) herosunly 机器学习入门之工具篇 Python新手快速入门 python 文件操作
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了Python文件操作(json、csv、tsv、excel、pickle
AI学习指南Ollama篇-Ollama简介俞兆鹏 AI学习指南人工智能 ollama
一、定义大语言模型（LLM）是一种基于深度学习的自然语言处理模型，能够生成文本、回答问题、翻译语言、撰写代码等。这些模型通过海量的文本数据进行训练，学习语言的模式和结构，从而能够生成自然流畅的文本内容。随着技术的不断进步，大语言模型在各个领域都展现出了巨大的潜力。二、应用场景大语言模型的应用场景非常广泛，以下是一些常见的例子：聊天机器人：通过自然语言理解与生成，为用户提供智能对话服务。内容创作：帮
深度ResUnet与ResUnet++：新一代的语义分割神器倪澄莹George
深度ResUnet与ResUnet++：新一代的语义分割神器去发现同类优质开源项目:https://gitcode.com/在这个数据驱动的时代，深度学习模型在图像处理领域展现出了强大的潜力，尤其是在语义分割任务中。今天，我们向您推荐一个基于PyTorch实现的开源项目——DeepResUnet和ResUnet++。这两个模型源自于学术界的最新研究，旨在提高图像分割的准确性和效率。项目介绍这个开源
医学类使用TransUNet、UNet、DeepLabV3+、HRNet、PSPNet 模型对息肉分割数据集进行训练、评估和可视化 EDD2020息肉数据集分割数据集计算机C9硕士_算法工程师数据集语义分割医学类数据集语义分割息肉 TransUNet UNet
息肉数据集/息肉瘤分割项目解决（已处理好:EDD2020数据集(EndoscopyDiseaseDetectionandSegmentationChallenge)该息肉分割数据集主要包含人体生长的（肠胃）息肉用于器官内部息肉瘤分割，息肉目标检测，息肉定位任务息肉分割是一个重要的医学影像分析任务，特别是在内窥镜检查中。EDD2020数据集是一个很好的起点。我们将使用几种流行的深度学习模型（如Tra
L8打卡学习笔记无涯学徒1998 学习笔记支持向量机
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊SVM与集成学习SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结SVM超平面：SVM在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的
P5学习笔记无涯学徒1998 python pytorch
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊运动鞋品牌识别设置GPU导入数据构建CNN模型编写训练函数编写测试函数设置动态学习率等间隔动态调整自定义调整多间隔调整余弦退火正式训练结果可视化使用模型进行预测个人总结设置GPUimporttorchimporttorch.nnasnnimporttorchvision.transformsastransformsimporttorchv
深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
OpenCV中添加高斯噪声到彩色图像和点云 LpmShell opencv 人工智能计算机视觉点云
在计算机视觉和图像处理中，噪声是一种常见的现象，可以对图像和点云数据产生不良影响。高斯噪声是一种常见的噪声类型，它具有正态分布的特点。在本文中，我们将使用OpenCV库来添加高斯噪声到彩色图像和点云数据，并提供相应的源代码示例。添加高斯噪声到彩色图像首先，我们将介绍如何使用OpenCV库向彩色图像添加高斯噪声。以下是添加高斯噪声的步骤：步骤1:导入必要的库importnumpyasnpimport
Jupyter Notebook 与 PyTorch 配置教程如若123 jupyter pytorch ide
JupyterNotebook与PyTorch配置教程安装build-essential：sudoaptinstallbuild-essential安装编译软件所需的基本工具。安装Python3.8：sudoaptinstallpython3.8如果未安装Python3.8，执行此命令进行安装。下载Miniconda：wgethttps://repo.anaconda.com/miniconda/
深度学习｜表示学习｜卷积神经网络｜由参数共享引出的特征图｜08 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：FeatureMap（特征图）的概念与ParameterSharing（参数共享）密切相关。换句话说，参数共享是生成FeatureMap的基础。FeatureMap是卷积操作的核心产物，而卷积操作的高效性正是由参数共享带来的。下面我们详细看一下FeatureMap和ParameterSharing之间的关系：1.什么是FeatureMap？定义：FeatureMap是卷积操作生成的输出结
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南 m0_57781768 数码相机 c++计算机视觉
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南简介在计算机视觉和机器人领域，激光标定和相机标定是实现高精度测量和检测的关键技术。激光线扫标定和相机标定在许多应用中都是必不可少的，如自动驾驶、工业检测、三维重建等。本文将详细介绍激光线扫标定和相机标定的基本概念、实现细节以及常见问题的解决方案。目标读者为中高级C++程序员和计算机视觉工程师，文章将提供详细的技术细节和代码示例，确保
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息