Estella1024

立体匹配论文笔记（11.5~11.12）

这里写目录标题

1.《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》CVPR2021
- 术语
- 论文理解
- 可取之点
2.《SMD-Nets: Stereo Mixture Density Networks》CVPR2021
- 术语
- 论文理解
- 可取之处
3.《A Decomposition Model for Stereo Matching》CVPR 2021
- 术语
- 论文理解
- 可取之处
4.《Learning Stereo from Single Images》ECCV 2020
- 术语
- 论文理解
- 可取之处

1.《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》CVPR2021

术语

end-to-end learning
代价立方体
可微分
2D几何传播
翘曲机制
image tai
前向平行tile假设
leaky Relu
匹配的代价
warp
title：平面
视差
视差梯度
置信度
法线估计的结果图
resolution:分辨率

论文理解

痛点：立体匹配研究集中于：研究准确性（基于3D卷积的立体匹配网络），但是主要局限就是运算速度慢。
主要思想：
没有明确构建代价立方体，而是依赖于快速的多分辨初始化步骤，可微分的2D几何传播和翘曲机制来推断出视差假设；将image tail表示为具有学习紧凑特征表征描述符的平面块。

为了实现高度的精度，该网络不仅是在几何方面得到视差信息，而且还推断倾斜平面假设，从而允许更准确地执行几何扭曲和上采样操作。

该架构本质上是多分辨率的，允许信息跨不同级别传播。

Introduction：
下采样的成本量可以在速度和准确性之间提供一个合理的折衷。然而，对成本量进行下采样是以牺牲准确性为代价的。
最近出现的提升效率的高精度视差预估方案（未融入端对端网络）：首先，使用紧凑/稀疏特征进行快速高分辨率匹配成本计算；其次，非常有效的视差优化方案，不依赖于全部成本量；第三，使用倾斜平面的迭代图像扭曲来实现高精度最小化图像差异。所有这些设计选择都是在没有明确操作全3D成本的情况下使用的。
提出HITNet：通过将图像扭曲、空间传播和快速高分辨率初始化步骤集成到网络架构中，克服了在3D体积上操作的计算缺点，同时保持学习特征的灵活性。
方法：

首先给出tile的描述方式，类似于图片中每个点的特征，每个tile也有一个特征描述。这个描述由两部分组成，分别为表达几何信息的平面描述和通过网络学习到的特征描述。
如下，为tile的视差， [公式] 和 [公式] 分别为视差的水平梯度和竖直梯度，这三个量可以定义一个视差平面。
$d_x和d_y分别为视差的水平梯度和竖直梯度，这三个量可以定义到一个视差平面$

所以整个方法的流程就是对title的视差逐级调优，最终获得视差结果。

一个title代表的是原图像4*4的一个窗口。
既然要逐级调优，首先要有一个初始化。每个tile初始的视差来自暴力匹配。假设我们现在有了来自于U-Net提取的左右图特征，分辨率为H * W。

初始化阶段 :

目标：在不同分辨率下提取每个分块的初始视差数据d和特征向量P
输出：前向平行tile假设
这个描述由两部分组成，分别为表达几何信息的平面描述和通过网络学习的特征描述。

为了保持较高的初始视差分辨率：（注意区别空间分辨率，视差高分辨意味着有着更多的视差等级）
右(次)图像中沿x方向(即宽度)使用重叠的tile
在左(参考)图像中仍使用非重叠的tile以进行有效的匹配

提取tile特征
对每个提取的特征地图eL使用4*4卷积。

左(参考)图像和右(次)图像的步长不同
左边的图像，采用步长4 * 4的卷积得到(H/4) * (W/4)的用于匹配的特征，
对于右图则采用4 * 1的卷积得到(H/4) * W的特征。
这样，以左图为参考进行匹配时，在右图中搜寻的待匹配点就更多了，也即所谓的视差有较高分辨率。

这个卷积之后是一个leaky Relu和一个1×1的卷积
该步骤的输出是一系列拥有每一tile特征的新特征图，左右特征图的宽度此时已不相同。

我们将直接找到L1距离最近的两个点作为匹配点，计算水平坐标之差得到视差。
视差梯度的初始化为0.
描述向量的初始化会通过额外的感知机学习得到，这部分得输入包括用于匹配的左图特征和匹配的代价。

Propagation

在初始化时，我们知道每个tile代表原特征图的一个4 * 4的窗口（？）

tile算出4*4窗口内每个点的视差：
根据视差和梯度，利用title（代表原特征图的一个4 * 4的窗口）算出这个窗口内的视差

计算warp的误差：
利用视差，对特征图进行wrap,可以计算wrap的误差
每个title的点会有16个warp误差，对应4*4窗口的每个点。
这个误差向量会用于更新title的表示

构建cost volume:
不仅用title的d视差wrap，也用d-1和d+1的视差进行wrap。用于更新tile表示的全部特征为：

更新就是用网络学习，将输出h的残差Δh，和一个额外的置信度w。
如下图。 U为更新模块网络。这里的 [公式] 表示尺度（请参照上网络图，即每个空间分辨率）

我们看到有个 n。他代表可能的tile假设个数。
在最低分辨率，只有一个初始化的title假设，在更高分辨率，拥有初始化的title和来自前一分辨率上采样的title两个title。
两个title将利用预测的置信度进行选择。
得到最高分辨率的title之后，我们知道这里的每个title表示的是原特征44的窗口，随后将再次进行3次更新，从代表44的窗口到22的窗口到11的窗口，title逐渐从对应一个视差平面到对应一个原图像素点，也逐渐实现了视差的细化。

损失函数

约束初始视差估计的对比损失
约束title视差参数的损失（既约束title中的视差，又约束title中的视差梯度，还涉及置信度的约束）

实验结果：

主要是这个预测的倾斜平面，还是能反映一些信息的。这个图感觉和法线估计的结果图很像，说明预测的tile还是很好地拟合了真实的视差平面。

可取之点

多尺度（下采样、上采样（Unet））
- 相关多尺度论文：19年的H3D、AnyNet
将视差表示为小的平面（4*4？）
- 给平面配备了特征使其在多尺度网络中逐级调优
- 实现了对真实世界中倾斜视差平面的建模

2.《SMD-Nets: Stereo Mixture Density Networks》CVPR2021

术语

代价聚合
D维
双线性插值
多层感知机head
双峰的拉普拉斯分布
最大似然损失LLLS
真值分布

论文理解

痛点：
恢复尖锐边界和高分辨率输出

本文提出：
立体混合密度网络：
利用双峰混合密度作为输出表示，并表明这允许

在不连续点附近进行清晰而精确的视差估计
对观测中固有的任意不确定性进行建模

估计锐利的边缘：

图中横坐标是代表像素网格的一条水平线，纵坐标是视差值。
理想情况下，视差应该有个锋利的跳变。但当前回归网络通常会将边界预测得平滑（如左图），而采取了混合分布的预测策略时，可以通过选择概率最大的视差值避免平滑。（右图中命名为μ的两条曲线分别建模了预测为背景、预测为前景的情况， Π是选择背景视差的概率）

将一个点的视差建模为一个双峰分布（b）
对于边缘处的点，代价聚合后的视差概率分布容易在前景视差值和背景视差值产生两个概率较大的峰。
本文：通过显示地建模这两个峰，
在测试阶段选择概率更高地那个，从而得到锐利地边缘。

获得更高分辨率地视差图

可以估计视差图中任意位置的视差值（打破了只能在规则的像素网格上获得视差的瓶颈）
对于输出视差图的每个点，利用插值找到对应的原图特征，再利用该特征预测视差。

方法：
SMD-Nets的设计模式

输入：左右图
输出：D维的特征图

对于输出视差图上的任意一点
- 利用双线性插值找到对应的D维特征
- 这个D维特征经过一个多层感知机预测5个参数
  $\prod, \mu1,b_{1}, \mu2,,b_{2}$
  
  训练阶段：采用真值分布和该分布的最大似然损失
  测试阶段：直接选择概率最大的视差值
  首先使用卷积骨干(左)将立体对编码为特征图。
  接下来，通过多层感知器head估计任意连续2D位置的混合密度分布的参数
  以双线性插值特征向量作为输入
  由此，得到了视差和不确定性图（如下图）

如图为SMD-Nets的操作流程，Stereo Backbone可以是任意的匹配网络。
训练策略：从图像中采样N个点，预测该点的双峰拉普拉斯分布，再利用真值分布进行监督。这里采样时作者还专门在视差不连续处多采了一些点

对输出图的任意位置预测视差

因为是通过插值找到对应的特征
允许查询视差d在任何连续的 2D 像素位置，可实现具有清晰描绘的对象边界的超高分辨率预测，如上图所示：

本文模型可以用较小分辨率的RGB图和较大分辨率的视差真值进行训练

提供了一个新的数据集：来印证Stereo Super-Resolution(而主流的数据集都是RGB和视差真值分辨率相同的)

损失函数

通过最小化负对数似然损失来训练我们的模型

结果;

可取之处

预测精确的深度边界
生成高分辨率输出
允许任意位置的视差预测
content-aware：一种动态的插值方法

3.《A Decomposition Model for Stereo Matching》CVPR 2021

术语

mask
cross-correlation：特征相似度
occlusion-aware soft mask
匹配代价
wrap
EPE:终点误差，以像素为单位的平均视差误差
3PX:异常值：视差误差>max(3px，0.05d*)的像素
ground truth:真值

论文理解

引言：

痛点：当前立体匹配模型在输入图像对分辨率比较高时要消耗大量的显存和运算时间。
核心：Decomplosition分解
在一张图中：

低分辨率：

一个较大平面内点的视差可以在低分辨率进行估计。
进行致密的匹配。

高分辨率：
细节点再高分辨上估计
进行稀疏的匹配
从而使模型处理大分辨率的图像。

属于coarse-to-fine方法

区别于之前的一些coarse-to-fine的方法（如StereoNet、AnyNet、CSN）
本文中，coarse区域和fine区域互不相交，同时二者互补，并集是整张图。

方法:

低分辨率：

cost volume+3D卷积

高分辨率：
- 1.确定要对哪些稀疏点进行匹配。
  - 输入：（利用一个由3层卷积+sigmoid组成的小模块，以上采样的特征）-本来提取的高分辨率的特征
    直观解释是：如果插值的特征和正常网络提取的高分辨率特征相差较大，这个点则有较大可能属于细节，需要在高分辨率上进行匹配
  - 输出：一个mask(掩膜)
    mask的值越接近于1越代表这个点在低分辨率上可能丢失，需要在高分辨率上恢复

损失：

利用一个无监督的损失
其中FA代表图像中的fine区域，即要进行稀疏匹配的区域。
损失包含两部分：

一方面希望不要有太多的点属于FA区域，即强调稀疏性；
另一方面就是稀疏点要是那些特征存在差异的点，即哪些点属于稀疏点。

当我们已经检测到左右图的稀疏点时，只需要沿着水平线进行稀疏匹配即可。
对于左图的任意一个点，计算和右图所有可能的匹配点的特征相似度作为（负的）匹配代价
对匹配代价作归一化转化为匹配概率
最终加权平均得到该点视差

融合：

低分辨率的插值的致密的视差图（这里插值还用了一种content-aware的动态方法，是学习得到的插值权重，而不是简单的双线性）
高分辨率的稀疏视差图
进行soft融合：
- 融合的掩膜不是二进制的，是允许有小数
- 通过学习得到
- 3层卷积+sigmoid
  - 输入是致密视差和稀疏视差、同分辨率特征、用于预测稀疏匹配点的掩膜、以及一个稀疏匹配的置信度。

调优

以warp的左图特征映射、右图特征映射、初始视差为输入，经过7个卷积层，得到视差残差。

实验

首先是一些关于检测到的细节区域的示意图：
指标上对比（分别在SceneFlow和KITTI 2015上评测得到），模型兼顾准确性与速度：

可取之处

多尺度
无code

4.《Learning Stereo from Single Images》ECCV 2020

https://github.com/nianticlabs/stereo-from-mono/

术语

Sobel 边缘算子
消融实验

论文理解

痛点：

真实场景下的立体匹配数据集往往难以进行深度/视差标签的采集或标注，因此已有的真实数据集的规模都很小，例如 KITTI，MiddleBury 和 ETH3D

方法

输出：

构造方法带来的问题：

遮挡造成的像素点的缺失
像素点冲突：多个像素点可能最终落在右图中的同一个像素点上
单目深度估计的不准确会造成深度图的不连续,构造右图时出现很多野点。

解决方法

处理遮挡：被遮挡的像素在右图中会成为没有填充的黑洞，因此处理遮挡的方法是将其用合适的纹理填充。
从训练图像中随机选择图像I_b的纹理信息，利用 color transfer 技术将 I_b 的风格迁移到与 I_l保持一致得到I
̃_b，之后利用I ̃_b 对应位置的像素来填充I ̃_r 中缺失的空洞。
处理冲突：当多个像素点对应到右图中的同一位置时，作者采用视差值最大的像素点作为最终的选择，因为这些像素点彼此很近，应当保证在两个视角中都是可见的。
深度图锐化处理
-从上图中可以看出，单目深度估计的不准确会产生不连续的深度图，从而在合成的右图

出现如（b）图中的 flying pixels。

作者采用深度锐化技术来解决，即对深度图采用 Sobel 边缘算子进行处理，将响应大于 3 的像素点作为野点而去除。去除后能得到更加锐化的右图（c）。利用锐化后的双目图像得到的视差估计结果会更准确，如（e）和（f）的比较

数据集

Mono for Stereo（MfS）数据集，MfS 数据集包括 COCO 2017，Mapillary Vistas，ADE20K，Depth in the Wild 和 DIODE。而测试数据集是常用的立体匹配数据集 KITTI 2012/2015，MiddleBury 和 ETH3D

立体匹配

采用 PSMNet 作为视差估计的模型
同时也验证了其他模型，如 iResNet 和 GA-Net

通过实验，作者得到出了以下 6 个结论：

相比于在合成数据上训练，本文的方法能够获得性能更好，泛化更强的结果；
对单目深度估计的结果具有鲁棒性，不论单目数据的来源，均能得到较好的泛化结果；
消融实验表明论文中的设计是有效的；
在各种立体匹配模型上均能获得性能提升；
随着构造的立体匹配数据集规模越大，相应的性能会越高；
在 MfS 数据集上预训练再在真实数据集上微调的性能比原来在合成数据集上预训练再微调要好

可取之处

立体匹配数据集构造：

通过已有的单目深度估计算法和其他任务中的单目自然图像来构建双目立体匹配数据集

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
今日播报！庆衍书院郭庆旺被骗黑幕曝光，KSD2.0光伏市场不能出金不要再次踏入！法律咨询维权
社交平台有这样一种群，群里都是“理财专家”“炒股大神”“操盘高手”，不仅每天免费授课、推荐牛股，还有助理“一对一”指导具体操作。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。咨询顾问：182--71402640（电微同号）数字经济数字体育数字农业慈善投票大赛
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
AI人才实在太抢手！顶级科学家年薪超7000万：中高级也能过千万程序员超超人工智能 transformer 深度学习 java spring boot ai 大模型
快科技7月2日消息，据媒体报道，激烈的人工智能人才争夺战，导致一些顶尖资深研究科学家的年薪超过1000万美元（约7167万元人民币）。而典型的薪资方案则处于300万至700万美元区间，相较于2022年，这一数字实现了约50%的增长。薪酬追踪网站Levels的统计数据显示，Meta给予AI工程师的薪酬范围为18.6万至320万美元，OpenAI则在21.2万至250万美元之间；若以薪酬中位数来衡量，
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
量子生成对抗网络：量子计算与生成模型的融合革命牧之112 量子计算生成对抗网络人工智能
引言：当生成对抗网络遇上量子计算在人工智能与量子计算双重浪潮的交汇处，量子生成对抗网络（QuantumGenerativeAdversarialNetworks,QGAN）正成为突破经典算力瓶颈的关键技术。传统生成对抗网络（GAN）在图像生成、数据增强等领域已取得辉煌成就，但其参数规模与计算复杂度随着数据维度呈指数级增长。量子计算的叠加性、纠缠性和并行性，为解决这一矛盾提供了全新思路。2025年，
OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
骗局套路：卧虎藏隆应天书府隆国强被骗无法提现！讲述背后事实！正义青天
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！近期作者接触到了很多投资者被所谓的“隆国强”（骗子假冒）在卧虎藏隆应天书府带单的案例。这些新平台打着
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

立体匹配论文笔记（11.5~11.12）

这里写目录标题

1.《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》CVPR2021

术语

论文理解

可取之点

2.《SMD-Nets: Stereo Mixture Density Networks》CVPR2021

术语

论文理解

可取之处

3.《A Decomposition Model for Stereo Matching》CVPR 2021

术语

论文理解

可取之处

4.《Learning Stereo from Single Images》ECCV 2020

术语

论文理解

可取之处

你可能感兴趣的:(机器学习,计算机视觉,深度学习,人工智能)