CV科研随想录

论文阅读《Parallax Attention for Unsupervised Stereo Correspondence Learning》

论文地址：https://ieeexplore.ieee.org/document/9206116
源码地址：https://github.com/The-Learning-And-Vision-Atelier-LAVA/PAM

概述

不同数据集的视图之间的基线、焦距与分辨率不同，基于Cost Volume固定预设视差范围的立体匹配方法无法很好处理大视差预测问题。为此，作者提出一个基于视差注意力机制的立体匹配方法来捕捉大视差范围的匹配点的信息，通过将极线约束与注意力机制结合，计算沿着极线方向的特征相似度来获取匹配点之间的匹配关系。

模型架构

Formulation：在图像自注意力机制中，将特征图从 $\mathbb{R}^{H \times W \times C}$ 转换为 $\mathbb{R}^{HW \times C}$ 后进行矩阵相乘( $\mathbb{R}^{HW \times C} \times \mathbb{R}^{C \times HW}$ )来得到像素之间的注意力。受到自注意力机制的启发，PAM 基于极限约束来求左右视图极线之间的注意力，如图3所示：

给定左右特征图 $\in \mathbb{R^{H\times W\times C}}$ ，使用 $1\times 1$ 的卷积进行特征通道融合，继而进行维度转换得 $Q\in \mathbb{R^{H \times W\times C}}$ 与 $K\in \mathbb{R^{H\times C\times W}}$ 。将 $Q$ 与 $K$ 矩阵相乘后经过softmax层得到极线注意力图 $M_{B\longrightarrow A \in \mathbb{H\times W\times W}}$ 。将 B 经过另外一个 $1\times 1$ 卷积层后得到 $\mathbf{R} \in \mathbb{R}^{H\times W\times C}$ ，然后将 $M_{B\longrightarrow A} \in \mathbb{H\times W\times W}$ 与 $\mathbf{R}$ 相乘后得到输出特征图 $O\in \mathbb{R}^{H\times W\times C}$ ，同时使用 $M_{B\longrightarrow A} \in \mathbb{H\times W\times W}$ 生成 Mask $V_B$ 。

示例：给定尺寸为 $30\times 30$ 的左右图像 $\mathbf{I}_{left}$ 与 $\mathbf{I}_{right}$ ，可以使用PAM来生成对应的视差注意力图 $M_{left\longrightarrow right}$ 与 $M_{right\longrightarrow left}\in \mathbb{R^{30\times 30 \times 30}}$ 。

其中，图4中第一行为左右视差图，第二行为对应的视差注意力图，图4(a)或图4(b)中的视差注意力图的第一列为 $M_{right\longrightarrow left}$ ，其中横方向为右图的索引，纵轴为左图的索引，现在只考虑黄线(左右图像的第 $i$ 行)，。如果左右图像是完全匹配的（视差为0），则生成的注意力图像如图4(a) 第二行所示，只有对角线上的元素为1，即 $M_{right\longrightarrow left}(i, j, j)=1$ ，代表左图第 $i$ 行的第 $j$ 个像素 $\mathbf{I}_{left}(i, j)$ 与右图第 $i$ 行第 $j$ 个像素 $\mathbf{I}_{right}(i, j)$ 匹配上了。在视差不为0的区域，图4(b)所示，如视差为5的区域，表示左图第 $i$ 行的第 $j$ 个像素 $\mathbf{I}_{left}(i, j)$ 与右图第 $i$ 行第 $j - 5$ 个像素 $\mathbf{I}_{right}(i, j-5)$ 匹配上了，即 $M_{right\longrightarrow left}(i, j, j-5)=1$ 。
同时可以从视差注意力图中得到遮挡图，如图4(b) 第一列中，某些列中没有激活点，说明在右图中的 $j$ 点在左图中没有匹配点，即该点在左图中被遮挡。如果某一行没有激活点，则导表该点在右图中没有匹配点，在右图中被遮挡。

左右一致性与循环一致性：为了得到可靠的一致性匹配结果，使用左右一致性与循环一致性来对PAM模块进行正则化。给定左右视图 $\mathbf{I}_{left}$ 与 $\mathbf{I}_{right}$ 与 $M_{left\longrightarrow right}$ 与 $M_{right\longrightarrow left}$ ，有：
$\left\{\begin{aligned} \mathbf{I}_{\text {left }} & =\mathbf{M}_{\text {right } \rightarrow \text { left }} \otimes \mathbf{I}_{\text {right }}, \\ \mathbf{I}_{\text {right }} & =\mathbf{M}_{\text {left } \rightarrow \text { right }} \otimes \mathbf{I}_{\text {left }} \end{aligned}\right.\tag{1}$
其中 $\otimes$ 表示带有几何感知的矩阵乘法，同理，循环一致性表示为：
$\left\{\begin{aligned} \mathbf{I}_{\text {left }} & =\mathbf{M}_{\text {left } \rightarrow \text {right } \rightarrow \text { left }} \otimes \mathbf{I}_{\text {left }}, \\ \mathbf{I}_{\text {right }} & =\mathbf{M}_{\text {right } \rightarrow \text {left } \rightarrow \text { right }} \otimes \mathbf{I}_{\text {right}} \end{aligned}\right.\tag{2}$
其中循环注意力图计算如下：
$\left\{\begin{array}{rl} \mathbf{M}_{\text {left } \rightarrow \text { right } \rightarrow l e f t} & =\mathbf{M}_{\text {right } \rightarrow \text { left }} \otimes \mathbf{M}_{\text {left } \rightarrow \text { right }} \\ \mathbf{M}_{\text {right } \rightarrow \text { left } \rightarrow \text { right }} & =\mathbf{M}_{\text {left } \rightarrow \text { right }} \otimes \mathbf{M}_{\text {right } \rightarrow \text { left }} \end{array} \right.\tag{3}$
其中， $\otimes$ 表示矩阵乘法，对于第 $i$ 行， $\mathbf{M}_{\text {right } \rightarrow \text { left }}(i, :, :)\in \mathbb{R}^{W\times W}$ 与 $\mathbf{I}_{right}(i, :, :)\in \mathbb{W\times C}$ 相乘的结果为第 $i$ 行的每个特征，将 $W$ 行的结果拼接得到 $\mathbf{I}_{left}\in \mathbb{R}^{H\times W\times C}$ 。

有效值掩码：左右一致性与循环一致性都未包含遮挡区域的信息，文中使用视差注意力图来生成有效区域掩码，只在有效区域进行正则化，有效掩码如下图所示：
$\mathbf{V}_{\text {left }}(i, k)=\left\{\begin{array}{ll} 1, & \text { if } \sum_{j \in[1, W]} \mathbf{M}_{l e f t \rightarrow r i g h t}(i, j, k)>\tau \\ 0, & \text { otherwise } \end{array}\right.\tag{4}$

层叠式视差-注意力模块

层叠注意力模块包含3个stages，每个stage包含4个视差注意力blocks，如图7(b)所示：

通过沙漏网络提取到的左右视图的特征图大小为 $\mathbf{F^1_{left}}$ ， $\mathbf{F^1_{right}}\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times C}$ 与初始代价 $C^0_{right \rightarrow left}$ ， $C^0_{right \rightarrow left }\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times \frac{W}{16}}$ (初始化为0)。使用 $3\times 3$ 的卷积处理 $\mathbf{F}^l_{left}$ 与 $\mathbf{F}^l_{right}$ 后得到 $\mathbf{F}_{left}$ 与 $\mathbf{F}_{right}$ 。然后使用 $1\times 1$ 的卷积层处理 $\mathbf{F}_{left}$ 与 $\mathbf{F}_{right}$ 后得到 $\mathbf{Q}$ 与 $\mathbf{K}$ , reshape后相乘得到 $C^1_{right \rightarrow left }\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times \frac{W}{16}}$ 。交换 $\mathbf{F^1_{left}}$ ， $\mathbf{F^1_{right}}$ 后生成 $C^1_{left \rightarrow right }\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times \frac{W}{16}}$ 。如图7(b) 所示，将生成的结果送入后续的block中继续生成新的特征图与 $C$ 。在每个stage之后进行双线性插值到上一层后继续迭代。得到最后的得分矩阵 $C^3$ 。
模型通过层叠式视差-注意力模块完成隐式正则化，如图8所示:

为了简化分析，在此过程中只考虑 $3\times 3$ 的卷积操作。在第 $m^{th}$ 的视差注意力 block 中，左右视图 $\mathbf{f}^5_{left}$ 与 $\mathbf{f}^5_{right}$ 之间cost $c^m_{5,5}$ 计算如式5所示：
$\begin{aligned} c_{5,5}^{m} & =c_{5,5}^{m-1}+\left(\mathbf{w}_{Q}^{m} \mathbf{f}_{\text {left }}^{5}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m} \mathbf{f}_{\text {right }}^{5} \\ & =c_{5,5}^{m-1}+\left(\mathbf{f}_{\text {left }}^{5}\right)^{\mathrm{T}}\left(\mathbf{w}_{Q}^{m}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m} \mathbf{f}_{\text {right }}^{5}, \\ & =c_{5,5}^{m-1}+\Psi^{m}\left(\mathbf{f}_{\text {left }}^{5}, \mathbf{f}_{\text {right }}^{5}\right) \end{aligned}\tag{5}$
其中 $w_Q^m$ , $w_K^m\in \mathbb{R}^{C\times C}$ 为 $1\times 1$ 的卷积层， $\mathbf{f}^5_{left}$ 与 $\mathbf{f}^5_{right}\in \mathbb{R}^{C\times 1}$ 为匹配点的特征。 $\Psi^{m}$ 为输入特征对之间的匹配代价。在 $m+1)^{th}$ 层block的特征向量由第 $m^{th}$ 层特征向量 $\mathbf{f}_{left}$ 与 $\mathbf{f}_{right}$ 的局部邻域聚合而来：
$\left\{\begin{array}{rl} \mathbf{f}_{\text {left }} & =\sum_{i=1}^{9} \mathbf{w}^{i} \mathbf{f}_{\text {left }}^{i} \\ \mathbf{f}_{\text {right }} & =\sum_{j=1}^{9} \mathbf{w}^{j} \mathbf{f}_{\text {right }}^{j} \end{array},\right.\tag{6}$
其中 $\mathbf{w}^{i}$ 与 $\mathbf{w}^{j}\in \mathbb{R}^{C\times C}$ 为权值共享的 $3\times 3$ 的卷积操作。 $\mathbf{f}_{left}$ 与 $\mathbf{f}_{right}\in \mathbb{R}^{C\times C}$ 为输出特征向量，匹配代价计算如式7所示：
$\begin{aligned} c_{5,5}^{m+1} & =c_{5,5}^{m}+\left(\mathbf{w}_{Q}^{m+1} \mathbf{f}_{\text {left }}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m+1} \mathbf{f}_{\text {right }} \\ & =c_{5,5}^{m}+\sum_{i} \sum_{j}\left(\mathbf{w}_{Q}^{m+1} \mathbf{w}^{i} \mathbf{f}_{\text {left }}^{i}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m+1} \mathbf{w}^{j} \mathbf{f}_{\text {right }}^{j} \\ & =c_{5,5}^{m}+\sum_{i} \sum_{j}\left(\mathbf{f}_{l e f t}^{i}\right)^{\mathrm{T}}\left(\mathbf{w}^{i}\right)^{\mathrm{T}}\left(\mathbf{w}_{Q}^{m+1}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m+1} \mathbf{w}^{j} \mathbf{f}_{\text {right }}^{j}, \\ & =c_{5,5}^{m}+\sum_{i} \sum_{j} \Psi_{i, j}^{m+1}\left(\mathbf{f}_{l e f t}^{i}, \mathbf{f}_{\text {right }}^{j}\right) \end{aligned}\tag{7}$
求中 $\mathbf{w}_{Q}^{m+1}$ , $\mathbf{w}_{K}^{m+1}\in \mathbb{R}^{C\times C}$ 为两个 $1\times 1$ 的卷积层。 $\Psi_{i, j}^{m+1}(.)$ 为输入特征对之间的匹配代价。从事7中可以看出，在从 $m^{th}$ 到 $m^{th+1}$ 层的过程中完成了隐式的代价聚合。

视差回归

由stage 3 得到的 $\mathbf{C}^3_{right \rightarrow left}$ 和 $\mathbf{C}^3_{left \rightarrow right}$ 经过softmax层得 $\mathbf{M}^3_{right \rightarrow left}$ 和 $\mathbf{M}^3_{left \rightarrow right} \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times \frac{W}{4}}$ , 如图7（c）所示。继而使用 $\mathbf{M}^3_{left \rightarrow right}$ , $\mathbf{M}^3_{right \rightarrow left}$ 生成有效值掩码 $\mathbf{V}^3_{left}$ 和 $\mathbf{V}^3_{right}$ ，最后回归视差值：
$\hat{\mathbf{D}}=\sum_{k=0}^{W / 4-1} k \times \mathbf{M}_{\text {right }}^{3} \text { left }(:,:, k)\tag{8}$

视差细化

如图7a所示，使用初始视差值 $\hat{\mathbf{D}}$ 与 $\mathbf{F}_{left}^4$ 拼接后送入沙漏网络中生成视差的残差图 $\hat{\mathbf{D}}_{res}$ 与置信度图 $\mathbf{M}_{con}$ :
$\hat{\mathbf{D}}_{\text {refined }}=\left(1-\mathbf{M}_{\text {con }}\right) \times \hat{\mathbf{D}}_{\text {ini }} \uparrow+\mathbf{M}_{\text {con }} \times \hat{\mathbf{D}}_{\text {res }}\tag{9}$
其中 $\uparrow$ 为上采样操作。

损失函数

光度损失：

$\mathcal{L}_{\mathrm{p}}=\frac{1}{N} \sum_{p \in \mathbf{V}_{\text {left }}} \alpha \frac{1-\mathcal{S}\left(\mathbf{I}_{l e f t}(p), \hat{\mathbf{I}}(p)\right)}{2}+(1-\alpha)\left\|\mathbf{I}_{\text {left }}(p)-\hat{\mathbf{I}}(p)\right\|_{1},\tag{10}$

平滑损失：

$\begin{array}{l} \mathcal{L}_{\mathrm{s}}= \frac{1}{N} \sum_{p}\left(\left\|\nabla_{x} \hat{\mathbf{D}}_{\text {refined }}(p)\right\|_{1} e^{-\left\|\nabla_{x} \mathbf{I}_{l e f t}(p)\right\|_{1}}\right. \\ +\left\|\nabla_{y} \hat{\mathbf{D}}_{\text {refined }}(p)\right\|_{1} e^{\left.-\left\|\nabla_{y} \mathbf{I}_{l e f t}(p)\right\|_{1}\right),} \end{array}\tag{11}$

PAM Loss：

使用3个额外的损失来对不同尺度下的PAM模块正则化：
$\mathcal{L}_{\text {PAM }}^{s}=\mathcal{L}_{\text {PAM-p }}^{s}+\lambda_{\text {PAM-s }} \mathcal{L}_{\text {PAM-s }}^{s}+\lambda_{\text {PAM-c }} \mathcal{L}_{\text {PAM-c }}^{s} .\tag{12}$

基于视差注意力图的光度一致性损失：
$\begin{aligned} \mathcal{L}_{\text {PAM-p }}^{s}= & \frac{1}{N_{\text {left }}^{s}} \sum_{p \in \mathbf{V}_{\text {left }}^{s}}\left\|\mathbf{I}_{\text {left }}^{s}(p)-\left(\mathbf{M}_{\text {right } \rightarrow \text { eft }}^{s} \otimes \mathbf{I}_{\text {right }}^{s}\right)(p)\right\|_{1} & +\frac{1}{N_{\text {right }}^{s}} \sum_{p \in \mathbf{V}_{\text {right }}^{s}}\left\|\mathbf{I}_{\text {right }}^{s}(p)-\left(\mathbf{M}_{\text {left } \rightarrow r i g h t}^{s} \otimes \mathbf{I}_{\text {left }}^{s}\right)(p)\right\|_{1} . \end{aligned}\tag{13}$

基于视差注意力图的平滑性损失：
$\begin{aligned} \mathcal{L}_{\mathrm{PAM}-\mathrm{s}}^{s}= & \frac{1}{N^{s}} \sum_{\mathbf{M}^{s}} \sum_{i, j, k}\left(\left\|\mathbf{M}^{s}(i, j, k)-\mathbf{M}^{s}(i+1, j, k)\right\|_{1}\right. & \left.+\left\|\mathbf{M}^{s}(i, j, k)-\mathbf{M}^{s}(i, j+1, k+1)\right\|_{1}\right), \end{aligned}\tag{14}$

循环一致性损失：
$\begin{aligned} \mathcal{L}_{\mathrm{PAM}-\mathrm{c}}^{s}= & \frac{1}{N_{\text {left }}^{s}} \sum_{p \in \mathbf{V}_{\text {left }}^{s}}\left\|\mathbf{M}_{\text {left } \rightarrow r i g h t \rightarrow l e f t}^{s}(p)-I^{s}(p)\right\|_{1} & +\frac{1}{N_{\text {right }}^{s}} \sum_{p \in \mathbf{V}_{\text {right }}^{s}}\left\|\mathbf{M}_{\text {right } \rightarrow \text { left } \rightarrow r i g h t}^{s}(p)-I^{s}(p)\right\|_{1}, \end{aligned}\tag{15}$

$\begin{aligned} \mathcal{L}_{\text {unsup }}= & \mathcal{L}_{\mathrm{p}}+\lambda_{\mathrm{s}} \mathcal{L}_{\mathrm{s}} +\lambda_{\text {PAM }}\left(0.2 \mathcal{L}_{\text {PAM }}^{1}+0.3 \mathcal{L}_{\text {PAM }}^{2}+0.5 \mathcal{L}_{\text {PAM }}^{3}\right) . \end{aligned}\tag{16}$

实验结果

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT s1ckrain 计算机视觉论文阅读计算机视觉人工智能
PERSONALIZESEGMENTANYTHINGMODELWITHONESHOT原文摘要研究背景与问题：SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。尽管SAM具有通用性，但在无需人工提示的情况下，针对特定视觉概念（如自动分割用户宠物狗）的定制化研究尚不充分。方法提出：提出了一种无需训练的SAM个性化方法，称为PerSAM。仅需单次数据（一张带参考掩码的图像），即可在新
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
【小白深度教程 1.32】手把手教你从多视角图像进行 3D 重建（SfM 算法）小寒学姐学AI 3d 算法计算机视觉人工智能深度学习 python 三维重建
【小白深度教程1.32】手把手教你从多视角图像进行3D重建（SfM算法）1.SfM三维重建算法简介2.SfM方法和原理3.安装依赖库4.构建数据集5.可视化结果6.完整代码1.SfM三维重建算法简介从多张照片中开发三维模型被称为多视图3D重建。数码相机的进步以及图像分辨率和清晰度的提高，使得利用仅有的相机而非昂贵的特殊传感器来重建3D图像成为可能。重建的目标是从一组照片中推导场景的几何结构，假设摄
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts