自动驾驶小学生

自动驾驶3D物体检测研究综述 3D Object Detection for Autonomous Driving: A Survey

本文介绍一篇最新的自动驾驶3D物体检测研究综述（2021年6月份发布），来源于中国人民大学，论文共26页，99篇参考文献。

论文链接为：https://arxiv.org/pdf/2106.10823.pdf

0. Abstract

自动驾驶被看作是避免人类遭受严重碰撞的最有希望的措施之一。其中，3D物体检测 是自动驾驶感知系统的核心基础，尤其是在路径规划、运动预测、碰撞避免等方面。

通常，在3D物体检测传感器标准布局中有立体/单目图像及相应的三维点云，其中点云能够提供准确的深度信息。但由于点云的稀疏性和不规则性，以及相机视角与激光雷达鸟瞰视角之间的错位导致的模态协同、远距离的遮挡和尺度变化等原因，点云3D物体检测仍处于起步阶段。

最近，有大量的文献正在研究这一视觉任务，3D物体检测已经取得了巨大进展。为此，本文全面回顾了这一领域的最新进展，包括传感器、基础知识和最新的检测方法及其优缺点。此外，本文还介绍了3D物体检测评价指标并对公开数据集做了定量比较。

1. Introduction

(引言里作者介绍了自动驾驶对社会的影响，什么是自动驾驶，什么是3D物体检测，我这里只摘取什么是3D物体检测。)

什么是3D物体检测：3D物体检测是从3D传感器数据中检测物理对象，估计3D边界框及物体类别。

3D物体检测是3D场景感知和理解的核心。目前常见的3D表示有：point clouds、meshes、volumetric grids，其中点云在许多情况下是最好的表示。点云既不像由大量面组成的meshes消耗存储空间，也不像volumetric grids由于量化而丢失原始几何信息，而且点云与原始激光雷达数据很接近。

Three types of commonly existing 3D representations	The number of publications in 3D object detection	The trend of heat change with time

2. Sensors

自动驾驶汽车常用的传感器可分为两类：被动传感器 (Passive Sensors)和主动传感器 (Active Sensors)。

被动传感器中单目相机具有信息丰富的颜色和纹理属性、更好的路标文本视觉识别、高帧速率和可忽略不计的成本等优点，然而，它缺乏深度信息，这对于准确的位置估计至关重要。为了克服这一点，立体相机使用匹配算法来对齐左右图像中的对应关系以进行深度恢复。
主动传感器中激光雷达是一种具有透镜、激光和探测器三个基本组件的点对点发射设备，发出的光脉冲将以三维点的形式从周围环境中反射回来，形成“点云“。高稀疏性和不规则性以及缺乏纹理属性是点云的主要特征，它与图像阵列有很好的区别，激光雷达的另一个问题是部署成本高。

下面的表格是单目相机、立体相机、激光雷达和固态激光雷达的优缺点比较。

3. Fundamentals

本文以KITTI自动驾驶数据集为例，下面是3D物体检测常用的符号规定、3D边界框的不同表达形式（常用的是7参数表达形式）、和3D物体检测的示意图（激光雷达坐标）。

Commonly used notations	Comparison of the 3D bounding box parameterization	An overview of 3D object detection from point clouds

坐标转换：由于现有的研究算法大多是基于KITTI数据集，本文以KITTI数据集为例介绍如何进行坐标转换。KITTI数据集中激光雷达和相机坐标系定义为：

激光雷达坐标：x轴向前为正方向，y轴向左为正方向，z轴向上为正方向。
相机坐标：x轴向前为正方向，y轴向为下正方向，z轴向前为正方向。

激光雷达坐标中的一个3D点 $p=(x,y,z,1)^{T}$ 与对应的相机图像坐标 $y=(u,v,1)^T$ 之间的坐标转换关系为：
$\mathrm{y}=\mathrm{P}_{\text {rect }}^{(i)} \mathrm{R}_{\text {rect }}^{(0)} \mathrm{T}_{\text {velo }}^{\text {cam }} \mathrm{p}$

其中，投影矩阵 $\mathrm{P}_{\text {rect }}^{(i)}$ 为：
$\mathrm{P}_{\text {rect }}^{(i)}=\left(\begin{array}{cccc}f_{u}^{(i)} & 0 & c_{u}^{(i)} & -f_{u}^{(i)} b_{x}^{(i)} \\ 0 & f_{v}^{(i)} & c_{v}^{(i)} & 0 \\ 0 & 0 & 1 & 0\end{array}\right)$

则对应的相机内参 $\mathrm{K}_{\text {rect }}^{(i)}$ 为：
$\mathrm{K}_{\text {rect }}^{(i)}=\left(\begin{array}{cccc}f_{u}^{(i)} & 0 & c_{u}^{(i)} \\ 0 & f_{v}^{(i)} & c_{v}^{(i)} \\ 0 & 0 & 1 \end{array}\right)$

4. 3D Object Detection Methods

如下图所示，根据输入数据模态，3D物体检测方法可以分为基于单目/立体图像、基于点云和基于多模态融合·的方法，这里也将各种方法划分为一阶段和两阶段了。基于点云的检测方法还可以进一步细分为基于多视图、基于体素、基于点、基于点与体素四种方法。为了明确区分不同的基于多模态融合的方法，本文提出了两种新的融合策略：基于序列融合和基于并行融合的方法。

下面将依次介绍这几种检测方法。

4.1 Monocular/Stereo Image-based Methods

与二维物体检测方法十分相似，以单目/立体图像作为输入来预测三维实体。该方法通常可以分为三类（如下图所示）：基于模板匹配和基于几何特性，以及基于图像的伪激光雷达方法。

4.2 Point Cloud-based Methods

卷积神经网络的本质是稀疏交互和权值共享，已被证明能够有效地利用规则域中的空间局部相关性，通过中心像素与其相邻像素的加权和。然而，由于点云是不规则和无序的，直接进行卷积操作，会遭受形状信息的缺失和点云序列方差。如下图所示，由于点云序列不同，其最终得到的特征往往也会不同。

本文将基于点云的方法分为四类（如下图所示）：基于多视图、基于体素、基于点云、基于点云体素的方法。

Multi-view-based Methods：将点云转换为前视图或鸟瞰图表示，然后使用CNNs和标准的2D物体检测算法处理。

Visualization of point clouds from front view	Front View	Visualization of point clouds from bird’s eye of view	Bird’s Eye of View

Voxel-based Methods：将不规则点云转化为体素表示，通过 3D-CNNs 进行特征提取。基于体素的方法计算效率更高，但在离散化过程中不可避免导致信息丢失，导致定位精度下降。

下面是点云体素化的两种方式与三种聚合操作。

Comparisons of hard voxelization and dynamic voxelization	Illustration of voxel-wise representations via three aggregation operators

Point-based Methods：使用原始点云数据，又两种类型方法：PointNet（++）及其变体或图形神经网络（GNNs）。尽可能保留原始点云的几何图形。

下面是PointNet++种提出的密度自适应层和最远点采样法。

	Farthest Points Sampling

Point-voxel-based Methods：点云特征学习的一个新的趋势，将体素特征与点的特征相结合。基于体素的特征表示方法会受到体素参数影响（低分辨率会导致粗粒度的定位精度，而高分辨率会增加计算量）。基于点的方法可以很容易地保留点云的不规则性和局部性，可以选择集合抽象，提供细粒度的邻域信息。

下面是几种有代表性的3D物体检测算法：

4.3 Multimodal Fusion-based Methods

现在，自动驾驶种的3D物体检测主要依赖激光雷达来提供周围环境信息。尽管激光雷达很精确，但是过度依赖单个传感器是不够明智的。此外，点云远距离分辨率低、纹理信息差也是一个很大的问题。所以自动驾驶中经常需要使用单目相机或双目相机进行多传感器融合，可以同时提供精细纹理和RGB属性。如下图所示，当涉及长距离时，在LiDAR中很难区分行人和路标。

下面是多模态融合的两种方式：前融合和后融合：

General scheme for early fusion	General scheme for early fusion

此外，本文还提出了两种新的融合方式：序列融合和并行融合。

基于序列融合：以顺序方式利用多阶段特征，其中当前特征提取依赖于前一阶段。
基于并行融合：在特征空间中进行融合，得到一个多模态的表示，然后输入到有监督的学习中去

下图是多模态融合的的发展：

5. Benchmark Evaluation

5.1 Metrics

这里以KITTI数据集为例，介绍了物体检测中的评价指标。这里有一个重要概念需要了解：IoU，如下图所示，表示了真值边界框与预测边界框的重合度，公式如下：
$J\left(\mathcal{B}_{p}, \mathcal{B}_{g t}\right)=\mathrm{IoU}_{3 \mathrm{D}}=\frac{\text { rotated } 3 \mathrm{D} \operatorname{area}\left(\mathcal{B}_{p} \cap \mathcal{B}_{g t}\right)}{\text { rotated } 3 \mathrm{D} \operatorname{area}\left(\mathcal{B}_{p} \cup \mathcal{B}_{g t}\right)}$

当IoU超过一个阈值时，就判定检测结果为真阳性(TP)；反之为假阳性(FP)，同时未检测到的真值边界框则为假阴性(FN)。精准率 $P$ 和召回率 $R$ 定义如下：
$P=\frac{T P}{T P+F P}=\frac{T P}{\text { all det ections }} \\ R=\frac{T P}{T P+F N}=\frac{T P}{\text { all ground truths }}$

在KITTI数据集中使用平均精准率(AP)来评价算法性能，计算公式如下：

$\mathrm{AP}=\frac{1}{N} \sum_{r \in S} P_{\text {interpolate }}(r)$
其中， $P_{\text {interpolate }}(r)=\max _{\tilde{r}: \tilde{r} \geq r} P(\tilde{r})$ ，目前的KITTTI数据集使用的是40个召回率作为AP。

5.2 Comprehensive Comparsion of the State-of-the-arts

下面是各种3D检测算法在KITTI数据集上的3D检测性能和鸟瞰图检测性能比较。

3D object detection AP(%)	BEV object detection AP (%)

下面是各种3D检测算法在KITTI数据集上的3D检测和鸟瞰图检测的PRC曲线图。

precision-recall curve on the 3D detection leaderboard	precision-recall curve on the BEV detection leaderboard

下面是各种3D检测算法在速度和准确率上的对比，以及3D、2D、鸟瞰图检测性能的比较。

Performance vs Runtime（3D）	Performance vs Runtime（BEV）	2D, 3D and BEV object detection

5.3 Emerging Datasets

本文还介绍了自动驾驶中常用的数据集，如下表所示。

5.4 Research Challenges and Opportunities

下面介绍了3D物体检测的未来研究方向：

由于缺少深度信息，基于图像的方法与现有的基于LiDAR的方法还存在很大的差距。立体相机或单目相机比激光雷达便宜几个数量级，可获得重要的纹理信息。此外，在发生故障的情况下，有一个备用传感器可以避免过度依赖单个传感器的安全风险。因此，基于图像的方法仍然是一个很有前经的研究方向。
多模态融合理论上在获得更多信息时能产生更好的检测结果。然而，目前基于多模态融合的方法还远远落后于基于点云的方法。传感器同步和标定以避免随时间漂移对基于融合的方法也是一个巨大的挑战。如何将两者更好地结合在一起仍然是一个棘手的问题。
使用图神经网络进行3D物体检测的研究目前还很少。
基于点体素的方法（PV-RCNN，SA-SSD）是目前最有前景的研究方向之一，但仍有许多工作要做。
伪激光雷达确实为处理图像数据提供了启示。另外，激光雷达与伪激光雷达融合也是一个值得努力的新方向。

6. Appendix

附录里作者额外介绍了3D物体检测中常用的4种损失函数：

Basic loss ：已知真值框为 $\left(x^{g t}, y^{g t}, z^{g t}, w^{g t}, l^{g t}, h^{g t}, \theta^{g t}\right)$ ，其anchor 框为 $\left(x^{a}, y^{a}, z^{a}, w^{a}, l^{a}, h^{a}, \theta^{a}\right)$ ，则两者定位回归残差为：

$\Delta x=\frac{x^{g t}-x^{a}}{d^{a}} ,\Delta y=\frac{y^{g t}-y^{a}}{d^{a}}, \Delta z=\frac{z^{g t}-z^{a}}{h^{a}}, \Delta w=\log \frac{w^{g t}}{w^{a}}, \Delta l=\log \frac{l^{g t}}{l^{a}}, \Delta h=\log \frac{h^{g t}}{h^{a}} \\\Delta \theta=\sin \left(\theta^{g t}-\theta^{a}\right), d^{a}=\sqrt{\left(w^{a}\right)^{2}+\left(l^{a}\right)^{2}}$

整个回归损失为：

$\mathcal{L}_{l o c}=\sum_{b \in(x, y, z, w, l, h, \theta)} \quad \text { SmoothL1 }(\Delta \mathrm{b})$

分类损失为focal loss：
$\mathcal{L}_{\text {focal }}\left(p_{t}\right)=-\alpha_{t}\left(1-p_{t}\right)^{\gamma} \log \left(p_{t}\right)$

IoU loss：这里提出了一个使用IoU该作为置信度，公式为：

$q=\left\{\begin{array}{ll} 1 & \text { if iou }>0.75 \\ 0 & \text { if } \text { iou }<0.25 \\ 2 \text { iou }-0.5 & \text { otherwise } \end{array}\right.$

则损失函数为： $\mathcal{L}_{i o u}=-[q \log (p)+(1-q) \log (1-p)]$ 。

因此最终的损失函数为： $\mathcal{L}=\frac{1}{N_{\text {pos }}}\left(\beta_{\text {loc }} \mathcal{L}_{\text {loc }}+\beta_{\text {iou }} \mathcal{L}_{\text {iou }}\right)$ 。

Corner loss：这是最小化预测的八个顶点和真值框八个顶点间的差距，公式为： $\mathcal{L}_{\text {corner }}=\sum_{k=1}^{8}\left\|P_{k}-G_{k}\right\|$ 。
Bin-based loss：如图所示，将原始的回归问题转换为区间分类和更小的残差回归，能够提高模型的收敛速度。

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案心心喵论文笔记剪枝算法机器学习
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
论文笔记（七十二）Reward Centering（一）墨绿色的摆渡人文章论文阅读
RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
论文笔记：Enhancing Sentence Embeddings in Generative Language Models UQI-LIUWJ 论文阅读语言模型人工智能
2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
多模态论文笔记——DiT（Diffusion Transformer）好评笔记多模态论文笔记深度学习 transformer DiT 人工智能机器学习 aigc stable diffusion
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：research@deepseek.com）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》 I_dyllic 深度学习论文阅读深度学习人工智能
基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过
TC-LLaVA论文笔记 0yumiwawa0 计算机视觉论文阅读
RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q
CNN-day5-经典神经网络LeNets5 谢眠深度学习深度学习计算机视觉人工智能
经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN博客1网络模型结构整体结构解读：输入图像：32×32×1三个卷积层：C1：输入图片32×32，6个5×5卷积核，输出特征图大小28×28（3
[论文笔记] llama3.2 蒸馏心心喵论文笔记论文阅读
参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
[论文笔记] Deepseek技术报告心心喵论文笔记论文阅读人工智能
1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
[论文总结] 深度学习在农业领域应用论文笔记14 落痕的寒假论文总结深度学习论文阅读人工智能
当下，深度学习在农业领域的研究热度持续攀升，相关论文发表量呈现出迅猛增长的态势。但繁荣背后，质量却不尽人意。相当一部分论文内容空洞无物，缺乏能够落地转化的实际价值，“凑数”的痕迹十分明显。在农业信息化领域的顶刊《ComputersandElectronicsinAgriculture》中也大面积存在。众多论文在研究方法上存在严重缺陷，过于简单粗放。只是机械地把深度学习方法生硬地套用到特定农业问题中
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑心心喵论文笔记深度学习人工智能
一、bug1、pre-tokenize的时候,会OOM解决：在yaml文件中添加streaming参数#tokenizestreaming:Truemax_steps:10000https://github.com/hiyouga/LLaMA-Factory/blob/3a023bca2a502810a436cfba7708df164754ea62/src/llamafactory/hparams
[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）心心喵论文笔记论文阅读
pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors Activewaste #Anchor-free #特征层面 #小目标检测 DuBox anchor-free
&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使
【论文笔记】AutoML: A survey of the state-of-the-art（下篇） pip install USART 学习笔记论文阅读记录论文阅读算法深度学习
目录4.ModelGeneration模型生成4.1SearchSpace搜索空间4.1.1Entire-structuredsearchspace基于整个架构的4.1.2Cell-basedsearchspace基于Cell的空间4.1.3Hierarchicalsearchspace层次化的空间4.1.3Morphism-basedsearchspace基于“态射”的空间4.2网络优化方法（搜
论文笔记 U-Net: Convolutional Networks for Biomedical Image Segmentation 城南皮卡丘 #深度学习 caffe 人工智能
摘要：人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略依赖于大量使用数据增强来更有效地使用可用的注释样本。该体系结构包括用于捕获上下文的收缩路径和用于实现精确定位的对称扩展路径。我们表明，这样的网络可以从很少的图像进行端到端训练，并且在ISBI挑战中优于先前的最佳方法（滑动窗口卷积网络）,用于分割电子显微堆栈中的神经元结构。使用在透射光显微
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码) YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found