THE@JOKER

PointRCNN 学习笔记

《PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud》CVPR2019

前言

PointRCNN方法示意

PointRCNN是CVPR2019中3D目标检测的文章。该文章使用two-stage方式，利用PointNet++作为主干网络，先完成segmentation任务，判断每个三维点的label。对分为前景的每个点，使用feature生成框。然后对框进行roi crop，进行框的优化。

先前的方法都是在检测到物体的基础上做框，本文中提到的方法是对所有点都进行预测框，然后去除掉背景点预测的框，那么留下的前景点生成的框基本上都包含了检测目标，再从这些框中筛选优化得到最终的预测框。

论文亮点

第一个只用输入原始点云的两阶段3d目标检测方法。
使用前景点（语义分割得到的有效点）回归检测框，减少了检测框的搜索范围。
canonical refinement的方法。
基于bin的loss。

思路概括

目前作者公布的代码只能对一个类别做检测，假设这个类就是“车”，这也是KITTI数据集中标注最多的类，这个目标检测方法分两个阶段：

（1）第一阶段：生成一大堆很冗余的bounding box。首先，对点云语义分割，对每个点得到一个预测label，比如现在：对所有判断是“车”的点（也叫做前景点），赋予label=1，其他点（也叫做背景点），赋予label=0。
然后，用所有前景点生成bounding box，一个前景点对应一个bounding box。但是必须要保证语义分割结果的准确。然后作者使用了一些去除冗余的方法，继续减少bounding box的数目，这一阶段结束的时候只留下300个bounding box。

（2）第二阶段：继续优化上一阶段生成的bounding box。首先，对前一阶段生成的bounding box做旋转平移，把这些bounding box转换到自己的正规划坐标系下（canonical coordinates）。结合上然后，通过点云池化等操作得到每个bounding box的特征，再结合第一阶段得到的全局语义特征，进行bounding box的修正和置信度的打分，从而到最终的bounding box。

网络框架

作者提出的方法分为两个阶段，第一个阶段是对前景点的分割以及3D预测框的生成，第二阶段则是对第一阶段产生的框的优化。

图2. PointRCNN架构，用于从点云进行3D对象检测。整个网络由两部分组成：（a）以自下而上的方式从原始点云生成3D提案。（b）以规范坐标改进3D提案。

第一阶段：自底向上的预选框生成

这个阶段有两个功能：

生成预选框（黄色）
分割前景点（蓝色）

1、特征提取
作者用了PointNet++作为骨干网络来提取特征，同时在论文中指出也可以用其他的网络例如VoxelNet等来替代骨干网络的PointNet++。输入是（bs(batch size), n, 3）的点云，输出是（bs, n, 128）的特征。从图中可以看出，提取特征后，然后接了一个前景点分割网络（蓝色）和一个bin-based box生成网络（黄色）。一是前景点分割，二是生成预测框。分别得到1维向量和76维向量。

2、前景点分割

在训练点云分割期间，我们将默认设置αt= 0.25和γ= 2保留为原始论文

前景点分割网络，是由两个卷积层组成。输入是那个(bs, n, 128)的特征，输出是(bs, n, 1)的mask。1表示这个点属于前景点的概率，值越大，则它属于前景点的概率越高。加一个sigmoid限制到（0,1），然后用focal loss计算损失。
1.通过sigmoid函数将值映射到（0,1）,设定阈值分割前景点
2.由于前景点的数量通常远小于背景点的数量，因此使用该函数来解决样本不均衡的问题。

3、预测框

box生成网络，也是由两个卷积层组成。输入是那个(bs, n, 128)的特征，输出是(bs, n, 76)。这个76表示什么呢？就是论文的亮点之一：基于bin的预测。

什么是基于bin的预测呢？

图3.基于bin的本地化的示意图。为了估计对象的中心位置，如图3所示，我们将每个前景点的周围区域沿X和Z轴分成一系列离散的bin。具体来说，我们为当前前景点的每个X和Z轴设置搜索范围S，并将每个1D搜索范围划分为等长δ的bin，以表示X-Z平面上的不同对象中心（x，z）。我们观察到，对X和Z轴使用具有交叉熵损失的基于bin的分类，而不是使用平滑的L1损失进行直接回归，会导致更准确和更可靠的中心定位。

这一步网络的输出是 (bs,n,76)，也就是说对场景中的每一个点，预测一个bounding box。可以知道这样预测是非常冗余的，所以结合之前分割得到的mask，只考虑前景点的预测结果。

对于3d目标检测里的bounding box，需要7个量来表示：box中心点(x,y,z)box的长，宽，高(w,h,l)，俯视图的旋转角θ。这里用76维度的特征来代表这7个量。

要知道怎么用76个维度的特征来代表bounding box，就先得解决一个问题：什么是bin？bin在上图中用绿色大括号表示，就相当于直尺上的刻度，作者这里设置，在x和z上的bin的大小为0.5m，θ则是将2π划分为12个bin。

作者提出基于bin的预测，不是直接预测每个box中心点的坐标，而是预测每个前景点对于bounding box中心点的偏移，偏移了几个bin。但是这个bin是一个整数，还是无法精确定位，所以还需要预测中心点坐标在一个bin中的偏移量，把这个偏移量叫做res。

开始我很好奇，中心点，兴趣点都是什么，看作者在图上显示的是相对于兴趣点的偏移，但是在看代码的时候发现：

center3d = gt_boxes3d[k][0:3].copy()  # (x, y, z)
center3d[1] -= gt_boxes3d[k][3] / 2
reg_label[fg_pt_flag, 0:3] = center3d - fg_pts_rect  # 现在 y 是 3d 框的真正中心 20180928

所以其实可以简单的把兴趣点理解为bounding box的中心点。？？？

注意，只有在预测中心点x,z轴坐标和bounding box的旋转角θ时，用这种基于bin的思想。

下图表示的是由76维的向量预测框，前12维预测x方向上的bin，12-24预测z方向上的bin，24-36预测x方向的残差res，36-48预测z方向的残差res，48-49预测y方向的距离，49-61预测角度的bin，61-73预测角度上的残差res，73-76对长宽高做出预测。基于bin的预测参数x，z，θ，我们首先选择具有最高预测信度的bin中心，并添加预测残差以获得重新定义的参数。其他参数则没有使用基于bin的预测方法。

知道每个点对于中心点的偏移量之后，加上已知这个点本身的坐标，就可以得到中心点的坐标，因为：

所以只用知道一大堆前景点里面预测最准确的点就可以知道这个bounding box了。

衡量x，z坐标的时候是物理尺度上划分了几个bin，旋转角也用这种基于bin的方法预测，是把2π划分成若干个bin。(作者设置12)

为什么y就不用这种基于bin的方法预测呢？因为y轴是垂直于地面的，车啊人啊之类的检测目标都是贴着地面走的，飞不起来，就是路面的高度差会有不一样而已。

目标定位公式：
公式计算的是在ground-truth中bin所表示的含义

实际上就是计算偏差的公式。其中（x（p），y（p）， z（p））是感兴趣的前景点的坐标，(xp，yp， zp)是其相应目标的中心坐标，bin（p）x和bin（p）z是沿X和Z轴的ground-truth bin assignments。 res（p）x和res（p）z是ground-truth residual，可用于在assigned bin中进一步细化位置，C是归一化的bin长度。S是前景点的search range，每个1D search range均分为相同长度δ的bin，以表示X-Z平面上不同目标的中心(x，z)。

第一阶段整体框回归的损失

我们使用focal loss2来处理类不平衡问题（前景点分割）
3D边界框回归损失
X 轴和 Z 轴的基于 bin 的分类损失，用cross-entropy loss。X或Z轴的（localization loss)定位损失由两个项组成，一个是沿每个X和Z轴的bin classification，另一个是classified bin中的residual regression。对于沿垂直Y轴的中心位置y，我们直接利用smooth L1 loss进行回归，因为大多数目标的y值都在很小的范围内。

其中Npos是前景点的数量，bin^（p）u是预测的bin assignments，res^（p）u是前景点p的残差，bin（p）u和res（p）u是ground-truth目标按照上面的公式（2）计算的实际偏差，Fcls表示交叉熵分类损失，Freg表示平滑的L1损失。

4、减少预测框的数量

这样7个bounding box检测的关键量都得到了，但是就算是每个前景点预测一个bounding box，也还是有很多个bounding box。

对于每一个点都预测一个框，利用前景点分割的结果去除一部分框，留下由前景点预测的框。这时，由于点云是密集的，所以依然有很多冗余的框，作者利用基于鸟瞰图的IoU进行非最大值抑制(NMS)，以生成少量高质量提案。所以作者用了NMS来减少bounding box。

来解释一下上面的方法，训练时在相机0～40m距离内的bounding box，先取得分类得分最高的6300个，然后计算bird view IOU，把IOU大于0.85的都删掉，到这里bounding box 又少了一点。然后再取得分最高的210个。在距离相机40～80m的范围内用同样的方法取90个。这样第一阶段结束的时候只剩下300个bounding box了。

300个bounding box也还是很多。于是有了第二阶段置信度打分和bounding box优化。

而在实际预测时，使用具有IOU阈值0.8的定向NMS，并且只保留前100个bounding box。

第二阶段：再筛选和优化bounding box

这一阶段的输入是之前那300个proposal bounding box，大小表示为(bs,300,7)。然后300个也很多啊，作者又用sample和设置阈值的方法把box减少到128个。

把在每个bounding box proposal 内部的点聚集起来(池化)，就得到大小为(bs,m,512,c)的数据。其中bs表示batch size， m表示每个batch中有多少个bounding box（比如上面提到的128）, 512表示每个bounding box里面有多少个point。

然后作者设计了一些数据增强操作。先不细说。

接下来把每个bounding box内的points转换到局部坐标系(作者叫做canonical 转换)下。如下图。这也是本文的一个亮点。

规范转换的插图。属于每个proposal的池化后的点被转换为相应的规范坐标系，以便更好地进行每个proposal的局部空间特征学习，其中CCS表示规范坐标系。

什么是canonical 转换？

具体就是，新坐标系的坐标原点是bbox的中心点，局部的X’轴和Y’轴大致平行于地面，X’轴指向建议的头部方向，另一个Z’轴垂直于X’轴，使用规范的坐标系能使得预测框在改进阶段能够更好的学习局部特征。规范后的中心点坐标：

第i个 box proposal中心位置的训练目标， (bini∆x,bini∆z, resi∆x,resi∆z,resi∆y), 设置方法与公式（2）相同，只是我们使用较小的搜索范围S来重新定义3D proposal的位置。我们仍然直接回归大小残差 (resi∆h,resi∆w,resi∆l) w.r.t.训练集中每个类的平均对象大小，因为合并的稀疏点通常无法提供提议大小(hi,wi,li)的足够信息

第二阶段会结合第一阶段预测得到的大小为(bs,n,128)的全局语义feature。

具体就是，把大小为(bs,n,1)的mask，每个点距离相机的距离depth，每个点的反射强度（从雷达相机直接可以得到的值），每个点的坐标（x,y,z）。把这些特征concat在一起作为一个新的local feature，上采样到128维度，和第一阶段预测得到的128维的global feature结合得到新的特征。新特征为256维。

用pointnet++的SA module（set abstraction 点集抽象层）（如果不知道就得看一下pointnet++，是一个采样，分组，特征提取模块），得到高级特征，继续对这个特征进行卷积操作，得到一个 (m,1,512)的特征，表示一个场景中有m个bounding box，一个512维的向量来代表这个bbox。

最后分别接一个reg_layer和一个cls_layer（其实也都还是conv1d）改变特征通道。得到(m,46)的bbox相关的预测结果和(m,1)的置信度结果。

这个46也是基于bin的预测，跟之前的76是一个内涵，只是现在0-6表示x_bin。

到这里网络的训练已经结束了。

如何从128个bbox中结合预测得到的confidence筛选出最后的bbox呢？这就是测试阶段考虑的问题了。

第二阶段总体损失

为了细化方向，我们假设角差 w.r.t. 基于建议与其真实值框之间的 3D IoU 至少为 0.55 的事实，真实值方向 θgt i - θi 处于 [− π /4, π/4 ] 范围内。因此，我们将 π/2 划分为 bin 大小为 ω 的离散 bin，并将基于 bin 的方向目标预测为
因此，阶段2子网络的整体损失可以表示为

其中B是来自阶段1的3D proposals集合，Bpos存储了回归的positive proposals (正样本)，probi是~bi的估计置信度，而labeli是相应的标签，Fcls是用于监督预测信度的交叉熵损失，~Lbin和 ~Lres类似于公式(3)中的 Lpbin和 Lpres。如上所述由~bi和 ~bgti计算的新目标。

训练过程

PointRCNN是two-stage结构的网络，所以训练过程也是先训练RPN，再训练RCNN。

RPN
    label：在通过dataloader构建训练数据的同时，构建label
        cls_label：将gt_box内的点置1，gt_box之外extended_gt_box之内的点置-1（表示忽略）
        reg_label：计算gt_box之内的点的reg量
    loss：SigmoidFocalLoss + Full-bin Loss（CrossEntropyLoss + SmoothL1Loss）
RCNN
    label：
        cls_label：在RCNN.ProposalTargetLayer中的batch_cls_mask为label
        reg_label：使用RCNN.ProposalTargetLayer中的roi_gt_boxes计算
    loss：SigmoidFocalLoss + Full-bin Loss（CrossEntropyLoss + SmoothL1Loss）

实验

PointRCNN是一种用于从原始点云中检测3D物体的新型3D物体探测器。拟议的第一阶段网络以自下而上的方式直接从点云生成3D提案，与以前的提案生成方法相比，实现了更高的召回率。阶段2网络通过组合语义特征和局部空间特征来确定规范坐标中的提案。实验表明，PointRCNN在KITTI数据集的具有挑战性的3D检测基准上具有显著的优势。

参考（感谢）
https://blog.csdn.net/wqwqqwqw1231/article/details/90788500

Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频三花AI 三花AI 人工智能 3d 音视频
StabilityAI发布StableVirtualCamera：从2D图像生成3D视频StableVirtualCamera[4]是由StabilityAI最新发布的一款能够从一张或多张2D图像（最多支持32张）生成具有真实深度和透视感的3D视频的技术。用户可以自由定义相机轨迹，或者选择预设的动态相机路径，例如360°旋转、螺旋、变焦（DollyZoom）等，效果极其丝滑。不过，当输入图像包含人
stability ai推出的 AI模型2D图像转3D视频微丽宝 AI工具人工智能 3d 音视频
StableVirtualCamera是StabilityAl推出的A|模型，能将2D图像转换为具有真实深度和透视感的3D视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。模型支持从1到32张输入图像生成不同宽高比(如1:1、9:16、16:9)的视频，最长可达1000帧。无需复杂的重建或优化，可生成高质量的3D视频，同时保持3D一致性和时间平滑性。StableV
unity3D获取游戏物体的四种方式 qq_35430208 unity3d 游戏 uinity3d 图形渲染 3d渲染游戏引擎 unity3D获取游戏物体
一、第一种：二、第二种：voidStart(){print(transform.Find("GameObject(1)/GameObject"));print(transform.Find("GameObject(2)"));}三、第三种：比较耗性能，不推荐使用voidStart(){GameObjectmainCameraGo=GameObject.Find("MainCamera");//查找
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
转 C# .NET4.0 混合模式程序集异常 weixin_30516243
1.引用Microsoft.DirectX.dll和Microsoft.DirectX.Directsound.dll这2个文件。2.项目属性里边，把目标平台改成X86。3.App.Config修改下：123456在.NET4.0下使用Dirext3D托管库，出现“混合模式程序集是针对“v1.1.4322”版的运行时生成的，在没有配置其他信息的情况下，无法在4.0运行时中加载该程序集。”异常信息，
先验地图--slam学习笔记超级璐璐人工智能机器学习
先验信息(PriorInformation)先验信息指的是在收集新数据之前已有的知识或假设。这种信息可以来自之前的实验、历史数据、理论模型或专家意见。地图信息：在无人驾驶中，车辆通常会预先加载高精度地图数据，这些地图数据提供了道路布局、车道线位置、交叉口结构等信息。这些信息就是先验信息。车辆动力学模型：车辆的动力学模型，包括车辆的物理特性（如质量、轮胎摩擦系数等），这些模型可以帮助预测车辆的行为。
HTML+CSS案例展示(CSS3D效果旋转相册) hacalili html css 前端 css3
参考来源：黑马程序员pink老师前端入门教程，零基础必看的h5(html5)+css3+移动端前端视频教程_哔哩哔哩_bilibili效果展示：总结：transform：translate(x,y)rotate(180deg)scale()...顺序对最后的效果有影响，需要根据需求安排位移和其他属性的顺序；实现暂停动画效果：animation-play-state:paused;经常和鼠标经过等其
html5 相册翻转效果,HTML5 css3：3D旋转木马效果相册岑依惜 html5 相册翻转效果
这篇博客的目的是因为上篇HTML5CSS3专题诱人的实例CSS3打造百度贴吧的3D翻牌效果中有个关于CSS3D效果的比较重要的知识点没讲到，就是perspective和tranlateY效果图：嘿嘿，我把大学毕业时的一些照片，做成旋转木马，绕着我大文理旋转，不忘母校的培育之恩~1、perspectiveperspective属性包括两个属性：none和具有单位的长度值。其中perspective属
HTML5+CSS实现图片3D旋转效果，附音乐宁醉小白 html5 前端 html
利用程序呈现图片，可以俘获一众女生的心，增加音乐可以实现图片变化的同时也带上了想要得到效果，如此一程序实乃众人之喜。先看看程序呈现的效果，还是特别吸引人的。先在网上爬取想要呈现的美女照片，存放在文件夹img-one，与程序路径一致。图片像素需进行调整，同一面图片可以使用同一个图片，保持图片像素一致的同时也增加了立体感。第二张02.jpg和2.jpg可以倒着放，这样在程序实现的时候，可以和其他方向的
HTML实现酷炫3D相册算法与编程之美编程之美 css html js css3 javascript
欢迎点击「算法与编程之美」↑关注我们！本文首发于微信公众号："算法与编程之美"，欢迎关注，及时了解更多此系列文章。欢迎加入团队圈子！与作者面对面！直接点击！目录1、创建文件目录2、调背景色3、制作3D相册4、将图片散开，围成一圈。5、绘制透明底盘6、最终效果1、创建文件目录在Hbuilder在新建一个目录，创建css和js文件。图12、调背景色在style块里面给整个页面渲染成黑色调。*{padd
【Html+CSS】3D旋转相册小木荣 web前端 css html 3d
3D旋转木马相册&3D盒子相册因为代码大部分相同，就放一起了注释一下就是另一个相册3D旋转木马相册body{background-color:#000;/*视距，使子元素获得视距效果*/perspective:900px;}section{margin:20vhauto;position:relative;width:200px;height:200px;/*开启3D空间*/transform-s
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
Echarts map3D 禁止鼠标滚轮缩放程序媛小白白 javascript 前端 vue echarts
Echartstype为map3D在使用时发现会存在鼠标滚轮缩放的情况zoomSensitivity属性本质上是是否开启map3D的缩放和平移所以也可以禁止鼠标滚轮缩放的情况zoomSensitivity:false,//是否开启缩放和平移/鼠标滑动缩放禁止禁用这个属性就可以实现map3D禁止鼠标滚轮缩放的需求了
echarts map3D区域颜色单独设置浪漫不敌风月 echarts echarts 前端 3d
效果图：实现：用的是map3D，之前试了下geo3d因为版本问题不好控制（地图上字体颜色都没法设置）只需要在series的data中加上你要标色的区域名称和颜色即可。此效果实现的是无图例着色。series:[{type:"map3D",//系列类型name:"map3D",//系列名称map:"yuhang",//地图类型。data:[{name:"鸬鸟镇",itemStyle:{color:"#
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
Roblox 开源 AI 3D 生成模型，游戏开发迎来智能化变革 Yvette-W IT职业圈人工智能 3d 游戏
如果说过去的3D游戏开发需要建模师一笔一划地雕刻细节，如今AI的加入正在彻底改变这一模式。Roblox最新发布的3D生成AI模型——Cube，允许开发者用简单的文本指令，快速生成3D物体。更重要的是，Roblox还开放了Cube的开源版本，这意味着不仅Roblox开发者，任何游戏开发团队甚至个人创作者，都可以利用这项技术来提升创作效率。这一突破不仅能让游戏开发变得更快、更简单，也让AI在3D生成领
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
C++和标准库速成(十一)——简单雇员系统梦醒沉醉 C++20 c++
目录1.雇员记录系统2.Employee类2.1Employee模块接口文件2.1.1实现细节2.1.2完整代码2.2Employ模块实现文件2.2.1实现细节2.2.2完整代码2.3Employee测试文件3.Database类3.1Database模块接口文件3.1.1实现细节3.1.2完整代码3.2Database模块实现文件3.2.1实现细节3.2.2完整代码3.3Database测试文件
CAD二次开发踩过的坑我的sun&shine CAD二次开发 c++
CAD二次开发踩过的坑CAD二次开发踩过的坑一、3D图形编译不过二、智能指针三、多文档操作规范流程四、CAD系统变量（参数）大全五、细节注意CAD图纸在软件中出现许多连接线线怎么关闭C++try无法展开无调试信息：重新生成变量已被优化掉,因而不可用两个列表中选中第一个再选第二个时第一个的选中见了预览时无法找到k3DDrawing无法缩放：静态框的通知打开intersectWith无法求交点对话框老
CBNet--一种新的目标检测的复合骨干网体系结构 weixin_45963617 深度学习系列
一、Introduction一般来说，在一个典型的基于CNN的目标检测器中，使用主干网络来提取检测对象的基本特征，该网络通常是为图像分类任务而设计的，并在ImageNet上预训练。毫无疑问，更强大的主干网可以带来更好的检测性能。尽管最先进的基于深度的大骨干网络的探测器取得了很好的结果，但仍有很大改进空间。此外，通过设计一个新的更强大的主干网络并在ImageNet上预训练来获取好的检测性能是十分昂贵
重塑家用机器人大脑！云鲸旗舰机型逍遥002搭载旭日5正式开售量子位
2025年3月20日，全球家庭清洁机器人明星品牌云鲸智能携最新一代旗舰机型——云鲸逍遥002，亮相中国家电及消费电子博览会（AWE）。该产品以”AI智能深度清洁“为核心，基于地瓜机器人全新一代旭日5智能计算芯片，推出首创的双目AI视觉感知自适应系统，以10TOPs的端侧算力与180万点/秒的3D稠密深度点云生成能力，为家庭场景带来毫米级障碍测距精度与语义级环境理解，是家庭清洁机器人智能化演进的又一
WebGL开发：BabylonJS从入门到精通（下卷）莲华君前端权威教程合集 WebGL系统化学习 webgl
全书卷目：WebGL开发：BabylonJS从入门到精通（上卷）WebGL开发：BabylonJS从入门到精通（下卷）目录第一部分：基础篇——构建3D世界的基石第一章：BabylonJS概述与环境搭建什么是BabylonJS：WebGL宇宙的创世引擎BabylonJS的历史与优势：开源利剑的进化史安装与配置开发环境：3D工匠的工坊搭建术使用BabylonJSPlayground与本地开发环境浏览器
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测计算机C9硕士_算法工程师人工智能 YOLO 目标检测遥感
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1加载预训练模型或自定义模型4.训练模型5.评估模型6.构建GUI应用程序（可选）以下文字及代码仅供参考。遥感目标检测，AI-TOD数据集aitod，训练集11214张，测试集集14018，验证集
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting 于初见月 paper 计算机视觉
AbstractWeintroduceStyleGaussian,anovel3Dstyletransfertechniquethatallowsinstanttransferofanyimage’sstyletoa3Dsceneat10FPS.Leveraging3DGS,StyleGaussianachievesstyletransferwithoutcompromisingitsreal-t
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
不搞花里胡哨！CMU最新开源：极简风格的LiDAR全景分割+跟踪！ 3Ｄ视觉工坊 3D视觉从入门到精通 3D视觉
来源：3D视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接添加微信：dddvisiona，备注：三维点云，拉你入群。文末附行业细分群1.笔者个人体会激光雷达全景分割（LPS）一般遵循自下而上的以分割为中心的范式，利用聚类获得对象实例来建立语义分割网络。但是最近CMU&Meta等大佬们重新思考了这种方法，并提出了一个简单而有效的检测中心网络，用于LPS和跟踪。这项工作也
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
【ES6】03-Set + Map beibeibeiooo ES6【已完结】es6 前端 javascript ecmascript
本文介绍两种集合setmap的操作和方法。目录1.Set1.1set基本使用1.2add1.3delete1.4has1.5size1.6set转换为数组1.7拓展运算符1.8for...of1.9forEach1.10set给数组去重2.Map2.1创建map集合2.2set添加元素2.3delete删除元素2.4has2.5size2.6map转换为数组2.7拓展运算符...2.8for...
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/