城市黎明的烟火

【PointRCNN深度解读【详尽版】--原理和代码结合】

PointRCNN深度解读【详尽版】

前言
网络结构
- *a. Bottom-up 3D Proposal Generation*
- - Point Cloud Encoder-Decoder
  - Foreground Point Segmentation
  - Bin-based 3D Box Generation
  - 从代码角度来解读
- *b. Canonical 3D Box Refinement*
- - Point Cloud Region Pooling
  - Canonical Transformation
  - Merged Features
  - Bin-based 3D box Refinement and Confidence Prediction
  - 代码部分
总结
参考

前言

这周终于接触3D目标检测的内容，以前的PointNet和PointNet++都是讲述的分类和分割的问题。从PointRCNN开始难度好像一下子升级了，网络结构比较复杂，代码量巨大，花费了差不多一周的时间才理解了个大概，不敢说多，所以做个笔记再回顾下其内容，避免遗忘。还是老规矩结合代码从论文的网络结构一步步的解析。
论文： PointRCNN
代码: 点开它

网络结构

整体的思路主要分为两步：

前景点的分割以及3D预测框的生成
对框的微调优化

具体的细化过程如下：

a. Bottom-up 3D Proposal Generation

这个阶段的主要目的就是利用主干网络提取特征，分割原始点云同时从分割的前景点生成3D Proposal，基于这种自底向上的策略，可避免在3D空间中使用大量预定义的3D框，并且显著限制了生成的3D提案的搜索空间。

Point Cloud Encoder-Decoder

主干网络提取特征，作者用了PointNet++(不了解的可以点进去看我另一篇博客)，另外主干网络也可以采用其他如VoxelNet等。

Foreground Point Segmentation

提取特征后分割原始点云，生成所需要的前景点，包含了预测目标位置和方向的丰富信息。另外由于前景点远比背景少，故使用Fcoal loss 来区分前景与背景，Focal loss本身是为了减少容易分类的样本的权重，将权重尽量集中于难分类样本上。

论文中 αt= 0.25，γ= 2。

Bin-based 3D Box Generation

作者在论文中提出了一种基于Bin的方法，使模型训练的时候能够更快的收敛。如下图：

可以看到，作者采用鸟瞰的方式，设定一个在X-Z平面的搜索范围S，每个搜索范围被划分成等长δ 的bins来表示不同的物体在X-Z平面的中心( x , z )。在论文中发现，对X- Z轴使用基于bin的交叉熵损失比直接使用smooth L1 loss 回归能够更加精准得出定位结果。
对于X，Z轴的定位loss由两部分组成：

沿着每个X，Z轴的bin分类
被分好类的bin中的残差回归

对于Y轴直接使用smooth L1 loss回归，因为大部分物体的y 值都在一个很小的范围内，使用L 1 loss足够获得精准的y 值。

( $x^{(p)},y^{(p)},z^{(p)}$ )是FPO I(foreground point of interest )的坐标。
( $x^{p},y^{p},z^{p}$ )是对应物体的中心坐标。
( $bin_{x}^{(p)},bin_z^{(p)}$ )是沿着X，Z轴分配的ground- truth bin。
( $res_{x}^{(p)},res_z^{(p)}$ ) 是在被分配的bin中做进一步定位微调的ground-truth残差。
C 是归一化的bin长度。然后由预测的bin和真实的bin可以得到3D边界框的回归损失。

$N_{pos}$ 是前景点的数量
$\bar{bin_{u}^{(p)}},\bar{res_{u}^{(p)}}$ 是前景点p被预测的bin分配和残差
${bin_{u}^{(p)}},res_{u}^{(p)}$ 是已经计算过的ground- truth对象
$F_{cls}$ 是分类的交叉熵损失 $F_{reg}$ 是smooth L1 loss

从代码角度来解读

经过RPN(region proposal network)骨干网提取后的特征生成前景掩模预测分支(rpn_cls)和三维提案回归分支(rpn_reg)来完成相应任务。

3D场景中的目标通常是分离互不重叠的，所有三维目标的分割掩膜都可以通过3D边界框注释直接获得。另外前景掩膜预测过程中经过两个卷积层，输出(bs, n, 1)的mask，最后的1表示这个点属于前景点的概率，值越大，属于前景点的概率越高。加一个sigmoid限制到（0,1），然后用focal loss计算损失。

# classification branch
        cls_layers = []
        pre_channel = cfg.RPN.FP_MLPS[0][-1]      # __C.RPN.FP_MLPS = [[128, 128], [256, 256], [512, 512], [512, 512]]
        for k in range(0, cfg.RPN.CLS_FC.__len__()):   # __C.RPN.CLS_FC = [128]
            cls_layers.append(pt_utils.Conv1d(pre_channel, cfg.RPN.CLS_FC[k], bn=cfg.RPN.USE_BN))
            pre_channel = cfg.RPN.CLS_FC[k]
        cls_layers.append(pt_utils.Conv1d(pre_channel, 1, activation=None))
        if cfg.RPN.DP_RATIO >= 0:      # __C.RPN.DP_RATIO = 0.5
            cls_layers.insert(1, nn.Dropout(cfg.RPN.DP_RATIO))
        self.rpn_cls_layer = nn.Sequential(*cls_layers)

3D提案框回归分支使用前景点回归生成3D提案（注意，虽然没有从背景点中回归box，但是因为点云网络的感受野，这些背景点也为生成box提供了支持信息）。作者提出了基于bin的回归损失估计目标的三维边界框来预测3D边界框需要预测中心位置、目标尺寸与目标方向(x,y,z,h,w,l,θ)（3+3+1=7维）,故最终预测生成的rpn_reg为(bs, n, 76)。这里用76维度的特征来表示这7个量。

# regression branch
        per_loc_bin_num = int(cfg.RPN.LOC_SCOPE / cfg.RPN.LOC_BIN_SIZE) * 2   #  (3/0.5) * 2 = 12
        if cfg.RPN.LOC_XZ_FINE:   #  __C.RPN.LOC_XZ_FINE = False
            reg_channel = per_loc_bin_num * 4 + cfg.RPN.NUM_HEAD_BIN * 2 + 3   #  __C.RPN.NUM_HEAD_BIN = 12
        else:
            reg_channel = per_loc_bin_num * 2 + cfg.RPN.NUM_HEAD_BIN * 2 + 3
        reg_channel += 1  # reg y

        reg_layers = []
        pre_channel = cfg.RPN.FP_MLPS[0][-1]
        for k in range(0, cfg.RPN.REG_FC.__len__()):   # __C.RPN.REG_FC = [128]
            reg_layers.append(pt_utils.Conv1d(pre_channel, cfg.RPN.REG_FC[k], bn=cfg.RPN.USE_BN))
            pre_channel = cfg.RPN.REG_FC[k]
        reg_layers.append(pt_utils.Conv1d(pre_channel, reg_channel, activation=None))
        if cfg.RPN.DP_RATIO >= 0:
            reg_layers.insert(1, nn.Dropout(cfg.RPN.DP_RATIO))
        self.rpn_reg_layer = nn.Sequential(*reg_layers)

不是直接预测每个box中心点的坐标，而是预测每个前景点对于bounding box中心点的偏移，偏移了几个bin。但是这个bin是一个整数，还是无法精确定位，所以还需要中心点坐标在一个bin中的偏移量，把这个偏移量叫做res。

如图所示的76维向量预测框，前12维预测x方向上的bin，12-24预测z方向上的bin，24-36预测x方向的残差res，36-48预测z方向的残差，48-49预测y方向的距离，49-61预测角度的bin，61-73预测角度上的额残差，73-76对长宽高做出预测。基于bin的预测参数x，z，θ，我们首先选择具有最高预测信度的bin中心，并添加预测残差以获得重新定义的参数。其他参数则没有使用基于bin的预测方法。

强调：只有在预测中心点x,z轴坐标和bounding box的旋转角θ时，才用这种基于bin的思想。

这样的话，bounding box的7个关键量都得到了，但是就算每个前景点预测一个bounding box，也还是有很多个bounding box。所以下一步就要减少预测框的数量，作者利用基于鸟瞰图的IoU进行非最大值抑制(NMS)以生成少量高质量提案。具体代码在lib/rpn/proposal_layer.py中。

def distance_based_proposal(self, scores, proposals, order):
        """
         propose rois in two area based on the distance
        :param scores: (N)
        :param proposals: (N, 7)
        :param order: (N)
        """
        nms_range_list = [0, 40.0, 80.0]
        pre_tot_top_n = cfg[self.mode].RPN_PRE_NMS_TOP_N
        pre_top_n_list = [0, int(pre_tot_top_n * 0.7), pre_tot_top_n - int(pre_tot_top_n * 0.7)]
        post_tot_top_n = cfg[self.mode].RPN_POST_NMS_TOP_N
        post_top_n_list = [0, int(post_tot_top_n * 0.7), post_tot_top_n - int(post_tot_top_n * 0.7)]

        scores_single_list, proposals_single_list = [], []

        # sort by score
        scores_ordered = scores[order]
        proposals_ordered = proposals[order]

        dist = proposals_ordered[:, 2]
        first_mask = (dist > nms_range_list[0]) & (dist <= nms_range_list[1])
        for i in range(1, len(nms_range_list)):
            # get proposal distance mask
            dist_mask = ((dist > nms_range_list[i - 1]) & (dist <= nms_range_list[i]))

            if dist_mask.sum() != 0:
                # this area has points
                # reduce by mask
                cur_scores = scores_ordered[dist_mask]
                cur_proposals = proposals_ordered[dist_mask]

                # fetch pre nms top K
                cur_scores = cur_scores[:pre_top_n_list[i]]
                cur_proposals = cur_proposals[:pre_top_n_list[i]]
            else:
                assert i == 2, '%d' % i
                # this area doesn't have any points, so use rois of first area
                cur_scores = scores_ordered[first_mask]
                cur_proposals = proposals_ordered[first_mask]

                # fetch top K of first area
                cur_scores = cur_scores[pre_top_n_list[i - 1]:][:pre_top_n_list[i]]
                cur_proposals = cur_proposals[pre_top_n_list[i - 1]:][:pre_top_n_list[i]]

            # oriented nms
            boxes_bev = kitti_utils.boxes3d_to_bev_torch(cur_proposals)
            if cfg.RPN.NMS_TYPE == 'rotate':
                keep_idx = iou3d_utils.nms_gpu(boxes_bev, cur_scores, cfg[self.mode].RPN_NMS_THRESH)
            elif cfg.RPN.NMS_TYPE == 'normal':
                keep_idx = iou3d_utils.nms_normal_gpu(boxes_bev, cur_scores, cfg[self.mode].RPN_NMS_THRESH)
            else:
                raise NotImplementedError

            # Fetch post nms top k
            keep_idx = keep_idx[:post_top_n_list[i]]

            scores_single_list.append(cur_scores[keep_idx])
            proposals_single_list.append(cur_proposals[keep_idx])

        scores_single = torch.cat(scores_single_list, dim=0)
        proposals_single = torch.cat(proposals_single_list, dim=0)
        return scores_single, proposals_single

解释下代码中的方法，

训练时在相机0～40m距离内的bounding box，先取得分类得分最高的6300个，然后计算bird view IOU，把IOU大于0.85的都删掉，到这里bounding box 又少了一点。然后再取得分最高的210个。在距离相机40～80m的范围内用同样的方法取90个。这样第一阶段结束的时候只剩下300个bounding box了。

300个bounding box也还是很多，于是有了第二阶段置信度打分和bounding box优化。
而在实际预测时，使用具有IOU阈值0.8的定向NMS，并且只保留前100个bounding box。

b. Canonical 3D Box Refinement

这一部分主要进行3D bounding box的优化，就是先提出大致的region proposal，再在第一阶段输出的proposal中进行搜索，得到准确的Bounding Box，这往往比one-stage更加精细，速度略逊。

Point Cloud Region Pooling

根据阶段1的3D点和所提取的特征进行池化，为了得到更精细的局部特征。具体步骤为：

对每一个获取的proposal(记做 $b_{i}$ ,表示为一个7维变量( $x_{i},y_{i},z_{i},h_{i},w_{i},l_{i},θ _{i}$ )稍微放大，创造一个新的3D框 $b_{i}^{e}$ =( $x_{i},y_{i},z_{i},h_{i}+η,w_{i}+η,l_{i}+η,θ _{i}$ )从环境中编码额外的信息，其中η是一个用来放大proposal的固定值。
判断点是否在扩大的提案内。对于每个点p = ( $x^{(p)},y^{(p)},z^{(p)}$ )执行一个内/外测试来判断这个点在不在被扩大的推荐框 $b_{i}^{e}$ 中。如果在的话，这个点和他的特征就会被保留用来微调 $b_{i}$ .

主要包括：
3D坐标( $x_{i},y_{i},z_{i},h_{i},w_{i},l_{i},θ _{i}$ )
激光反射强度 $r^{(p)}$
阶段1的预测分割掩码 $m^{(p)}$
阶段1的C维学习点特征表示 $f^{(p)}$
--------------------这些结构正好是结构图中的引导线--------------------------------

Canonical Transformation

Canonical变换其实就是对每个proposal建立了一个单独的个体坐标系（如下图所示）。

这个坐标系的特点为：

     1. 坐标系的原点为proposal的中点
     2. X和Z轴与水平地面平行。且X轴为proposal朝向的位置
     3. Y轴水平向下

规范后的中心点坐标为：
$\tilde{b_{i}}$ = (0, 0, 0, $h_{i}, w_{i}, l_{i}, 0$ )
$\tilde{b_{i}^{gt}}$ = ( $x_{i}^{gt}-x_{i}$ , $y_{i}^{gt}-y_{i}$ , $z_{i}^{gt}-z_{i}$ , $h_{i}^{gt}, w_{i}^{gt}, l_{i}^{gt},$ , $θ_{i}^{gt}-θ_{i}$
作者仍采用bin-res的方法进行位置回归，只不过采用了更小的搜索范围S。

Merged Features

将坐标变化后的局部空间点再次卷积(改变通道数)和全局的语义特征结合优化框和置信度。另外尽管规范坐标后的点对局部空间信息鲁棒，但其不可避免的丢失了深度信息。比如，远处的目标（远离sensor）比近处的点密度小，为了补偿失去的深度信息，作者在p点的特征中包括了传感器的距离信息。
即 : $d^{(p)} = \sqrt{(x^{(p)})^2 + (y^{(p)})^2 + (z^{(p)})^2}$ .

Bin-based 3D box Refinement and Confidence Prediction

将所得的特征再喂入PointNet++获得接下来用于置信度分类和框优化的判别特征向量。
采用相似的基于bin回归的损失用于提案优化。一个groundtruth框被分配给提案框用来优化，如果他们的3D IoU大于0.55，因此作者假设预测角度和真实朝向的范围在 [ $-\pi/4, \pi/4$ ] ，然后作者将这 [ $\pi/2$ ] 划分为一个个的大小为 $\omega$ 的bin，然后设置计算朝向的bin和res.

则整个二阶段子网络的全部loss为：

$\beta$ 是阶段1的3D proposal 几何 $B_{pos}$ 存放着positive的回归proposals
$prob_{i}$ 是估算 $\tilde{b_{i}}$ 的置信度 $label_{i}$ 是对应的label
$\tilde{L_{bin}^{(i)}}$ 和 $\tilde{L_{res}^{(i)}}$ 使用的是通过 $\tilde{b_{i}^{gt}}$ 和 $\tilde{b_{i}}$ 计算的新对象

最后应用鸟瞰IoU阈值0.01的有方向的NMS去除重叠的边界框，并且生成被检测对象的三维边界框。

代码部分

阶段2的代码实现，具体的代码在lib/rpn/proposal_target_layer.py中。

如图所示，最后得到的rcnn_cls 和 rcnn_reg的置信度结果。这个46也是基于bin的预测，跟之前的76是一个内涵，只是现在0-6表示x_bin。这部分的具体代码在lib/net/rcnn_net.py中。

总结

呼呼… 终于到最后啦，这篇论文难度迅速升级，原理花费时间还是可以看懂的，但是代码部分好复杂，真要完全理解估计得一个月起步了。后续如果真的用到，在回头仔细研读代码吧。另外本文如果有什么错误的地方欢迎大家指正。

参考

PointRCNN 学习笔记（文中图片来源）
【3D目标检测】PointRCNN深度解读
【代码阅读】PointRCNN网络可视化，代码详解
Point RCNN论文翻译及图解（里面有个图解建议大家看看）
【阅读笔记】pointrcnn

GPU 之后，IMU 登场：AI 发展的下一次飞跃
你早晨醒来，手机上的大模型帮你写完邮件、翻译合同，却依旧不能帮你把厨房里洒掉的牛奶擦干。你戴上的AR眼镜知道“那里有杯子”，却抓不到它——AI会说不会做。是不是哪里少了一截？人工智能（AI）的发展历程中，我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。然而，尽管AI在虚拟世界中表现出色，它在物理世界中的表现却相对滞后。为了填补这一空白，AI正在进入一个新的发展阶段：行动驱动时代。在本文中，我
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
今日播报！庆衍书院郭庆旺被骗黑幕曝光，KSD2.0光伏市场不能出金不要再次踏入！法律咨询维权
社交平台有这样一种群，群里都是“理财专家”“炒股大神”“操盘高手”，不仅每天免费授课、推荐牛股，还有助理“一对一”指导具体操作。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。咨询顾问：182--71402640（电微同号）数字经济数字体育数字农业慈善投票大赛
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
AI人才实在太抢手！顶级科学家年薪超7000万：中高级也能过千万程序员超超人工智能 transformer 深度学习 java spring boot ai 大模型
快科技7月2日消息，据媒体报道，激烈的人工智能人才争夺战，导致一些顶尖资深研究科学家的年薪超过1000万美元（约7167万元人民币）。而典型的薪资方案则处于300万至700万美元区间，相较于2022年，这一数字实现了约50%的增长。薪酬追踪网站Levels的统计数据显示，Meta给予AI工程师的薪酬范围为18.6万至320万美元，OpenAI则在21.2万至250万美元之间；若以薪酬中位数来衡量，
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st