AdamShan

无人驾驶汽车系统入门（二十八）——基于VoxelNet的激光雷达点云车辆检测及ROS实现

前文我们提到使用SqueezeSeg进行了三维点云的分割，由于采用的是SqueezeNet作为特征提取网络，该方法的处理速度相当迅速（在单GPU加速的情况下可达到100FPS以上的效率），然而，该方法存在如下的问题：第一，虽然采用了CRF改进边界模糊的问题，但是从实践结果来看，其分割的精度仍然偏低；第二，该模型需要大量的训练集，而语义分割数据集标注困难，很难获得大规模的数据集。当然，作者在其后的文章：SqueezeSegV2: Improved Model Structure and Unsupervised Domain Adaptation for Road-Object Segmentation from a LiDAR Point Cloud 中给出了改进的方案，我将在后面的文章中继续解读。需要注意的是，在无人车环境感知问题中，很多情况下并不需要对目标进行精确的语义分割，只需将目标以一个三维的Bounding Box准确框出即可（即Detection），本文介绍一种基于点云的Voxel（三维体素）特征的深度学习方法，实现对点云中目标的准确检测，并提供一个简单的ROS实现，供大家参考。

VoxelNet结构

VoxelNet是一个端到端的点云目标检测网络，和图像视觉中的深度学习方法一样，其不需要人为设计的目标特征，通过大量的训练数据集，即可学习到对应的目标的特征，从而检测出点云中的目标，如下：

VoxelNet的网络结构主要包含三个功能模块：（1）特征学习层；（2）卷积中间层；（3）区域提出网络（ Region Proposal Network，RPN）。

特征学习网络

特征学习网络的结构如下图所示，包括体素分块（Voxel Partition），点云分组（Grouping），随机采样（Random Sampling），多层的体素特征编码（Stacked Voxel Feature Encoding），稀疏张量表示（Sparse Tensor Representation）等步骤，具体来说：

体素分块

这是点云操作里最常见的处理，对于输入点云，使用相同尺寸的立方体对其进行划分，我们使用一个深度、高度和宽度分别为 $(D, H, W)$ 的大立方体表示输入点云，每个体素的深高宽为 $v_D, v_H, v_W)$ ，则整个数据的三维体素化的结果在各个坐标上生成的体素格（voxel grid）的个数为： $\frac{D}{v_D}, \frac{H}{v_H}, \frac{W}{v_W})$ 。

点云分组

将点云按照上一步分出来的体素格进行分组，如上图所示。

随机采样

很显然，按照这种方法分组出来的单元会存在有些体素格点很多，有些格子点很少的情况，64线的激光雷达一次扫描包含差不多10万个点，全部处理需要的计算力和内存都很高，而且高密度的点势必会给神经网络的计算结果带来偏差。所以，该方法在这里插入了一层随机采样，对于每一个体素格，随机采样固定数目的点， $T$ 。

多个体素特征编码（Voxel Feature Encoding，VFE）层

之后是多个体素特征编码层，简称为VFE层，这是特征学习的主要网络结构，以第一个VFE层为例说明：

对于输入：

$V=\lbrace p_i = [ x_i,y_i,z_i,r_i ] \in \mathbb{R}^4 \rbrace_{i=1....t}$

是一个体素格内随机采样的点集， $t < = T$ ， $x_i,y_i,z_i,r_i )$ 分别点的XYZ坐标以及激光束的反射强度（即intensity），我们首先计算体素内所有点的平均值 $v_x, v_y, v_z)$ 作为体素格的形心(类似于Voxel Grid Filter)，那么我们就可以将体素格内所有点的特征数量扩充为如下形式：

$V_{in} = \lbrace \widehat{p}_i= [x_i,y_i,z_i, r_i,x_i-v_x,y_i-v_y,z_i-v_z]^T \in \mathbb{R}^7 \rbrace_{i = 1...t}$

接着，每一个 $\widehat{p}_i$ 都会通过一个全连接网络（Fully Connected，FC,论文中用的是FCN来简称，实际上FCN更多的被用于表示全卷积网络，所以原文此处用FCN简称实际上不妥）被映射到一个特征空间 $f_i \in \mathbb{R}^m$ ，输入的特征维度为7，输出的特征维数变成 $m$ ，全连接层包含了一个线性映射层，一个批标准化（Batch Normalization），以及一个非线性运算（ReLU），得到逐点的（point-wise）的特征表示。

接着我们采用最大池化（MaxPooling）对上一步得到的特征表示进行逐元素的聚合，这一池化操作是对元素和元素之间进行的，得到局部聚合特征（Locally Aggregated Feature）,即 $\widehat{f} \in \mathbb{R}^m$ ，最后，将逐点特征和逐元素特征进行连接（concatenate）,得到输出的特征集合:
$V_{out} =\lbrace f^{out}_i \rbrace_{i = 1...t}$

对于所有的非空的体素格我们都进行上述操作，并且它们都共享全连接层（FC）的参数。我们使用符号 $c_{in}, c_{out})$ 来描述经过VFE以后特征的维数变化，那么显然全连接层的参数矩阵大小为：

$(c_{in}, \frac{c_{out}}{2})$

由于VFE层中包含了逐点特征和逐元素特征的连接，经过多层VFE以后，我们希望网络可以自动学习到每个体素内的特征表示（比如说体素格内的形状信），那么如何学习体素内的特征表示呢？原论文的方法下图所示：

通过对体素格内所有点进行最大池化，得到一个体素格内特征表示 $C$ 。

稀疏张量表示

通过上述流程处理非空体素格，我们可以得到一系列的体素特征（Voxel Feature）。这一系列的体素特征可以使用一个4维的稀疏张量来表示：
$\times D' \times H' \times W'$

虽然一次lidar扫描包含接近10万个点，但是超过90%的体素格都是空的，使用稀疏张量来描述非空体素格在于能够降低反向传播时的内存和计算消耗。

对于具体的车辆检测问题，我们取沿着Lidar坐标系的 $(Z, Y, X)$ 方向取 $[- 3, 1] \times [- 40, 40] \times [0, 70.4]$ 立方体（单位为米）作为输入点云，取体素格的大小为:
$v_D = 0.4, v_H = 0.2, v_W = 0.2$
那么有
$D^{'} = 10, H^{'} = 400, W^{'} = 352$
我们设置随机采样的 $T = 35$ ，并且采用两个VFE层：VFE-1(7, 32) 和 VFE-2(32, 128)，最后的全连接层将VFE-2的输出映射到 $\mathbb{R}^{128}$ 。最后，特征学习网络的输出即为一个尺寸为 $(128\times 10 \times 400 \times 352)$ 的稀疏张量。整个特征网络的TensorFlow实现代码如下：

class VFELayer(object):

    def __init__(self, out_channels, name):
        super(VFELayer, self).__init__()
        self.units = int(out_channels / 2)
        with tf.variable_scope(name, reuse=tf.AUTO_REUSE) as scope:
            self.dense = tf.layers.Dense(
                self.units, tf.nn.relu, name='dense', _reuse=tf.AUTO_REUSE, _scope=scope)
            self.batch_norm = tf.layers.BatchNormalization(
                name='batch_norm', fused=True, _reuse=tf.AUTO_REUSE, _scope=scope)

    def apply(self, inputs, mask, training):
        # [K, T, 7] tensordot [7, units] = [K, T, units]
        pointwise = self.batch_norm.apply(self.dense.apply(inputs), training)

        #n [K, 1, units]
        aggregated = tf.reduce_max(pointwise, axis=1, keep_dims=True)

        # [K, T, units]
        repeated = tf.tile(aggregated, [1, cfg.VOXEL_POINT_COUNT, 1])

        # [K, T, 2 * units]
        concatenated = tf.concat([pointwise, repeated], axis=2)

        mask = tf.tile(mask, [1, 1, 2 * self.units])

        concatenated = tf.multiply(concatenated, tf.cast(mask, tf.float32))

        return concatenated


class FeatureNet(object):

    def __init__(self, training, batch_size, name=''):
        super(FeatureNet, self).__init__()
        self.training = training

        # scalar
        self.batch_size = batch_size
        # [ΣK, 35/45, 7]
        self.feature = tf.placeholder(
            tf.float32, [None, cfg.VOXEL_POINT_COUNT, 7], name='feature')
        # [ΣK]
        self.number = tf.placeholder(tf.int64, [None], name='number')
        # [ΣK, 4], each row stores (batch, d, h, w)
        self.coordinate = tf.placeholder(
            tf.int64, [None, 4], name='coordinate')

        with tf.variable_scope(name, reuse=tf.AUTO_REUSE) as scope:
            self.vfe1 = VFELayer(32, 'VFE-1')
            self.vfe2 = VFELayer(128, 'VFE-2')

        # boolean mask [K, T, 2 * units]
        mask = tf.not_equal(tf.reduce_max(
            self.feature, axis=2, keep_dims=True), 0)
        x = self.vfe1.apply(self.feature, mask, self.training)
        x = self.vfe2.apply(x, mask, self.training)

        # [ΣK, 128]
        voxelwise = tf.reduce_max(x, axis=1)

        # car: [N * 10 * 400 * 352 * 128]
        # pedestrian/cyclist: [N * 10 * 200 * 240 * 128]
        self.outputs = tf.scatter_nd(
            self.coordinate, voxelwise, [self.batch_size, 10, cfg.INPUT_HEIGHT, cfg.INPUT_WIDTH, 128])

卷积中间层

每一个卷积中间层包含一个3维卷积，一个BN层（批标准化），一个非线性层（ReLU），我们用：
$Conv3D(c_{in}, c_{out}, k, s, p)$
来描述一个卷积中间层， $C o n v 3 D$ 表示是三维卷积， $c_{in}, c_{out}$ 分别表示输入和输出的通道数， $k$ 是卷积核的大小，它是一个向量，对于三维卷积而言，卷积核的大小为 $(k, k, k)$ ； $s$ 即stride，卷积操作的步长； $p$ 即padding，填充的尺寸。

对于车辆检测而言，设计的卷积中间层如下：

Conv3D(128, 64, 3,(2,1,1), (1,1,1))
Conv3D(64, 64, 3, (1,1,1), (0,1,1))
Conv3D(64, 64, 3, (2,1,1), (1,1,1))

卷积中间层的TensorFlow代码如下：

def ConvMD(M, Cin, Cout, k, s, p, input, training=True, activation=True, bn=True, name='conv'):
    temp_p = np.array(p)
    temp_p = np.lib.pad(temp_p, (1, 1), 'constant', constant_values=(0, 0))
    with tf.variable_scope(name) as scope:
        if(M == 2):
            paddings = (np.array(temp_p)).repeat(2).reshape(4, 2)
            pad = tf.pad(input, paddings, "CONSTANT")
            temp_conv = tf.layers.conv2d(
                pad, Cout, k, strides=s, padding="valid", reuse=tf.AUTO_REUSE, name=scope)
        if(M == 3):
            paddings = (np.array(temp_p)).repeat(2).reshape(5, 2)
            pad = tf.pad(input, paddings, "CONSTANT")
            temp_conv = tf.layers.conv3d(
                pad, Cout, k, strides=s, padding="valid", reuse=tf.AUTO_REUSE, name=scope)
        if bn:
            temp_conv = tf.layers.batch_normalization(
                temp_conv, axis=-1, fused=True, training=training, reuse=tf.AUTO_REUSE, name=scope)
        if activation:
            return tf.nn.relu(temp_conv)
        else:
            return temp_conv

# convolutinal middle layers
temp_conv = ConvMD(3, 128, 64, 3, (2, 1, 1),
                    (1, 1, 1), self.input, name='conv1')
temp_conv = ConvMD(3, 64, 64, 3, (1, 1, 1),
                    (0, 1, 1), temp_conv, name='conv2')
temp_conv = ConvMD(3, 64, 64, 3, (2, 1, 1),
                    (1, 1, 1), temp_conv, name='conv3')
temp_conv = tf.transpose(temp_conv, perm=[0, 2, 3, 4, 1])
temp_conv = tf.reshape(temp_conv, [-1, cfg.INPUT_HEIGHT, cfg.INPUT_WIDTH, 128])

区域提出网络（RPN）

RPN实际上是目标检测网络中常用的一种网络，下图是VoxelNet中使用的RPN：

如图所示，该网络包含三个全卷积层块（Block），每个块的第一层通过步长为2的卷积将特征图采样为一半，之后是三个步长为1的卷积层，每个卷积层都包含BN层和ReLU操作。将每一个块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图。最后，该特征图通过两种二维卷积被输出到期望的学习目标：

概率评分图（Probability Score Map ）
回归图（Regression Map）

使用TensorFlow实现该RPN如下(非完整代码，完整代码请见文末链接))：

def Deconv2D(Cin, Cout, k, s, p, input, training=True, bn=True, name='deconv'):
    temp_p = np.array(p)
    temp_p = np.lib.pad(temp_p, (1, 1), 'constant', constant_values=(0, 0))
    paddings = (np.array(temp_p)).repeat(2).reshape(4, 2)
    pad = tf.pad(input, paddings, "CONSTANT")
    with tf.variable_scope(name) as scope:
        temp_conv = tf.layers.conv2d_transpose(
            pad, Cout, k, strides=s, padding="SAME", reuse=tf.AUTO_REUSE, name=scope)
        if bn:
            temp_conv = tf.layers.batch_normalization(
                temp_conv, axis=-1, fused=True, training=training, reuse=tf.AUTO_REUSE, name=scope)
        return tf.nn.relu(temp_conv)

# rpn
# block1:
temp_conv = ConvMD(2, 128, 128, 3, (2, 2), (1, 1),
                    temp_conv, training=self.training, name='conv4')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv5')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv6')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv7')
deconv1 = Deconv2D(128, 256, 3, (1, 1), (0, 0),
                    temp_conv, training=self.training, name='deconv1')

# block2:
temp_conv = ConvMD(2, 128, 128, 3, (2, 2), (1, 1),
                    temp_conv, training=self.training, name='conv8')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv9')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv10')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv11')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv12')
temp_conv = ConvMD(2, 128, 128, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv13')
deconv2 = Deconv2D(128, 256, 2, (2, 2), (0, 0),
                    temp_conv, training=self.training, name='deconv2')

# block3:
temp_conv = ConvMD(2, 128, 256, 3, (2, 2), (1, 1),
                    temp_conv, training=self.training, name='conv14')
temp_conv = ConvMD(2, 256, 256, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv15')
temp_conv = ConvMD(2, 256, 256, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv16')
temp_conv = ConvMD(2, 256, 256, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv17')
temp_conv = ConvMD(2, 256, 256, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv18')
temp_conv = ConvMD(2, 256, 256, 3, (1, 1), (1, 1),
                    temp_conv, training=self.training, name='conv19')
deconv3 = Deconv2D(256, 256, 4, (4, 4), (0, 0),
                    temp_conv, training=self.training, name='deconv3')

# final:
temp_conv = tf.concat([deconv3, deconv2, deconv1], -1)
# Probability score map, scale = [None, 200/100, 176/120, 2]
p_map = ConvMD(2, 768, 2, 1, (1, 1), (0, 0), temp_conv,
                training=self.training, activation=False, bn=False, name='conv20')
# Regression(residual) map, scale = [None, 200/100, 176/120, 14]
r_map = ConvMD(2, 768, 14, 1, (1, 1), (0, 0),
                temp_conv, training=self.training, activation=False, bn=False, name='conv21')

损失函数

我们首先定义 $\lbrace a_i^{pos}\rbrace_{i = 1...N_{pos}}}$ 为正样本集合， $\lbrace a_j^{neg}\rbrace_{j = 1...N_{neg}}}$ 为负样本集合，使用 $(x^g_c, y^g_c, z^g_c, l^g, w^g, h^g, \theta^g)$ 来表示一个真实的3D标注框，其中 $(x^g_c, y^g_c, z^g_c)$ 表示标注框中心的坐标， $l^g, w^g, h^g)$ 表示标注框的长宽高， $\theta^g$ 表示偏航角（Yaw）。相应的， $(x^a_c, y^a_c, z^a_c, l^a, w^a, h^a, \theta^a)$ 表示正样本框。那么回归的目标为一下七个量：

$\Delta x = \frac{x^g_c - x^a_c}{d^a}, \Delta y = \frac{y^g_c - y^a_c}{d^a},\Delta z = \frac{z^g_c - z^a_c}{h^a}$
$\Delta l = \log\frac{l^g}{l^a}, \Delta w = \log\frac{w^g}{w^a},\Delta h = \log\frac{h^g}{h^a}, \Delta \theta = \theta^g - \theta^a$

其中：
$d^a = \sqrt{(l^a)^2 + (w^a)^2}$
是正样本框的对角线。我们定义损失函数为：

其中 $p_i^{pos}$ 和 $p_j^{neg}$ 分别表示正样本 $a_i^{pos}$ 和负样本 $a_j^{neg}$ 的Softmax输出， $\bm{u}_i$ 和 $\bm{u}_i^*$ 分别表示神经网络的正样本输出的标注框和真实标注框。损失函数的前两项表示对于正样本输出和负样本输出的分类损失（已经进行了正规化），其中 $L_{cls}$ 表示交叉熵， $\alpha$ 和 $\beta$ 是两个常数，它们作为权重来平衡正负样本损失对于最后的损失函数的影响。 $L_{reg}$ 表示回归损失，这里采用的是Smooth L1函数。

ROS实践

我们仍然使用第二十六篇博客的数据（截取自KITTI），下载地址：https://pan.baidu.com/s/1kxZxrjGHDmTt-9QRMd_kOA
我们直接采用qianguih提供的训练好的模型（参考：https://github.com/qianguih/voxelnet ，大家也可以基于该项目自己训练模型）。

安装项目依赖环境：

python3.5+
TensorFlow (tested on 1.4)
opencv
shapely
numba
easydict
ROS
jsk package

准备数据

下载上面的数据集，解压到项目（源码地址见文末）的data文件夹下，目录结构为：

data
----lidar_2d
--------0000...1.npy
--------0000...2.npy
--------.......

运行

catkin_make
roscd voxelnet/script/
python3 voxelnet_ros.py & python3 pub_kitti_point_cloud.py
- 注意不能使用rosrun，因为VoxelNet代码为Python 3.x

rqt节点图

使用Rviz可视化

存在的问题

实例的模型的性能不佳，由于论文作者没有开源其代码，许多参数仍然有待调整
速度慢，没有实现作者提出的高效策略

感兴趣的同学可以试着调整参数提高模型性能，欢迎大家留言、私信交流。

源码地址：https://github.com/AbangLZU/VoxelNetRos

数据地址：https://pan.baidu.com/s/1kxZxrjGHDmTt-9QRMd_kOA

Coze智能体开发：什么是提示词及其编写建议王国平 Coze AI Agent智能体开发人工智能大数据语言模型 python 开发语言
提示词(Prompt)是AIAgent的核心，它决定了模型生成结果的质量和准确性。提示词不仅影响输出，还决定了模型对输入信息的理解深度。通过科学的提示词设计，开发者能高效引导模型生成符合预期的高质量输出。基础概念提示词提示词（Prompt）是用户在与模型或智能系统互动时输入的指令或文本，用来引导系统生成回应或执行特定任务。它可以是问题、命令或描述性文字，帮助系统理解用户的意图并提供相应的结果。提示
Spring Boot 牵手EasyExcel：解锁高效数据处理姿势灵犀学长 Spring Boot 全栈开发 spring boot java 架构微服务后端
引言在日常的Java开发中，处理Excel文件是一个极为常见的需求。无论是数据的导入导出，还是报表的生成，Excel都扮演着重要的角色。例如，在企业的财务管理系统中，需要将每月的财务数据导出为Excel报表，方便财务人员进行数据分析和审计；在人力资源管理系统中，可能需要导入员工的基本信息、考勤记录等数据到系统中。然而，传统的Excel处理方式，如使用POI等工具，虽然功能强大，但在面对复杂的业务场
Excel 如何让某些符合特定条件的数据自动变色，以作警示？冰糖心书房 Excel excel
回答这个问题我们得用Excel中一个极为实用的功能——条件格式(ConditionalFormatting)。条件格式能让单元格根据其自身的值或与其他单元格的关系，自动改变外观（如背景色、字体颜色、图标等）。这就像给数据装上了一个“自动警报系统”，让关键信息和异常数据在第一时间“跳”出来。一、条件格式的核心位置在Excel菜单栏的开始(Home)选项卡中，你会找到一个非常显眼的条件格式(Condi
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
探索 Vue.js 前端开发中的插件系统大厂前端小白菜 vue.js 前端 javascript ai
探索Vue.js前端开发中的插件系统关键词：Vue.js、插件系统、install方法、全局功能、代码复用、生命周期、模块化开发摘要：本文通过乐高积木的比喻，深入浅出地讲解Vue.js插件系统的核心原理。从install方法的工作原理到实战开发全局加载提示插件，揭秘如何通过插件机制实现功能扩展与代码复用，并探讨其在现代前端工程中的最佳实践。背景介绍目的和范围本文旨在帮助开发者理解Vue.js插件系
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
11 DPDK 探索大页内存原理
在分析dpdk大页内存的源码之前，有必要对linux内存管理的原理以及大页内存的原理有个了解，缺少这些底层基础知识，分析dpdk大页内存的源码将举步维艰。这篇文章详细介绍下linux内存管理以及大页内存的方方面面，为分析dpdk大页内存源码扫除障碍。一、linux内存管理原理1、mmu内存管理的引入在没有引入mmu内存管理单元时，对于32位操作系统，每个进程都有2的32次方的地址空间(4G)。如果
REACT (Web开发框架 : react)极速入门 masterphp react.js 前端前端框架
前面讲过了很多后端，今天复习一下前端，为啥要讲React？对咯！我这边又被借调到前端组了，和前端的同学一起做React，以前有基础加上前端同学只做过Vue，所以我毫无疑问的又被借过去了......，这个是复习资料，高级玩家可略过。首先我要说一下，有Vue框架和JS原生的同学学习React会特别的快速，所以基础稍微差一点的同学可以先复习一下JS，特别说一下是JS老生常谈的，说明一下啥是Reac
基线定位系统：长基线与超短基线的原理与应用森焱森人工智能
基线定位系统：长基线与超短基线的原理与应用在测量、导航、天文等领域，基线是两个已知位置之间的距离或方向，常用于三角测量、卫星定位等方法来确定其他位置的相对关系。本文将深入探讨长基线（LongBaseline,LBL）与超短基线（Ultra-ShortBaseLine,USBL）定位系统的原理、特点及应用。一、基线的定义与本质基线是参照点之间的已知距离或方向，作为基础数据，帮助确定其他未知位置。它通
无人机载重模块技术要点分析
一、技术要点1.结构设计创新双电机卷扬系统：采用主电机（张力控制）和副电机（卷扬控制）协同工作，解决绳索缠绕问题，支持30米绳长1.2m/s高速收放，重载稳定性提升。轴双桨布局：无人机采用8轴16桨+轴双桨结构，单轴推力提升40%，载重能力突破200kg，冗余设计保障单轴失效时平稳飞行。模块化快拆：碳纤维+航空铝材质实现减重20%且强度提升50%，桨叶5分钟内可更换，提升野外维护效率。2.安全与制
无人机RTK技术要点与难点分析云卓SKYDROID 无人机人工智能高科技云卓科技科普
一、RTK技术核心要点1.定位原理与精度提升RTK通过基准站与无人机（移动站）的实时差分计算消除误差。基准站已知精确坐标，将其观测的卫星载波相位数据发送给无人机，无人机通过对比自身接收的卫星信号与基准站数据的相位差，实现厘米级定位（水平1cm+1ppm，垂直2cm+1ppm）。相比普通GPS（米级误差），RTK显著解决了电离层延迟、对流层折射、卫星钟差等误差源。2.系统组成关键双天线设计：部分方案
Vue - 深入理解 Vue 3 中的 ref 和 reactive
深入理解Vue3中的ref和reactiveVue3引入了一个全新的响应式系统，使得数据的变化能够自动反映到视图中。对于开发者来说，理解如何使用响应式API是掌握Vue3的关键。本文将重点介绍Vue3中的两个核心响应式API—ref和reactive，并理解它们的区别、使用场景以及如何在实际项目中有效利用它们。1.Vue3响应式系统概述Vue3的响应式系统基于Proxy对象实现，它使得我们可以轻松
深度剖析：OPENPPP2 libtcpip 实现原理与架构设计 liulilittle 网络智能路由器 c++开发语言 tcp tcp/ip 通信
️一、核心架构设计（可视化图表）1.1整体架构图物理网络TAP/TUN设备原始数据包libtcpip输入层LWIP协议栈Netstack转换层Boost.AsioSocket目标服务libtcpip输出层1.2分层架构图内核空间用户空间内核网络栈IP协议处理网络接口层TCP/UDP协议栈Socket转换层系统Socket接口物理网络⚙️二、LWIP协议栈集成剖析2.1LWIP定制化实现//内存管理
K8S 集群配置踩坑记录 KKKingWei kubernetes 容器云原生
系统版本：Ubuntu22.04.5-live-server-amd64K8S版本：v1.28.2Containerd版本：1.7.27kubeletlogs====================kuberuntime_sandbox.go:72]"Failedtocreatesandboxforpod"err="rpcerror:code=Unknowndesc=failedtocreatec
golang的协程实现-goroutine 大口吃饭大口吐 go golang
我们从调度上声明线程与goroutine的区别cpu已经通过分配时间,自带调度器实现切换时间片帮我们解决了多程序(任务)执行问题,在此基础上推演出更小单位多线程:多线程的执行依赖os(操作系统)的调度分配，操作系统促使硬件调度时钟，隔个一段时间发送一个信号到cpu中，cpu结束当前执行线程的函数(程序)并将执行信息从寄存器保存到内存中，再查看线程清单中接下来要继续执行的线程(执行过程:内存中取出来
手机评论管理系统中奖秀晒图源码本套晒图源码（源码下载）
手机评论管理系统中奖秀晒图源码本套晒图源码采用mysql+html使用说明：测试环境：Nginx+PHP7.0+MySQL5.6评论管理后台访问：http://你的域名/review-admin.html评论列表首页：http://你的域名/mskhj.html源码下载：https://download.csdn.net/download/m0_66047725/91273788更多资源下载：关注
ASP.NET Web Pages 教程：从入门到精通 KrDebugging asp.net 前端后端编程学习
ASP.NETWebPages是一种用于构建动态网页的技术，它结合了传统的HTML、CSS和JavaScript，以及强大的服务器端编程语言C#。本教程将带您逐步学习ASP.NETWebPages的基础知识，并通过示例代码演示如何创建交互性强、功能丰富的网页应用程序。环境设置在开始学习ASP.NETWebPages之前，您需要进行以下环境设置：安装VisualStudio：您可以从Microsof
golang 协程如何中断和恢复 sun007700 golang 数据库开发语言
Go语言通知协程退出(取消)的几种方式-知乎GoLang之goroutine底层系列二(goroutine的创建、让出、恢复)_golanggoroutine-CSDN博客在Go语言中，协程（也称为goroutine）是通过go关键字启动的轻量级线程。由于goroutine的调度是由Go运行时管理的，直接停止一个正在执行的goroutine是不可能的，这与操作系统线程不同。但是，你可以通过一些策略
对加密字段进行模糊查询：基于分词密文映射表的实现方案大三小小小白数据库
引言在当今数据安全日益重要的背景下，数据库字段加密已成为保护敏感信息的常见做法。然而，加密后的数据给模糊查询带来了巨大挑战。本文将介绍一种基于分词密文映射表的解决方案，实现对加密字段的高效模糊查询。一、问题背景考虑一个用户管理系统，其中包含手机号、身份证号、住址等敏感信息。这些字段需要加密存储以保证安全，但同时业务上又需要支持模糊查询（如根据手机号前几位查询用户）。传统加密方式直接阻碍了模糊查询功
多系统兼容打印机万能驱动软件：Win/Mac/Linux自动检测 + 全品牌适配
各位打印小白们，你们有没有遇到过打印机连不上电脑，或者找不到合适驱动的糟心事？今天就来给大家唠唠打印机万能驱动这个软件软件下载地址安装包打印机万能驱动，说白了就是给打印机用的通用驱动程序工具，靠内置的驱动库和自动检测技术，能适配好多不同品牌、不同型号的打印机。你再也不用发愁找不到对应的驱动，也不用被复杂的安装流程搞得晕头转向啦！这软件兼容性超强，Windows、Mac、Linux这些操作系统它都能
python 魔法方法常用_Python魔法方法指南 weixin_39603505 python 魔法方法常用
有很多人说学习Python基础之后不知道干什么，不管你是从w3c还是从廖雪峰的教程学习的，这些教程都有一个特点：只能引你快速入门，但是有关于Python的很多基础内容这些教程中都没介绍，而这些你没学习的内容会让你在后期做项目的时候非常困惑。就比如下面这篇我要给大家推荐的文章所涉及的内容，不妨你用一天时间耐心看完，把代码都敲上一遍。--11：33更新--很多人想要我的一份学习笔记，所以在魔法指南之前
讨论 Git 在版本控制中的重要性（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）git elasticsearch 大数据人工智能深度学习
Git在版本控制中的重要性在软件开发领域，版本控制系统（VersionControlSystem,VCS）扮演着至关重要的角色。它不仅帮助开发者追踪和管理代码的变更历史，更是团队协作、项目管理和代码质量保障的基石。而在众多的版本控制系统中，Git凭借其卓越的性能、灵活的设计和强大的功能，已经成为当今世界范围内最流行、应用最广泛的版本控制工具。理解Git的重要性，对于任何软件开发者而言都是一项基本且
GitHub 完全指南：从入门到高效协作开发 FrostedLotus·霜莲 github
GitHub：现代软件开发的核心协作平台GitHub作为全球领先的代码托管平台，已经成为软件开发领域不可或缺的基础设施。本文将客观介绍GitHub的核心功能和应用价值。一、平台概述GitHub创立于2008年，是基于Git版本控制系统的代码托管服务平台。2018年被微软收购后，平台功能持续增强。目前GitHub托管着超过4亿个代码仓库，服务全球1亿开发者。二、核心功能代码仓库管理支持创建公开/私有
一文详解显卡（GPU）驱动（Driver）CUDA、PyTorch 四者之间的关系、依赖性、版本兼容性，以及如何通过命令查询各自版本等方面进行系统性总结番知了 pytorch 人工智能 python
目录一、四者的依赖关系概览简单理解：二、依赖链详细解释1.显卡（GPU）2.NVIDIA显卡驱动3.CUDAToolkit4.PyTorch三、版本兼容查询PyTorch与CUDA的兼容表四、版本查询命令（Linux/Windows）五、安装建议（实用路线）一、四者的依赖关系概览组件作用与其它组件的关系GPU(显卡)提供物理硬件（如NVIDIARTX4060）驱动必须支持你的显卡型号驱动Drive
详细总结在电脑上安装 Ubuntu 22.04 双系统（Windows + Ubuntu）全过程番知了电脑 ubuntu windows
目录一、准备阶段1.1重要数据备份1.2下载Ubuntu22.04镜像1.3制作Ubuntu启动U盘二、Windows分区调整（为Ubuntu腾出空间）2.1打开磁盘管理2.2压缩完成后三、BIOS/UEFI设置（强烈建议提前完成）3.1重启电脑→进入BIOS/UEFI3.2保存设置，插入U盘，重启四、启动并安装Ubuntu4.1选择U盘启动4.2进入Ubuntu安装界面4.3安装语言、布局、网络
详细总结实际物理机上安装 Ubuntu 22.04 双系统（Windows + Ubuntu）全过程番知了 ubuntu windows linux
目录一、准备阶段1.1重要数据备份1.2下载Ubuntu22.04镜像1.3制作Ubuntu启动U盘二、Windows分区调整（为Ubuntu腾出空间）2.1打开磁盘管理2.2压缩完成后三、BIOS/UEFI设置（强烈建议提前完成）3.1重启电脑→进入BIOS/UEFI3.2保存设置，插入U盘，重启四、启动并安装Ubuntu4.1选择U盘启动4.2进入Ubuntu安装界面4.3安装语言、布局、网络
Python 基础入门第十三讲魔法方法补充、单例模式、reflect反射（getattr、hasattr、__import__()）
第十三讲一、特殊成员和魔法方法在之前的课程中已经学习过如__init__、__str__、__dir__等魔法方法，现补充一些常用的魔法方法：1.__doc__魔法方法该魔法方法的作用为打印类的说明文档，举个例子：print(str().__doc__)###输出结果为：str(object='')->strstr(bytes_or_buffer[,encoding[,errors]])->str
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

无人驾驶汽车系统入门（二十八）——基于VoxelNet的激光雷达点云车辆检测及ROS实现

无人驾驶汽车系统入门（二十八）——基于VoxelNet的激光雷达点云车辆检测及ROS实现

VoxelNet结构

特征学习网络

体素分块

点云分组

随机采样

多个体素特征编码（Voxel Feature Encoding，VFE）层

稀疏张量表示

卷积中间层

区域提出网络（RPN）

损失函数

ROS实践

安装项目依赖环境：

准备数据

运行

rqt节点图

使用Rviz可视化

存在的问题

源码地址：https://github.com/AbangLZU/VoxelNetRos

数据地址：https://pan.baidu.com/s/1kxZxrjGHDmTt-9QRMd_kOA

你可能感兴趣的:(无人驾驶汽车专题,无人驾驶汽车系统入门)