yuyijie_1995

单目图像3D检测内容说明

文章目录

- - 数据部分
  - - label部分
    - calib部分
  - yolo3D
  - Deep3Dbox
  - - 解决什么问题
    - 本文创新点
    - 核心思想
    - 目标
    - MultiBin loss
    - 3D到2D影射的要求
    - 训练和损失
    - 姿态估计（求解T矩阵）
    - 推导过程
    - 上面整个转换过程的代码
  - centernet 3D检测部分

数据部分

label部分

参考链接
一般都是使用kitti来作为数据训练和测试

16个数代表的含义：

第1个字符串：代表物体类别

‘Car’, ‘Van’, ‘Truck’,‘Pedestrian’, ‘Person_sitting’, ‘Cyclist’,‘Tram’, ‘Misc’ or ‘DontCare’

注意，’DontCare’ 标签表示该区域没有被标注，比如由于目标物体距离激光雷达太远。为了防止在评估过程中（主要是计算precision），将本来是目标物体但是因为某些原因而没有标注的区域统计为假阳性(false positives)，评估脚本会自动忽略’DontCare’ 区域的预测结果。

第2个数：代表物体是否被截断

从0（非截断）到1（截断）浮动，其中truncated指离开图像边界的对象

第3个数：代表物体是否被遮挡

整数0，1，2，3表示被遮挡的程度

0：完全可见 1：小部分遮挡 2：大部分遮挡 3：完全遮挡（unknown）

第4个数：alpha，物体的观察角度，范围：-pi~pi

是在相机坐标系下，以相机原点为中心，相机原点到物体中心的连线为半径，将物体绕相机y轴旋转至相机z轴，此时物体方向与相机x轴的夹角

这里用的坐标系和kitti标准一致，如下图所示


r_y + pi/2 -theta = alpha +pi/2（即图中紫色的角是相等的）

所以alpha = r_y - theta

第5～8这4个数：物体的2维边界框

xmin，ymin，xmax，ymax

第9～11这3个数：3维物体的尺寸

高、宽、长（单位：米）

第12～14这3个数：3维物体的位置

x,y,z（在照相机坐标系下，单位：米）

第15个数：3维物体的空间方向：rotation_y

在照相机坐标系下，物体的全局方向角（物体前进方向与相机坐标系x轴的夹角），范围：-pi~pi

第16个数：检测的置信度

注意：各类3D算法中，朝向用kitti数据集label格式里的第4个参数来表示，即alpha，不要用最后的角度参数r_y（关于这些角度的定义，大家自行查一下吧）。因为alpha与观察者的视角有关，而r_y木有，下图中车的r_y基本是相同的，但随着观察者的相对位置变化，alpha是变的

theta角度的求解方法：theta就是那个车框中心距离图像中轴线的角度，用相机视场角乘以那个比例就行，那个比例就是框中心距离中轴线的距离占图宽的比例
请注意，KITTI只提供偏航角，而其他两个角度假定接近零。

calib部分

kitti数据集，calib解析

要将Velodyne坐标中的点x投影到左侧的彩色图像中y：

使用公式：y = P2 * R0_rect *Tr_velo_to_cam * x

将Velodyne坐标中的点投影到右侧的彩色图像中：

使用公式：y = P3 * R0_rect *Tr_velo_to_cam * x

Tr_velo_to_cam * x ：是将Velodyne坐标中的点x投影到编号为0的相机（参考相机）坐标系中

R0_rect *Tr_velo_to_cam * x ：是将Velodyne坐标中的点x投影到编号为2的相机（参考相机）坐标系中

P2 * R0_rect *Tr_velo_to_cam * x ：是将Velodyne坐标中的点x投影到编号为2的相机（参考相机）坐标系中，再投影到编号为2的相机（左彩色相机）的照片上

注意：所有矩阵都存储在主行中，即第一个值对应于第一行。 R0_rect包含一个3x3矩阵，需要将其扩展为4x4矩阵，方法是在右下角添加1，在其他位置添加0。 Tr_xxx是一个3x4矩阵（R | t），需要以相同的方式扩展到4x4矩阵！

通过使用校准文件夹中的3x4投影矩阵，可以将相机坐标系中的坐标投影到图像中，对于提供图像的左侧彩色相机，必须使用P2。rotation_y和alpha之间的区别在于rotation_y直接在相机坐标中给出，而alpha也会考虑从相机中心到物体中心的矢量，以计算物体相对于相机的相对方向。例如，沿着摄像机坐标系的X轴面向的汽车，无论它位于X / Z平面（鸟瞰图）中的哪个位置，它的rotation_y都为 0，而只有当此车位于相机的Z轴上时α才为零，当此车从Z轴移开时，观察角度α将会改变。

yolo3D

参考链接
物体检测包括 2D 框 (以像素为单位)，3D 真实物体尺寸 (以米为单位)，障碍物类别和障碍物相对偏转角 (Alpha Angle 和 KITTI 数据集定义一致)。
给图片中目标的3D坐标可以通过内参转换为2D坐标

x0y0是原点便宜，fx，fy是像素，都是厂家给的，s是个尺度变换因子


3D转换到2D是可行的，但是只通过2D的长宽和中心点坐标想实现2D到3D是不可行的

通过约束减少参数

翻滚 - roll - 翻滚角
俯仰 - pitch - 俯仰角
绕 Z 轴左右旋转 (偏摆 - yaw - 偏航角)

从右图可以看到，现在只有 6 维 3D 信息需要预测，但没有办法避免预测中心点坐标 X 和 Y 分量。
(2) 利用成熟的 2D 障碍物检测算法，准确预测出图像上 2D 障碍物框 (以像素为单位)。
(3) 对 3D 障碍物里的 6 维描述，可以选择训练神经网络来预测方差较小的参数，例如障碍物的真实物理大小，因为一般同一类别的障碍物的物理大小不会出现量级上的偏差 (车辆的高度一般在 2-5 米之间，很少会出现大幅变化)。而 yaw 转角也比较容易预测，跟障碍物在图像中的位置关系不大，适合通用物体检测框架来训练和预测。实验中亦证明此项。

现在唯一没有训练和预测的参数就是障碍物中心点相对相机坐标系的偏移量 X 分量和 Y 分量。需要注意的是障碍物离相机的物理距离。所以得到 X 和 Y，就可以得到障碍物离相机的真实距离，这是单目测距的最终要求之一。
(2) 利用成熟的 2D 障碍物检测算法，准确预测出图像上 2D 障碍物框 (以像素为单位)。
(3) 对 3D 障碍物里的 6 维描述，可以选择训练神经网络来预测方差较小的参数，例如障碍物的真实物理大小，因为一般同一类别的障碍物的物理大小不会出现量级上的偏差 (车辆的高度一般在 2-5 米之间，很少会出现大幅变化)。而 yaw 转角也比较容易预测，跟障碍物在图像中的位置关系不大，适合通用物体检测框架来训练和预测。实验中亦证明此项。

现在唯一没有训练和预测的参数就是障碍物中心点相对相机坐标系的偏移量 X 分量和 Y 分量。需要注意的是障碍物离相机的物理距离所以得到 X 和 Y，就可以得到障碍物离相机的真实距离，

这是单目测距的最终要求之一。

当我们训练好相应的神经网络，输出我们需要的各个参数之后，我们需要考虑的是如何计算出障碍物离摄像头的距离。通过内参和几何学关系，可以链接起图像中 3D 障碍物大小 (单位为像素) 和真实 3D 坐标系下障碍物大小 (单位为米)。

我们采用单视图度量衡 (Single View Metrology) 来解释这个几何关系：任一物体，已知它的长宽高、朝向和距离，则它在图像上的具体形状大小唯一确定；反之亦然。

基于单视图度量衡，我们可以建立一个哈希查询表 (lookup table)，去根据物体图像尺寸、物理尺寸和朝向角来查询物体的距离。

对于每种障碍物，我们根据它的平均 (或单位) 尺寸，去建立查询表，覆盖 360 度 yaw 角的变化，来映射不同的距离。(例如 2D 框的 25 像素高，yaw 角为 30 度，则它的距离为 100 米等等)。图中示例了一个小轿车在不同距离下、不同偏转角 yaw angle 情况下，在图像上的显示。

Deep3Dbox

参考链接1
参考链接2
参考链接3
参考链接4

解决什么问题

从一个单视野恢复3D bounding box，在没有额外的3D形状模型、或有着复杂的预处理通道的采样策略下，估计稳定且精准3D目标

本文创新点

1.从2D框中约束出t，从CNN中回归出方向和尺寸
2.提出用于回归方向的MultiBin
3.提出三个新度量
4.解释了在3D pose估计框架中，选择回归参数的重要性。

核心思想

用两个深度卷积神经网络回归相对稳定的3D物体属性(方向，长宽高)，然后将这些属性和2D目标bounding box的几何约束结合起来，生成完整的3D bounding box。

第一个网络用提出的MultiBin loss，来生成3D物体的方向，性能比L2 loss强很多
第二个网络输出回归3D目标的维度，跟回归其他的参数相比，维度的差异相对较小，并且可以利用先验知识
主要思想是3D包围盒在2D检测窗口中的透视射影，作者做出了一种假设：CNN出来的2D框就是3D盒的射影

目标

MultiBin loss

ry=theta+alpha

3D到2D影射的要求

注意这里约束数量的解释为：
本文它认为bbox3d应该在bbox2d内。所以建立起了联系。xmin对应的是bbox2d的坐标。另外它还假设了必有bbox3d的点落到bbox2d的边上，如图所示。所以以4为次方。当roll为0的时候，我们只需考虑四个参数，因此有256种情况。当pitch和roll都为0的时候，只需要考虑3D边界框紧密地投影到2D检测窗口中的这种约束要求2D边界框的每一侧被至少一个3Dbox的corner的投影连接。关于64，我的理解是，在kitti数据集中，只考虑yaw角，那么垂直边无需在考虑，只考虑水平边，所以再除以4，垂直边的dz加上水平边的dy dz。
另外一种理解方式：
首先3D被包裹在2D内
8^4是4条边每条边都能对应于8个顶点
4*4*8*8是因为场景竖直上边和下边只能分别对应4个点其他俩边分别对应8个点
4*4*4*4 是考虑 roll等于0 那么左边和右边也只能对应4个点
64是加上了patch为0，即垂直边无需考虑 2*2*4*4.如下图所示：B只能对应两种可能性，D只能对应两种可能性（这里不确定）

训练和损失

姿态估计（求解T矩阵）

（1）2D图像目标检测以及大小姿态估计网络

这部分相对简单，就是在网上找个目标检测网络源码，在后面加回归分支就好了。同时在数据输入模块加上导入目标大小、朝向lable的代码。

这里需要注意一下，朝向用kitti数据集label格式里的第4个参数来表示，即alpha，不要用最后的角度参数r_y（关于这些角度的定义，大家自行查一下吧）。因为alpha与观察者的视角有关，而r_y木有，下图中车的r_y基本是相同的，但随着观察者的相对位置变化，alpha是变的，对应图像中看到车的不同“样子”，即不同特征，所以用alpha角才合理。我在复现过程中由于不仔细，一开始就直接回归r_y，效果非常差。

2）目标3D中心点解算模块

首先，求解中心点模块需要用到前面预测的H、W、L，还需要KITTI label里最后那个角度r_y。然而，我们刚才明明预测的是alpha呀，肿么办呢，木事木事，两者可以转化呀。转化过程如上面的数据解释部分。

推导过程

上面整个转换过程的代码

import numpy as np
import math
import itertools
#from sympy import *

def solve_T(points_2D, RoarNet2D_pred):
    '''
    :param points_2D: numpy array, POINTS ON THE IMAGE
    :param points_3D: POINTS ON THE WORLD-COR, 8x3
    :param RoarNet2D_pred: numpy array, PREDICTION FROM 2DNet
    :return: global_T: numpy array 得出的是相机系原点到物体中心的向量
    '''
    global_T = []
    global_iou = -1
    global_norm = 100000000000

    h = RoarNet2D_pred[0]
    w = RoarNet2D_pred[1]
    l = RoarNet2D_pred[2]
    theta = RoarNet2D_pred[3]

    if theta > np.pi:
        theta = theta - 2 * np.pi
    if theta < -np.pi:
        theta = theta + 2 * np.pi

    theta = -(np.pi / 2 - theta)  # no -

    corner = np.array([[w / 2, -w / 2, -w / 2, w / 2, w / 2, -w / 2, -w / 2, w / 2],
                       [-h / 2, -h / 2, -h / 2, -h / 2, h / 2, h / 2, h / 2, h / 2],
                       [-l / 2, -l / 2, l / 2, l / 2, -l / 2, -l / 2, l / 2, l / 2]])

    points_3D = corner.transpose()

    corner2 = list(corner)
    corner2.append([1, 1, 1, 1, 1, 1, 1, 1])
    corner2 = np.array(corner2)

    R = [[math.cos(theta), 0, math.sin(theta)],#只有绕y轴的旋转
         [0, 1, 0],
         [-math.sin(theta), 0, math.cos(theta)]]
    R = np.array(R)

    K = [[719.787081,    0.,            608.463003],
         [0.,            719.787081,    174.545111],
         [0.,            0.,            1.]]
    K = np.array(K)

    # character = list(itertools.permutations(points_3D, 4))  # permutations
    for i1 in [0, 1, 2, 3]:
     for i2 in [0, 1, 2, 3]:
      for i3 in [4, 5, 6, 7]:
       for i4 in [4, 5, 6, 7]:
        p_3D = []
        p_3D.append(points_3D[i1, :])
        p_3D.append(points_3D[i2, :])
        p_3D.append(points_3D[i3, :])
        p_3D.append(points_3D[i4, :])
    #for i in range(3600):  # len(character)
        # print(i1)
        # p_3D = np.array(character[i])
        '''
        p_3D = []
        for k in range(4):
            idx = np.random.choice(range(8))
            p_3D.append(points_3D[idx, :])
        '''
        p_3D = np.array(p_3D)

        # p_3D = np.array(character[i])
        # t1 = Symbol('t1')
        # t2 = Symbol('t2')
        # t3 = Symbol('t3')

        # func = []

        Matr = []
        B = []

        tmp1 = np.matmul(R, p_3D[0, :].T)
        A1 = [[1, 0, 0, tmp1[0]],
              [0, 1, 0, tmp1[1]],
              [0, 0, 1, tmp1[2]]]
        A1 = np.array(A1)
        A1 = np.dot(K, A1)
        Matr.append([A1[0, 0]-A1[2, 0]*points_2D[0], A1[0, 1]-A1[2, 1]*points_2D[0], A1[0, 2]-A1[2, 2]*points_2D[0]])
        B.append(-A1[0, 3]+A1[2, 3]*points_2D[0])
        #func.append((A1[0, 0]*t1+A1[0, 1]*t2+A1[0, 2]*t3+A1[0, 3])
        #            -(A1[2, 0]*t1+A1[2, 1]*t2+A1[2, 2]*t3+A1[2, 3])*points_2D[0])

        tmp2 = np.matmul(R, p_3D[1, :].T)
        A2 = [[1, 0, 0, tmp2[0]],
              [0, 1, 0, tmp2[1]],
              [0, 0, 1, tmp2[2]]]
        A2 = np.array(A2)
        A2 = np.dot(K, A2)
        Matr.append([A2[1, 0] - A2[2, 0] * points_2D[1], A2[1, 1] - A2[2, 1] * points_2D[1], A2[1, 2] - A2[2, 2] * points_2D[1]])
        B.append(-A2[1, 3] + A2[2, 3] * points_2D[1])
        #func.append((A2[1, 0] * t1 + A2[1, 1] * t2 + A2[1, 2] * t3 + A2[1, 3])
        #            -(A2[2, 0] * t1 + A2[2, 1] * t2 + A2[2, 2] * t3 + A2[2, 3])*points_2D[1])

        tmp3 = np.matmul(R, p_3D[2, :].T)
        A3 = [[1, 0, 0, tmp3[0]],
              [0, 1, 0, tmp3[1]],
              [0, 0, 1, tmp3[2]]]
        A3 = np.array(A3)
        A3 = np.dot(K, A3)
        Matr.append([A3[0, 0] - A3[2, 0] * points_2D[2], A3[0, 1] - A3[2, 1] * points_2D[2], A3[0, 2] - A3[2, 2] * points_2D[2]])
        B.append(-A3[0, 3] + A3[2, 3] * points_2D[2])
        #func.append((A3[0, 0] * t1 + A3[0, 1] * t2 + A3[0, 2] * t3 + A3[0, 3])
        #            -(A3[2, 0] * t1 + A3[2, 1] * t2 + A3[2, 2] * t3 + A3[2, 3])*points_2D[2])

        tmp4 = np.matmul(R, p_3D[3, :].T)
        A4 = [[1, 0, 0, tmp4[0]],
              [0, 1, 0, tmp4[1]],
              [0, 0, 1, tmp4[2]]]
        A4 = np.array(A4)
        A4 = np.dot(K, A4)
        Matr.append([A4[1, 0] - A4[2, 0] * points_2D[3], A4[1, 1] - A4[2, 1] * points_2D[3], A4[1, 2] - A4[2, 2] * points_2D[3]])
        B.append(-A4[1, 3] + A4[2, 3] * points_2D[3])
        #func.append((A4[1, 0] * t1 + A4[1, 1] * t2 + A4[1, 2] * t3 + A4[1, 3])
        #            -(A4[2, 0] * t1 + A4[2, 1] * t2 + A4[2, 2] * t3 + A4[2, 3])*points_2D[3])


        Matr = np.array(Matr)
        B = np.array(B)
        B = np.expand_dims(B, 1)

        # T = np.matmul(np.linalg.pinv(Matr), B)
        T, norm, _, _ = np.linalg.lstsq(Matr, B)

        if (T[2, 0]<=0):
            continue


        M1 = np.hstack((R, T))
        # P = np.matmul(K, M1)

        # ------------------------------------ #

        box3donimg = np.dot(M1, corner2)
        box3donimg = np.dot(K, box3donimg)
        # box3donimg = box3donimg.transpose()
        box3donimg[0] /= (box3donimg[2] + np.finfo(np.float32).eps)
        box3donimg[1] /= (box3donimg[2] + np.finfo(np.float32).eps)

        F = True
        imgwid = (points_2D[2] - points_2D[0])
        imghei = (points_2D[3] - points_2D[1])
        for iii in range(8):
            if (box3donimg[0, iii] < points_2D[0] - 0.2 * imgwid or box3donimg[0, iii] > points_2D[2] + 0.2 * imgwid):
                F = False
            if (box3donimg[1, iii] < points_2D[1] - 0.2 * imghei or box3donimg[1, iii] > points_2D[3] + 0.2 * imghei):
                F = False

        if (norm[0] < global_norm and F == True):
            global_T = T
            global_norm = norm[0]

        '''
        xmax = np.max(box3donimg[0, :])
        xmin = np.min(box3donimg[0, :])
        ymax = np.max(box3donimg[1, :])
        ymin = np.min(box3donimg[1, :])

        if(xmin<0 or ymin<0 or xmax>1224 or ymax>370):
            continue

        rec = np.array([ymin, xmin, ymax, xmax])
        iou = cal_IOU(np.array([points_2D[1], points_2D[0], points_2D[3], points_2D[2]]), rec)

        if(iou>global_iou):
            global_T = T
            global_iou = iou
            # print('success ! ')
        '''

    return np.array(global_T), global_norm


def cal_IOU(rec1, rec2):
    # computing area of each rectangles
    ttt = rec2[2] - rec2[0]
    S_rec1 = (rec1[2] - rec1[0]) * (rec1[3] - rec1[1])
    S_rec2 = (rec2[2] - rec2[0]) * (rec2[3] - rec2[1])

    # computing the sum_area
    sum_area = S_rec1 + S_rec2

    # find the each edge of intersect rectangle
    left_line = max(rec1[1], rec2[1])
    right_line = min(rec1[3], rec2[3])
    top_line = max(rec1[0], rec2[0])
    bottom_line = min(rec1[2], rec2[2])

    # judge if there is an intersect
    if left_line >= right_line or top_line >= bottom_line:
        return 0
    else:
        intersect = (right_line - left_line) * (bottom_line - top_line)
        return intersect / (sum_area - intersect)


if __name__ == '__main__':
    points_2D = np.array([390.79803, 164.44536, 450.4052, 198.81921])
    RoarNet2D_pred = [3.6077675533691407, 2.7363950778683472, 35.063437587495116, 1.6609269701170407]
    T, _ = solve_T(points_2D, RoarNet2D_pred)
    T[1, 0] = T[1, 0] + 3.6077675533691407/2
    print(T)

centernet 3D检测部分

相比上面的deep3d centernet还多了直接回归出来的深度，对每个属性都添加单独的head，depth d对每个中心点都要求，但很难直接回归。论文中做了转换，3dim直接用原始的3dim属性回归。oritation很难直接回归，方式和deep3d类似，用两个bins的方法回归一个bins包含了4个scalars，其中两个scalars用softmax分类（属于哪一个bin）标记为bi，另外两个scalars是ai，在每个bin中回归一个角度，一个sin一个cos，一个bin的范围是[-7π/6，π/6]，另一个是[-π/6,7π/6]

【3D模型】【游戏开发】【Blender】Blender模型分享-狮头木雕附导入方法踏雪无痕老爷子资源介绍 3d blender
导入方法：[Blender]如何导入包含纹理的.blend模型文件在3D建模和渲染工作中，Blender是一款功能强大的免费开源软件。很多时候，我们需要导入.blend后缀的模型文件，同时确保纹理（textures）文件夹中的贴图能够正确加载。本文将介绍详细的导入步骤以及可能遇到的问题和解决方案。1.直接打开.blend文件如果你的.blend文件是一个完整的工程文件，包含了模型和纹理，直接打开即
【初学者】请介绍一下指针分析（Pointer Analysis）？ lisw05 计算机科学技术 c语言指针
李升伟整理指针分析（PointerAnalysis）指针分析（PointerAnalysis）是一种静态程序分析技术，用于确定程序中指针可能指向的内存位置或对象。它是编译器优化、程序验证、漏洞检测和并行化等领域的重要基础。1.指针分析的目标指针分析的主要目标是回答以下问题：指针变量可能指向哪些内存位置或对象？两个指针是否可能指向同一个内存位置（别名分析）？指针的指向关系如何影响程序的行为？通过回答
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Flutter中常用命令肥肥呀呀呀 flutter经验 flutter
1.检测flutter运行环境flutterdoctor2.升级flutterflutterupgrade3.查看flutter版本flutter--version4.查看连接的设备flutterdevices5.运行flutter项目flutterrun或者在vscode中按Fn+F56.打包flutterbuildapk//默认打release包7.开启web端构建(开启以后每次新建flutt
js逆向第4例：猿人学1初识-送分题，AES算法魔改，md5算法魔改，环境检测我是花臂不花 js逆向100例 javascript 算法开发语言
第二届猿人学js逆向大赛，本以为送分题分分钟搞定，没想到第一题就这么难。查看请求存在token加密参数，接下就是打断点找到加密点破解直接进入下一步函数可以看到如下代码vare=Date['now'](),f=a('crypto-js'),g='666yuanrenxue66',h=f['AES']['encrypt'](e+String(d),g,{'mode':f['mode']['ECB'],
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
uniapp实现全局拖拽按钮学如逆水，不进则退 uni-app vue.js javascript
要先引入“vue3-draggable-resizable”:“^1.6.5”1.创建DragComponent组件import{ref,onMounted,onUnmounted}from'vue';importVue3DraggableResizablefrom'vue3-draggable-resizable';import'vue3-draggable-resizable/dist/Vue
智慧城市道路防护栏破损缺陷检测数据集VOC+YOLO格式6939张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6939标注数量(xml文件个数)：6939标注数量(txt文件个数)：6939标注类别数：3标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["body","cr
JavaScript typeof 运算符详解 wjs2024 开发语言
JavaScripttypeof运算符详解概述在JavaScript中，typeof是一个一元运算符，用于检测给定变量的数据类型。它是JavaScript中最常用的类型检查方法之一。本文将详细解释typeof运算符的用法、返回值以及其局限性。typeof运算符的用法typeof运算符后面跟一个要检查类型的变量或表达式。它不区分大小写，以下是其基本用法：leta=10;console.log(typ
基于STC89C52的温度检测系统(DS18B20) @小张要努力嵌入式硬件 51单片机单片机 proteus mcu
引言在现代电子应用中，温度检测系统扮演着至关重要的角色。从工业生产到日常生活，准确的温度监测为各种设备的稳定运行和环境调控提供了有力保障。本文将介绍一种基于STC89C52单片机的温度检测系统，该系统利用DS18B20温度传感器进行温度数据采集，并通过LCD1602液晶显示屏实时显示温度数值。同时，借助Proteus仿真软件对整个系统进行设计与验证，确保其可行性和稳定性。系统硬件设计STC89C5
基于STM32+微信小程序设计的环境监测系统（腾讯云IOT） DS小龙哥智能家居与物联网项目实战 stm32 微信小程序腾讯云
一、设计需求基于STM32设计的环境检测系统(腾讯云物联网+微信小程序实现)【1】项目背景随着人们生活水平的提高，人们对生活环境的求越来越高尤其是在家居环境有害气体污染已经引起了人们的注意，温度和湿度控制等。有关研究人员发现，天然气主要组成部分为甲烷气，而且还有少量的乙烷、丙烷、丁烷等烷烃，还含有二氧化碳、氧、氮、硫化氢、水分等。甲醛是一种破坏生物细胞蛋白质的原生质毒物，会对人的皮肤、呼吸道及内脏
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
3DXML 与 SOLIDWORKS 格式转换：技术协同及迪威模型方案 3D小将迪威模型联讯软件 SolidWorks模型 UG模型 Rhino模型 SketchUp模型 catia模型 stl模型 stp模型
一、引言在产品设计的前沿领域，3DXML与SOLIDWORKS作为主流格式，虽各有所长，但因格式差异，常成为数据流通与协作的阻碍。对于技术人员和学生党而言，掌握二者间的转换技术，不仅能提升设计效率，更是参与复杂项目协作的必备技能。迪威模型在线转换功能，凭借其先进技术，为这一转换难题提供了高效解决方案。二、3DXML与SOLIDWORKS格式基础（一）3DXML3DXML由达索系统精心打造，其核心压
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力伶俜Monster Threejs webgl 前端 3d threejs cannon.js
简介Cannon.js是一个基于JavaScript的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理Cannon.js使用了欧拉角来表示物体的旋转，而不是四元数。这使得它在处理旋转时更加直观和易于理解。Cannon.js还支持多种碰撞检测算法，包括离散碰撞检测和连续碰撞检测。Cannon.js还支持多种约束
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
【python】图形用户界面和游戏开发 usp1994 python ui ide
图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
游戏开发引擎对比：Godot、Unity、Unreal与cocos2d的优劣分析 scoone 游戏引擎 godot unity
在游戏开发的世界中，选择合适的游戏引擎是项目成功的关键之一。本文将对比四种流行的游戏开发引擎：Godot、Unity、UnrealEngine和cocos2d，分析各自的优缺点，帮助开发者做出明智的选择。Godot：优点：开源且免费，无商业授权费用。轻量级，适合中小型游戏开发。使用GDScript脚本语言，易于上手。跨平台支持良好。缺点：社区相对较小，资源不如Unity丰富。在3D游戏开发方面不如
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
医图论文 CVPR‘24 | 适应医学图像中泛化异常检测的视觉-语言模型小白学视觉医学图像处理论文解读语言模型人工智能计算机视觉医学图像顶会医学图像处理 CVPR 论文解读
论文信息题目：AdaptingVisual-LanguageModelsforGeneralizableAnomalyDetectioninMedicalImages适应医学图像中泛化异常检测的视觉-语言模型作者：ChaoqinHuang，AofanJiang，JinghaoFeng，YaZhang，XinchaoWang，YanfengWang源码：https://github.com/Medi
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
工业相机的主要参数及计算 51camera 工业相机
工业相机是机器视觉系统中的关键组件，其本质是将光信号转变为有序的电信号，进而实现数字图像的获取，广泛应用于工业生产、检测、测量等领域。其成像原理与小孔成像类似，但更为复杂。当被摄物体反射的光线通过工业镜头折射后，会投射到相机的感光传感器上，这个感光传感器通常是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。dalsanano系列工业相机1、工作原理图像采集：通过镜头收集被拍摄物体反射或透
工业镜头选型技巧——考虑应用特点（内附实例） 51camera 机器视觉工业镜头
在进行工业镜头选型时，当与客户讨论镜头的某些参数时，客户会希望每个参数均为最理想的状态。但在实际应用中，很难满足理想要求，此时需要充分考虑项目的应用特点，对镜头的参数做一些适当且合理的取舍。为了便于理解，下面将通过两个选型案例来说明。以Moritex的工业镜头为例。1、检测精度与视野相机：9568*6380，3.76*3.76um视野：长边60mm要求：远心镜头镜头选型过程计算得知相机芯片尺寸是3
6-NBDG 葡萄糖摄取荧光探针，使用方法和注意事项强化生物实验室 leetcode 决策树最小二乘法散列表逻辑回归启发式算法支持向量机
一、试剂描述6-NBDG，一种非水解形式的脱氧葡萄糖类似物的荧光素，可用来监测分离活细胞和完整组织对葡萄糖的摄取和转运，判断细胞活力的指标之一。可用实时共聚焦、高分辨率或宽视野荧光显微镜，以及流式细胞仪来检测。尽管6-NBDG荧光对环境比较敏感，但约在465/540nm下表现出激发和发射波长，使用荧光素（如FITC）的光学滤片来进行结果观察即可。二、试剂信息英文名称：6-(N-(7-Nitrobe
Netty基础—Netty实现私有协议栈工业甲酰苯胺 netty
1.私有协议介绍(1)什么是私有协议跨节点的远程服务调用(跨节点通信)，除了链路层的物理连接外，还需要对请求和响应消息进行编解码。在请求和应答消息本身以外，也需要携带一些其他控制和管理类指令。例如链路建立的握手请求和响应消息、链路检测的心跳消息等。当这些功能组合到一起后就会形成私有协议。私有协议并没有标准的定义，只要是能够用于跨进程、跨主机数据交换的非标准协议，都可以称为私有协议。(2)公有协议与
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(