Chris_34

Pointnet网络结构与代码解读

前言

Pointnet开创性地将深度学习直接用于三维点云任务。由于点云数据的无序性，无法直接对原始点云使用卷积等操作。Pointnet提出对称函数来解决点的无序性问题，设计了能够进行分类和分割任务的网络结构，本文结合源码与个人的理解对于T-net网络和对称函数进行分析。

点的无序性

针对点的无序性问题实际上是文章提出了三个方案：

对于无序点集进行排序（Pointcnn）。
把点集当做序列进行处理，但是这种方法需要对输入点集做所有的排列变换进行数据增强。
使用对称函数，Pointnet使用的就是这种方法。

Pointnet网络主要使用对称函数解决点的无序性问题，对称函数就是指对输入顺序不敏感的函数。如加法、点乘、max pooling等操作。假设输入特征为NxD， $N$ 表示点数， $D$ 表示维度数，在max pooling作用下，取出每个维度上最大值的1xD的向量，每一维特征都与其顺序无关，这样便保证了对于点云输入顺序的鲁棒性。

点云的旋转不变性

Pointnet的解决方法是学习一个变换矩阵 $T$ ，即 $T - N e t$ 结构。由于loss的约束，使得 $T$ 矩阵训练会学习到最有利于最终分类的变换，如把点云旋转到正面。论文的架构中，分别在输入数据后和第一层特征中使用了 $T$ 矩阵，大小为3x3和64x64。其中第二个T矩阵由于参数过多，考虑添加正则项，使其接近于正交矩阵，减少点云的信息丢失。

1. T-Net网络结构

将输入的点云数据作为nx3x1单通道图像，接三次卷积和一次池化后，再reshape为1024个节点，然后接两层全连接，网络除最后一层外都使用了ReLU激活函数和批标准化（batch normalization）。

论文中的T-net网络的实际结构并不复杂，我根据个人理解画出T-net的结构。

实际训练过程中，T矩阵的参数初始化使用单位矩阵（np.eye(K)），参数会随着整个网络的训练进行更新，并不是提前单独训练的。很多文章提到T-Net对特征进行对齐，保证了模型的对特定空间转换的不变性，我其实不太理解这种说法。

实际上通过网络结构看出T-net结构是一个mini的Pointnet做特征提取，是个弱监督学习设计，我理解为需要训练一个矩阵对输入点（或者深层特征）进行坐标变换，个人认为这样的设计实际上是可以保留原始点云的部分特征，为后面的concat操作提供更多特征。源码中在点云分类部分使用到了 $T - n e t$ ，点云分割部分可以不用，对结果并没有太大的提升，原因在于pointnet结构自身不能学到点云点的局部联系，因此即使加入类似结构的T-net也是一样。

models/transform_nets.py中的网络实现

def input_transform_net(point_cloud, is_training, bn_decay=None, K=3):
    """ Input： BxNx3 
    	B=batch size;N=number of pointcloud
        Output: 3x3 matrix
    """
    batch_size = point_cloud.get_shape()[0].value
    num_point = point_cloud.get_shape()[1].value

    input_image = tf.expand_dims(point_cloud, -1) # 扩展一维表示通道C，BxNx3x1
    # 输入BxNx3x1
    # 64个1x3卷积核 （参数[1,3]定义）
    # 移动步长 1x1 （stride=[1,1]定义）
    # 输出 BxNx1x64
    net = tf_util.conv2d(input_image, 64, [1,3],
    padding='VALID', stride=[1,1],
    bn=True, is_training=is_training,
    scope='tconv1', bn_decay=bn_decay)
    # 输入 BxNx1x64
    # 128个 1x1 卷积核
    # 步长 1x1
    # 输出 BxNx1x128
    net = tf_util.conv2d(net, 128, [1,1],
    padding='VALID', stride=[1,1],
    bn=True, is_training=is_training,
    scope='tconv2', bn_decay=bn_decay)
    # 输入 BxNx1x128
    # 1024个 1x1卷积核
    # 输出 BxNx1x1024
    net = tf_util.conv2d(net, 1024, [1,1],
    padding='VALID', stride=[1,1],
    bn=True, is_training=is_training,
    scope='tconv3', bn_decay=bn_decay)
    
    # 池化操作
    # 输入 BxNx1x1024
    # 输出 Bx1x1x1024
    net = tf_util.max_pool2d(net, [num_point,1],
    padding='VALID', scope='tmaxpool')
    # 输出 Bx1024
    net = tf.reshape(net, [batch_size, -1])
    
    # 全连接层
    # 输入 Bx1024
    # 权重矩阵 1024x512
    # 偏置 512x1
    # 输出 Bx512
    net = tf_util.fully_connected(net, 512, bn=True, is_training=is_training,
    scope='tfc1', bn_decay=bn_decay)
    # 全连接
    # 输出 Bx256
    net = tf_util.fully_connected(net, 256, bn=True, is_training=is_training,
    scope='tfc2', bn_decay=bn_decay)
    
    # 再次使用全连接,不加ReLU和BN
    # 输出 Bx9
    with tf.variable_scope('transform_XYZ') as sc:
        assert(K==3)
        weights = tf.get_variable('weights', [256, 3*K],
                                  initializer=tf.constant_initializer(0.0),
                                  dtype=tf.float32)
                                  biases = tf.get_variable('biases', [3*K],
                                  initializer=tf.constant_initializer(0.0),
                                  dtype=tf.float32)
        #初始化为3x3单位矩阵
        biases += tf.constant([1,0,0,0,1,0,0,0,1], dtype=tf.float32)
        transform = tf.matmul(net, weights)
        transform = tf.nn.bias_add(transform, biases)

    # reshape
    # 输出 Bx3x3
    transform = tf.reshape(transform, [batch_size, 3, K])
    return transform

针对64x64的网络设计与3x3的一样，只是改变了K值，对于文章提到让特征转化矩阵接近正交化，这样特征损失更小，这部分的实现是在分类任务对损失函数加入正则项，及添加权重reg_weight=0.001，下文分析中会标出。

2. 点云分类部分

这部分主要分析训练代码和点云分类模型的设计

train.py

# 参数输入处理
parser = argparse.ArgumentParser()
parser.add_argument('--gpu', type=int, default=0,
        help='GPU to use [default: GPU 0]')
parser.add_argument('--model', default='pointnet_cls',
        help='Model name: pointnet_cls or pointnet_cls_basic [default: pointnet_cls]')
parser.add_argument('--log_dir', default='log', help='Log dir [default: log]')
parser.add_argument('--num_point', type=int, default=1024,
        help='Point Number [256/512/1024/2048] [default: 1024]')
parser.add_argument('--max_epoch', type=int, default=250,
        help='Epoch to run [default: 250]')
parser.add_argument('--batch_size', type=int, default=32,
        help='Batch Size during training [default: 32]')
parser.add_argument('--learning_rate', type=float, default=0.001,
        help='Initial learning rate [default: 0.001]')
parser.add_argument('--momentum', type=float, default=0.9,
        help='Initial learning rate [default: 0.9]')
parser.add_argument('--optimizer', default='adam',
        help='adam or momentum [default: adam]')
parser.add_argument('--decay_step', type=int, default=200000,
        help='Decay step for lr decay [default: 200000]')
parser.add_argument('--decay_rate', type=float, default=0.7,
        help='Decay rate for lr decay [default: 0.8]')
FLAGS = parser.parse_args()
BATCH_SIZE = FLAGS.batch_size # 训练批次大小
NUM_POINT = FLAGS.num_point # 训练点云点个数
MAX_EPOCH = FLAGS.max_epoch # 最大训练次数
BASE_LEARNING_RATE = FLAGS.learning_rate # 初始学习率
GPU_INDEX = FLAGS.gpu # 默认GPU使用数量
MOMENTUM = FLAGS.momentum # 初始学习率
OPTIMIZER = FLAGS.optimizer # 优化器
DECAY_STEP = FLAGS.decay_step # 衰变步长
DECAY_RATE = FLAGS.decay_rate # 衰变率

# some code ...
# 获取模型
pred, end_points = MODEL.get_model(pointclouds_pl, is_training_pl, bn_decay=bn_decay)

原始点云nx3与T-Net训练后得到的3x3旋转矩阵相乘后，可以理解为变换为一组新的坐标下的点云数据。

models/pointnet_cls.py中的代码

# 1.原始点云与3x3的T变换矩阵
with tf.variable_scope('transform_net1') as sc:
    transform = input_transform_net(point_cloud, is_training, bn_decay, K=3)
point_cloud_transformed = tf.matmul(point_cloud, transform)
input_image = tf.expand_dims(point_cloud_transformed, -1)

# 2.mlp(64,64)：使用2次卷积
# 输入 Bxnx3x1
# 64个1x3卷积核
# 输出 Bxnx1x64
net = tf_util.conv2d(input_image, 64, [1,3],
                     padding='VALID', stride=[1,1],
                     bn=True, is_training=is_training,
                     scope='conv1', bn_decay=bn_decay)
# 输入 Bxnx1x64
# 输出 Bxnx1x64
net = tf_util.conv2d(net, 64, [1,1],
                     padding='VALID', stride=[1,1],
                     bn=True, is_training=is_training,
                     scope='conv2', bn_decay=bn_decay)

# 3.接64x64特征转换矩阵
with tf.variable_scope('transform_net2') as sc:
    transform = feature_transform_net(net, is_training, bn_decay, K=64)
end_points['transform'] = transform
# 将上一步的net Bxnx1x64压缩为 Bxnx64 和 T-Net的Bx64x64 相乘
net_transformed = tf.matmul(tf.squeeze(net, axis=[2]), transform)

# 4.接3次卷积和1次池化，对应图中的mlp(64,128,1024)+maxpool
pointnet_cls.py
# Bxnx64 扩展为 Bxnx1x64
net_transformed = tf.expand_dims(net_transformed, [2])

# 输入 Bxnx1x64
# 使用64个1x1卷积核
# 输出 Bxnx1x64
net = tf_util.conv2d(net_transformed, 64, [1,1],
                     padding='VALID', stride=[1,1],
                     bn=True, is_training=is_training,
                     scope='conv3', bn_decay=bn_decay)
# 输入 Bxnx1x64
# 使用128个1x1卷积核
# 输出 Bxnx1x128
net = tf_util.conv2d(net, 128, [1,1],
                     padding='VALID', stride=[1,1],
                     bn=True, is_training=is_training,
                     scope='conv4', bn_decay=bn_decay)
# 输入 Bxnx1x128
# 使用1024个1x1卷积核
# 输出 Bxnx1x1024
net = tf_util.conv2d(net, 1024, [1,1],
                     padding='VALID', stride=[1,1],
                     bn=True, is_training=is_training,
                     scope='conv5', bn_decay=bn_decay)

# Symmetric function: max pooling
# 输入 Bxnx1x1024
# 输出 Bx1x1x1024
net = tf_util.max_pool2d(net, [num_point,1],
                         padding='VALID', scope='maxpool')
# 输出 Bx1024
net = tf.reshape(net, [batch_size, -1]) 

# 5.全连接1 + dropout
# 输出 batch_size x 512
net = tf_util.fully_connected(net, 512, bn=True, is_training=is_training,
                              scope='fc1', bn_decay=bn_decay)
net = tf_util.dropout(net, keep_prob=0.7, is_training=is_training,
                      scope='dp1')
# 全连接2 + dropout
# 输出 batch_size x 256
net = tf_util.fully_connected(net, 256, bn=True, is_training=is_training,
                              scope='fc2', bn_decay=bn_decay)
net = tf_util.dropout(net, keep_prob=0.7, is_training=is_training,
                      scope='dp2')
# 全连接3
# 输出 batch_size x 40,因为ModelNet数据集有40个类别的模型
net = tf_util.fully_connected(net, 40, activation_fn=None, scope='fc3')
return net, end_points

# 6.使用交叉熵损失函数计算loss,对网络结构进行训练。
def get_loss(pred, label, end_points, reg_weight=0.001):
    """ 预测值pred: B*NUM_CLASSES,
        标签值label: B, """
    loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=pred, labels=label)
    classify_loss = tf.reduce_mean(loss)
    tf.summary.scalar('classify loss', classify_loss)

    # Enforce the transformation as orthogonal matrix
    transform = end_points['transform'] # BxKxK
    K = transform.get_shape()[1].value
    mat_diff = tf.matmul(transform, tf.transpose(transform, perm=[0,2,1]))
    mat_diff -= tf.constant(np.eye(K), dtype=tf.float32)
    mat_diff_loss = tf.nn.l2_loss(mat_diff) 
    tf.summary.scalar('mat loss', mat_diff_loss)
	#这里加入了reg_weight正则项，使得T-net部分获得的特征转移矩阵更接近与正交化
    return classify_loss + mat_diff_loss * reg_weight

#	模型优化器选择：adam
#	学习率初始值:0.001
# 	动量=0.9
# 	batch_size =32
# 	学习率每训练20个epochs后减半
#	GTX1080 ModelNet 需要3-6小时

对于pointnet_cls_basic.py没有使用T-net的点云分类，网络结构更容易理解，比加入T-net的结构性能略低。

3. 点云分割部分

点之间的相关性问题

针对与分割物体上的问题与分类任务不同，分类任务中特征经过max pooling得到一维特征向量，它包含了全局信息，再经过全连接网络，得到1*K的k个类别预测得分即为分类结果。而分割任务中，需要对每一个点输出所属类别，使用类似二维图像分割的上采样过程（跳步连接skip-links）。Pointnet针对分割任务也使用了类似图像分割任务的，高层全局信息与底层局部特征结合的思想。

针对Pointnet论文作者提供的版本（Tensorflow）的源码如下：https://github.com/charlesq34/pointnet

对于pointnet源码其余部分的介绍不详细展开，根据个人理解将源码的结构与功能设计展示如下：

分割部分的代码实现主要在part_seg/（部件分割）和sem_seg/（场景分割）下。其中part_seg中底层局部特征与高层全局特征的连接**（concat）使用到了各层特征**。

sem_seg/model.py场景分割中需要注意论文使用的S3DIS数据维度不再是3维而是更高的9维度（XYZ+RGB+相对于房间的标准化后的位置信息），针对特征连接部分使用高层全局特征（B*1024）接全连接降维到128，然后与高维特征自身做concat，不是采用论文中提到的方式。

而论文中提到的分割结构实际是在models/pointnet_seg.py中实现，即max pooling后的1D特征向量，使用tf.tile()复制n份（n个特征点），与之前网络得到的 n * 64特征矩阵分别concat。得到一个n(64+D)的特征矩阵，再经一系列的特征变换操作，得到每个点的分类结果。

结语

本文主要结合代码层面总结了pointnet网络的分类和分割任务的实现。主要是理解pointnet是如何做到直接从原始点云数据中提取高维特征，并且解决好点云的特性。实际上基于pointnet结构可以进行很多任务，比如点云配准，物体检测，3D重建，法向量估计等，只需要根据具体任务合理修改网络后几层的结构，利用好网络提取的高维特征。

针对pointnet存在的点与点之间相关性的缺失，在pointnet++中使用局部采样+分组+pointnet的结构进行解决，并考虑到了点云的稀疏性解决方案，之后很多深度学习的研究在此基础上展开，习惯上称为pointnet家族（point-wise MLP），比如Frustum,flowNet 3D,LSAnet,PAT等等。个人认为更高的准确度需要点云等3D数据与图像结合进行深度学习训练，将图像的高分辨率优势借鉴进来会有更好的效果。

源码地址：
1.原论文实现代码
https://github.com/charlesq34/pointnet
2.基于pytorch实现：
https://github.com/fxia22/pointnet.pytorch
https://github.com/yanx27/Pointnet_Pointnet2_pytorch

放上自己在谷歌的Colab上的gpu实现：在Colab上实现分类和Part_seg，选择GPU版本的Notebook，
挂载好自己的谷歌云盘（方便保存和加载训练数据），batch_size设置为32，数据集使用别人共享的Shapenet的数据集。
对于语义分割部分colab上的免费gpu满足不了，需要购买更高版本的配置。

计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
OpenCV计算机视觉学习（16）——仿射变换学习笔记牛马程序员24 计算机视觉 opencv 学习
OpenCV计算机视觉学习（16）——仿射变换学习笔记如果需要其他图像处理的文章及代码，请移步小编的GitHub地址传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/ComputerVisionPractice在计算机视觉和图像处理中，仿射变换是一种重要的几何变换方法。它可以通过线性变换和平移来改变图像的形状和位置，广泛应用与图像校正，对象识别以及增强现实
计算机视觉学习指南（划分为20个大类） superdont 计算机视觉入门计算机视觉人工智能开发语言 python opencv
计算机视觉的知识领域广泛而庞杂，涵盖了众多重要的方向和技术。为了更好地组织这些知识，我们需要遵循无交叉无重复（MutuallyExclusiveCollectivelyExhaustive，MECE）的原则，并采用循序渐进的方式进行分类和划分。按照无交叉无重复的原则，我们将计算机视觉划分为20个重要的方向，每个方向都具有明确的定义和特定的应用领域。通过这种划分方式，可以确保每个方向都在整个计算机视
3万字计算机视觉学习笔记及重要知识点总结搬砖成就梦想机器学习计算机视觉图像处理计算机视觉学习笔记
文章目录计算机视觉IoU如何计算mIoU？mAP如何计算mAP？目标检测度量标准图像分割度量标准非极大值抑制NMS目标检测中的Anchor原始图片中的ROI如何映射到到featuremap?请问FasterR-CNN和SSD中为什么用smoothl1loss，和l2有什么区别？给定5个人脸关键点和5个对齐后的点，求怎么变换的？Boundingboxes回归原理/公式
机器学习与图像识别（二）—— OpenCV环境折腾。。 24K纯学渣机器学习 opencv 人工智能
文章目录进入正题之前版本说明Python环境搭建安装aruco算法C++环境搭建安装VS+opencv验证Aruco算法，opencv==4.8.0进入正题之前OpenCV是一个优秀的开源视觉处理软件框架，也是计算机视觉学习道路上必须掌握的一套工具，奈何其版本兼容性上实在是一言难尽。本文主要就是在说OpenCV搭建开发环境时遇到的各种奇葩问题，方便帮助后面的新同学排雷。如果你也刚好遇到类似的问题并
浙大博士整理的计算机视觉学习路线 DevolperFront 算法人工智能神经网络 python 计算机视觉
点击“开发者技术前线”，选择“星标”让一部分开发者看到未来因工作需要，浙大博士年初花了4个月左右时间学习了机器学习、神经网络相关的知识，工作日每天大概学习4-6个小时，周末每天大概10个小时，工作中的需求应对也得心应手了。想快速入门的话，从自己的经验看，可以先不看高等数学和线性代数，因为机器学习和深度学习中涉及的相关知识并不多。视觉的知识部分建议分成两部分学习，第一部分传统图像处理，第二部分基于深
C#人脸识别、人脸68特征点识别搬砖狗-小强 C#人脸识别 opencv C#
几年前我接触的计算机视觉学习库emgucv、aforge.net因为识别率低误差大，加上我没有时间去训练模型因此关于人脸识别领域被我搁置了很久，直到今年我接触了dlib，从效果演示来看让我非常满意特别是它可以匹配出人脸的68个特征点（包括眼睛、眉毛、鼻子、嘴巴等）于是我就想将它用到C#上（早前我封装过C++），大约花费了两周时间从编译官方demo到移植成功，中间遇到各种坑（C++各种指针、对应C#
计算机视觉学习笔记之torchvision.transforms 林空鹿饮溪_DrChen
torchvision.transforms是包含一系列常用图像变换方法的包，可用于图像预处理、数据增强等工作，但是注意它更适合于classification等对数据增强后无需改变图像的label的情况，对于Segmentation等对图像增强时需要同步改变label的情况可能不太实用，需要自己重新封装一下。官方文档：https://pytorch.org/docs/stable/torchvis
ResNet结构解析及pytorch代码 coderwangson
ResNet结构解析及pytorch代码标签：pytorchResNet是恺明大神提出来的一种结构，近些年的一些结构变种，很多也是基于ResNet做的一些改进，可以说ResNet开创了更深的网络的先河，并且在很多计算机视觉学习上都取得了不错的效果。ResNet和传统网络结构的核心区别ResNet本质上是为了缓解梯度问题的，随着传统的卷积网络结构越来越深，大家发现效果可能会降低，所以限制了网络层数的
ApacheCN 计算机视觉译文集 20210212 更新布客飞龙
新增了六个教程：OpenCV图像处理学习手册零、前言一、处理图像和视频文件二、建立图像处理工具三、校正和增强图像四、处理色彩五、视频图像处理六、计算摄影七、加速图像处理Python3OpenCV4计算机视觉学习手册零、前言一、设置OpenCV二、处理文件，相机和GUI三、使用OpenCV处理图像四、深度估计和分割三、检测和识别人脸六、检索图像并将图像描述符用于搜索七、建立自定义对象检测器八、追踪对
计算机视觉一 —— 介绍与环境安装半自定义大剑仙计算机视觉入门到精通计算机视觉人工智能
傲不可长欲不可纵乐不可极志不可满一、介绍研究理论和应用-研究如何使机器“看”的科学-让计算机具有人类视觉的所有功能-让计算机从图像中，提取有用的信息，并解释-重构人眼；重构视觉皮层；重构大脑剩余部分计算机视觉学习图学习重点1.各种深度神经网络模型（DNN）的理解2.Tensorflow的使用二、环境安装使用MacOS系统进行开发学习，使用Anaconda来管理环境。1.使用Anaconda创建开发
学习指南—深度学习与计算机视觉学习经验总结【从学术到工作】 AI研习图书馆
一、引言计算机视觉的黄金时代真的到来了吗？近年来，随着深度学习技术的革新、计算存储的扩大、可视化数据集的激增，计算机视觉领域的研究开始蓬勃发展，如火如荼。在自动驾驶、智能安防、智慧城市、医疗保健、商业零售、航空能源、虚拟现实等诸多人工智能热门领域，计算机视觉技术落地开花，熠熠生辉。计算机视觉研究工作在学术界和工业界取得的巨大成功，每年吸引着数以万计的研究人员蜂拥而至，加入炼丹师的序列。甚至连生物医
Python3 OpenCV4 计算机视觉学习手册：1~5 布客飞龙 opencv python 人工智能 opencv numpy 计算机视觉
原文：LearningOpenCV4ComputerVisionwithPython3协议：CCBY-NC-SA4.0译者：飞龙本文来自【ApacheCN计算机视觉译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。当别人说你没有底线的时候，你最好真的没有；当别人说你做过某些事的时候，你也最好真的做过。一、设置OpenCV您已经读了这本书，因此您可能已经对OpenCV是什么有了个概念。也许您听
Python3 OpenCV4 计算机视觉学习手册：6~11 布客飞龙 opencv python 人工智能 opencv numpy 计算机视觉
原文：LearningOpenCV4ComputerVisionwithPython3协议：CCBY-NC-SA4.0译者：飞龙本文来自【ApacheCN计算机视觉译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。当别人说你没有底线的时候，你最好真的没有；当别人说你做过某些事的时候，你也最好真的做过。六、检索图像并将图像描述符用于搜索与人眼和大脑相似，OpenCV可以检测图像的主要特征并将其
计算机视觉学习笔记(图像的灰度与灰度级图像的深度图像噪声图像处理) 冲鸭嘟嘟可人工智能计算机视觉图像处理学习
图像的灰度与灰度级如果把白色和黑色之间按对数关系分为若干等级，称为灰度，灰度分为256阶，0为黑色，灰度就是没有色彩，RGB色彩分量全部相等（150，150，150）就代表灰度为150.一幅图像中不同位置的亮度是不一样的，可用f(x,y)来表示(x,y)上的亮度。由于光是一种能量形式，因此亮度是非负有限的。在图像处理中，常用灰度和灰度级这个名称，某一点的亮度我们称他为灰度或者灰度级。在室内处理图像
最新计算机视觉学习路线教程人工智能遇见磐创
这篇文章主要是基于我自己的经验，侧重于计算机视觉学习资源的介绍，如果大家按照这个路线去学，相信这将在很大程度上促进提高你的计算机视觉知识水平。在开始学习计算机视觉之前，我们先来了解有关机器学习和python基础知识。框架（Frameworks）虽然你不必从一开始就去考虑选择何种框架，但是实践应用新的知识是必要的。对应框架并没有太多选择，主要为：pytorch或keras（TensorFlow）。P
2023 最新计算机视觉学习路线（入门篇）小白学视觉计算机视觉学习人工智能机器学习深度学习
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达计算机视觉是人工智能的一个领域，专注于教计算机解释和理解视觉世界。它涉及使用算法、深度学习模型和其他技术使机器能够识别图像或视频中的对象。计算机视觉可用于各种任务，如面部识别、目标检测、图像分割、运动估计和跟踪等。重要性计算机视觉的重要性在于，它能够在没有任何人为干预的情况下，根据所看到的内容做出决策。例如，如果你正在制造一辆自
2023 最新计算机视觉学习路线（入门篇） AbnerAI 计算机视觉学习人工智能
计算机视觉是人工智能的一个领域，专注于教计算机解释和理解视觉世界。它涉及使用算法、深度学习模型和其他技术使机器能够识别图像或视频中的对象。计算机视觉可用于各种任务，如面部识别、目标检测、图像分割、运动估计和跟踪等。重要性计算机视觉的重要性在于，它能够在没有任何人为干预的情况下，根据所看到的内容做出决策。例如，如果你正在制造一辆自动驾驶汽车，那么你就需要计算机视觉技术，以便自动检测障碍物并采取适当的
计算机视觉学习经验,深度学习计算机视觉面试经验楼上雅坐计算机视觉学习经验
AI开发平台ModelArtsModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。按需/包周期付费可选，最低0.00元/小时使用自定义镜像导入模型||https://support.huaweicloud.com/bes
GitHub上的计算机视觉学习资料推荐 fengf96
9月份将要读研，导师是做cv的，最近学习时找到了不少的计算机视觉的资料，记录一下，同时也分享给需要的朋友assmdx/ComputerVisionDocAceCoooool/interview-computer-vision(计算机视觉笔记和总结,这个作者整理的比较详细)WangPerryWPY/Computer-Version(中山大学的计算机视觉课程代码)pascal1129/cv_notes
OpenMMLab AI 实战营打卡笔记 #第一课庆天计算机视觉
计算机视觉是指通过计算机分析图像数据以认知、识别真实场景，是人工智能的一项重要技术。计算机视觉的应用非常广泛，其主要任务包括：形状的检测、记住特征与图像识别、3D重建等。OpenMMLab是一个开源的计算机视觉学习平台，集成了计算机视觉任务的训练和评估，并可用于生产环境的部署。它封装了各种有效的计算机视觉模型与方法，还提供了友好的API和有效的工具链，以支持快速实验上线应用。OpenMMLab支持
OpenCV_03图形绘制 Goafan 计算机视觉 opencv 计算机视觉 python
前言：总纲请查看《计算机视觉学习路》线line(img,开始点,结束点,颜色,线宽,线型)线型可选：-14816可自行尝试importcv2importnumpyasnp#这里虽然写的是480*640但是numpy是反着来的，img真实大小是640*480img=np.zeros((480,640,3),np.uint8)#画线红色的线这里的坐标就是真实坐标cv2.line(img,(0,240)
opencv for python3.6_开启计算机视觉学习之路--opencv 3 for python weixin_39789327 opencv for python3.6
在学习之前，配置环境对于一个不太擅长编程的人来说，简直是噩梦。我也是经历了各种“挫折”，终于安装完成了好了合适的版本，并且能够满足自己想要的函数调用。在这里和大家分项一下，也希望帮助到想要学习Opencv的童鞋们。因为近期在研究学习图像实时拼接算法，要用到计算机视觉的算法，所以选择使用Windowsx64系统+Anaconda5.1(forpython3.6)+pycharm+opencv3.4(
2023OpenmmLab实战训练营第一期（一）青人子木人工智能计算机视觉深度学习神经网络
一、计算机视觉及其应用计算机视觉是赋予计算机“看”的能力的学科，研究如何自动理解图像和视频中的内容计算机视觉的应用图像识别、人脸识别自动驾驶、环境感知图像生成、画风迁移视频理解与自动剪辑根据文本描述生成图片计算机视觉学习斯坦福cs231n课程b站同济子豪兄cs231n中文精讲北邮鲁鹏-计算机视觉与深度学习二、机器学习和神经网络简介机器学习基础1.1机器学习是什么？正如汤姆·米特切尔所说，用于从数据
计算机视觉学习之-AlexNet原理及tensorflow实现 interstellar-ai 计算机视觉学习计算机视觉学习
Alex在2012年提出的alexnet网络结构模型引爆了神经网络的应用热潮，并赢得了2012届图像识别大赛的冠军，使得CNN成为在图像分类上的核心算法模型。AlexNet有6千万个参数，65万个神经元，由5个卷积层和3个全连接层，一些卷积层后面还跟着一个最大池化层，还有一个最后的1000分类的softmax层。我这里和论文有些不一样，论文是分成两部分训练的，我这里算的时候是合成了一个注意：卷积和
Python计算机视觉学习第10章——OpenCV jgq1466693 opencv python 计算机视觉
目录一、OpenCV的Python接口二、OpenCV基础知识2.1读取和写入图像2.2颜色空间2.3显示图像及结果三、处理视频3.1视频输入3.2视频读取到Numpy数组中四、跟踪4.1光流4.2Lucas-Kanade算法引言这里主要学习如何通过Python接口使用流行的计算机视觉库OpenCV。OpenCV是一个C++库，用于实时处理计算机视觉问题。一、OpenCV的Python接口Open
2020-05-26 Ankh_40ad
计算机视觉学习（一）——CUDA介绍及基础入门CUDA：计算统一设备架构（ComputerUnifiedDeviceArchitecture,CUDA)是由英伟达（NVIDIA）开发的一套并行计算平台和编程模型。它只支持NVIDIAGPU卡。CUDA可以使用简单的编程API在图形处理单元（GPU)上创建大规模并行应用程序。而且，CUDA允许程序员指定代码的哪个部分在CPU上执行，哪个部分在GPU上
Keras 和 PyTorch 的对比选择材才才
原文：https://medium.com/@karan_jakhar/keras-vs-pytorch-dilemma-dc434e5b5ae0作者：KaranJakhar前言上一篇2020年计算机视觉学习指南介绍了两种深度学习框架--Keras和PyTorch，这篇文章的作者就对这两个框架进行了对比，分别通过实现一个简单的模型来对比两个不同的代码风格，最后还给出了他的个人建议。当你决定开始学习
（五）畸变矫正—让世界不在扭曲【计算机视觉学习笔记--双目视觉几何框架系列】玉-米计算机视觉学习笔记计算机视觉三维数学
五、畸变矫正—让世界不在扭曲这篇博文所要讲述的内容，是标定的主要用途之一：矫正摄像机的畸变。对于图像畸变矫正的方法，张正友教授也在其大作“AFlexibleNewTechniqueforCameraCalibration”中给出。玉米在这里先为大家介绍一下，摄像机畸变主要有哪几种以及这些讨厌的畸变从何而来。摄像机畸变主要包含：镜像畸变、切向畸变。玉米在这里分别讲述一下，并引用一些图片，使大家对他们
OpenCV计算机视觉学习（9）——图像直方图 & 直方图均衡化 iFlyAI 人工智能竞赛 OpenCV 人工智能算法 python 机器学习深度学习 opencv
人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。如果需要处理的原图及代码，请移步小编的GitHub地址传送门：请点击我如果点击有误：https://github.com/LeBron-Jia
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息