MIT6.S094深度学习与无人驾驶整理笔记(4)——————自动驾驶中的卷积神经网络

1.图片是像素的集合,像素是数字,从0-255的离散值,输入图像可以在输出图像的标签的地方进行监督学习,聚类成不同的类别。用机器学习进行特征的提取,对图像I / O标签进行训练,并建立模型。人类将视觉感知转成语义,但是电脑只能识别RGB数字,RGB是彩色图像,每个像素从0-255有三个值。灰度图像是一个数,但是RGB图像一般是三个数,有时候有深度值,有四个数。

2.分类:输入一个图像,输出一个标签,一个离散的累的问题的底层还是一个回归的问题,并且一旦产生其形成就是这个特定的图像属于特定的类的概率,用阈值来切断与低概率相关的输出,将高概率相关的标签转为离散分类。训练映射来估计图像到类别的映射函数。

3.回归与分类:通常讲的距离是L2距离。(k-NearestNeighbor) K近邻算法是一种用于分类和回归的非参数方法。意味着将不同的事物的整个的大的空间分割成你可以比较的东西。若一个点落入这个图像内,则立即与属于该图像的最近邻算法相关联。其参数是K,进行参数调整或者超参数调整。得到最佳的ķ的方法是将数据分成多个部分,一部分用于训练,一部分用于测试。(穷举,网格搜索)但是CNN比K-近邻算法做的更好。学习就是指优化。

4.CNN采用具有一定的空间一致性的输入,他们像图像一样有一定的空间的意义。音频信号输入CNN通常是单层.CNN有深度,身高,width.CNN的高和宽是这个图像的高和宽,但是灰度图像的深度是1,RGB的深度是3,对于一个十帧的灰度图像,其深度是十.CNN卷积层就是采用3D的值输出,3D的值输出,当然还有一些平滑的函数也参与0.32×32×3的彩色图像的卷积就是32×32×3的体积,且两层之间的连接不是将第一层的每个像素连接到下一层的每个单个神经元。

5.过滤器深度为3则第一轮过前三排第二次从第三排开始过滤。过滤器激活有用的特征,有有用的特征为正,无则为负,可以大大的减少参数的个数;权值的共享意味着你的检测特征具有空间不变性,它允许从任意图像学习。

6.卷积神经网络:通常是有一个卷积层然后依次池化操作,接着是另一个卷积层下一个池化操作,以此反复如果任务是分类就会得到一堆的卷积层和池化层,有几个全连接层,从空间卷积运算开始,把一层中的每一个神经元连接到下一层。最终会有一组神经元,每一个神经元都与一个特定的类相关。

7.池化:这是一种减小图层大小的方法,它是最大池化,数输出的集合并总结这些像素的集合,使得池化操作输出远小于输入选择最大池化减小了分辨率也损失了很多信息。

8.例子:MIT6.S094深度学习与无人驾驶整理笔记(4)——————自动驾驶中的卷积神经网络_第1张图片

输入一张图像,输出十个神经元,经过卷积层的处理,最后用三个全连接层生产10个神经元,每个神经元的工作是当看到一个特定的数字时被激活,而看到其他数字时产生一个低概率。

9:激光雷达提供3D点云的传感器,能提高强大的地面实况。

视觉测距:利用视频图像的单目或者立体输入,从音响中知道每个物体距离你多远计算深度图,为每个像素对像素深度的最佳估计,相对相机的三维位置,在计算差异图这就是距离。

SLAM:关于发现外部场景的独特特征,并根据这些特征的轨迹来定位,当特征维度足够多时,就变成了一个优化问题,可以追踪这条线的逐帧变化,然后联合GPS等综合考虑在三维空间的变化.sift算法是检测独特特征的流行算法,随着时间追踪这些特征,这样从视频中得到你的三维空间的轨迹。对轨迹的估计可以使用端到端的神经网络,即输入图像,获得输出的轨迹。(欺骗方法)但是SLAN是DL做的不如传统方法的一个地方。

10.深度学习是帮助理解场景,识别其中物体,检测场景的不同部分,给他们分类,用光溜确定他们的运动。现在用CNN代替这些特征的提取,用RNN利用时间信息来处理视频和音频。例如:干湿路面的车辆行驶的频谱图

11.路线规划:不断优化控制问题,或用强化学习用大量的模拟得到曲线转弯。

ConvNetJS是CNN的JS实现,它支持真实任意的网络。自动驾驶1.大多数情况是针对边角案例2.驾驶必须达到一定的精度。

你可能感兴趣的:(MIT深度学习与自动驾驶)