用于物体识别和跟踪的下游任务自监督学习-2-背景

2.1用于现实世界应用的计算机视觉的基本概念

有许多中间步骤涉及应用计算机视觉算法来解决现实世界中的问题。机器视觉算法从光学传感器的图像采集开始,并最终解决现实世界的决策任务,如自动驾驶汽车、机器人自动化和监控。设计现代计算机视觉算法包括传感器数据编码、解码、数据扩充和预处理、数据分解为训练/val/测试、特征提取、机器学习或深度学习算法设计,然后直观地利用模型特征预测任务解决方案或组合多个任务解决方案以提供最终结果。

2.1.1图像采集

图像采集是指捕捉视觉数据的过程,相机、扫描仪甚至智能手机使用成像系统捕捉光线并将其转换为数字图像。这个过程包括几个步骤:i)光线通过镜头进入相机(照明和反射)。透镜将光聚焦到图像传感器上,图像传感器是一种光敏电子元件。ii)图像传感器由数百万个微小的光敏细胞或像素组成,这些细胞或像素将入射光转换为电信号(采样)。iii)然后,摄像机的电子设备对电信号进行处理,并将其转换为数字图像文件(量化),该文件可以存储为单个通道(灰度)或多个颜色通道(例如,红色、绿色和蓝色通道,也称为RGB)[29]。图像的质量取决于各种因素,包括图像传感器的分辨率、镜头的孔径15和相机的曝光设置。

2.1.2图像数据增强

用于物体识别和跟踪的下游任务自监督学习-2-背景_第1张图片

图2.1:用于计算机视觉应用的机器学习中使用的不同图像增强技术。

图像数据扩充是通过生成现有图像的修改版本来手动或自动[30]增加数据集大小的过程。数据扩充在训练机器学习模型时很有用,因为它可以防止过拟合并提

你可能感兴趣的:(学习,深度学习)