OpenVINO工具套件高级课程第一课:实验篇

一、3D Human Pose Estimation(3D人体姿态估计)

该演示用于检测多人的三维姿势,对人体姿势的理解是充分理解行为和动作的关键一步,但人体姿势的建立却并不容易。人类有很小甚至几乎看不见的关键点,比如眼睛、鼻子、耳朵、膝盖等,如果视频中有很多人,哪个关节属于哪个人就显得很复杂。
OpenVINO工具套件高级课程第一课:实验篇_第1张图片

二、Colorization(着色)


1)a通道:每个像素红色与绿色之间的值;
2)b通道:每个像素黄色与蓝色之间的值;
3)L通道:从白到黑的亮度
该颜色使用RGB视频作为输入,可与最终结果进行比较,提取L通道并将用作预测a和b通道的模型输入,并且结合L通道最后重建完整的RGB或BGR图像。
OpenVINO工具套件高级课程第一课:实验篇_第2张图片

三、Audio detection(音频检测)

音频信号有时需要大量的预处理,该演示的一个亮点是其中的输入音频文件此处为单声道的wav文件,用作神经网络的输入,几乎没有预处理,只是在所需要的时候重新采样至所需的速率,ACLnet用于池演示的神经网络。
OpenVINO工具套件高级课程第一课:实验篇_第3张图片
OpenVINO工具套件高级课程第一课:实验篇_第4张图片

四、Formula Recognition(公式识别)

目标: 检测自由格式的手写公式或NetIX编写的公式。
构成: 主要分为两个独立模型
1)编码器:卷积神经网络,用于图像中提取特征,识别字母或符号的边界框;
2)LSTM模型:记住之前符号的模型,并了解完整的序列和符号历史。
OpenVINO工具套件高级课程第一课:实验篇_第5张图片
OpenVINO工具套件高级课程第一课:实验篇_第6张图片

五、Mono-Depth(单目深度)

目标: 从2D图像中创建一个具有三维深度的3D图像。
对于人类来说,我们从三维视觉观察世界,我们都认为看到的深度是大脑判断的结果,大脑接收双眼捕捉的略有不同的图像并推断深度。但是,想一想,即使闭上一只眼睛也可以清楚得判断出深度,因为我们学会了根据阴影的相对大小来确定深度。
OpenVINO工具套件高级课程第一课:实验篇_第7张图片

六、Object Detection(目标检测)

准备工作:
1)选择合适的架构(SSD/Yolo/…);
2)下载对应的模型
OpenVINO工具套件高级课程第一课:实验篇_第8张图片

七、BERT-Question Answering(NLP)

举例:
以有关巴黎的维基百科页面为例,需要做的是加载模型并将其转换为IR文件格式并运行演示。
OpenVINO工具套件高级课程第一课:实验篇_第9张图片

你可能感兴趣的:(工具套件,python,音视频,深度学习)