项目实训—场景划分(二)

LGSS算法代码结构分析

1、数据集说明 data

(1)aud_feat 音频特征文件:shot-level 的音频特征,格式为 npy,用于场景分割训练,运行 python audio/extract_feat.py 生成该文件;
​ (2) place_feat 地点特征文件:shot-level 粒度的地点图像特征,格式为 npy,用于场景分割训练,运行 python place/extract_feat.py 生成该文件;
​(3)shot_stats, shot_txt,shot_keyf 等文件:镜头切分结果相关文件,shot_keyf 保存了每个镜头里的3个img格式的帧图像,shot_stats 保存了每一帧的时间码、hsv、lvu信息,文件格式为csv,shot_txt 保存了每个镜头的开始/结束的时间/帧,格式为txt;
(4)scene_video:最终的场景切分结果,为多个MP4文件;
(5)video:原视频所在文件夹
项目实训—场景划分(二)_第1张图片

2、数据预处理 pre

数据预处理模块主要分为音频特征提取(audio)、地点特征提取(place)以及镜头切割(ShotDetect)
(1)audio:音频特征提取,使用在AVA-ActiveSpeaker数据集训练的NaverNet模型分离演讲以及背景音,再使用stft模型分别获得镜头特征并结合得到音频特征;
(2)place:地点特征提取,使用ResNet50,Faster-RCNN等预训练模型获得地点等特征;
(3)ShotDetection:镜头切割:通过设定阈值,计算图像hsv相似度得到。
项目实训—场景划分(二)_第2张图片
项目实训—场景划分(二)_第3张图片
项目实训—场景划分(二)_第4张图片

3、模型训练测试代码 lgss

(1)run.py:场景划分执行的代码入口
(2)config: 配置文件目录
(3)lgss.py:模型训练
(4)utilis 其他被调用的函数
项目实训—场景划分(二)_第5张图片

4、模型结果的保存文件夹 run

项目实训—场景划分(二)_第6张图片

你可能感兴趣的:(项目实训,计算机视觉)