鉴于上一篇并未完结,其中视频帧数是个问题,如果想要边读边测,那么只有固定规则了,不能说idx是变化的了。
考虑到如果分割完视频帧,那么势必要将图片存储起来,因为有的视频长,内存可能会占满,因此不如读取一些帧就做个测试,不是说16帧来个测试吗??但这种预测的速度肯定慢,因为无论是多少帧,只要是大于3帧的,结果都会变成6*16帧,那么这个数据进入模型进行推断时间真的很慢,没有直接的16帧来的快,所以并不认为TSM是完美的。
所以请不要随意进行上采样,请从网络结构出发,参数越少,速度越快,效果越好,这才是终极目标。
鉴于上面提及的DataLoader很令人讨厌,如今终于破解。直接来个for循环就解决了,以后遇到类似的也可解决了。
经查看,发现进行transform的图片个数都是32个,难道这就是16*2的由来??
下面是不同帧数的视频最终选取的idx,当然选取规则可见,但我想固定,以后固定或者随机设置
[ 2 5 9 12 15 18 22 25 28 31 35 38 41 44 48 51 1 4 7 10 14 17 20 23
27 30 33 36 40 43 46 49]
[ 2 6 10 13 17 20 24 28 31 35 39 42 46 49 53 57 1 4 8 11 15 19 22 26
30 33 37 40 44 48 51 55]
[ 1 3 5 7 9 11 13 15 16 18 20 22 24 26 28 30 1 2 4 6 8 10 12 14
16 17 19 21 23 25 27 29]
[ 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 1 3 5 7 9 11 13 15
17 19 21 23 25 27 29 31]
[ 2 4 6 9 11 14 16 18 21 23 25 28 30 33 35 37 1 3 5 8 10 12 15 17
20 22 24 27 29 31 34 36]
[ 2 4 6 8 10 13 15 17 19 21 23 26 28 30 32 34 1 3 5 7 9 11 14 16
18 20 22 25 27 29 31 33]
老子特么一看还是Image读图,卧槽,我用cv2还要看其中源码到底怎么Compose的,虽说之前看了。
我只想说真的认识艰难啊,我想回家休息了,明天搞定视频的直接边读边测,上一篇实现的是视频帧的。
待续。。。。
另外有相关问题可以加入QQ群讨论,不设微信群
QQ群:868373192
语音图像深度-学习群
或者发我邮箱: