总结

VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL VIDEOS

问题:1、设计合适的目标函数,鼓励系统发现有意义的规律。(平方欧式距离:模糊,对于小的图像变形比较敏感;log-likelihood:高维的密度估计很困难)

2、之前的方法并不能处理较大的帧,并不能适用于较多帧数的数据集,并不能泛化到一般的转换。

难点:预测模型必须学习运动基元和理解物体的局部变形

方法:1、应用简单的模型简化计算(假设空间和时间的平稳性;不对使用的特征和相邻帧的转换做假设)

2、将回归问题转化为分类问题。将每个8*8的patch编码为一个k-means atom

未解决的问题:1、对于较小的时序间隔预测准确。(将pixel-wise的预测转换为高级特征的预测)

2、是否对监督的任务有帮助

改进方向:1、没有对转换精确建模。对内容和转化分别编码。

Unsupervised Learning of Video Representations using LSTMs

问题:视频无监督的学习表示,促进视频的行为分类。

DEEP MULTI-SCALE VIDEO PREDICTION BEYOND MEAN SQUARE ERROR

问题:1、模糊(GAN)

2、卷积仅仅对短期依赖建模(多级形式)

改机:1、循环结构

2、学习到的特征用于行为分类

3、与光流预测结合

Unsupervised Learning for Physical Interaction through Video Prediction

问题:1、之前方法只能做短期预测

2、对于未见物体无法进行预测(缺乏泛化能力)

解决方法:代替预测像素预测动作,不对物体的外貌进行建模。

假设:1、物体只在局部区域运动

2、同一个刚性物体像素的运动相同

改进:精确的提取一个以物体为中心的表示。

你可能感兴趣的:(总结)