_,_

视频增强论文Spatio-Temporal Transformer Network for Video Restoration阅读笔记

论文来源：ECCV2018

论文链接：Spatio-Temporal Transformer Network for Video Restoration | SpringerLink

概述：

改进STN(空间变换网络)为STTN(时空变换网络)来解决光流估计中常见的遮挡问题。
先由一个时空流估计网络对输入的图像序列输出预测的光流估计结果（u,v,z），包括空间上的光流u，v和跨帧的时间流z。其网络结构是一个浅层U-Net，下采样2次后又上采样回原尺寸，最后得到光流估计结果。然后用时空采样器根据这三个分量的偏移对像素位置进行采样，采样函数采用了三线性插值的方法。通过这种方法来利用相邻帧信息对当前帧进行重建。

Abstract.

最先进的视频恢复方法集成了光流估计网络来利用时间信息。然而，这些网络通常只考虑一对连续帧，因此不能捕获长距离的时间依赖性，并且不能跨多个时间步建立对应。为了缓解这些问题，我们提出了一种新的时空变换网络（STTN），它可以同时处理多个帧，从而减轻光流估计中常见的遮挡干扰。我们提出的STTN包括一个在空间和时间上估计光流的模块和一个使用估计的光流选择性地扭曲目标帧的重采样层。在我们的实验中，我们证明了所提出的网络的有效性，并展示了在视频超分辨率和视频去模糊方面最先进的恢复结果。

1 Introduction

balabala

在本文中，我们基于这些思想，提出了一种特定于任务的端到端无监督时空流估计方法，它是一种密集的光流，通过允许多个连续帧作为网络输入，选择性地捕获长距离的时间相关性。为此，我们将空间变换网络[13]扩展为时空变换网络（STTN），它能够在空间和时间上建立密集的像素对应。我们证明了在多个连续的帧上进行推理并在每个像素位置选择其中一个帧有助于缓解光流估计中常见的遮挡问题。我们的方法的另一个优点是，它可以以无监督的方式进行训练，从而使大的标记数据集的可用性变得不必要。当与为特定任务定制的视频恢复网络结合使用时，我们以最小的计算开销获得了可观的性能增益。我们证明了我们提出的STTN对于视频超分辨率和视频去模糊的挑战性任务的有效性，并且在现有技术的基础上有了很大的提高。总之，我们作出以下贡献：

我们引入了一种时空流估计网络，该网络可以选择性地捕获长距离的时间相关性，而不需要大量的计算开销，并且可以缓解传统光流估计中的遮挡问题。

我们提出了一种时空采样器，它可以通过估计的时空流对输入数据进行时空操作。

通过简单地将所提出的网络置于最先进的方法之上，我们在具有挑战性的视频恢复任务（如视频超分辨率和去模糊）上显示了有希望的结果。

3 Proposed Method

Jaderberg等人[13]提出的空间变换网络（STN）能够对特征图进行一般性的扭曲，在许多视觉应用中得到了广泛的应用。特别是对于视频恢复任务，许多深度学习方法基于STN的变体来估计相邻帧之间的光流，并将目标帧对准参考帧[30–32,34]。然而，STN只允许对输入数据进行空间操作。为了在每个时间步处理多个视频帧，需要多次使用STN，这在应用于实时设置时是一个严重的限制。

因此，我们引入了一种新型的时空变换网络（STTN），该网络能够有效地实现输入数据的时空扭曲，并减轻传统STN的局限性的同时没有很大的计算开销。在图1中，我们提出的STTN的整体结构由一个时空流估计网络和一个时空采样器组成。在下面的部分中，我们将详细介绍每个组件。

3.1 Spatio-Temporal Flow Estimation Network

传统的基于模型的方法共同解决光流估计和视频恢复问题[1–3,28]，最近基于学习的方法通过使用现成的方法来估计光流[29,45]，或者通过使用子网络来估计光流[30,31,34]。

然而，所有这些先前的方法都估计两个连续帧（参考帧和目标帧）之间的光流，因此需要计算N次光流来处理每个时间步的N个目标帧。此外，如图3所示，在没有很好地建立对应关系（例如遮挡和光照变化）的情况下，传统的流量估计网络是不可靠的。

为了克服这些限制，我们提出了一种新的时空流估计网络，它采用多个相邻帧序列

作为输入，其中H，W，C，T表示高度、宽度、通道数和输入帧数，并输出归一化的三维时空光流.值得注意的是，输出流的高度和宽度可能与输入流的高度和宽度不同，具体取决于应用。因此，我们的时空网络可以在一个时间步长内非常有效地处理多个帧，并且与传统的只考虑一个目标帧的工作不同，由于多个目标帧中有多个匹配候选，因此它对遮挡和光照变化的鲁棒性更强。

所提议的类似U-net[48]的时空流估计网络的详细配置如图2所示。所有卷积层用3×3过滤器和之后是批量标准化[49]和ReLu，除了最后一个卷积层后面是tanh以输出标准化流。由于我们的光流估计网络是完全卷积的，一旦训练完成，它可以在推理时用来处理任意（空间）大小的帧。

3.2 Differentiable Spatio-Temporal Sampler

通过使用3.1节中的时空流，选择性地扭曲多个目标帧来合成与参考帧对齐的新图像，需要在三维时空空间中执行采样的新采样器。本文将传统的空间采样模块从二维空间扩展到三维空间，提出了一种时空采样模块。我们的时空采样器将多个目标帧的强度值插值为：

其中表示位置（x，y）处的像素插值而是具有时间偏移i的像素位置（n，m）处的的强度值i∈ Δ. 例如，我们可以定义窗体的滑动窗口Δ = {−2,...,3}. 函数δ 定义使用时空流（u、v、z）的插值方法。任何函数δ 定义的子梯度可用于[13]中介绍的采样。这里，我们使用三线性插值δ 在我们的视频恢复任务。它由下式给出：

注意，时空流（u，v，z）的非规范化版本在（2）中被定义，即，u（x，y）和v（x，y）表示水平和垂直运动位移，并且z（x，y）被映射到接近目标帧索引的实值，该目标帧索引被倾向于在（x，y）处匹配。

类似于[13]中的双线性空间采样过程，我们的三维空间三线性采样机制也是可微的。关于我们的时空流的梯度推导如下：

注意，的梯度可被类似的导出，更一般地说，我们的时空转换器可以获取一组的特征映射取代图像作为输入，关于的梯度如下所示：

这意味着所提出的时空取样器允许损失梯度容易地反向传播到输入帧或特征图中。

3.3 Spatio-Temporal Transformer Network

我们的时空流估计网络可以同时处理多个不同的帧，可以用更少的计算工作量代替传统方法中光流估计模块的多种用途[30,31,45]。此外，我们的时空采样机制也可以非常有效地处理现代gpu。此外，与传统的STN方法在单个目标帧中估计匹配点相比，该网络可以从时空空间的多个帧中找到更好的对应点。这导致了一个网络可以对异常值的遮挡或照明变化的鲁棒性更强。

我们的时空变换网络直接将空间变换网络扩展到三维空间。正因为如此，以前空间变换网络的许多特性可以在所提出的网络中得到推广。首先，我们的时空变换网络可以很容易地以端到端的方式训练，因为损失梯度可以向后流过采样器和流量估计网络，并且可以将其放置在传统网络的任何位置以有效地选择性地变换或合并多个特征图。因此，除了我们的视频复原任务外，所提出的模块还可以应用于许多应用中。第二，与空间变换器仅在二维空间域上对特征图进行上下缩放不同，我们的时空变换器不仅可以在空间域上改变形状，还可以在时间空间上改变形状。接下来，如[13]中所建议的，我们的网络也可以在网络的深度增加的情况下多次添加，或者在不同的时间步并行处理多个对象，而空间变换网络只能在单个时间步处理多个对象。

Unsupervised Spatio-Temporal Flow Learning.

最近基于学习的光流估计方法是在大型合成数据集上训练的，如Flyinging Chairs[4]和MPI Sintel数据集[22]。然而，据我们所知，没有可用的数据集可以用来直接训练我们的时空流估计网络，并且利用光流数据集来训练所提出的网络并不简单。因此，我们以无监督的方式训练我们的网络。特别地，对于我们的视频恢复应用，我们建议通过将来自时空采样器的合成图像约束为：

中，表示与时间步t处的参考帧相对应的地面真值帧。

4 Experiments

在本节中，我们将展示STTN的强大功能和多功能性，并展示如何通过简单地添加所提出的时空变换器来进一步改进最先进的图像和视频恢复网络。

4.1 Ablation Study

为了评估STTN的扭曲性能，我们使用具有不同超参数设置（例如，目标帧数）的视频数据集来训练该方法。如图4（a）所示，我们使用了一个带STTN的视频恢复网络，以及由卷积层和残差块组成的图像处理模块，如[34,44,50]所示。该网络通过联合最小化公式5中的Lflow和潜在真值图像和地面真值图像之间的MSE来训练，并比较了扭曲（合成）和地面真值帧。

首先，我们使用超分辨率数据集训练网络。由于没有标准的高分辨率视频超分辨率数据集可用，我们收集了一组高质量的youtube视频，并提取了120k超高清帧来训练网络。下一步，我们通过将干净的视频帧缩小4倍，然后对其进行量化，然后再将低分辨率帧提升到原始图像大小。我们评估了八个不同设置下训练的网络：其中四个取2-5个输入帧，然后对估计的流和目标帧进行采样。另外四个网络也以2-5个帧作为网络输入，但同时以参考帧和目标帧运行采样器，即参考帧也被视为目标帧。类似地，我们还比较了在视频去模糊数据集上训练的不同网络[45]。在图4（b）–（c）中，扭曲帧的质量根据重建误差（即Lflow）进行评估。总的来说，网络随着更多的输入性能越来越好，虽然由于我们增加更多的帧性能增益在慢慢饱和。此外，我们观察到，将参考帧视为目标可以显著降低重建误差，因为它可以在没有对应的情况下渲染参考帧本身。因此，我们将参考帧作为后续实验的目标。在图5（e）–（h）中，我们的流程图和变换后的图像是可视化的。如预期的那样，运动呼啦圈遮挡的背景区域主要由参考帧本身映射，用彩色箭头表示。

4.2 Video Super-Resolution

我们进一步将我们的网络集成到最先进的超分辨率网络中，并提供比较来展示我们网络的性能。

Comparison with VDSR

Comparison with FR VSR

4.3 Video Deblurring

Comparison with DVD

Comparison with OVD

5 Conclusions

我们提出了一种新的时空变压器网络（STTN），它推广了空间变压器网络[13]，同时减轻了它的一些限制。我们的STTN由一个时空流估计模块和一个时空采样器组成，前者从多个图像帧（或特征图）中计算三维时空流，后者在时空空间中插值多个输入。通过这种方式，所提出的模型有效地缓解了传统流量估计网络中存在的区域不匹配的问题，通过同时利用多个输入而不是使用单个目标输入。在多个视频恢复任务中证明了该模型的优越性，我们只需在传统网络的基础上简单地增加所提出的模块，就可以获得最先进的性能。

【2017-2025】Adobe Premiere Pro（简称PR）专业视频编辑软件下载 iNBySNG adobe 音视频
AdobePremierePro软件简介AdobePremierePro（简称PR）是由Adobe公司开发的一款专业视频编辑软件，广泛应用于电影制作、电视播出和网络视频的制作。该软件以其强大的编辑功能和灵活的工作流程，在业界中享有盛誉。无论是专业影视制作人还是业余爱好者，PremierePro都能满足他们的需求，为各种视频项目提供卓越的解决方案。下载链接https://pan.baidu.com/
PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
手把手教你使用 Python 制作贪吃蛇游戏｜Python游戏程序员CC_ Python教程 python 学python pygame python 开发语言
贪吃蛇游戏是有史以来最受欢迎的街机游戏之一。在这个游戏中，玩家的主要目标是在不撞墙或不撞墙的情况下抓住最大数量的水果。在学习Python或Pygame时，可以将创建蛇游戏视为一项挑战。这是每个新手程序员都应该接受的最好的初学者友好项目之一。学习构建视频游戏是一种有趣而有趣的学习。我们将使用Pygame来创建这个蛇游戏。Pygame是一个开源库，专为制作视频游戏而设计。它具有内置的图形和声音库。它也
【YOLOv8杂草作物目标检测】 stsdddd YOLO目标检测目标检测 YOLO 目标检测人工智能
YOLOv8杂草目标检测算法介绍模型和数据集下载算法介绍YOLOv8在禾本科杂草目标检测方面有显著的应用和效果。以下是一些关键信息的总结：农作物幼苗与杂草检测系统：基于YOLOv8深度学习框架，通过2822张图片训练了一个目标检测模型，用于检测田间的农作物幼苗与杂草对象。该系统支持图片、视频以及摄像头进行目标检测，并能保存检测结果。系统界面可实时显示目标位置、目标总数、置信度、用时等信息。YOLO
思维图GOT：用大语言模型解决复杂问题硅谷秋水大模型人工智能机器学习语言模型人工智能自然语言处理
23年8月份来自瑞士和波兰的大学以及一个数据公司Cledar的大语言模型论文“GraphofThoughts:SolvingElaborateProblemswithLargeLanguageModels“。思维图（GoT）是一个框架，提高大型语言模型（LLM）中的提示功能，超出思维链或思维树(ToT)等范式所提供的能力。GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图，其中信息单位
提升短视频体验的tiktok专线加速器优势以太坊
在这个信息爆炸的时代，短视频已成为人们日常生活中不可或缺的一部分。尤其是tiktok，这一平台以其丰富的内容和独特的社交属性吸引了大量用户。然而，用户在使用过程中常常会遇到视频加载缓慢、卡顿等问题，影响了观看体验。为了解决这一难题，IPIPGO直播专线应运而生。作为一款专注于提升视频流畅度的工具，tiktok专线加速器能够为用户提供更优质的观看体验，让每一个精彩瞬间都不再错过。tiktok专线加速
python连接485网关设备 dilqu python 网络开发语言
Python相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python连接485网关设备1.流程图gantttitlePython连接485网关设备流程图section了解485网关设备:1dsection安装Python库:1dsection编写Pyt
Spring Boot 3.x- MybatisPlus集成 laopeng301 Spring Boot 3.x教程 spring boot java 后端 mysql spring
系列文章目录系列文章:SpringBoot3.x系列教程文章目录系列文章目录简介一、快速开始1.数据库表和数据准备2.新增项目&导入依赖3.配置4.开发编码5.运行测试二、注解三、测试四、CRUDServiceCRUDMapperCRUD五、完整CRUD例子简介官网介绍:MyBatis-Plus（简称MP）是一个MyBatis的增强工具，在MyBatis的基础上只做增强不做改变，为简化开发、提高效
【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
【视觉算法—视频目标跟踪】基于camshift实现视频目标实时追踪明月下视觉算法 opencv python 音视频
本文代码功能：1.获取摄像头，实时显示2.鼠标获取第一帧中的目标roi区域3.在视频中实时对目标进行追踪。4.两种目标追踪的方式：‘meanshift’，‘camshift’5.保存视频代码准备新建test.py，复制以下代码：importcv2ascvimportnumpyasnpglobalmin_y,height,min_x,width#1代表打开外置摄像头,外置多个摄像头可依此枚举0，1，
随机森林分类算法原理与实验分析 ningaiiii 机器学习与深度学习随机森林分类算法
随机森林分类算法原理与实验分析1.引言随机森林（RandomForest）是一种集成学习方法，它通过构建多个决策树并结合它们的预测结果来进行分类。你可以把它想象成一个“团队决策”的过程：团队中的每个成员（决策树）都独立发表意见，最后通过投票决定最终结果。这种方法不仅提高了模型的准确性，还增强了模型的稳定性和鲁棒性。随机森林的主要特点是通过随机选择样本和特征来构建多个决策树，从而避免单棵决策树可能产
【论文速读】| 利用大语言模型在灰盒模糊测试中生成初始种子云起无垠论文速读/精读语言模型 p2p 人工智能
基本信息论文标题:HarnessingLargeLanguageModelsforSeedGenerationinGreyb0xFuzzing作者:WenxuanShi,YunhangZhang,XinyuXing,JunXu作者单位:NorthwesternUniversity,UniversityofUtah关键词:Greyb0xfuzzing,LargeLanguageModels,Seed
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
每日新闻掌握【2024年1月18日星期六】 cdmt 每日新闻掌握科技
2025年1月18日星期六农历腊月十九大公司/大事件SpaceX“星舰”第七次试飞，再现“筷子夹火箭”，二级飞船失联美国太空探索技术公司（SpaceX）新一代重型运载火箭“星舰”实施第七次试飞，第二级飞船失联。马斯克随后发帖并配发视频称，“成功是不确定的，但娱乐是有保证的！”他还写道，改进版星舰和助推器已准备就绪，等待发射。SpaceX“星舰”从美国得克萨斯州发射升空不久后，火箭第二级飞船与地面团
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
外版抖音TikTok显示网络不稳定的解决方案 android
在这个信息爆炸的时代，短视频平台如外版抖音TikTok已经成为了人们日常生活中不可或缺的一部分。然而，许多用户在使用过程中却常常遇到“网络不稳定”的提示，仿佛一场精彩的表演被突如其来的故障打断。这不仅影响了用户的观看体验，也给品牌推广带来了困扰。为了帮助大家更好地享受TikTok带来的乐趣，我们推荐IPIPGO直播专线，助力您轻松畅游全球网络。为何会出现网络不稳定的提示？首先，我们需要了解导致外版
自学记录鸿蒙API 13：PreviewKit从文件预览到应用开发 harmonyos-next
学习了一些API13之后，我决定研究一下PreviewKit（文件预览服务）。这个模块可以快速预览多种文件类型，包括文本、图片、视频、音频和PDF等，为文件管理类应用提供了系统级支持。这次学习不仅是技术上的积累，更是个人能力的全面提升。我会从实际开发的角度，带大家了解PreviewKit的功能和实现，并分享如何利用它开发出一款实用的文件预览助手应用。通过我的实践经验，希望能为其他开发者提供灵感与帮
Windows Server 如何启用 TLS 1.3 ？ windowstls
传输层安全(TLS)1.3代表了用于互联网通信安全协议的重大进步。随着它在WindowsServer2022和Windows11中的引入，系统大大增强了安全性和连接速度。本指南提供了在WindowsServer2022中启用TLS1.3的详细演练，确保您的服务器受益于最新的安全技术。Step1:VerifySystemCompatibility确保系统正在运行WindowsServer2022或W
如何使用JavaScript开发AR(增强现实)移动应用 (一)
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
电商平台的营销模式及其特点开利网络生活 1024程序员节物联网大数据人工智能
社交电商类·代言人模式：用户购买平台指定商品成为代言人，按消费排名获得代言人奖励，如享受平台分红等。利用消费者的购物行为和排名激励，增强用户的参与感和忠诚度，同时也能促进商品销售，还可借助代言人的口碑传播扩大品牌影响力1。·合伙人模式：用户通过平台设定条件升级为合伙人身份，可享全平台分红等奖励。将用户与平台的利益紧密绑定，激励用户积极推广平台和提升自身消费，合伙人之间还可形成合作与竞争关系，共同推
外版抖音TikTok显示网络不稳定的解决方案 android
在这个信息爆炸的时代，短视频平台如外版抖音TikTok已经成为了人们日常生活中不可或缺的一部分。然而，许多用户在使用过程中却常常遇到“网络不稳定”的提示，仿佛一场精彩的表演被突如其来的故障打断。这不仅影响了用户的观看体验，也给品牌推广带来了困扰。为了帮助大家更好地享受TikTok带来的乐趣，我们推荐IPIPGO直播专线，助力您轻松畅游全球网络。为何会出现网络不稳定的提示？首先，我们需要了解导致外版
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
在SIP服务器的INVITE请求的SDP段中，如何指定子码流，让设备传输子码流的视频到服务器三希服务器音视频运维
在SIP服务器的INVITE请求的SDP段中指定子码流，通常需要以下几个步骤：了解子码流相关信息不同的视频设备和编码标准对子码流的支持和表示方式可能不同。例如，在H.264编码中，可能会通过不同的Profile或Level来区分主码流和子码流，或者在视频流的封装格式中有特定的标识。需要先明确设备所支持的子码流的具体参数和标识方法。在SDP中指定编码格式和负载类型按照常规的SDP语法，在“m=vid
行为识别的方法人工智能专属驿站深度学习
行为识别主要有以下几大类方法，每类方法各有特点及典型算法：传统方法特点：利用手工设计特征对行为进行表征，再用统计学习的分类方法进行识别。需一定专业知识设计特征，耗费人力物力，对复杂场景、遮挡等适应性差，但对简单背景、规则动作识别效果尚可。典型算法：时空关键点（Space-TimeInterestPoints）：基于视频图像中的关键点在时空维度上的变化来提取动作特征，但可能忽略视频细节，泛化能力较弱
【认识油管头部频道】ep5 “5-Minute Crafts”——DIY 和生活技巧 keira674 生活
5-MinuteCrafts是一个非常受欢迎的DIY和生活技巧频道，它的火爆有多方面的原因：1.简单实用的内容视频主要以解决日常生活中遇到的小问题为主，提供简单易学的技巧，吸引了想快速获取实用知识的观众。2.短视频形式每个视频都非常简短，抓住了现代人快节奏生活中注意力集中的特点。3.视觉化展示5-MinuteCrafts几乎没有语言描述，完全依赖画面讲解。这种视觉化的表达降低了语言和文化的门槛，适
PLUTO：突破基于模仿学习的自动驾驶规划极限硅谷秋水机器学习自动驾驶人工智能自动驾驶人工智能机器学习计算机视觉
24年4月来自香港科技大学的论文“PLUTO:PushingtheLimitofImitationLearning-basedPlanningforAutonomousDriving”。PLUTO，突破基于模仿学习的自动驾驶规划极限。改进来自三个关键方面：一种纵向横向感知模型架构，可实现灵活多样的驾驶行为；一种创新的辅助损失计算方法，可广泛应用且可高效地进行批量计算；一种利用对比学习的训练框架，采
LargeAD：用于自动驾驶的大规模跨传感器数据预训练硅谷秋水自动驾驶计算机视觉机器学习自动驾驶人工智能机器学习计算机视觉
25年1月来自新加坡国立大学、南京航空航天、德国Bremerhaven技术大学、上海AI实验室、香港科技大学和香港大学的论文“LargeAD:Large-ScaleCross-SensorDataPretrainingforAutonomousDriving”。视觉基础模型(VFM)的最新进展彻底改变2D视觉感知，但它们在3D场景理解方面的潜力，特别是在自动驾驶应用中的潜力仍未得到充分探索。Lar
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri