从2008年下半年开始和GTX280的发布,NVIDIA的GPU从传统的单一3D渲染角色快速像通用并行处理器+3D渲染角色转变。近一年来,基于NVIDIA CUDA架构GPU的应用情况已经非常清晰。基于游戏的PhysX带来真实的物理效果;由PowerDirector、Badaboom、TMPGEnc开始的基于视频特效和编码的CUDA加速;最新推出的Arcsoft和vReveal实时的视频处理;而最近又加入了一款用户界面很贴近个人用户的视频处理软件Loilo,以及刚刚发布的新版本Nero Move it。
GPU带来新视觉计算,不仅仅是3D渲染和游戏
从2008年中GTX280的发布,到NVIDIA明确提出CUDA架构的概念的短短半年时间里,CUDA在个人应用领域的软件至今已经达到上述的7款(还不包括采用CUDA加速的插件,例如CoreAVC的CUDA插件,Foobar下的音效插件等)。基于高级语言的CUDA软件开发的优势得到了较好的体现。大家不难发现以上几款软件都与视频相关,这一方面是因为现有PC个人应用恐怕除了3D游戏外,视频处理是负荷最大的;而另一方面,虽然以上7款软件与视频相关,但实际应用上有各自擅长的方面,用途也是不同的。今天我们选取以上软件中的六款进行评测,并简单指导大家使用。
硬件平台 | |
CPU | Intel Core2Extreme Q9300 |
主板 | ASUS P5Q Deluxe |
显卡 | NVIDIA GeForce GTX280 |
NVIDIA GeForce GTS250[报价 参数 图片] | |
NVIDIA GeForce 9600GT | |
内存 | Kingston HyperX DDR2 800 2GBX2 |
硬盘 | Seagate 7200.10 320G |
电源 | TT 80 Plus 750W |
软件环境 | |
操作系统 | Windows Vista 32bit |
驱动程序 | Intel inf9.0 |
NVIDIA Forceware185.68 | |
测试软件 | Cyberlink PowerDirector |
Loilo | |
TMPGEnc | |
ArcSoft SimHD | |
Badaboom | |
vReveal MotionDSP |
测试软件 | 应用方向 |
Cyberlink PowerDirector | 视频特效与编码 |
Loilo | 视频特效,编码,高清播放,3D界面 |
TMPGEnc | 剪辑加速 |
ArcSoft SimHD | 标清转高清:倍线 |
Badaboom | 视频编码 |
vReveal MotionDSP | 视频效果增强(尤其是低质量视频) |
从上表我们简单概括了本次测试的六款软件主要应用的方向,我们逐个为大家介绍软件的相关应用以及CUDA带来的加速效果。本次测试在硬件选择上,使用了3款定位不同的NVIDIA显卡,而Q9300 CPU也是目前Intel 2000元价位上的高端四核心CPU,具有SSE4指令集同样是专门为视频优化的好手,在上述很多软件中被使用到。
Loilo,按CUDA应用软件发布时间来看是仅早于本月才发布的Nero Move It的一款被称为操作界面非常人性化的软件。在软件上我们也看到了4项专为CUDA和NVIDIA优化的标语,它们分别是视频编码的CUDA加速,视频特效的CUDA加速,软件界面的CUDA加速与高清播放的PurevideoHD加速。
Loilo灵活的操作界面来自于NVIDIA的加速,它允许用户将所有的素材如图片和视频,随意拖放在软件界面的任何地方,而不是被束缚在规规矩矩的窗口内,这让整个桌面的效率大大提高。同时,在窗口上方大家很容易为视频在Timeline中添加各种特效,由于Purevideo和CUDA的配合,可以实现对高清视频增加特效时的实时浏览。
最后我们来看编码上CUDA的加速,当我们需要输出成H264编码的MP4文件时,可以选择GPU加速输出编可以生成相关文件,并用GPU加速。但由于软件目前不够完善,GPU输出可选用参数并不是我们常见的参数,又由于与CPU输出参数可调整方向有很大不同,所以我们没有办法进行性能上的测试.
Cyberlink PowerDirector7是在2008年许多测试中常见的软件,它不但较早就对CUDA提供了支持而且在Core i7 CPU测试中也表现突出,是对Core i7优化的最好的一款软件,我们似乎可以理解这是Cyberlink所有软件中最为上进的一款,毕竟PowerDVD已经没什么新意?言归正传,PowerDirector7根据官方提供的说明,它可以利用CUDA对视频特效与编码进行加速。
由于官方给出两个CUDA加速功能,所以我们分别测试。第一项测试支持CUDA加速的特效,我们对选则好的视频使用了4个相关特效,并输出为MPEG2格式的文件;第二项,仅对视频进行转码测试,输出为H264编码的MP4文件
PowerDirctor7是一款即便用CUDA加速也会100%使用CPU的软件,它在特效滤镜CUDA加速方面表现的并不好,而在MPEG2输出时SSE4也可以对特效滤镜进行加速,但我们还是可以看到即便使用GeForce9600GT打开CUDA加速也要比Q9300的效率高不少。而在纯编码输出方面,同样CPU仍满负荷工作,但可以看到CUDA的效率还是很高的。
如果没有记错,TMPGEnc是第一时间站出来为CUDA捧场的知名软件之一,虽然最终它没有坐到“沙发”让Badaboom抢了先,但其影响力仍是非常不小,而推出的时间也较早,但由于TMPGEnc一直以高效的编码能力闻名,对CUDA支持上仅仅支持视频编辑与简单的特效,让很多忠实用户有些遗憾。
左侧是视频滤镜与简单编辑选项
我们在TMPGEnc选择源文件的一页,可以看到滤镜选项,点击进入就看到了上面的界面。其中的滤镜比较常规,可以对视频速度,画面比例,颜色等进行一些调整,而这些功能支持CUDA,倒也算是利用率很高的一些应用了。下面我们来看看测试成绩。
GeForce GTX280测试
GeForce 9600GT测试
GeForce GTS250[报价 参数 图片]测试
TMPGEnc测试从上面三个图中信息可以看到,当使用高端的GTX280时,此时CPU占用整个处理工作的0.7%,即所有工作几乎都有GPU完成。但是使用GTS250[报价 参数 图片]时,CPU开始辅助工作,达到了28.5%的工作量,9600GT时这个数值为39.6%,这种CPU与GPU结合的算法在这些CUDA加速软件中还是比较少见的。不过从中可以看出,更多的流处理器可以分担CPU的工作量,效率也可以提高许多。
从测试成绩和我们监控测试状态来看,TMPGEnc中的Filter并没有对多核心CPU优化,4核心的Q9300很难发挥优势,不过以TMPGEnc以往的作风来看并不像是故意不对CPU优化,也许这套工作的确很难做到优化,而GPU并行计算的能力正好在这里发挥。
vReveal具备CSI式(引自Crime Scene Investigation,《犯罪现场调查》)的超高分辨率专利技术,该技术的原型是执法和情报部门所采用的法庭专用应用程序。通过支持NVIDIA的GPU(图形处理器)所具备的大规模并行处理能力,vReveal可以即刻清除视频中抖动、灰暗、噪音和模糊的部分。
这是官方展示的一组效果对比,经过处理后右侧书名文字非常清晰
在软件界面中不难看出,左侧有6个改善画面的方案。有降噪,提升分辨率,锐化,自动对比度,扩展画面以及手动亮度调节。每一项进入高级模式还可以进行具体细节调节。
(点此查看大图)
上文已经对vReal进行了不少的介绍,在这里我们再看一个例子。上图的视频左右两侧分别为处理前后的对比画面,是实时的视频画面。我们用vReal对视频加入了降噪和自动对比度的滤镜,第二张图片是我们关闭CUDA加速后CPU占用率情况。而使用CUDA加速时,CPU是完全没有负荷的
目前我们一般可以通过两个渠道获得Arcsoft的SimHD功能,Arcsoft公司的TotalMedia Theater是一款较为常用类似于PowerDVD的多媒体播放软件,目前最新的版本为3.0系列,在普通版本上用户可以购买SimHD For CUDA的插件来实现这个功能。而我们在早期测试时,NVIDIA曾提供过内嵌了SimHD的TMT播放器2.1版本,该版本不支持显卡的反交错,所以对画质有影响,推荐大家只有3.0版本的TotalMedia Theater。
SimHD插件实现的是我们通常所说的“倍线”功能,这在几年前的DVD机上可以见到,由于当时还没有高清视频大量的节目源,通过插值算法与边缘锐化,将普通的标清分辨率DVD影片实现1920X1080分辨率的插值输出,有不错的效果。现在使用SimHD插件通过CUDA加速可以轻松在电脑上对DVD进行倍线提升清晰度的功能。
另外,其实类似的倍线技术是Intel在去年中首先在Cyberlink的一款软件上率先演示的,当时使用E8000系列双核心CPU,负荷几乎占满80%以上,对于CPU来说这个运算量实在有些大,而我们测试中使用GeForce9600GT也没有察觉GPU达到最大负荷。
关于SimHD的测试,我们还是用大量的来自于HQV Benchmark软件中的截图来给大家提供一些参考。为了更好的展示SimHD的效果,TMT软件内置了对比模式,从下面图可以看到两个对比画面,一个是原始画面,一个是进行过倍线处理的画面,大家可以看出差别吗?
Badaboom界面 |
Badaboom,一款大家非常熟悉的软件,我们似乎都没有必要再这里详细介绍它了。软件使用很简单,右侧有许多预置的规格,当然你也可以任意自定义想要的视频输出规格。但该软件输出规格仅支持H264编码的MP4文件,最大支持Main Profile下 Level4.1码率25Mbps的文件且支持CABAC编码规格,整体来说除了不支持High Profile下 4.1-5.1更高Level外,它已经非常完美了。
编码参数,H264 Level |
本次测试与我们去年测试稍有不同,去年我们即便是给IPOD Touch/IPHONE压缩也选用了5000Kbps的高码率,如果你真的是这些产品的用户便会发现,平时压缩你只需要最多700kbps码率的视频,在iTunes Store上买到的视频也最多不过如此,更高的码率对于这个机器来说只是浪费。所以本次测试选用了两个规格码率,一个是500kbps的IPHONE分辨率的视频,另一个是该软件支持最高规格1080p Main Profile Level 4.1 CABAC的编码,成绩如下。
由于此软件不能支持CPU编码所以我们先来看一下GPU编码结果,对于一部片长300秒的视频进行编码如果是给移动设备使用,编码时间只有1分钟左右,如果使用高端显卡将在半分钟完成,这个成绩非常不错。如果大家有兴趣查看Badaboom与CPU对比,请访问《CUDA挑战SSE4? CPU/GPU视频编码详解》里面有4款显卡与2款主流CPU的对比。
由于Nero Movie IT还没有最终确定发布,所以本次测试不包含这款软件。不过最后,我们还是总结一下本次测试的几款基于CUDA应用GPU加速的视频处理软件,以及CUDA在个人应用上的优势。
如果大家对CUDA一直有所关注,那么对GPU加速或者使用CUDA会比CPU快数倍甚至数十倍的观点自然不会怀疑,而即便大家对CUDA没有了解,那么通过我们这次测试也可以明显看到用GPU进行加速,速度比CPU快是不容置疑的。
综合几款软件来看,Badaboom和PowerDirector7的编码加速(还包括Loilo中设置不完整的编码加速)是目前应用最为成熟的一方面,而Badaboom应该是最为易用也设置最完整的,它们目前都只支持H264一种编码输出,从Intel SSE4多年来优化看要做到多种格式全兼容实在不太可能也没太大必要,即便是效率极高的TMPGEnc也不支持H264 SSE4加速,CUDA目前做到的已经相当不错。
MotionDSP的vReveal与SimHD,属于实时对视频进行复杂处理的软件,它们的效果非常明显,可以对视频有不错的优化,而从目前应用来看vReveal支持的输入格式很丰富,而且对特别差和较差的视频改善很明显,非常值得大家尝试。而SimHD就如我们当年玩倍线DVD播放机一样,首先仅支持DVD Video光盘的SimHD效果输出,其次DVD画质本身也决定了输出效果,应用范围相对较小,但整体效果仍令人满意。
最后,是TMPGEnc、PowerDirector7和Loilo中的视频滤镜,GPU提速效果也是非常明显的。对于家里拥有DV的用户,不要错过这几款软件与NVIDIA显卡,另外鉴于很多滤镜对SSE4的优化CPU配置也不要太低,CPU和GPU对视频处理效率都有很重要的作用。
总体而言,MotionDSP和SimHD的应用我们认为是这几款中最为突出的(这两项类似在CPU上的应用Intel更早时候就演示过,被定位于4核应用案例),相信大家很快会看到CPU加速的相关软件推出,这种操作对CPU消耗实在太大,对于目前主流CPU平台而言,这种应用是否具有实用价值都是一个疑问,而只要普通的GeForce9600GT GPU就可以轻松应付。而随着DC/DV甚至手机拍摄视频越来越多,vReveal这类软件会大大快速改善视频的效果,效率与传统CPU将是非常之高。对于这些软件,拥有GeForce的用户不妨尝试一下吧。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22785983/viewspace-619758/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/22785983/viewspace-619758/