实时音视频平台基于Windows的抓屏技术

众所周知,屏幕共享是实时音视频互动中十分重要的一项功能,能够帮助参会者访问另一台计算机或桌面的内容,从而实现文档、图片、多媒体等的实时共享。而在实现屏幕共享的过程中,我们就不得不来聊一聊抓屏技术。看看唐桥科技音视频PaaS平台是如何根据抓屏技术特性来实现最优的抓屏效率和最佳的用户体验。

Windows系统上有很多抓屏技术,不同的抓屏技术又局限于Windows系统版本,没有一种通用的抓屏技术可以高效的抓取屏幕图像,其中主要的原因是操作系统的显示驱动模型在从XDDM向WDDDM转变,应用层的API也在从GDI向D3D转变。本文重点关注SCC如何集成各种抓屏技术以兼容所有Windows系统。

01 显示器驱动程序模型

Windows 显示驱动程序模型要求图形硬件供应商提供配对的用户模式显示驱动程序和内核模式显示驱动程序。

windows 2000 显示器驱动程序模型 (XDDM)。XDDM 是为 Windows 2000 到 Windows Vista 和 Windows 7 提供的显示/图形驱动程序体系结构。

从上图可以看出,其核心模块是GDI。在XDDM下我们可以采用GDI技术抓屏。

WDDM 是从 Windows Vista 开始提供的显示/图形驱动程序体系结构

从上图可以看出其核心模块是D3D,同时还兼容了GDI。那么在WDDM下我们可以采用基于D3D的一些抓屏技术。

02 抓屏技术

GDI

我们知道桌面也是一个窗口,也有一个窗口句柄,那么就可以得到桌面的设备上下文DC,从DC上就可以拷贝出桌面图像数据了。

代码

那么GDI抓屏技术有什么优点和缺点呢?

优点:从XDDM到WDDM的架构设计上都是支持GDI,

所以GDI抓屏适用Windows2000及以后平台。

缺点:效率低、最大帧率小于20帧,CPU消耗高,vista之后就不支持过滤窗口。

DXGI

Windows8以后微软引入了一套新的接口,叫“Desktop Duplication API”,应用程序,可以通过这套API访问桌面数据。而由于Desktop Duplication API是通过Microsoft DirectX Graphics Infrastructure (DXGI)来提供桌面图像的,速度非常快。由于是通过GPU,所以cpu占用率很低,性能很高。

代码

那么DXGI抓屏技术有什么优点和缺点呢?

优点:效率高、最大帧率可达80帧,CPU消耗低。

缺点:不支持win7及以下Windows版本,不支持过滤某个窗口。

Magnification API

这组API是微软Vista之后开放给我们开发放大镜程序的,它里面提供了一个API让我们拦截到显示的内容,但在win8以后需要通过hook d3d接口来获得显示内容。

代码

下面介绍一下win8及以上系统如何通过hook获得抓屏数据。

Hook

Hook技术被广泛应用于安全的多个领域,比如杀毒软件的主动防御功能,涉及到对一些敏感API的监控,就需要对这些API进行Hook;窃取密码的木马病毒,为了接收键盘的输入,需要Hook键盘消息;甚至是Windows系统及一些应用程序,在打补丁时也需要用到Hook技术。接下来,我们就来学习Hook技术的原理。

下图很简单易懂地诠释了Hook的机制,在notepad.exe和kernel32.dll之间挂上一个“钩子”,把它们要使用的CreateFile()函数替换掉,换成MyCreateFile()函数,实现我们想要的自定义功能。

Hook分类如下图所示:

我们使用了HotFix Hook,下面简单介绍一下技术原理和实现方式。

API起始代码有如下两个明显的相似点:

[1]API代码以“MOV EDI,EDI”指令开始。

[2]API代码上方有5个NOP指令

MOV EDI,EDI用于将EDI的值再次复制给EDI,这没有什么实际意义。也就是说,API起始代码的MOV指令(2个字节)与其上方的5个NOP指令(5个字节)合起来共7个字节的指令没有任何意义。所以我们就可以通过修改这7个字节来实现Hook操作。

代码

Magnification API抓屏技术又有什么优点和缺点呢?

优点:支持过滤某个窗口,CPU消耗低。

缺点:效率低,最大帧率20帧左右。

其他抓屏技术

GetWindowDC

在Win7/Win8系统的DWM打开的情况下抓屏,即使窗口被覆盖, 它也可以正确抓取到被覆盖窗口下的内容,WebRTC正是用这种方式来Share Application的。但是它的主要问题是有些窗口抓到的内容不包含非客户区,有些窗口比如任务栏的Thumbnail窗口会抓不到内容。

DirectX

每个DirectX程序都包含一个被我们称作缓冲的内存区域,其中保存了和该程序有关的显存内容,这在程序中被称作后台缓冲(Back Buffer),有些程序有不止一个的后台缓冲。还有一个缓冲,在默认情况下每个程序都可以访问-前台缓冲。前台缓冲保存了和桌面相关的显存内容,实质上就是屏幕图像。我们的程序通过访问前台缓冲就可以捕捉到当前屏幕的内容。但是它的主要问题是DirectX 的迭代更新,兼容性不佳。

Windows Media API

Windows Media 9.0 支持用Windows Media Encoder 9 API来抓屏。它有一个编码器叫Windows Media Video 9 Screen codec,特别为抓屏优化过。Windows Media Encoder API提供了一个IWMEncoder2接口可以用来高效地捕捉屏幕图像。但是它的主要问题是用户机器需要安装Windows Media Encoder 9。

Mirror driver

应该是Win8之前最高效的抓屏方法, 也是微软推荐的远程桌面共享方案,它通过创建虚拟镜像驱动, 直接获取最终屏幕变化数据。但是它的主要问题是涉及到驱动安装, 技术难度大, 系统权限要求也高。

03 音视频平台抓屏技术策略选择

首先我们通过一张表格直观了解一下各个抓屏技术的优缺点。

我们的择优顺序是过滤窗口,高帧率,低CPU消耗。

根据上面的择优思路,就形成了一套探测策略,用思维导图来了解一下。

可以看到有几个关键节点的判断:

1. 判断运行平台的Windows系统版本

2. 判断是否能支持D3D运行环境

3. 判断是否支持DXGI运行环境

4. 判断是否开启Aero特效

这些判断保障了我们能选择出最优的抓屏方案。

04 总结

通过本文,我们了解到GDI, DXGI, Magnification AP, Hook D3D等抓屏技术,以及我们的探测策略。

在屏幕共享和程序共享中,唐桥科技的音视频PaaS平台将根据抓屏技术特性来实现最优的抓屏效率和最佳的用户体验。

你可能感兴趣的:(实时音视频平台基于Windows的抓屏技术)