rtsp服务器性能测试工具,RTSP性能优化 · ZLMediaKit/ZLMediaKit Wiki · GitHub

提示

最新的性能参数,请参考 #406

GB28181的推流性能测试,请参考:#961

概述

在最近ZLMediaKit的一次提交中,我对rtsp服务器的性能做了一次改进,本次改进中,核心的思想是:

缓存时间戳相同的RTP包(意味着是同一帧数据),作为一个数据包进行分发。

理论上,这样做可以大大减少多线程分发时线程切换次数、多余发送逻辑代码的执行以及系统调用次数,预期在不增加播放延时的情况下能大幅提高rtsp服务器的性能.

测试

为了验证本次优化的预期目标,我在linux服务器上做了一系列的测试对比,以下是测试环境:

操作系统:ubuntu16 desktop 64bit

cpu: 4核心的Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz

编译器:gcc 5.4.0,开启Release编译(cmake -DCMAKE_BUILD_TYPE=Release)

malloc库:连接jemalloc

网络: 127.0.0.1本地循环网络

测试码流:4K H264的RTSP流,通过MP4 Rtsp点播实现,文件200秒,190MB,码流大概8Mb/s

测试方法:通过test_benchmark播放500路RTSP 4K点播,总码流大概4Gb/s,分别测试新老版本的MediaServer的进程。

测试数据

启动的播放器个数:

实时码流:

性能对比

老版本数据

cpu使用率(浮动比较大,最高200%+):

性能分析(perf top):

总结 : cpu占用主要发生在内核态的系统调用(syscall)、tcp_sendmsg、内存拷贝。

新版本数据:

cpu使用率(浮动比较小,50%以下):

后面我又测试了2000个播放器,掉了一批,最后稳定在1800个左右,实时流量17.5Gb/s(单向)左右,cpu占用300%左右:

rtsp服务器性能测试工具,RTSP性能优化 · ZLMediaKit/ZLMediaKit Wiki · GitHub_第1张图片

性能分析(perf top):

总结 : cpu占用主要发生在内核态内存拷贝,系统调用(syscall)、tcp_sendmsg的开销很小。

总结

本次性能测试基本证明了预想,性能提升大概有4倍以上。

本机器为i7-4790 4核心8线程的,所以cpu占用率最高为800%,现在ZLMediaKit在上面支撑500个4K RTSP播放器,实时流量大概4Gb/s时cpu使用率50%不到,通过简单换算,该cpu可以支撑大概8000个4K RTSP播放器,实时流量最高能达到64Gb/s,考虑到性能折损,我们保守估计可以支持6000个4K RTSP播放器,50Gb/s的流量。

最后

在ZLMediaKit流媒体服务器中,通过智能指针引用计数的方式实现了多线程的数据分发,不管分发多少次,数据拷贝次数都是固定的,所以ZLMediaKit可以达到如此夸张的性能参数,但是在测试中,我们也能发现,性能占用已经大部分发生在内核态了,应用层的cpu占用反而不是瓶颈了。这是因为在内核态,写socket缓存需要做内存拷贝,随着播放器个数的增加,内存拷贝会越来越多,此时性能瓶颈不再是应用层,而是由于内存带宽瓶颈导致的内核性能瓶颈。

你可能感兴趣的:(rtsp服务器性能测试工具)