Q-learning与svc视频流多径传输

 我遇到这篇文章,在这里做个记录,怕以后忘记了。
 [1]是硕士论文,其主要思想被总结到小论文[2]。[2]中主要研究的svc视频流的层数选择在SDN网络中的多路径传输,它被建模成一个离散的马尔科夫决策过程(MDP)。MDP里面主要有四个元素,状态空间(S),行动空间(A),状态转移概率(p),奖励(r)。优化目标是在相应的状态上,采取一个行动,使其期望收益最大。可以使用数学公式描述。
maxmize  Vπ(s)=Eπs[t=1λt1r(st,at)](1) (1) m a x m i z e     V π ( s ) = E s π [ ∑ t = 1 ∞ λ t − 1 r ( s t , a t ) ]
where λ λ is a discount factor.
 行动空间被定义为 a(a(1),a(2),...a(M)) a ≜ ( a ( 1 ) , a ( 2 ) , . . . a ( M ) ) ,M表示svc视频流总共为M层, am=n a m = n 表示第M层视频流通过路径n传输。不同的视频层可以走同一条路径。
 状态空间和奖励函数的定义参看原文。
 但是状态转移概率位置,作者采用Q-learning的策略对原问题进行求解。不是太懂,但是给我的感觉就是a tradeoff between exploration and exploitation。在开始阶段,对网络状态进行试探,获取相应的知识,之后以一定的概率( ϵ ϵ )对现有的知识进行利用,并以( 1ϵ 1 − ϵ )对新的状态进行探索。
 需要说明的是,在这论文设定的SDN网络场景中,控制器可以获取链路状态,可以设置链路的路由策略以及丢包策略。
[1]sdn网络中svc视频传输层数与路径的联合决策
[2]Yue Y, Ran Y, Chen S, et al. Joint Routing and Layer Selecting for Scalable Video Transmission in SDN[C]//Globecom Workshops (GC Wkshps), 2015 IEEE. IEEE, 2015: 1-6.

你可能感兴趣的:(计算机网络,多径传输,Q-learning)