因为想申请 CSDN 博客认证需要一定的粉丝量,而我写了五年博客才 700 多粉丝,本文开启关注才可阅读全文,很抱歉影响您的阅读体验
空间
:任给一个非空集合 X X X,称之为空间
集合
: X X X 的子集称为集合,用大写字母 A , B , C . . . A,B,C... A,B,C... 表示
元素
: X X X 的成员称为元素,用小写字母 x , y , z . . . x,y,z... x,y,z... 表示,元素可以被某个集合包含,如 x ∈ A x\in A x∈A
集合系
:以空间 X X X 中一些集合为元素组成的集合称为 X X X 上的集合系,用花体字母 A , B , C . . . \mathscr{A,B,C...} A,B,C... 表示
σ域/σ代数
:一种特殊的集合系 F \mathscr{F} F,满足以下性质
就是说 σ \sigma σ 域上的集合关于集合的补和并封闭,是一种要求很强的集合系,下图表现了不同集合系从宽松到严格的顺序
我们最关注 σ \sigma σ 域,因为其性质允许我们建立测度
可测空间
:非空集合 X X X 和其上的一个 σ \sigma σ 域放在一起组成可测空间 ( X , F ) (X,\mathscr{F}) (X,F)
生成σ域
:由集合系 E \mathscr{E} E 生成的 σ σ σ 域 S \mathscr{S} S,是包含 E \mathscr{E} E 的最小的 σ \sigma σ 域,满足
这种由集合系生成的 σ \sigma σ 域记作 σ ( E ) \sigma(\mathscr{E}) σ(E)
映射
:设 X X X 和 Y Y Y 是任意给定的集合,若对每个 x ∈ X x\in X x∈X,存在唯一的 f ( x ) ∈ Y f(x)\in Y f(x)∈Y 与之对应, 则称 f f f 是从 X X X 到 Y Y Y 的映射
原像
: ∀ B ∈ Y \forall B\in Y ∀B∈Y 集合 B B B 在映射 f f f 下的原像为
f − 1 B : = { x : f ( x ) ∈ B } f^{-1}B := \{x:f(x)\in B\} f−1B:={x:f(x)∈B} ∀ E ∈ Y \forall \mathscr{E}\in Y ∀E∈Y,集合系 E \mathscr{E} E 在映射 f f f 下的原像为其包含所有集合的原像的集合
f − 1 E : = { f − 1 B : B ∈ F } f^{-1}\mathscr{E} := \{f^{-1}B:B\in \mathscr{F}\} f−1E:={f−1B:B∈F} 可证明 Y Y Y 上的任何集合系 E \mathscr{E} E 有 σ ( f − 1 E ) = f − 1 σ ( E ) \sigma(f^{-1}\mathscr{E} )=f^{-1}\sigma(\mathscr{E}) σ(f−1E)=f−1σ(E)
可测映射/随机元
& 使映射可测的最小σ域
:给定可测空间 ( X , F ) (X,\mathscr{F}) (X,F) 到 ( Y , S ) (Y,\mathscr{S}) (Y,S) 以及 X X X 到 Y Y Y 的映射 f f f,若
f − 1 S ⊂ F f^{-1} \mathscr{S}\subset \mathscr{F} f−1S⊂F 则称 f f f 为从 ( X , F ) (X,\mathscr{F}) (X,F) 到 ( Y , S ) (Y,\mathscr{S}) (Y,S) 的可测映射或随机元; σ ( f ) : = f − 1 S \sigma(f):=f^{-1}\mathscr{S} σ(f):=f−1S 叫做使映射 f f f 可测的最小 σ \sigma σ 域。这个东西的意义在于,假设我们在 ( X , F ) (X,\mathscr{F}) (X,F) 上面定义了一个测度(比如集合的大小),那么对于 ( Y , S ) (Y,\mathscr{S}) (Y,S) 中的任意元素 y ∈ S y\in \mathscr{S} y∈S,都能通过 f f f 找到其在 F \mathscr{F} F 上的原像,从而得到其对应的在 ( X , F ) (X,\mathscr{F}) (X,F) 上的测度值
广义实数集
R ˉ : = R ∪ { − ∞ , + ∞ } \bar{R} := R \cup \{-\infin,+\infin\} Rˉ:=R∪{−∞,+∞},并且从普通实数集生成其对应的 σ \sigma σ 域 B R ˉ : = σ ( B R , { − ∞ , + ∞ } ) \mathscr{B}_{\bar{R}}:=\sigma(\mathscr{B}_R,\{-\infin,+\infin\}) BRˉ:=σ(BR,{−∞,+∞})(这个准确说叫 Borel 系)
可测函数
& 有限可测函数/随机变量
:从可测空间 ( X , F ) (X,\mathscr{F}) (X,F) 到 ( R ˉ , B R ˉ ) (\bar{R},\mathscr{B}_{\bar{R}}) (Rˉ,BRˉ) 的可测映射称为 ( X , F ) (X,\mathscr{F}) (X,F) 上的可测函数;特别的,从可测空间 ( X , F ) (X,\mathscr{F}) (X,F) 到 ( R , B R ) (R,\mathscr{B}_R) (R,BR) 的可测映射称为 ( X , F ) (X,\mathscr{F}) (X,F) 上的有限可测函数/随机变量。这个的意义在于把集合系上的抽象元素映射成实数了,这样就方便我们使用高数工具进行操作,这有点像矩阵论中把向量空间中一个向量转换为它在一组基下的对应的数的坐标
非负集函数
:给定空间 X X X 上的集合系 E \mathscr{E} E,定义在 E \mathscr{E} E 上,取值于 [ 0 , ∞ ] [0,\infin] [0,∞] 的函数称为非负集函数,记为 μ , ν , τ . . . \mu,\nu,\tau... μ,ν,τ...
可列可加性
:设 μ \mu μ 是 E \mathscr{E} E 上的非负集函数,若对于任意可列个两两不交的集合 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An, 只要 ⋃ n = 1 ∞ A n ∈ E \bigcup_{n=1}^\infin A_n\in \mathscr{E} ⋃n=1∞An∈E,就一定有
μ ( ⋃ n = 1 ∞ A n ) = ∑ n = 1 ∞ μ ( A n ) \mu(\bigcup_{n=1}^\infin A_n) = \sum_{n=1}^\infin \mu(A_n) μ(n=1⋃∞An)=n=1∑∞μ(An) 则称 μ \mu μ 具有可列可加性。举例来说,面积作为一种测度具有可列可加性,可以看作上式的 μ \mu μ,当我们要测量一个不规则图形面积时,可以用矩形不断对其进行分割,并且用越来越小的矩形去逼近边缘,最后把所有画出的矩形面积求和得到估计值
测度
:设 E \mathscr{E} E 是 X X X 上的集合系且 ∅ ∉ E \empty \notin \mathscr{E} ∅∈/E,若 E \mathscr{E} E 上的非负集函数 μ \mu μ 有可列可加性且满足 μ ( ∅ ) = 0 \mu(\empty)=0 μ(∅)=0,则称之为 E \mathscr{E} E 上的测度
测度是有限的
;测度是σ有限的
测度空间
:虽然前面在很一般的角度上定义了测度,但我们的主要目标还是讨论由 X X X 的子集生成的某个 σ \sigma σ 域 F \mathscr{F} F 上的测度。我们把空间 X X X,加上由其子集生成的某个 σ \sigma σ 域 F \mathscr{F} F,再加上 F \mathscr{F} F 上的一个测度 μ \mu μ,三者组成的 ( X , F , μ ) (X,\mathscr{F},\mu) (X,F,μ) 称为测度空间
如果测度空间 ( X , F , P ) (X,\mathscr{F},P) (X,F,P) 满足 P ( X ) = 1 P(X)=1 P(X)=1,则称它为
概率空间
,对应的 P P P 称为概率测度
, F \mathscr{F} F 中的集合 A A A 称为事件
,而 P ( A ) P(A) P(A) 称为事件 A A A 发生的概率
Lp空间
:设 ( X , F , μ ) (X,\mathscr{F},\mu) (X,F,μ) 是测度空间且 1 ≤ p < ∞ 1\leq p<\infin 1≤p<∞,用 L p ( X , F , μ ) L_p(X,\mathscr{F},\mu) Lp(X,F,μ) 表示 ( X , F , μ ) (X,\mathscr{F},\mu) (X,F,μ) 上全体模 p p p 阶可积的可测函数 f f f 的集合,即满足
∫ X ∣ f ∣ p d μ < ∞ \int_X|f|^p d\mu<\infin ∫X∣f∣pdμ<∞ 由于只考虑给定测度空间上的集合,故 L p ( X , F , μ ) L_p(X,\mathscr{F},\mu) Lp(X,F,μ) 简记为 L p L_p Lp,其本质是一个赋范向量空间,具有以下性质
对空间中元素(即映射 f f f)定义了范数:范数是从指定空间到实属的映射关系,具有非负性、其次性并满足三角不等式,引入范数意味着空间具有了长度与距离的概念
具有完备性:这个概念比较绕,我们和欧拉空间做类比
粗略但是直观的说,完备是指空间中没有任何遗漏的点。而想要理解 “没有遗漏的点” 这个概念需要用到距离,一个空间需要定义距离,完备才变得有意义。从实数空间入手,我们说实数空间 R 是完备的,在实数空间中,距离的定义是两元素差的绝对值,可以想想看,任何一个点在与它距离趋近为0的地方都存在一个点并且这个点是在实数空间中的,因此我们说实数空间是完备的
完备性的具体定义需要借助柯西序列,请参考 机器学习的数学基础(2):赋范空间、内积空间、完备空间与希尔伯特空间
L p L^p Lp 空间又称 Lebesgue空间
,其中的函数 f f f 都是 Lebesgue可积的
,这里可参考 泛函分析笔记(八)Banach 空间中的lp空间和Lebesgue空间 (勒贝格空间)
说白了就是空间中一些具有特殊性质的测度的集合
收缩映射 Contraction Mapping
:收缩映射 T : L p → L p T:L^p \to L^p T:Lp→Lp 是定义在 L p L_p Lp 空间上的映射,满足 ∀ f , g ∈ T p \forall f,g\in T^p ∀f,g∈Tp 有
∣ ∣ T ( f ) − T ( g ) ∣ ∣ ρ ≤ c ∣ ∣ f − g ∣ ∣ ρ , ( 0 ≤ c < 1 ) ||T(f)-T(g)||_\rho \leq c ||f-g||_\rho, \space\space\space (0\leq c<1) ∣∣T(f)−T(g)∣∣ρ≤c∣∣f−g∣∣ρ, (0≤c<1) 其中 ∣ ∣ ⋅ ∣ ∣ ρ ||·||_\rho ∣∣⋅∣∣ρ 是 ρ \rho ρ-范数,可以把它看作一种距离度量,也就是说原先的两个可测函数 f , g f,g f,g 经过收缩映射后距离减小了
如果其中 T T T 是微分算子,则称压缩映射 T T T 是满足 Lipschitz 条件的映射
收缩映射定理
:若 T T T 是 L p L^p Lp 空间上的收缩映射,则方程
( T − I ) ( f ) = 0 ⇔ T ( f ) = f (T-I)(f)=0 \Leftrightarrow T(f) = f (T−I)(f)=0⇔T(f)=f 在 L p L^p Lp 空间内仅有一个 f f f 解,称之为 L p L^p Lp 内 T T T 的 不动点
。注意到若 T T T 是微分算子,则上式为一个常微分方程,因此收缩映射定理常用于证明常微分方程解的存在性和唯一性。从几何意义上看, T T T 将 f f f 映射回自身
压缩映射原理的证明思路如下:
详细证明流程可以参考 压缩映射不动点定理
注意:以下分析是基于 model-based 情况的,即状态转移矩阵和奖励函数已知。对于 model-free 情况(使用 TD 方法)收敛性仍然成立,但要求估计更新步长满足随机近似条件
本段参考:CS294-112 at UC Berkeley
当使用函数近似法估计价值时,往往不会收敛,本节以 DQN 类算法中的价值网络为例进行分析,该类价值网络基于 Bellman optimal equation 进行优化,其损失函数设计为 TD error 的 L2 损失,通过优化该损失减小 TD error,使价值估计靠近 TD target。关于 DQN 论文的详解,请参考:论文理解【RL经典】 —— 【DQN】Human-level control through deep reinforcement learning
注意:以下分析是基于 model-free 情况的
现在我们要优化以 ϕ \phi ϕ 参数化的 DQN 类价值网络 V ϕ V_\phi Vϕ ,其训练过程可以看做反复执行以下两步
综上所述,DQN 类算法中的价值网络,其训练过程可以看做使用 Π B ∗ \Pi\mathcal{B}^* ΠB∗ 算子进行反复迭代,即
V ← Π B ∗ V V\leftarrow \Pi\mathcal{B^*}V V←ΠB∗V
接下来考虑函数近似模型的表示能力,我们知道目前最强的函数近似工具,也就是神经网络,在参数量无穷的情况下可以近似任意函数,这时 Ω \Omega Ω 空间是无限大的;但当参数有限时,无论使用什么模型,都只能表示有限大小的假设空间 Ω \Omega Ω,不妨使用二维空间中的一条直线来表示 Ω \Omega Ω,则使用 Π B ∗ \Pi\mathcal{B}^* ΠB∗ 算子的一步更新可以表示如下
观察一下发生了什么
再考察一下这里的两个算子 B ∗ \mathcal{B}^* B∗ 和 Π \Pi Π
两个算子单独看都能得到压缩映射,性质都很好,但是一旦把它们组合起来, Π B ∗ \Pi\mathcal{B}^* ΠB∗ 不能关于任何范数成为压缩映射,这意味着迭代过程中,两个算子都会在各自的距离度量上将 f , g f,g f,g 拉近,但同时很可能会在对方的距离度量上将 f , g f,g f,g 推远,收敛性无法保证。举例来说,如下图所示,目标位置是星星处,一次迭代后得到的价值估计反而离目标更远了