BCD收敛性证明(续)
1 问题回顾
1.1 优化模型:
x∈Rn,y∈RmminΨ(x,y)=deff(x)+g(x)+H(x,y)
1.2问题假设:
- f:Rn→(−∞,+∞],g:Rm→(−∞,+∞] 为适当闭函数, H:Rn×Rm 为定义域上的连续可微函数.
- infRn×RmΨ>−∞,infRmf>−∞,infRmg>−∞
- H 满足 ∇H 在有界集上是联合Lipschitz连续的,即对于任意的有界集 B1×B2⊂Rn×Rm 存在 L>0 使得对于任意的 (xi,yi)∈B1×B2,i=1,2 满足:∥(∇xH(x1,y1)−∇xH(x2,y2),∇yH(x1,y1)−∇yH(x2,y2)∥≤L∥(x1−x2,y1−y2)∥
1.3 迭代过程:
- xk+1∈argminx{f(x)+H(xk;yk)+∇xH(xk;yk)T(x−xk)+2Lx∥x−xk∥2}
- yk+1∈argminy{g(y)+H(xk+1;yk)+∇yH(xk+1;yk)T(y−yk)+2Ly∥y−yk∥2}
(注:此处仅证明固定步长的收敛性)
2 已证明结论
2.1 充分下降:
s.t.ρ1∥zk+1∃ρ1,ρ1>0−zk∥2≤Ψ(zk)−Ψ(zk+1)(1)
2.2 次梯度上界:
假设算法产生的迭代序列{zk}有界,找到另一个常数ρ2,使得次梯度有一个上界估计:
∥wk+1∥≤ρ2∥zk+1−zk∥,wk+1∈∂^Ψ(zk+1)(2)
2.3 子序列收敛性:
定义 ω(z0) 为近似点交替线性化方法从点 z0 出发产生迭代序列的所有极限点集,且 {zk} 是有界序列,则以下结论成立:
-
- ∅=ω(z0)⊂critΨ={z:0∈∂Ψ(z)}
-
- ω(z0) 是非空的连通紧集。
-
- Ψ 在 ω(z0) 上是一个有限常数
-
- {Ψ(zk)} 总是收敛的
3 全序列收敛证明
3.1 K-L性质:
3.1.1 定义:
定义函数族 Φη 是凹连续函数 φ:[0,η)→R+ 的集合,且满足如下条件:
-
- φ(0)=0
-
- φ 在(0,η) 内连续可微,在点 0 处连续
-
- ∀s∈(0,η) 都有φ′(s)>0
设 σ:Rd→(−∞,+∞] 是适当下班连续函数,则称 σ 在点 uˉ∈dom∂σ=def{u∣∂σ(u)=∅} 处具有KL性质,若存在 η∈(0,+∞] 和 uˉ 的一个邻域 U 以及函数 φ∈Φη ,使得 ∀u∈U∩{σ(uˉ)<σ<σ(uˉ)+η} 满足:
φ′(σ(u)−σ(uˉ))⋅dist(0,∂σ(u))≥1
若 σ 在 dom∂σ 上处处满足KL性质,则称 σ 是一个KL函数.
3.1.2性质:
- 若 uˉ∈domσ 不是适当闭函数σ 的临界点,即 0∈/∂σ(uˉ) ,则KL性质在 uˉ 处自然成立.
Proof.
首先证明: ∃c>0 使得如下推导式成立
∥u−uˉ∥2+∥σ(u)−σ(uˉ)∥2<c⇒dist(0,∂σ(u))≥c.
反证法假设存在序列 {ck},ck>0 且 ck→0 ,存在点列 {uk} 使得 uk−uˉ2+σ(uk)−σ(uˉ)2<ck ,但是 dist(0,∂σ(uk))<ck , 也即 ∃wk∈∂σ(uk) 满足 wk2<ck . 由 ∂σ 的闭性以及 uk→uˉ , wk→0 可知, 0∈∂σ(uˉ) . 矛盾.
然后: 取 φ(t)=c−1t,u∈B(uˉ,2c)∩[σ(uˉ)−2c<σ(u)<σ(uˉ)+2c] ,可得 KL 不等式在 uˉ 处成立.
- 若 0∈∂σ(uˉ) ,此时 KL 性质保证了 “函数 σ 可被锐化”. 令 φ(u)=φ(σ(u)−σ(uˉ)) KL 性质在某种条件下可以改写成 dist(0,∂φ(u))≥1 其中 u 的取法需要保证 σ(u)>σ(uˉ) .
3.1.3 特殊的KL函数-半代数函数
定义: 称 Rd 的子集 S 是一个半代数集, 如果存在有限个实多项式函数 gij,hij:Rd→R 使得S=∪j=1p∩i=1q{u∈Rd:gij(u)=0,hij(u)<0} 称函数 h:Rd→(−∞,+∞] 为半代数函数,若 h 的函数图像 {(u,t)∈Rd+1:h(u)=t}
是 Rd+1 的半代数子集.
设 σ(u):Rd→(−∞,+∞) 是下半连续适当函数,若 σ 是半代数函数,则它在dom σ 中任一点处满足KL性质.
常见的半代数函数:
- 多项式实值函数
- 半代数集的指示函数
- 半代数函数的复合
- ⋯
3.1.4 一致KL性质
Lemma1: 设 Ω 是紧集, σ:Rd→(−∞,+∞] 是适当下半连续函数, σ 在 Ω 上为常数且在 Ω 的每个点处都满足KL性质,则存在 ε>0,η>0 , φ∈Φη ,使得对任意 uˉ∈Ω 和所有满足以下条件的 u :{u∈Rd:dist(u,Ω)<ε}∩[σ(uˉ)<σ<σ(uˉ)+η] 有:
φ′(σ(u)−σ(uˉ))dist(0,∂σ(u))≥1.
Proof.
由有限覆盖定理 Rd 上的紧集可以由有限多个开集覆盖. 设 μ 是 σ 在 Ω 上的取值. 由于 Ω 是紧集,根据有限覆盖定理,存在有限多个开球 B(ui,εi) (其中 ui∈Ω,i=1,2,⋯,p ) 使得 Ω⊂i=1⋃pB(ui,εi) .现在考虑这些点 ui . 在点 ui 上KL 性质成立,设 φi:[0,ηi)→R+是对应的重参数化子, 则对任意 u∈B(ui,εi)∩[μ<σ<μ+ηi] ,有逐点的 KL 性质:
φi′(σ(u)−μ)dist(0,∂σ(u))≥1.
取充分小的 ε>0 使得
Uε= def {u∈Rd∣dist(u,Ω)≤ε}⊂i=1⋃pB(ui,εi).
取 η=iminηi ,以及
φ(s)=i=1∑pφi(s)
容易验证 φ∈Φη .
对任意的 u∈Uε∩[μ<σ<μ+η] , u 必定落在某个球 B(ui0,εi0) 中,我们有
φ′(σ(u)−μ)dist(0,∂σ(u))=i∑pφi′(σ(u)−μ)dist(0,∂σ(u))≥φi0′(σ(u)−μ)dist(0,∂σ(u))≥1.
即一致KL 性质成立.
3.2 有限长度性质
设 Ψ 是KL函数, {zk} 是BCD算法产生的点列且满足假设条件, 则一下结论成立:
k=1∑∞zk+1−zk<+∞
Proof.
- 由于 {zk} 是有界序列, 由致密性定理,存在子列 {zkq}→zˉ,q→∞ . 且由子序列收敛结论3, 4知, 对应的函数值列有 k→∞limΨ(zk)=Ψ(zˉ) .
- 下证明只需证明 Ψ(zˉ)<Ψ(zk) 的情况 : 若不然, 由充分下降性不等式 (1) 知, 如果存在 kˉ 使得 Ψ(zkˉ)=Ψ(zˉ) , 于是有zkˉ+1=zkˉ ,且 zk=zkˉ,∀k>kˉ 于是全序列收敛自然成立.
- 由于k→∞limdist(zk,ω(z0))=0 , k→∞limΨ(zk)=Ψ(zˉ) , 于是可知, 对任意的 ε,η>0 ,存在充分大的正整数 l ,使得对任意的 k>l ,
Ψ(zˉ)<Ψ(zk)<Ψ(zˉ)+η,dist(zk,ω(z0))<ε.(3)
- 由子序列收敛性结论2, 3知, 极限点集 ω(z0) 为紧集, Ψ 为下半连续函数, 且满足KL性质, 且Ψ 在 ω(z0) 上是一个有限常数, 于是 Ψ 在 ω(z0) 上满足一致KL性质. 且由 (3) 知, 对于上 ε,η , 当 k>l 时, zk 满足KL性质的前提条件, 即: {u∈Rd:dist(u,ω(z0))<ε}∩[Ψ(uˉ)<Ψ<Ψ(uˉ)+η] . 于是有 φ∈Φη 满足
φ′(Ψ(zk)−Ψ(zˉ))dist(0,∂Ψ(zk))≥1.∀k>l
- 将次梯度上界 (2) 中 wk 记作 (Axk,Ayk) , 于是有:
dist(0,∂Ψ(zk))≤(Axk,Ayk)≤ρ2zk−zk−1.
代入上式可得:
φ′(Ψ(zk)−Ψ(zˉ))≥ρ21zk−zk−1−1(4)
另外,由 φ 的凹性,有
≥φ(Ψ(zk)−Ψ(zˉ))−φ(Ψ(zk+1)−Ψ(zˉ))φ′(Ψ(zk)−Ψ(zˉ))(Ψ(zk)−Ψ(zk+1))(5)
- 定义常数 C=ρ12ρ2>0 ,定义Δp,q=φ(Ψ(zp)−Ψ(zˉ))−φ(Ψ(zq)−Ψ(zˉ)) , 其中p,q 是正整数. 于是将 (4) 代入 (5) 后有:
Δk,k+1≥φ′(Ψ(zk)−Ψ(zˉ))(Ψ(zk)−Ψ(zk+1))≥ρ21∥zk−zk−1∥−1⋅2ρ1∥zk+1−zk∥2=Czk−zk−1zk+1−zk2
等价于:
zk+1−zk≤CΔk,k+1zk−zk−1.
根据基本不等式 2ab≤a+b,∀a,b>0 ,我们取 a=zk−zk−1 ,b=CΔk,k+1 ,则 2zk+1−zk≤zk−zk−1+CΔk,k+1∀k>l
2i=l+1∑kzi+1−zi≤i=l+1∑kzi−zi−1+Ci=l+1∑kΔi,i+1≤i=l+1∑kzi+1−zi+zl+1−zl+CΔl+1,k+1.
最后一个不等式是因为 Δp,q+Δq,r=Δp,r .
i=l+1∑kzi+1−zi≤zl+1−zl+C(φ(Ψ(zl+1)−Ψ(zˉ))−φ(Ψ(zk+1)−Ψ(zˉ)))≤zl+1−zl+Cφ(Ψ(zl+1)−Ψ(zˉ)).(6)
等式右边是有界的数且与 k 无关,由级数收敛的定义立即可得
k=1∑∞zk+1−zk<+∞
3.3 全序列收敛
序列{zk}收敛到Ψ的一个临界点z∗=(x∗,y∗).
Proof.
任取 q>p>l 有:
zq−zp=k=p∑q−1(zk+1−zk)
于是由三角不等式:
zq−zp=k=p∑q−1(zk+1−zk)≤k=p∑q−1zk+1−zk,
而这说明 k=l+1∑∞zk+1−zk 趋于 0 . 因此 {zk} 是一个柯西列,算法产生的迭代序列有全序列收敛性.
收敛速度证明
设 Ψ 是 KL 函数,其中重参数化子为 φ(t)=c⋅t1−θ , θ∈[0,1) ,且满足假设条件,则算法产生的迭代点列 {zk} 收敛到临界点 z∗ 且满足如下性质:
(1) 若 θ=0 ,则 {zk} 有限步收敛到 z∗ ;
(2) 若 θ∈(0,21] ,则 {Φ(zk)}Q -线性收敛到 Φ(z∗) ,且 {zk}R -线性收敛
到 z∗ ;
(3) 若 θ∈(21,1) ,则存在 ω>0 使得 zk−z∗≤ωk−2θ−11−θ ,即 {zk}R -次线性收敛到 z∗
Proof.
- 对任意 k≥0 ,令 Δk=p=k∑∞zp+1−zp ,已证明它是有限数, 由三角不等式有 Δk≥zk−z∗ ,因此要证明(2) 和(3) 只需证明 Δk 有对应的上界.
- 不失一般性,假设对任意 k≥0 都有 Δk>0 . 根据KL不等式和次梯度上界, 我们有
φ′(Ψ(zk)−Ψ(z∗))≥dist(0,∂Ψ(zk))1≥ρ2zk−zk−11
将 φ(t)=c⋅t1−θ 代入上式有
(Ψ(zk)−Ψ(z∗))θc(1−θ)≥ρ2zk−zk−11(7)
整理可得
Ψ(zk)−Ψ(z∗)≤(c(1−θ)ρ2zk−zk−1)θ1(8)
- 把式 (8) 代入式 (6) 中, 对于充分大的 k 有:
Δk≤zk−zk−1+Cφ(Ψ(zk)−Ψ(z∗))=Δk−1−Δk+C⋅c(Ψ(zk)−Ψ(z∗))1−θ≤Δk−1−Δk+Cc(c(1−θ)ρ2∥zk−zk−1∥)θ1−θ=Δk−1−Δk+Cc(c(1−θ)ρ2)θ1−θ(Δk−1−Δk)θ1−θ.(9)
- 考虑 θ∈(21,1) ,则 θ1−θ<1 ,又因为当 k→∞ 时 Δk→0 , 于是可得: (Δk−1−Δk)θ1−θ≥Δk−1−Δk ,由上述不等式我们可知存在正整数 N1 和正常数 C1 使得
Δk1−θθ≤C1(Δk−1−Δk),∀k≥N1.
定义 h:(0,+∞)→R,h(t)=t−1−θθ ,令 R∈(1,+∞) . 对 k≥N1 ,
情形1:若 h(Δk)≤Rh(Δk−1) . 上面的不等式可以写为
1≤Δk1−θθC1(Δk−1−Δk)
因此由 h(t) 单调递减知:
1≤C1(Δk−1−Δk)h(Δk)≤RC1(Δk−1−Δk)h(Δk−1)≤RC1∫ΔkΔk−1h(t)dt≤RC11−2θ1−θ[Δk−11−θ1−2θ−Δk1−θ1−2θ]
因此如果令 μ=(1−θ)RC12θ−1>0,ν=1−θ1−2θ<0 我们有 0<μ≤Δkν−Δk−1ν .
情形二:若 h(Δk)>Rh(Δk−1) . 令 q=(R1)θ1−θ∈(0,1) ,则 Δk≤qΔk−1 ,再根据 ν<0 我们有:
ΔkνΔkν−Δk−1ν≥qνΔk−1ν≥(qν−1)Δk−1ν.
由于 qν−1>0 且当 p→+∞ 时 Δp→0+ ,于是 (qν−1)Δp−1ν 单增, 所以存在 μˉ>0 有 (qν−1)Δp−1ν>μˉ,∀p≥N1 . 即我们有
Δkν−Δk−1ν≥μˉ>0
综上所述,若令 μ=min{μ,μˉ}>0 ,则 Δkν−Δk−1ν≥μ>0,∀k≥N1
通过将上述不等式从 N1 加到比 N>N1 我们可以得到 ΔNν−ΔN1ν≥μ(N−N1)>0 因此,存在 ω>0 使得
ΔN≤[ΔN1ν+μ(N−N1)]ν1≤ωN−2θ−11−θ
即结论(3) 成立.
- 考虑 θ∈(0,21] ,此时 θ1−θ≥1 , 又Δk→0 于是可得, 对于充分大的 k 有: (Δk−1−Δk)θ1−θ≤Δk−1−Δk ,由不等式 (9) 知此时 ,存在正常数 C2>0 使得
Δk≤C2(Δk−1−Δk)
整理可得 Δk≤1+C2C2Δk−1 ,再根据证明开始时我们得到的 Δk≥zk−z∗ 有
zk−z∗≤Δk≤1+C2C2Δk−1≤⋯≤(1+C2C2)kΔ0,
即 {zk}R -线性收敛到 z∗ .
结合不等式 (8) 整理可得:
zk−zk−12≥(c(1−θ)ρ2)2(Ψ(zk)−Ψ(z∗))2θ.
再根据充分下降性 (2) 知存在 C3>0 使得对充分大的 k 有
Ψ(zk+1)−Ψ(zk)≤−2ρ1zk+1−zk2≤−2ρ1(c(1−θ)ρ2)2(Ψ(zk+1)−Ψ(z∗))2θ≤−2ρ1(c(1−θ)ρ2)2(Ψ(zk+1)−Ψ(z∗))(θ∈(0,1/2])=−C3(Ψ(zk+1)−Ψ(z∗)).
整理可得:
Ψ(zk+1)−Ψ(z∗)≤1+C31(Ψ(zk)−Ψ(z∗))
即 {Φ(zk)} Q-线性收敛到 Φ(z∗) . 综上可知结论(2)成立.
- 考虑 θ=0 ,令 I:={k∈N:zk+1=zk} ,取 k 充分大,在(7)代λθ=0 得
zk−zk−1≥cρ21>0
再由充分下降性得:
Ψ(zk+1)≤Ψ(zk)−2ρ1zk+1−zk2≤Ψ(zk)−2c2ρ22ρ1.
若 I 是无限集,则上式两端令 k→∞ 得 0<−2c2ρ22ρ1 ,矛盾. 故 I 为有限集, 因此结论(1)成立.