约束优化一阶最优性条件
优化模型
minf(x)s.t.gi(x)≥0,i=1,2,⋯,mhj(x)=0x∈Rn
可行域 (集): S={x∈Rngi(x)≥0,hj(x)=0,i=1,2,⋯,mj=1,2,⋯,l}
不等式约束的KKT条件
- 下降方向与可行方向:
可行方向锥: D={d∣d=0,∃δ>0,∀λ∈(0,δ) ,有 x+λd∈S}
下降方向锥: F0={d∇f(xˉ)Td<0}
- 几何最优性条件:
局部最优解处不存在可行且下降的方向
设考虑约束优化问题 x∈Sminf(x) ,其中 S⊂Rn 为非空集合, xˉ∈S . f 在 x 处可微. 若 x 是该问题的一个局部最优解,则 D∩F0=∅ .
Proof.
反证法. 假设存在 d∈F0∩D ,则 d∈F0,d∈D .
∵d∈F0,∴∃δ1>0 ,对 ∀λ∈(0,δ1) ,有 f(xˉ+λd)<f(xˉ) ;
∵d∈D,∴∃δ2>0 ,对 ∀λ∈(0,δ2) ,有 xˉ+λd∈S .
取 δ=min(δ1,δ2) ,则当 λ∈(0,δ) ,有 xˉ+λd∈S 且 f(xˉ+λd)<f(xˉ) , 与 xˉ 为局部最优解矛盾.
- 几何最优性条件的化简:
用局部约束方向锥描述可行方向锥
xˉ∈S ,记 I:={i∣gi(xˉ)=0},G0={d∇gi(xˉ)Td>0,i∈I} 称 G0 为 S 在点 xˉ 处的局部约束方向锥 (或内方向锥).
其中 I 称为积极约束指标集.
于是以上几何约束条件可简化为: 设 xˉ∈S,f(x) 和 gi(x)(i∈I) 在 xˉ 处可微, gi(x)(i∈/I) 在 xˉ 处连续,如果 xˉ 是局部最优解,则 F0∩G0=∅ .
- FJ条件
将交集为空视为不等式联立无解
设 xˉ∈S,I={i∣gi(xˉ)=0},f(x),gi(x)(i∈I) 在 xˉ 处可微, gi(x)(i∈/I) 在 xˉ 处连续,若 xˉ 是局部最优解,则存在不全为零的数 w0,wi(i∈I) ,使得
{w0∇f(xˉ)−i∈I∑wi∇gi(xˉ)=0w0,wi≥0,i∈I.
也可写作:
⎩⎨⎧w0∇f(xˉ)−i=1∑mwi∇gi(xˉ)=0wigi(x)=0,i=1,2,⋯,mw0,wi≥0,i=1,2,⋯,m
Proof.
由几何最优性条件和Gordan定理直接可得.
Gordan定理: 设 A 为 m×n 矩阵,那么 Ax<0 有解的充要条件是不存在非零向量 y≥0 ,使得 ATy=0 .
- KKT条件
通过线性无关保证目标函数信息得到反映
考虑问题 {minf(x) s.t. gi(x)≥0,i=1,⋯,m 设 xˉ∈S,f,gi(i∈I) 在 xˉ 处可微,
gi(i∈/I) 在 xˉ 连续, {∇gi(xˉ)∣i∈I} 线性无关,若 xˉ 是局部最优解,则存在非负数 wi,i∈I ,使得
∇f(xˉ)−i∈I∑wi∇gi(xˉ)=0.
其中{∇gi(xˉ)∣i∈I} 线性无关称为约束规格 (Constraint Qualification)
也可写作:
⎩⎨⎧∇f(xˉ)−i=1∑mwi∇gi(xˉ)=0wigi(xˉ)=0i=1,2,⋯,mwi≥0i=1,2,⋯,m.
Proof.
由FJ条件存在不全为零的非负数 w0,wi′,i∈I ,使得
w0∇f(xˉ)−i∈I∑wi′∇gi(xˉ)=0.
显然 w0=0 ,否则 ∇gi(xˉ)(i∈I) 线性相关,矛盾。
于是,令 wi=w0wi′≥0(i∈I) ,得
∇f(xˉ)−i∈I∑wi∇gi(xˉ)=0.
等式约束的最优性条件
曲面与曲线: 称点集 C={x=x(t)∣t0≤t≤t1} 为曲面 S={x∣h(x)=0}上的一条曲线,如果对所有 t∈[t0,t1] 均有 h(x(t))=0 .如果导数 x′(t)=dtdx(t) 存在,则称曲线是可微的. 此时的一阶导数 x′(t) 是曲线在点 x(t) 处的切向量.
切平面: 曲面 S 上在点 x 处所有可微曲线的切向量组成的集合称为曲面 S 在点 x 的切平面,记为 T(x) .
子空间: H(x):={d∣∇h(x)Td=0} 其中 ∇h(x)=(∇h1(x),⋯,∇hl(x))
性质 :
- 设 xˉ 是约束集合 S={x∈Rn∣h(x)=0} 上的点, T(xˉ) 为 S 在 xˉ 处的切平面, H(xˉ) 为相应的线性化可行方向集,则有T(xˉ)⊆H(xˉ) ,即若向量 d∈T(xˉ) ,则有 ∇h(xˉ)Td=0 .
- 设 xˉ∈S={x∣h(x)=0} 且 {∇h1(xˉ),⋯,∇hl(xˉ)} 线性无关,则 T(xˉ)=H(xˉ) .
Proof.
设 d∈H(xˉ) ,考虑非线性方程组 h(xˉ+td+∇h(xˉ)y)=0 其中 t∈R1,y∈Rl . 该方程组有解 (y,t)=(0,0) .在 t=0 处, h 关于 y 的Jacobi矩阵为 ∇h(xˉ)T∇h(xˉ)
由隐函数定理,在 t=0 的邻域,存在连续可微函数 y=y(t)(y(0)=0) ,使 h(xˉ+td+∇h(xˉ)y(t))=0 成立. 令 x(t)=xˉ+td+∇h(xˉ)y(t) ,则 x(t) 为曲面 S 上过 x(0) 的一条曲线。在点 x(0)=xˉ ,切向量为 x′(0)=d+∇h(xˉ)y′(0) 又 ∇h(x)Td+∇h(x)T∇h(x)y′(0)=0 而 d∈H(xˉ)⇒∇h(xˉ)Td=0 ,又 ∵{∇h1(xˉ),⋯,∇hl(xˉ)} 线性无关
∴∇h(xˉ)T∇h(xˉ) 可逆, ⇒y′(0)=0⇒x′(0)=d⇒d∈T(xˉ) .
- 几何最优性条件
设 xˉ∈S,f(x) 和 gi(x)(i∈I) 在 xˉ 处可微, gi(x)(i∈/I) 在 xˉ 处连续,
hj(j=1,2,⋯,l) 在 xˉ 处连续可微,且 {∇h1(xˉ),⋯,∇hl(xˉ)} 线性无关。如果 xˉ 是问题 (NP) 的局部最优解,则在 xˉ 处,有
F0∩G0∩H0=∅,
其中
F0G0H0={d∣∇f(xˉ)Td<0}={d∣∇gi(xˉ)Td>0,i∈I}={d∣∇hj(xˉ)Td=0,j=1,2,⋯,l}.
- KKT条件
考虑问题 ⎩⎨⎧minf(x) s.t. gi(x)≥0,i=1,⋯,mhj(x)=0,j=1,⋯,l
设 xˉ 为可行点, I={i∣gi(xˉ)=0} . f,gi(i∈I) 在 xˉ 处可微, gi(i∈/I) 在 xˉ 连续, hj(j=1,⋯,l) 在 xˉ 连续可微,向量集{∇gi(xˉ),∇hj(xˉ)∣i∈I,j=1,⋯,l}
线性无关(即LICQ成立),若 xˉ 是局部最优解,则存在数 wi,i∈I 和 vj(j=1,⋯,l) ,使得
∇f(xˉ)−i∈I∑wi∇gi(xˉ)−j=1∑lvj∇hj(xˉ)=0.wi≥0(i∈I).
L(x,w,v)=f(x)−i=1∑mwigi(x)−j=1∑lvjhj(x)=f(x)−wTg(x)−vTh(x)
其中 w=(w1,w2,⋯,wm)T∈R+m,v=(v1,v2,⋯,vl)T∈Rl 称为Lagrange乘子.
于是, KKT条件可以改写为:
⎩⎨⎧∇xL(x,w,v)wigi(x)gi(x)hj(x)wi=0=0,i=1,2,⋯,m≥0,i=1,2,⋯,m=0,j=1,2,⋯,l≥0,i=1,2,⋯,m
凸优化问题中的KKT条件
凸优化模型
minf(x)s.t.x∈Ω:={x∈Rngi(x)≥0,i=1,⋯,mhj(x)=0,j=1,⋯,l}
若 f(x) 是凸函数, gi(x)(i=1,⋯,m) 是凹函数, hi(x)(j=1,⋯,l) 是线性函数,则原问题为凸规划.
性质
Proof.
设 x∗ 为凸优化局部最优解,则存在 δ>0 ,对任意 x∈N(x∗,δ)∩Ω 都有 f(x∗)≤f(x) .
反证法. 假设 x∗ 不是全局最优解,则存在 xˉ∈Ω ,使得 f(xˉ)<f(x∗) 考虑线段 [xˉ,x∗] 上一点 y:=λxˉ+(1−λ)x∗,λ∈(0,1) ,由凸函数定义: f(y)≤λf(xˉ)+(1−λ)f(x∗)<λf(x∗)+(1−λ)f(x∗)=f(x∗) 当 λ 充分小时, y∈N(x∗,δ)∩Ω 且 f(y)<f(x∗) , 这与 x∗ 为局部最优解矛盾. 证毕
- 于是, 凸优化的最优解集为凸集
- 由严格凸的定义知, 严格凸函数若最优解存在则唯一
- 凸优化的全局最优解与稳定点等价
Def.
称 x∗ 为约束优化问题 min{f(x):x∈Ω} 的稳定点,若满足 ⟨∇f(x∗),x−x∗⟩≥0,∀x∈Ω .
Proof.
⇐ 若 x∗ 为稳定点,即对任意 x∈Ω,⟨∇f(x∗),x−x∗⟩≥0 .利用凸函数的性质得
f(x)≥f(x∗)+⟨∇f(x∗),x−x∗⟩≥f(x∗)
因而 x∗ 为全局最优解.
⇒ 设 x∗ 为凸优化问题的全局最优解,由一阶最优性条件可知,在 x∗ 处不存在可行且使得目标函数下降的方向。注意到,由 Ω 的凸性可知 ∀x∈Ω,∀λ∈(0,1) ,
x∗+λ(x−x∗)=λx+(1−λ)x∗∈Ω
因此, x−x∗ 是 x∗ 处的可行方向. 从而 ⟨∇f(x∗),x−x∗⟩≥0,∀x∈Ω ,即 x∗ 为稳定点. 证毕 (注: 该性质对任意解集为非空闭凸集的优化模型均成立)
- 若( x∗ , λ∗ , μ∗ )是凸优化的KKT点对, 则( x∗ , λ∗ , μ∗ )为Lagrange函数的鞍点; 若( x∗ , λ∗ , μ∗ )是优化问题Lagrange函数的鞍点,则( x∗ , λ∗ , μ∗ )为KKT点对
Def.
称 (x∗,λ∗,μ∗)∈Rn×R∣E∣×R+∣I∣ 为约束优化问题
xmin{f(x):hi(x)=0,i∈E;gi(x)≥0,i∈I}
的Lagrange函数 L(x,λ,μ) 的鞍点,若 ∀(x,λ,μ)∈Rn×R∣E∣×R+∣I∣ 有
L(x∗,λ,μ)≤L(x∗,λ∗,μ∗)≤L(x,λ∗,μ∗).
Proof.
结论1: 先证 x∗∈x∈RnargminL(x,λ∗,μ∗) 由 L(x,λ∗,μ∗)=f(x)−i∈E∑λi∗hi(x)−i∈I∑μi∗gi(x) 关于 x∈Rn 为凸函数
L(x,λ∗,μ∗)≥L(x∗,λ∗,μ∗)+(x−x∗)TVxL(x∗,λ∗,μ∗)=L(x∗,λ∗,μ∗)
再证 (λ∗,μ∗)∈λ∈R∣ε∣,μ∈R+∣I∣argminL(x∗,λ,μ) .
L(x∗,λ,μ)−L(x∗,λ∗,μ∗)=−i∈ε∑λihi(x∗)−i∈I∑μigi(x∗)+i∈ε∑λi∗hi(x∗)+i∈I∑μi∗gi(x∗)=−∑μigi(x∗)≤0 对任意 λ∈R∣E∣,μ∈R+∣I∣
结论2: 由 x∗∈x∈RnargminL(x,λ∗,μ∗)⇒∇xL(x∗,λ∗,μ∗)=0 由
(λ∗,μ∗)∈λ∈R∣E∣,μ∈R+∣I∣argmaxL(x∗,λ,μ)=f(x∗)−i∈E∑λihi(x∗)−i∈I∑μigi(x∗)
知: hi(x∗)=0,i∈E;gi(x∗)≥0,μi∗≥0,μi∗gi(x∗)=0,i∈I, 因此, (x∗,λ∗,μ∗) 为KKT点对 (注意:该定理无需问题为凸优化)
对偶问题与对偶理论
原问题与对偶问题
原始优化问题
minf(x)s.t.gi(x)≥0,i=1,⋯,mhj(x)=0,j=1,⋯,lx∈D
Lagrange对偶问题
maxθ(w,v)s.t.w≥0
其中
θ(w,v)=inf{f(x)−i=1∑mwigi(x)−j=1∑lvjhj(x)x∈D}=inf{L(x;w,v)∣x∈D}
对偶问题一定为凸规划
弱对偶定理
设 x 和 (w,v) 分别是原问题和对偶问题的可行解,则f(x)≥θ(w,v)
Proof.
∵x 和 (w,v) 是可行解,
∴g(x)≥0,h(x)=0,w≥0
∴θ(w,v)=x′inf{f(x′)−wTg(x′)−vTh(x′)∣x′∈D}≤f(x)−wTg(x)−vTh(x)≤f(x)
强对偶定理
- 对偶间隙: δ=x∈Dinfw≥0supL(x;w,v)−w≥0supx∈DinfL(x;w,v)
- 设 (x∗,w∗,v∗) 为优化问题(P)的Lagrange函数的鞍点,则 x∗与 (w∗,v∗) 分别是原问题与对偶问题的最优解且对偶间隙为零.
Proof.
由 (w∗,v∗)∈w∈R+∣I∣,v∈R∣ε∣argmaxL(x∗,w,v) 可得: hi(x∗)=0,i∈E; wi∗≥0,gi(x∗)≥0,wi∗gi(x∗)=0,i∈I 再结合 x∗∈x∈RnargminL(x;w∗,v∗)
于是对原问题的任一可行解 x 有 f(x)≥L(x,w∗,v∗)≥L(x∗,w∗,v∗)=f(x∗)
x∗∈x∈RnargminL(x,w∗,v∗)⇒θ(w∗,v∗)=L(x∗,w∗,v∗) 已证 L(x∗,w∗,v∗) 为原问题的最优值 f(x∗) ,由弱对偶定理可知: 对对偶问题的任一可行解 (w,v) ,有 θ(w,v)≤L(x∗,w∗,v∗)=θ(w∗,v∗) 则对偶问题的最优解为 (w∗,v∗) ,且 f(x∗)=θ(w∗,v∗) .