凸分析
1. 函数的一阶性质
▽2f(x)=∂x12∂2f(x)∂x2∂x1∂2f(x)⋮∂xn∂x1∂2f(x)∂x1∂x2∂2f(x)∂2x2∂2f(x)⋮∂xn∂x2∂2f(x)⋯⋯⋱⋯∂x1∂xn∂f2(x)∂x2∂xn∂2f(x)⋮∂xn2∂2f(x)
- 雅可比矩阵:向量值函数F(x)=(f1(x),f2(x),⋯,fm(x))T,则JF(x)=∂x1∂f1(x)∂x1∂f2(x)⋮∂x1∂fm(x)∂x2∂f1(x)∂x2∂f2(x)⋮∂x2∂fm(x)⋯⋯⋱⋯∂xn∂f1(x)∂xn∂f2(x)⋮∂xn∂fm(x)
- 链式法则:若F:Rn→Rm,G:Rm→Rq均为连续可微函数,定义H:Rn→Rq为H(x)=G(F(x)),则JH(x)=JG(F(x))JF(x),▽H(x)=▽F(x)▽G(F(x))
- 泰勒展开: f:Rn→Rm连续可微,则在x有一阶泰勒展式:f(x)=f(x)+▽f(x)T(x−x)+o(∥x−x∥)。若f:Rn→Rm二阶连续可微,则在x有二阶泰勒展式:f(x)=f(x)+▽f(x)T(x−x)+21(x−x)T▽2f(x)(x−x)+o(∥x−x∥2)
- Lipschitz连续:设f连续可微,若存在常数L>0对∀x,y∈domf:={x∈Rn:f(x)<+∞}有:∥▽f(x)−▽f(y)∥≤L∥x−y∥则称f是L−光滑函数。
-性质:1.二次上界:若domf为凸集,则:f(y)≤f(x)+▽f(x)T(y−x)+2L∥y−x∥2∀x,y∈domf2.domf=Rn,且存在一个全局极小点x∗,则对∀x∈Rn有:2L1∥▽f(x)∥2≤f(x)−f(x∗)
2.广义实值函数与适当函数
- R=R∪{±∞},称映射f:R→R为广义实值函数
- 给定广义实值函数f:R→R和非空集合X,如果存在x∈X,使得f(x)<+∞,且∀x∈X,有f(x)>−∞,则称f关于集合X是适当的
3.凸函数的定义和性质
-
定义:若对所有x,y∈domf和0≤θ≤1有f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y),则f为凸函数;若对所有x,y∈domf和0≤θ≤1有f(θx+(1−θ)y)>θf(x)+(1−θ)f(y),则f为严格凸函数
-
下水平集,闭函数与下半连续函数:设广义实值函数 f:Rn→R .
- f 的 α -下水平集: Cα={x∣f(x)≤α} .
- f 的上方图: epif={(x,t)∈Rn+1∣f(x)≤t} .
- f 为闭函数: epif 为闭集.
- f 为下半连续函数: 对任意的 x∈Rn ,有 y→xliminff(y)≥f(x) .
- 等价命题:设广义实值函数 f:Rn→R ,则下列命题等价:
1.f(x) 的任意 α -下水平集都是闭集;
2.f(x) 是下半连续的;
3.f(x) 是闭函数.
- 下半连续函数的性质:
1. 加法: 若 f 与 g 均为适当的下半连续函数,且 domf∩domg=∅ , 则 f+g 也是下半连续函数.
2. 仿射函数的复合: 若 f 为下半连续函数,则 f(Ax+b) 也为下半连续函数;
3. 上确界: 若 fλ,λ∈Λ 均为下半连续函数,则 λ∈Λsupfλ(x) 也为下半连续函数.
-
凸函数的性质:
- Jensen不等式: 设 f 是凸函数,则对于 1≤i≤m,xi∈domf 0≤θi≤1 且 i=1∑mθi=1 ,有:
f(i=1∑mθixi)≤i=1∑mθif(xi)
- 概率Jensen 不等式: 设 f 是凸函数,则对任意随机变量z ,
f(Ez)≤Ef(z)
- 设 f : Rn→(−∞,+∞] 为凸函数,则 f 在intdomf 连续.
-
凸函数的判定:
f(y)≥f(x)+∇f(x)⊤(y−x)∀x,y∈domf(1).
(∇f(x)−∇f(y))⊤(x−y)≥0,∀x,y∈domf(2).
f 是严格凸函数当且仅当(1)或(2)对所有 x,y∈domf 且 x=y 严格成立
设 f 为定义在凸集上的二阶连续可微函数,则 f 是凸函数当且仅当
∇2f(x)≽0∀x∈domf.
如果 ∇2f(x)≻0∀x∈domf ,则 f 是严格凸函数.
-
强凸函数:
- 定义:若存在常数m>0,使得g(x)=f(x)−2m∥x∥2为凸函数,则f为强凸函数。
- 充要条件:f可微且domf为凸集,则f强凸的充要条件为:(▽f(x)−▽f(y))T(x−y)≥m∥x−y∥2,∀x,y∈domf
- 二次下界:f的所有α−下水平集有界,f(y)≥f(x)+▽f(x)T(y−x)+2m∥x−y∥2
-
保凸函数运算:f,f1,f2,⋯,fm为凸函数,则α1f1+α2f2(α1,α2≥0);f(Ax+b);max{f1,⋯,fm};g(x)=y∈cinff(x,y)(c为凸集);g(x)=y∈Asupf(x,y)为凸集
4.共轭函数
- 定义:适当函数f的共轭函数:f∗(y)=x∈domfsup{yTx−f(x)}.
- 凸性:f∗恒为凸函数,无论f是否是凸函数.
- Fenchel不等式:f(x)+f∗(y)≥xTy
5.方向导数
- 对于凸函数 f ,给定点 x0∈domf 以及方向 d∈Rn , 其方向导数定义为
∂f(x0;d)=t>0inftf(x0+td)−f(x0).
对于可微函数, ∂f(x0;d)=∇f(x0)Td .
- 方向导数有限: 设 f(x) 为凸函数, x0∈intdomf ,则对 ∀d∈Rn , ∂f(x0;d) 有限.
- 方向导数和次梯度: 设 f:Rn→(−∞,+∞] 为凸函数,
x0∈intdomf ,则对 ∀d∈Rn ,有
∂f(x0;d)=g∈∂f(x0)maxgTd.
6.次梯度
-
定义:设f为适当凸函数,x∈domf,若向量g∈Rn满足f(y)≥f(x)+gT(y−x)∀y∈domf则称g为函数f在点x处的一个次梯度;∂f(x)={g∈Rn∣f(y)≥f(x)+gT(y−x),∀y∈domf}为f在点x处的次微分
-
存在性:设f为凸函数,若x∈intdomf,则∂f=ϕ
-
性质:
- 设 f 是凸函数,则对 ∀x∈domf,∂f(x) 是闭凸集(可能为空集).
- 设 f 是凸函数,则对 ∀x∈intdomf,∂f(x) 是非空有界集.
- 设凸函数 f(x) 在 x0∈intdomf 处可微,则 ∂f(x0)={∇f(x0)} .
- 次梯度的单调性 设 f:Rn→R 是凸函数, x,y∈domf ,则
(u−v)T(x−y)≥0,∀u∈∂f(x),∀v∈∂f(y).
- 次梯度的连续性 设 f(x) 是闭凸函数且 ∂f(xˉ)=∅ . 若
k→∞limxk=xˉ,gk∈∂f(xk) 且 k→∞limgk=gˉ,
则 gˉ∈∂f(xˉ) .
-
计算:
- 凸函数的非负线性组合: 设 α1,α2≥0 ,凸函数 f1,f2 满
足 intdomf1∩domf2=∅ ,若
f(x)=α1f1(x)+α2f2(x),x∈domf1∩domf2
则 f(x) 的次微分
∂f(x)=α1∂f1(x)+α2∂f2(x).
- 线性变量替换: 设 h 为适当凸函数, f(x)=h(Ax+b) . 若存
在 x♯∈Rm 使得 Ax♯+b∈intdomh ,则
∂f(x)=AT∂h(Ax+b),∀x∈intdomf.
- 两个函数之和的次梯度
(Moreau-Rockafellar定理). 设 f1,f2:Rn→(−∞,+∞] 是凸函数,则
对任意的 x0∈Rn ,
∂f1(x0)+∂f2(x0)⊆∂(f1+f2)(x0).
若 intdomf1∩domf2=∅ ,则对任意的 x0∈Rn ,
∂(f1+f2)(x0)=∂f1(x0)+∂f2(x0).
7. 非凸函数的次微分
- 设 f:Rn→(−∞,+∞] 为适当、下半连续函数. 对给定的 x∈domf ,满足如下条件的所有向量 u∈Rn 的集合定义为 f 在点 x 处的Fréchet 次微分:
y→x,y=xliminf∥y−x∥f(y)−f(x)−u⊤(y−x),
记为 ∂f(x) ; 若 x∈/domf ,定义 ∂f(x)=∅ .
- f 在点 x 处的极限次微分(或Mordukhovich次微分,或简称为次微分):
∂f(x)={u∈Rn∣∃xk→x,f(xk)→f(x),uk∈∂f(xk),uk→u}.
最优性条件
1. 最优解存在性:
- 设 f:X→(−∞,+∞] 是恰当且闭的,则 argminXf 为非空紧集,若如下任一条件成立:
(1) domf={x∈X:f(x)<+∞} 是有界的;
(2) ∃α 使得下水平集 Cα={x∈X:f(x)<α} 非空有界;
(3) f 是强制的,i.e., {xk}⊆X,xk→+∞⇒k→∞limf(xk)=+∞
2. 最优解唯一性:
- 强拟凸函数: 给定非空凸集 X 与函数 f:X→(−∞,+∞] ,若对任意的x=y 以及 λ∈(0,1) ,均有: f(λx+(1−λ)y)<max{f(x),f(y)}则称 f 为 X 上的强拟凸函数.
- 给定非空凸紧集 X⊆Rn ,设 f:X→(−∞,+∞] 是适当、闭、强拟凸函数,则 argminxf 为单点集,i.e.,存在唯一的 x∗ 满足:
f(x∗)<f(x),∀x∈X∖{x∗}
3. 无约束优化最优性条件
- 下降方向:设 xˉ∈Rn 是任一给定向量, d∈Rn 且 d=0 . 若存在 δ>0 ,对任意 λ∈(0,δ) ,有 f(xˉ+λd)<f(xˉ) ,则称 d 为函数 f 在点 xˉ 处的一个下降方向.dT∇f(x)<0⇒d 是 f 在 x 处的下降方向
- 一阶必要性条件:若 x∗∈Rn 是无约束优化问题的一个局部最优解,则有:
∇f(x∗)=0.
- 二阶必要性条件:若 x∗∈Rn 是无约束优化问题的一个局部最优解,则有:∇f(x∗)=0 且 ∇2f(x∗) 为半正定矩阵.
- 二阶充分性条件:若 x∗∈Rn 满足 ∇f(x∗)=0 且 ∇2f(x∗) 为正定矩阵. 则 x∗ 是无约束优化问题的一个严格局部最优解.
- 特别的: 若无约束优化问题(1) 的目标函数 f 是连续可微的凸函数,则 x∗∈Rn 是凸优化的全局最优解当且仅当 ∇f(x∗)=0 ;
- 非光滑优化最优性条件:
- 一阶充要条件:若无约束优化问题(1) 的目标函数 f 是适当凸函数,则 x∗∈domf是凸规划的全局最优解当且仅当 0∈∂f(x∗) . 一阶充要条件
- 一阶必要条件:设优化问题(1) 的目标函数 f 是适当下半连续的,若 x∗∈domf 是问题(1)的一个局部最优解,则 0∈∂f(x∗)⊆∂f(x∗) .
- 复合优化最优性条件:
- 数学模型: x∈Rnminψ(x)=f(x)+h(x)其中 f∈C1 (可能非凸), h 为适当闭函数(可能非光滑).
- 一阶必要性条件: 若 x∗∈domψ 是复合优化问题(2) 的一个局部最优解,则:
−∇f(x∗)∈∂h(x∗).
数值迭代算法概述
1.全局收敛与局部收敛
- 收敛:设 S∗ 是最优化问题的某种解集合, A 为某种算法. 给定集合 Y ,若对于任意初始点 x0∈Y ,算法 A 产生的迭代点列 {xk} 中任一收敛子列的极限都属于 S∗ ,则称算法 A 在 Y 上收敛.
- 全局收敛:若集合 Y 可以任意选取 (无需限定在解集合很小的邻域内),则相应的收敛性为全局收敛性 (global convergence) ;
- 局部收敛:若集合 Y 只能取接近解集合的点集,则相应的收敛性为局部收敛性 (local convergence).
2.子序列收敛与全序列收敛
- 算法 A 产生的迭代点列 {xk} 中任一收敛子列的极限点都属于解集 S∗ ,则称为子序列收敛 (subsequence convergence),若 xk→x∗∈S∗ ,则称为全序列收敛(whole sequence convergence).
3.收敛速度
- 定义1:设点列 {xk} 收敛到 x∗ ,若存在实数 p≥0,r≥1 ,使得k→+∞lim∥xk−x∗∥r∥xk+1−x∗∥≤p<+∞则称点列 {xk} 以 Q−r 阶收敛速率收敛到 x∗ .
- Q -次线性收敛: r=1,p=1
- Q -线性收敛: r=1,p∈(0,1)
- Q -超线性收敛: r=1,p=0
- Q− 二次收敛: r=2,p>0
- 定义2:设点列 {xk} 收敛到 x∗ ,若存在实数 α>0,q∈(0,1) ,使得xk−x∗≤αqk,=:tk Q-线性收敛到 0 则称点列 {xk} 以 R -线性收敛到 x∗ . 若存在实数 α>0 ,以及收敛到 0 的正数列 {qk} ,使得xk−x∗≤αi=1∏kqi,=:tk Q-超线性收敛到 0 则称点列 {xk} 以 R -超线性收敛到 x∗ .
同级收敛速度Q-收敛速率快于R-收敛速率
3. 迭代复杂度
设某一算法求解 x∈Rnminf(x) 产生的迭代点列 {xk} 收敛到最优解 x∗ ,
若存在实数 c,r>0 ,使得f(xk)−f(x∗)≤krc∀k>0则称该算法是 O(kr1) 阶收敛到 x∗ .
- 若需要算法满足精度 f(xk)−f(x∗)≤ε ,只需令 krc≤ε ,从而得到 k≥ε1/rc1/r .
因此该优化算法对应的迭代次数复杂度为 N(ε)=O(ε1/r1)
- r 越大,收敛越快,复杂度越低,算法越好.
4. 二次终止性
若某个算法对任意的严格凸二次函数, 从任意的初始点出发, 都能经有限步迭代达到其极小值点, 则称该算法具有二次终止性.
5.空间复杂性与时间复杂性
- 定义:描述算法的存储要求和运行时间要求, 分为算法的空间复杂性和算法的时间复杂性. 利用算法需要的初等运算次数表示算法的时间复杂性.
- 多项式时间算法:求解实例 I 的算法的基本运算总次数 C(I) 是实例输入长度 L(I) 的一个函数, 该函数被另一个函数 g 控制,即存在一个函数 g 和一个常数 α ,使得
C(I)≤αg(L(I))
若 g 为多项式函数,则称该算法对实例 I 是多项式时间的算法; 若对于这类问题的任意实例 I 是多项式时间的算法,则称该算法为求解这一类问题的多项式时间算法.类似地可以定义的指数时间算法.