7.8-最优化基本概念
最优化问题形式
maxf(x)s.tx∈Ω
- f(x)为目标函数:objective function
- x为决策变量:decision variable
- Ω为可行域:constrained set
- 最优解:若有x∗∈Ω,使得∀x∈Ω,满足f(x)≥f(x∗),则称x∗为该极小化问题的全局最优解,记作x∗∈argmin{f(x):x∈Ω};若有x∗∈Ω,满足∃ε>0,与x∗的邻域Nε(x∗)={x:∥x−x∗∥<ε}且x=x∗,使得∀x∈Ω∩Nε(x∗),有f(x)≥f(x∗),则x∗称为该极小化问题的一个局部最优解;若有x∗∈Ω,满足∃ε>0,与x∗的邻域Nε(x∗),使得∀x∈Ω∩Nε(x∗),且x=x∗有f(x)>f(x∗),则x∗称为该极小化问题的一个局部最优解;
- 最优值:若优化问题存在最优解,则该优化问题为最优值可达,在最优解处目标函数的取值称为最优值;若目标函数在可行域有下界,但无最优解,则称该优化问题为最优值不可达,此时最优值定义为f∗=x∈Ωinff(x)。
最优化问题的类型
- 向量优化
- 组合优化
- 半定优化
- 鲁棒优化
- 随即优化
- 稀疏优化
- 统计优化
- 张量与多项式优化
- 非光滑优化
- ...
具体的,稀疏性衡量:向量/矩阵的l0范数∥x∥0,取值为向量/矩阵中非零元素的个数
7.8-凸分析基础
范数
1. 向量范数
- 向量的lp范数(p≥1):∥v∥p=(i=1∑n∣vi∣p)p1
- 向量的l∞范数:∥v∥∞=1≤j≤nmax∣v(j)∣
- 由正定矩阵A诱导的向量范数:∥v∥A=vTAv
- Cauchy−Schwarz不等式∣aTb∣≤∥a∥2∥b∥2等式成立的条件为a与b线性相关
2. 矩阵范数
- 如果函数∥⋅∥:Rm×n→R+满足:
- 1.正定性:∀A∈Rm×n,有∥A∥≥0且∥A∥=0⇔A=0m×n
- 2.正齐次性:∀A∈Rm×n,α∈R,有∥αA∥=∣α∣∥A∥
- 3.三角不等式:∀A,B∈Rm×n,有∥A+B∥≤∥A∥+∥B∥
则称∥⋅∥为定义在向量空间Rm×n上的矩阵范数
- 矩阵的内积:A,B∈Rm×n,则⟨A,B⟩=Tr(ABT)=i=1∑mj=1∑naijbij
- 矩阵的l1范数:∥A∥1=i=1∑mj=1∑n∣aij∣
- Frobenius范数:∥A∥F=Tr(AAT)=i=1∑mj=1∑naij2
- Cauchy不等式∣⟨A,B⟩∣≤∥A∥F∥B∥F等式成立的条件为A与B线性相关
- 矩阵的核范数: ∥A∥∗=i=1∑rσi,其中r=rank(a),σi(i=1,2,...,r)为A的所有非零奇异值(为矩阵范数)
3.矩阵的算子范数
- 由向量范数诱导的矩阵范数: 给定矩阵A∈Rm×n,Rm中的向量范数∥⋅∥(m)和Rn中的向量范数∥⋅∥(n),其诱导的矩阵范数为:∥A∥(m,n)=x∈R,∥x∥(n)=1max∥Ax∥(m)
具体的,将 ∥⋅∥(m)和∥⋅∥(n)取为向量的lp范数,可诱导矩阵的p范数
- 1-范数:∥A∥1=∥x∥1=1max∥Ax∥1=1≤j≤nmax∑i=1m∣aij∣
- 谱范数:∥A∥2=∥x∥2=1max∥Ax∥2=λmax(ATA),其中λmax(ATA)表示求矩阵ATA的最大特征值
- ∞范数:∥A∥∞=∥x∥∞=1max∥Ax∥∞=1≤j≤mmax∑i=1n∣aij∣
- 矩阵算子范数的相容性:∥Ax∥(m)≤∥A∥(m,n)∥x∥(n)
- 谱范数的性质:∥A∥22=∥AT∥22=∥ATA∥2=∥AAT∥2,且对任意n阶正交矩阵C,D有∥CA∥2=∥AD∥2=∥CAD∥2=∥A∥2
凸集与凸函数
1. 凸集
- 仿射集:x1,x2∈C⇒θx1+(1−θ)x2∈C,∀θ∈R
- 凸集:x1,x2∈C⇒θx1+(1−θ)x2∈C,∀0≤θ≤1
- 仿射集是凸集
- S,T是凸集,k∈R⇒S+T,kS,S∩T,intS,cl(S)均为凸集
2. 凸函数
2.1 光滑函数
- 梯度:函数f:Rn→R,且f在x的一个邻域有意义,若存在向量g∈Rn满足:p→0lim∥p∥f(x+p)−f(x)−gTp=0
其中∥⋅∥为任意向量范数,则称f在x处可微,g称为该函数在这一点的梯度,记作▽f(x)
- 特别的,若令p=εei,ei是第i个分量为1的单位向量,则计算可得:▽f(x)=[x1∂f(x),x2∂f(x),...,xn∂f(x)]T