1.设X=(X1,X2)′的协方差矩阵,Σ=(144100),试从协方差矩阵Σ和相关系数矩阵R出发求总体主成分,并加以比较
得到特征值和特征向量分别为
λ1=100.161,λ2=0.839,a1′=(0.040,−0.999)a2′=(0.9991,0.0403)
第一主成分的贡献率为0.04030552
对于相关系数矩阵,只是多了一步标准化的过程:
λ1=1.4,λ2=0.6,a1′=(0.707,0.707)a2′=(−0.707,0.707)
第一主成分的贡献率为0.7
2.设X=(X1,X2)′∼N2(0,Σ) ,协方差矩阵Σ=(1ρρ1),其中ρ 为X1和X2的相关系数(ρ>0)
(1)试从Σ出发求的两个总体主成分;
(2)求X的等概密度椭圆的主轴方向;
(3)试问当ρ取多大时才能使第一主成分的贡献率达95%以上
(1)解:由习题一习题可知
Z1=21X1+21X2Z2=21X1−21X2
(2)以ai为坐标轴,则可以得到对应的椭圆方程
1+pz12+1−pz22=c2
则可知主轴方向就是以ai为坐标轴的方向
(3)
1+p+1−p1+p≥0.95p≥0.9
3.设p元总体X的协方差矩阵为
Σ=σ21ρ⋮ρρ1⋮ρ⋯⋯⋯ρρ⋮1(0<ρ⩽1).
(1)试证明总体的第一主成分Z1=p1(X1+X2+⋯+Xp);
(2)试求第一主成分的贡献率
(1)由第一章习题可知
Q=p1⋮⋮⋮p121−210⋮0⋯⋯⋯⋯⋯p(p−1)1⋮⋮⋮(p−1)p−(p−1)
Λ=1+(p−1)ρ0⋮001−ρ⋮0⋯⋯⋯0001−ρ
1ρ⋮ρρ1⋮ρ⋯⋯⋯ρρ⋮1=QΛQ′
由主成分定义可知Z1=p1(X1+X2+⋯+Xp);
(2)第一主成分贡献率:
由贡献率定义可得
p1+(p−1)ρ
4.设总体X=(X1,⋯,Xp)′∼Np(μ,Σ)(Σ>0),等概率密度椭球为(X−μ)′Σ−1(X−μ)=C2 (C为常数).试问椭球的主轴方向是什么?
对于协方差矩阵Σ>0,存在正交矩阵Q
Q′ΣQ=λ1λ2⋱λp
则其中Q中第i列对应第i个主轴方向
5.设三元总体X的协方差矩阵为Σ=400040002,试求总体主成分.
只需取Z1=X1,Z2=X2,Z3=X3即可,更一般的证明见题9
6.设三元总体X的协方差矩阵为Σ=σ2ρσ20ρσ2σ2ρσ20ρσ2σ2,试求总体主成分,并计算每个主成分解释的方差比例(|ρ∣⩽1/2)
求得矩阵特征多项式为
(λ−1)[(λ−1)2−2ρ2]
特征值特征向量:
λ1=1+2ρ,λ2=1,λ3=1−2ρ,a1′=(21,21,21)a2′=(21,0,−21)a3′=(21,−21,21)
则可得到三个主成分
Z1=21X1+21X2+21X3Z2=21X1−21X3Z3=21X1−21X2+21X3
再由公式:
Var(Zi)=ai′Σai=λi,i=1,2,3,可知方差所占比例就是贡献率
则可知贡献率分别为λ1/3,λ2/3,λ3/3
7.设 4 维随机向量X的协方差矩阵是
Σ=σ2σ12σ13σ14σ12σ2σ14σ13σ13σ14σ2σ12σ14σ13σ12σ2,
其中σ12⩾σ13⩾σ14⩾0, σ2+σ14⩾σ12+σ13.试求X的主成分.
与前面同理,计算略
8.已知总体X=(X1,⋯,Xp)′的n次观测数据阵为X=(xij)n×p.设Zi=ai′X是X的前m个样本主成分,其中j=1,⋯,m,且m<p.设变量Xj与Z1,⋯,Zm的回归模型为
Xj=bj1Z1+⋯+bjmZm+εj=defbj′Z+εj,j=1,⋯,p.
(1)试求参数bj的最小二乘估计bj(j=1,⋯,p);
(2)求Xj回归方程的回归平方和Uj、残差平方和Qj,以及判定系数Rj2(j=1,⋯,p).
(1)bj=(Z′Z)−1Z′Xj
(2)Uj=∑i=1n(x^ji−xˉj)2
其中x^ji=Z1hbj(Z1h代表Z矩阵的第一行),xˉj=n11n′Xj
Qj=i=1∑n(x^ji−xj)2
R2=SSTSSR=Uj+QjUj
9.设X=(X1,⋯,Xp)′∼Np(μ,Σ),Σ有一个p重特征值λ1,即Σ=λ1Ip. 给定观测值xi=(xi1,⋯,xip)′(i=1,⋯,n),
(1)试证明:λ1的极大似然估计是
λ1=pn1∑k=1p∑i=1n(xik−xk)2,其中xk=n1∑i=1nxik;
(2)试证明:X 的主成分由 B′X给出,其中B是任何p阶正交矩阵.
(1)有极大似然估计的似然函数给出:
L(x,Σ)=(2π)np/2∣Σ∣n/21exp[−21tr(Σ−1V)].
将Σ=λ1Ip带入似然函数可得:
L(x,Σ)=(2π)np/2∣λ1∣np/21exp[−2λ11tr(V)].
对似然函数求导并让导数等于零可得:
exp{−2λ1tr(V)}(λ11)2np−1(2np−2λ1tr(V))=0
则可知
λ1=np1tr(V)
V=∑n(xi−x)(xi−x)′
tr(V)=∑n(xi−x)′(xi−x)=∑k=1p∑i=1n(xik−xk)2
故原式得证
(2)利用Lagrange求极值:
L(a1)=Var(Z1)−λ(a1′a1−1)=a1′Σa1−λ(a1′Ipa1−1).
{∂a1∂L(a1)=2(Σ−λIp)a1=0,∂λ∂L(a1)=a1′a1−1=0.
由偏导数可知,主需要取λ=λ1即可满足约束1,则对于矩阵a满足正交情况都能够满足方程
10.若随机变量X=(X1,⋯,Xp)′的协方差矩阵是非负定矩阵Σ,随机变量Y=
(Y1,⋯,Yp)′的协方差矩阵是Σ+σ2Ip,则L′X是X的主成分的充要条件是L′Y是Y的
主成分,其中 L 是正交矩阵.
必要性:若L′X是X的主成分,则可知
{∂L1∂L(L1)=2(Σ−λIp)L1=0,∂λ∂L(a1)=L1′L1−1=0.
对于Y而言有方程组
{∂L1∂L(L1)=2(Σ+σ2Ip−λIp)L1=0,∂λ∂L(a1)=L1′L1−1=0.
此时只需要取λ=λ+σ2即可,不会影响L的结构
充分性同理可得。