1.试证明下列结论:
(1) 由两个距离的和所组成的函数仍为距离;
(2)由一个正常数乘一个距离所组成的函数仍为距离;
(3)设d为一个距离,c>0为常数,则d∗=d/(d+c)仍是一个距离;
(4) 由两个距离的乘积所组成的函数不一定是距离.
(1)记dij(1)、dkl(2)为两个距离函数dij=dij(1)+dij(2),下面验证距离的三条性质:
由于dij(1)、dij(2)满足距离的非负性,对称性,三角不等式则
dij=dij(1)+dij(2)≥0
dij(1)+dij(2)=dji(1)+dji(2)
dij(1)+dij(2)≤dik(1)+dkj(1)+dik(2)+dkj(2)
(2)同理验证三条性质即可
(3)对于函数f(x)=x+cx可知其为一个单调递增函数f(0)=0则可知非负性和对称性得证
三角不等式:由(2)只需要验证不等式即可
1+a+ba+b⩽1+aa+1+bb
在两侧同乘(1+a+b)(1+a)(1+b)可得
ab(2+a+b)⩾0
则可知三角不等式成立dij为一个距离
(4)取dij(1)、dkl(2)为欧氏距离即可
验证三角不等式:对于X1=0,X2=0.5,X3=1
d13=12=1d12=d23=0.25d13≥d12+d23
三角不等式不成立,故两个距离的乘积不一定还是一个距离。
2.给出式子详细推导过程
DMJ2=(x(M)−x(J))′(x(M)−x(J))==[nMnK(x(J)−x(K))+nMnL(x(J)−x(L))]′×[nMnK(x(J)−x(K))+nMnL(x(J)−x(L))]=nMnKDKJ2+nMnLDLJ2−nM2nKnLDKL2,J=K,L.
下面用简略符号代替证明:(由于转置完都是一个数所以简略写不再加入转置)
(nmnk)2Dkj2+(nmnl)2Dlj2+nm22nknl(Xj−Xk)(Xj−Xl)=nmnkDkj2+nmnlDlj2−nm2nknlDkl2
其中nm=nk+nl
将第三项展开可得
nm22nknl(Xj−Xk)(Xj−Xl)=nm2nknl(2Xj2−2XjXl−2XkXJ+2XkXl)=nm2nknl[(Xk−Xj)2+(Xl−Xj)2−(Xk−Xl)2]
由限制nm=nk+nl则可知nknl=nk(nm−nk)=nl(nm−nl)将其分别带入第一项第二项可得原式
6.利用距离平方的递推公式:
DMJ2=αKDKJ2+αLDLJ2+βDKL2+γDKJ2−DLJ2,J=K,L.
试证明:当γ=0, αK⩾0, αL⩾0, αK+αL+β⩾1时,系统聚类中的类平均法、可变类平
均法、可变法,以及 Ward 方法的单调性.
由递推关系可知,上一步类内距离最小的为Gk和GL 因此有不等式
DKJ2≥DKL2
DLJ2≥DKL2
因此有
DMJ2=αKDKJ2+αLDLJ2+βDKL2≥(αK+αL+β)DKL2
由不等式约束αK+αL+β⩾1 可知每一步迭代类内距离都在变大,因此有单调递增的性质。
7.试从定义直接证明最长和最短距离法的单调性
最短距离法:
DMJ=i∈GM,j∈GJmindij=min{i∈GK,j∈GJmindij,i∈GL,j∈GJmindij}=min{DKJ,DLJ},J=K,L.
则可知上一步合并的DKL≤DKJ,且DKL≤DLJ
则可知DMJ≥Dkl单调性得证
最长距离法单调性同理。