在次序统计量的part1,我主要讲一些定义和计算上的技巧,这些也是数理统计必须要求掌握的部分。
如果想对次序统计量有全面的理解,不仅局限于数理统计这门课程的话,建议看David编写的《Order Statistics》,会对次序统计量有更全面的了解,我这里的part2只会给出有关数理统计部分的充分性和完备性的部分,当然这部分的证明甚至是结论在课程中也是不要求掌握的,有兴趣的同学可以自行观看。
Part1
定义:
设X1,...,Xn为样本,把X1,...,Xn由小到大排列成X(1)≤,...,≤X(n) ,则称(X(1)≤,...,≤X(n))为次序统计量,X(i)称为第i个次序统计量。
- 极值统计量:称X(1) 为极小值统计量,X(n)为极大值统计量
- 极差(Range):R=X(n)−X(1),极差反映了数据的变化范围。
性质
第k个次序统计量的分布函数:
记X1,...,Xn是i.i.d服从分布F的随机变量,那么次序统计量X(k)的分布函数为
Fk(x)=i=k∑n(in)[F(x)]i[1−F(x)]n−i=k(kn)∫0F(x)tk−1(1−t)n−kdt
下面我分别给出两个等式的证明。
证明:
Fk(x)=P{X(k)≤x}P{X≤x}P{至少有k个样本小于x}=P{至少有k个样本小于x}=F(x),=i=k∑n(in)[F(x)]i[1−F(x)]n−i
第二个等式:
思路:验证两边导函数相同,并且原函数常数项也相同。
首先,为了方Fk′(p)容易验证当Fk(x)=0时等号成立(验证常数项)便书写,后面将F(x)记为p=i=k∑n[iCnipi−1(1−p)n−i+(i−n)Cnipi(1−p)n−i−1]=kCnkpk−1(1−p)n−k+i=k+1∑niCnipi−1(1−p)n−i−i=k∑n(n−i)Cnipi(1−p)n−i−1=kCnkpk−1(1−p)n−k+i=k∑n−1(i+1)Cni+1pi(1−p)n−i−1−i=k∑n−1(n−i)Cnipi(1−p)n−i−1=kCnkpk−1(1−p)n−k+i=k∑n−1[(i+1)Cni+1−(n−i)Cni]pi(1−p)n−i−1=kCnkpk−1(1−p)n−k
将F(x)代换回去后不难看出等号成立,对于次序统计量而言,他的分布函数我很少用到,更多的是用密度函数来进行计算求解,对于第二个积分形式的分布函数而言,我感觉这种形如beta分布的分布函数可能有其特殊的作用,但是我没有找到相关的资料,后面可能会继续补充这一部分
第k个次序统计量的密度函数
fk(x)=k(nk)[F(x)]k−1[1−F(x)]n−kf(x)
由上面提到的次序统计量积分形式的分布函数直接进行求导可以直接得到密度函数,但是我这里再给出一个更本质的求密度函数的方法。
f(x)fk(x)=Δx→0limΔxP(x<X≤x+Δx)=Δx→0limΔxF(x+Δx)−F(x)=Δx→0limΔxP(x<X(k)≤x+Δx)=Δx→0limΔx1P{前k−1个小于x,第k个在(x,Δx)中间,后n−k个大于x}=(nk−1)(n−k+11)(n−kn−k)[F(x)]k−1Δx→0limΔx[F(x+Δx)−F(x)][1−F(x+Δx)]n−k=k(nk)[F(x)]k−1[1−F(x)]n−kf(x)
用类似的方法,我们也可以给出次序统计量的联合密度函数,这里我直接给出结论,不再给出证明方法。
pij(y,z)=(i−1)!(j−i−1)!(n−j)!n![F(y)]i−1[F(z)−F(y)]j−i−1[1−F(z)]n−jp(y)p(z),y≤z.
利用联合密度函数,我们就可以求出类如样本极差的密度函数
常见习题,请利用均匀分布的联合分布,求出其极差(R=X(n)−X(1)),以及X(1)+X(n)的密度函数。
极差:
不失一般性,我们不妨假设X∼U(0,1) 否则对于X∼U(θ1,θ2)的情况,取Y=θ2−θ1X−θ1 即可(为了算一般情况的期望或者方差,或者构造统计量)
联合密度函数:f(x1,xn)=n(n−1)(xn−x1)n−2令Z=X(n)−X(1)由约束0≤x1≤xn≤1得到0≤z≤1−x1积分∫01−zn(n−1)zn−2dx1=nzn−2(1−z)发现这是β(n−1,2)的密度函数则R∼β(n−1,2)
X(1)+X(n)密度
同样的,为了不失一般性,并且为了技术上的操作我们不妨假设X∼U(−21,21) 否则取Y=2(θ2−θ1)2X−(θ1+θ2)
联合密度函数:f(x1,xn)=n(n−1)(xn−x1)n−2令Z=X(1)+X(n)由约束−21≤x1≤xn≤21得到−21≤2x1≤z≤x1+21当z≥0时∫z−2121zn(n−1)(z−2x1)n−2dx1=21n(1−z)n−1当z≤0时,同理可得∫−2121zn(n−1)(z−2x1)n−2dx1=21n(1+z)n−1综上所述,Z的密度函数为21n(1−∣z∣)n−1
这两个例题在之后区间估计和假设检验中会经常用到,而对于均匀分布而言,转化为U(0,1)或者是U(−21,21)也是后面处理习题的常用手段,根据积分区域的不同,往往要选择比较好算的转化方式。
思考题
- 对于一般分布而言,他们的极差的密度函数和分布函数是什么?
- 联合分布函数的分布函数怎么写(提示:双Σ求和)
- 对于离散情形,上面所有理论是否需要重新改进?
- 对于非i.i.d情形,我们又该怎么改进?(可以只考虑独立情况)
Part2
在这个部分,我给出次序统计量在数理统计中良好的性质,也就是充分性和完备性。对于完备性的证明,是因为在UMVUE的求取中有一种很常用的方法,即U统计量,他是基于次序统计量的充分完备性而得到所需要参数的UMVUE的,为此我还是想要把这部分的证明给到读者。
次序统计量的充分性:
对于分布族F ,设F∈F,X1,...,Xn为来自F的样本,只要X1,...,Xn是独立同分布的,则不论分布族如何,其次序统计量都是充分的
证明:
由充分统计量的定义可知,只需要证明其条件分布与总体分布无关即可.由样本的独立性与同分布性P{X1=x1,…,Xn=xn∣X(1)=x(1),…,X(n)=x(n)}=P{Xi1=x(1),…,Xin=x(n)∣X(1)=x(1),…,X(n)=x(n)}其中,(i1,i2,…,in)是(1,2,…,n)的一个排列,这样的排列共有n!种LHS=n!1则其与总体无关,故其为充分统计量得证
但是由于我们一般在取充分统计量时取极小充分统计量,因此很少用n个次序统计量来当做充分统计量。
次序统计量的完备性(充分完备性)
设X1,...,Xn是来自分布族F的分布函数为F的IID样本,满足
- F是凸的
- ∀a<b ,记S=[a,b),由F(b)−F(a)>0可导出P{X1<x∣X1∈S}∈F
则该样本的次序统计量关于分布族是完备的
从这个定理可以看出,在许多情况下,次序统计量均是充分完备的,而且许多充分统计量都可以看成是次序统计量的组合。(比如均值也可以看成排序后的均值),从这个例子可以看出次序统计量的强大。
完备性的证明十分复杂,用到了高等概率论,和一些比较高级的数学知识,因此我这里给出参考论文,有兴趣的同学可以自行参考。
参考详见☞次序统计量完备性证明.pdf