Chapter3 GaussianInference

多元正态分布的统计
推断
目录
一、参数估计
二、假设检验
• Wishart, Hotelling 𝑇 2 ,Wilks Λ 分布
• 单总体均值向量的检验
• 两个总体均值的比较推断
• 多个总体均值的比较检验
• 协方差阵的检验
三、正态性评估与异常点检验
一、参数估计
• 简单随机样本设X(i)(i＝1,…,n) 为p维正态总体N(μ,Σ) 的简单
随机样本：独立同分布
• 观测矩阵（或数据矩阵）
 x11 x12  x1 p   X (1) 

   
 x21 x22  x2 p   X (2) 
X = =
n p         
x xn 2  xnp   X (n ) 
 n1
3
样本的数字特征
• (1) 样本均值向量 𝑋ത
 x1 
1 n
 
X =  X ( i ) = ( x1 , , x p ) =   
p1 n i =1 x 
 p
 x11 x21  xn1 1
x   
1  12 x22  xn 2  1 1
=   = X 1n ,
n        n
x   
 1 p x2 p  xnp 1
4
• (2)样本离差阵
n
A =  ( X ( ) − X )( X ( ) − X )
p p
 =1
 x 1 − x1 
 
(x 1 − x1  xp − x p )
n
=  
 =1  x − x 
 p p 
= (aij )p p ,
n
• 其中 aij =  ( xi − xi )( xj − x j ) (i, j = 1,2,  , p )

 =1 5
• 或者把A表为:
n
n
A =  ( X ( ) − X )( X ( ) − X ) X
i =1
(i ) = nX
p p
 =1
n n n n
=  X ( ) X ( ) −  X ( ) X  −  XX ( ) +  X ( X )
 =1  =1  =1  =1
 
 X (1)
 
= ( X (1) , , X (n) )   − nX ( X )
 X 
 (n) 
= X X − nX • X 
1
= X '( I n − 1n1n ') X
n
• (3)样本协方差阵S:
A = ( sij )
1
S =
p p n −1 p p
• (4) 样本相关阵R:
R = (rij )p p ，rij =

sij 或 aij
= 。
sii s jj aii a jj
7
• 例: 设从某书店随机抽取4张收据了解图书的销售情
况.每张收据记录售书数量X2及总金额X1,具体数值如
下:
 42 4
 52 5  (n = 4, p = 2)
X =  48 4
42
 58 3 

试计算样本均值,样本离差阵,样本协差阵和相关阵.
解:
1
1 1  42 52 48 58 1  50 
X = X 1n =  4 5 4 3   =  4 
n 4 1  
1 8
• 样本离差阵A为:
n
A =  ( X ( i ) − X )( X ( i ) − X ) = X X − nXX  或
i =1
 ( X (1) − X ) 
 
A = ( X (1) − X ,..., X (4) − X ) 
 ( X − X ) 
 (4) 
 42 − 50 4 − 4   −8 0 
 ( X (1) − X )     
   52 − 50 5 − 4   2 1
此例中   =  48 − 50 =
4 − 4   −2 0 
 ( X − X )     
 (4)  58 − 50 3 − 4   8 −1

 −8 0 
 
 −8 2 −2 8   2 1 136 −6 
故 A =  = 

 0 1 0 −1 −2 0  −6 2 
 
 8 −1
样本协差阵S为
 1 
1 1 136 − 6   45 − 2 
S= A=  −6 2  = 3 
n −1 3   −2 2 
 
 3 
样本相关阵R为
 −6   −3 
 1   1 
R= 136  2  =  68 
 −6   −3 
 1   1 
 136  2   68 
 1
=  − 0.3638 − 0.3638 

 1 
11
极大似然估计
• 似然函数：把随机数据阵X按行拉直后形成的np维长
向量 𝑉𝑒𝑐(𝑋′)的联合密度 f (x1,x2,⋯,xn) 看成未知参数
μ, Σ 的函数，称为样本X(i)(i＝1,…,n) 的似然函数，
记为L(μ, Σ).
L(  , ) = f ( x(1) , x (2) , , x( n ) ) =  f ( x(i ) )

n
i =1
n
1  1 
= exp  − ( x(i ) −  ) ( x(i ) −  ) 
−1
i =1 | 2 |  2 
1/2
12
n
1  1 
L(  , ) =  exp − ( x( i ) −  ) ( x(i ) −  )
−1
i =1 | 2 |  2 
1/ 2
1  1 n 
= exp −  ( x(i ) −  ) ( x(i ) −  )
−1
| 2 | n/2
 2 i =1 
1  1 n 
= exp −  tr[( x(i ) −  ) ( x(i ) −  )]
−1
| 2 | n/2
 2 i =1 
1  1 n 
= exp −  tr[ ( x(i ) −  )( x(i ) −  )]
−1
| 2 | n/2
 2 i =1 
13
1   1 −1 n 
= exp tr −   ( x(i ) −  )( x(i ) −  ) 
| 2 | n/2
  2 i =1 
记号etr(A)=exp[ tr(A) ]
1  1 −1  n 
= etr −    ( x(i ) −  )( x(i ) −  ) 
| 2 | n/2
 2  i =1 
1  1 −1 
= etr −  • A1 
| 2 | n/2
 2 
14
其中pp矩阵A1可作如下分解:
n n
A1 =  ( x(i ) −  )( x( i ) −  )
i =1
 ( X (i ) − X ) = 0 p )
(注意：
i =1
n
=  ( x(i ) − X + X −  )( x( i ) − X + X −  )
i =1
n
=  ( x( i ) − X )( x(i ) − X ) + n( X −  )( X −  )
i =1
= A + n( X −  )( X −  )
15
• 由于𝑙𝑛𝑥是𝑥的单调函数,故𝐿(𝜇, Σ)与
𝑙𝑛𝐿(𝜇, Σ)有相同的最大值点.以下只须
讨论𝑙𝑛𝐿(𝜇, Σ)的最大值问题.
• 下面给出与迹有关的一条引理.
引理设B为p阶正定阵，则
trB−ln|B|≥p
且等号成立的充分必要条件是𝐵 = 𝐼𝑝 .
16
证明因B＞0,故𝐵的全部特征值
𝜆1, … , 𝜆𝑝 ＞0,且|𝐵| = 𝜆1 … 𝜆𝑝 .
利用不等式ln(1 + 𝑥) ≤ 𝑥(当𝑥 + 1＞0),
可得
p p
ln | B |=  ln i =  ln(1 + i − 1)
i =1 i =1
p
  (i − 1) = tr ( B ) − p
i =1
所以 𝑡𝑟𝐵 − ln |𝐵| ≥ 𝑝
17
• 因不等式ln(1 + 𝑥) ≤ 𝑥中的等号
仅当𝑥 = 0时成立，故引理给出的
不等式仅当 𝜆𝑖 − 1 = 0(𝑖 =
1, … , 𝑝)时成立,即 𝐵 = 𝐼𝑝 .
• 反之，当 𝐵 = 𝐼𝑝 时，ln|Ip |=0,
𝑡𝑟 𝐵 = 𝑝,故引理给出的不等式中
等号成立.
18
• 下面讨论当给定Σ＞0时，𝐿𝑛𝐿(𝜇, Σ)的最大值点.
np n 1
(
LnL(  , ) = − ln(2 ) − ln |  | − tr  • A1
2 2 2
−1
)
1

= C − tr  A + n ( X −  )( X −  )
2
-1 −1

1
2
 
-1 n
2
 
= C − tr  A − tr ( X −  )  ( X −  )
−1

1
 
 C − tr  A
2
-1
19
以上不等式仅当𝜇 = 𝑋时等号成立,即
对于固定的Σ＞0，
ln L( X , ）= max ln L(  , ）
.

下面利用迹的有关性质及引理来证明：当
ˆ 1
取 = A 时
n
ln L( X , ）= max ln L(  , ）
.
 ,  0 20
其中最后一个不等式取B= >0
由引理即得。
21
极大似然估计
• 一元正态情形：
L (  ,  ) = max2 L (  ,  )
ˆ ˆ 2 2
 ,
n
1
ˆ = x , ˆ =  ( xi − x )
2 2
n i =1
• 多元正态情形：
( )
L μˆ , Σˆ = max L ( μ, Σ )
μ,Σ
ˆ 1 n −1
μˆ = X , Σ = A = S
n n
22
极大似然估计的性质
• 定理设 𝑋ത 和 A 分别为p元正态总体𝑁𝑝 (𝜇, Σ ) 的
样本均值向量和样本离差阵,则
1
(1) X ~ N p (  , );
d n −1
n
(2) A =  Z t Z t, 其中Z1 ,, Z n −1独立同N p (0, )
t =1
分布；
（3）X 和A相互独立;
（4）P{ A  0} = 1  n  p.
23
• 证明的思路：引入正交阵Γ 形式如下：
 r11  r1n 
     

( n −1) n  = (rij )
 =  r( n −1)1  r
nn
n n  1 1 
  
 n n 
• 作线性变换,由随机阵X得另一随机阵Z.令
 Z1   X (1) 
   
Z =    =    = X
n p
Z   X (n ) 
  n
 
24
• Z的行向量Zt是X的行向量（样品）的线性
组合:
 rt1 
 
Z t = ( X (1) ,, X ( n ) )   (t = 1,, n)
 rtn 
 
可以计算Zt的均值和协方差：
n n
E ( Z t ) =   ti E ( X ( i ) ) =    ti
i =1 i =1
n 0 当𝑡 ≠𝑛时
1
=  n   ti =
i =1 n n 当𝑡 = 𝑛 时 25
COV ( Z , Z  ) = E[( Z − E ( Z ))( Z  − E ( Z  ))]
n n
= E[(  i ( X (i ) −  )) • (  j ( X ( j ) −  ))' ]
i =1 j =1
n
=   i i E[( X (i ) −  )( X (i ) −  )' ]
i =1
n
=   i   i 
i =1
所以 𝑍𝛼 ~𝑁𝑝(0, Σ ), 当𝛼 = 1,2, … , 𝑛 − 1,
𝑍𝑛~𝑁𝑝( n  , Σ ),当𝛼 = 𝑛. 26
n
1
(1) 因为 Zn =
n


X
=1
( ) = n X ~ N p ( n  , )
故有 1  1 
X= Zn ~ N p  ,  
n  n 
(2) 因为
 Z1 
 
n

 =1
Z Z = ( Z1 ,, Z n )   = Z Z

 Z 
 n n
= X   X = X X =  X ( ) X ( )
 =1
27
n −1 n
故有


Z Z =  X  X 
=1  =1
( ) ( ) − Z n Z n
n
=  X ( ) X ( ) − nX X 
 =1
n
=  ( X ( ) − X )( X ( ) − X )
 =1
=A
28
n −1
（3）因 A = 

Z Z
=1
是Z1,…,Zn-1的函数,X是Zn的函数，而
Z1,…, Zn-1,Zn相互独立,故A与X独立.
（4）略
29
性质1：无偏性
()
• 如果 E θˆ = θ ，则称估计量 θ̂ 是被估参数 θ 的一个无偏估
计，否则就称为有偏的。
 1 
 
n n
1 1
E ( X ) =  E ( X (i ) ) =   =  =   
•
n i =1 n i =1

 p
V ( X ) = 2 V ( X ( i ) ) = 2  Σ = Σ
n n
1 1 1
n i =1 n i =1 n
30
性质1：无偏性
n −1
( )
ˆ
• E Σ =
n
Σ ， Σ̂ 是 Σ 的有偏估计
• 𝐸(𝑺) = 𝚺
证明：利用
 n −1
 n −1
E( A) = E  Z Z  =  E( Z Z )
  =1   =1
n −1
=  D( Z ) = (n − 1) 31
 =1
或
 
( )
n
1 
E Σ = E   ( xi − x )( xi − x ) 
ˆ
n  i =1 
1  n  
= E   ( xi − μ ) − ( x − μ ) ( xi − μ ) − ( x − μ ) 
n  i =1 
1  n   
= E   ( xi − μ )( xi − μ ) − n ( x − μ )( x − μ ) 
n  i =1 
1 n  1 1  n −1
=  V ( xi ) − nV ( x ) =  nΣ − n  Σ  = Σ
n  i =1  n n  n
32
性质2：有效性
• 设 θ̂ 是θ的一个无偏估计，若对θ的任一无偏估计θ 有
() ( )
V θˆ  V θ ，θ  Θ
( ) ( )
即V θ -V θˆ 为非负定矩阵，则称 θ̂为θ的一致最优无
偏估计.
• 可以证明，对于多元正态总体，𝑋和S分别是μ和Σ的 ത
一致最优无偏估计。
33
性质3：相合性(一致性)
• 如果未知参数θ（可以是一个向量或矩阵）的估
计量 θˆn 随着样本容量n的不断增大，而无限地
逼近于真值θ，则称 θˆn为θ的一致估计，或称相
合估计.
可以证明当n → 时X , ˆ 是 , 的强相合
估计, 实际上,因E( X ) =  ,由强大数律知
 
P lim X =  = 1
n →
利用强大数律还可以证明：
 
P lim ˆ =  = 1
n → 34
4.充分性
• 如果一个统计量能把含在样本中的有关总体（或有关未知参
数）的信息一点都不损失地充分提取出来，则这种统计量就
称为充分统计量。
• 可以证明，对于总体Np(μ,Σ)，当Σ已知时，X 是μ的充分统计
1 n
量；当μ已知时， Σ =  ( xi − μ )( xi − μ ) 是Σ的充分统计量；
n i =1
当μ和Σ均未知时，( x,A) 是 (μ, Σ) 的充分统计量。
• 用来作为估计量的充分统计量称为充分估计量。A, Σ̂ ,S 这三
者之间只相差一个常数倍，所含的信息完全相同，故当μ和Σ
( )
均未知时，X , Σˆ 和 ( X , S )也都是(μ, Σ)的充分统计量。
• 若按无偏性的准则，则可采用(X ,S) 作为未知参数(μ,Σ)的充分
估计量。
35
参数函数的最大似然估计
为了从参数μ,Σ的最大似然估计来导出参数函数
g(μ,Σ)的最大似然估计,下面我们来介绍一条有
用的结论.
定理设参数向量θ 的函数为 g(θ)=ω, 𝜃෠ 是θ的
最大似然估计.则有
ˆ = g (ˆ)
是ω=g(θ)的最大似然估计.
36
例. 设p维正态随机向量 𝑋 = ( 𝑋1, … , 𝑋𝑝)′, 求

𝑋𝑖 , 𝑋𝑗 的相关系数𝜌𝑖𝑗 的最大似然估计.
解： Xi , Xj 的相关系数ρij为
Cov( X i , X j )  ij
ij = =
Var ( X i )  Var ( X j )  ii   jj
37
其中𝜎𝑖𝑗是协差阵Σ的第i行第j列的元素.给
定样本X(t) (t=1,…,n)，则Σ的最大似然估计为
1 n 1

n t =1
( X (t ) − X )( X (t ) − X ) = A
n
Σ的元素𝜎𝑖𝑗的最大似然估计
n
1 1
ˆ ij =  ( xti − xi )( xtj − x j ) = aij
n t =1 n 38
由定理2.5.3知,相关系数ij 的最大似然估计量
rij 为
ˆ ij aij
rij = =
ˆ ii  ˆ jj aii  a jj
(i,j=1,2,…,p)
称 rij 为样本相关系数, 𝑅 = 𝑟𝑖𝑗 为样本

𝑝×𝑝
相关矩阵.
39
 X  (1)    (1)
 
例. 设 X =  ( 2)  ~ N p   ( 2) ,     

11 12
 ,
X        21  22  
求 X(1)对X(2)的回归系数B和条件协差阵Σ11·2的
最大似然估计.
解：由样本X(t) (t=1,…,n)，计算离差阵A, 且
 A11 A12 
A= 
 A21 A22 
40
则X(1)对X(2)的回归系数B的最大似然估计为
−1
ˆ ˆ ˆ −  1  1  −1
B = 12  22 =  A12  A22  = A12 A22 .
1
n  n 
条件协差阵Σ11·2的最大似然估计为
1
ˆ 112 −1
= ( A11 − A12 A22 A21 ).
n
41
二、假设检验
• 一元统计中,参数 𝜇,𝜎 2 的检验涉及到一个总体、两个总体,
乃至多个总体的检验问题;
• 推广到p元统计分析中，类似地对参数向量 𝜇 和参数矩阵Σ 涉
及到的检验也有一个总体、两个总体,乃至多个总体的检验问
题
• 在一元统计中，用于检验 μ, 𝜎 2 的抽样分布有 𝜒2 分布,t 分布,
F分布等,它们都是由来自总体 N(μ, 𝜎 2 ) 的样本导出的检验统计
量.
• 推广到多元统计分析后，也有相应于以上三个常用分布的统
计量: Wishart, Hotelling 𝑇 2 ,Wilks Λ 统计量
42
正态向量的二次型
分量独立的正态变量二次型
设𝑋𝑖 ～𝑁1(𝜇𝑖 , 𝜎2)(𝑖 = 1, … … , 𝑛),且相互独立，记
结论1
一般情况(𝜇𝑖 ＝0，𝜎2 ≠ 1时),
43
结论2 当𝜇𝑖 ≠ 0(𝑖 = 1, … , 𝑛), 𝜎2 = 1时,X′X的分
布常称为非中心𝜒2分布.
定义设n维随机向量𝑋～𝑁𝑛(𝜇, 𝐼𝑛)
(𝜇 ≠ 0),则称随机变量𝜉＝𝑋′𝑋为服从 n
n个自由度,非中心参数  =   =  i2
i =1`
的𝜒2分布，记为
X X ~  (n,  ), X X ~  ( )
2 2
n
44
1 1
Y Y = X X ~  (n,  ), 其中 =
2
 
 2
 2
结论3 设𝑋～𝑁𝑛 (0 , 𝜎2𝐼𝑛), 𝐴为n阶对称方阵,

𝑟𝑘(𝐴) = 𝑟,则二次型
𝑋′𝐴𝑋/𝜎2～𝜒2(𝑟)  𝐴2＝𝐴(A为投影阵).
特例:当A=In时, X I n X /  2 = X X /  2 ~  2 (n)
45
证明：
（充分性）
因A为对称幂等阵，而对称幂等阵的特征值非0
即1,且只有r个非0特征值，即存在正交阵Γ(其列
向量ri为相应特征向量)，使得
46
47
(必要性) 因A为对称阵，所以存在正交阵
Γ使: Γ′𝐴Γ＝𝑑𝑖𝑎𝑔(𝜆1, … 𝜆𝑟，0 … 0).令
𝑌 = Γ′𝑋 ～𝑁（0, 𝜎2 𝐼𝑛 ）, 𝑋 = Γ𝑌
则
r
 
= X '

AX
2
= Y ' '

A
2
Y =  i Y
i =1
i
2
/  2
且Y1，…，Yr 相互独立同N(0,σ2)分布.
故而
48
Zi= (𝑖＝1, … , 𝑟),且相互独立.
−1/2
𝜆𝑖 𝑍𝑖 的特征函数为 1 − 2𝑖𝜆𝑖𝑡 ,
因𝑍1 𝑍2 … 𝑍𝑟且相互独立.故有
又已知𝜉＝𝑋′𝐴𝑋/𝜎2～𝜒2(𝑟)，故ξ的特征函数为
−𝑟/2
1 − 2𝑖𝑡
49
比较特征函数，均为t的多项式，必须系
数相同，可得
𝜆1＝ … ＝𝜆𝑟 = 1
故𝑑𝑖𝑎𝑔(1, … , 1,0, … , 0) = Γ′𝐴Γ

= Γ′𝐴Γ · Γ′𝐴Γ
= Γ′𝐴2Γ
即𝐴＝𝐴2，A为对称幂等阵.
50
结论4 设𝑋～𝑁𝑛 (𝜇, 𝜎2𝐼𝑛), 𝐴为对称阵,
且𝑟𝑘(𝐴) = 𝑟, 则二次型
1 1
X AX ~  (r ,  ), 其中 =
2
 A.
 2
 2
 𝐴2＝𝐴(𝐴为对称幂等阵).
51
结论5 二次型与线性函数的独立性:
设𝑋～𝑁𝑛 (𝜇, 𝜎2𝐼𝑛), 𝐴为𝑛阶对称阵，
𝐵为𝑚 × 𝑛阵, 令𝜉＝𝑋′𝐴𝑋, 𝑍 = 𝐵𝑋(𝑍为𝑚维
随机向量), 若𝐵𝐴 = 𝑂,
则𝐵𝑋和𝑋′𝐴𝑋相互独立.
证明设𝑟𝑘(𝐴) = 𝑟＞0 (当r=0时A＝0，结
论显然成立)，存在正交阵Γ使
52
其中λi是A的非零特征值(i＝1,…,r).因为
故有C1Dr＝Om×r ( Dr为对角矩阵, 且
𝜆𝑖 ≠ 0)，从而得𝐶1＝ 𝑂𝑚 × 𝑟
53
即𝑌1, … , 𝑌𝑛独立.
因为
故𝑋′𝐴𝑋与𝐵𝑋相互独立.
以上结论反之也成立:若𝐵𝑋和𝑋′𝐴𝑋独立 ,
则𝐵𝐴 = 0. 54
结论6 两个二次型相互独立的条件:
设𝑋～𝑁𝑛 (𝜇, 𝜎2𝐼𝑛), A，B为n阶对称阵则
𝐴𝐵 ＝𝑂  𝑋′𝐴𝑋与𝑋′𝐵𝑋相互独立.
证明只证明必要性.
记rk(A)=r.
若r=n,由AB＝0,知B＝0n×n,于是X′AX与
X′BX独立；
若r=0,则A＝0,则两个二次型也是独立的.
以下设0＜r＜n.因A为n阶对称阵,存在正
交阵Γ,使得
其中𝜆𝑖 ≠ 0为𝐴的特征值(𝑖 = 1, … , 𝑟).于是
令
r
由𝐴𝐵＝0可得𝐷𝑟𝐻11＝0， 𝐷𝑟 𝐻12＝0.
因𝐷𝑟为满秩阵, 故有
𝐻11＝0𝑟 × 𝑟，𝐻12＝ 0𝑟 × (𝑛 − 𝑟) .
由于H为对称阵，所以𝐻21＝0(𝑛 − 𝑟) × 𝑟 .于是
令𝑌＝Γ′𝑋，则𝑌～ 𝑁𝑛(Γ′𝜇, 𝜎2𝐼𝑛), 且

由于𝑌1 , … , 𝑌𝑟 , 𝑌𝑟+1 , … , 𝑌𝑛 相互独立，故
𝑋′𝐴𝑋与𝑋′𝐵𝑋相互独立.
一般p维正态变量的二次型
结论1 设𝑋～𝑁𝑝 (𝜇, Σ), Σ＞0,则
−1 ′ −1
𝑋′Σ 𝑋～𝜒 (𝑝, 𝛿)，其中𝛿＝𝜇 Σ 𝜇.
2
结论2 设𝑋～𝑁𝑝 (𝜇, Σ), Σ＞0,A为对称阵,

𝑟𝑘(𝐴) = 𝑟. 则 𝑋 − 𝜇 ′ 𝐴 𝑋 − 𝜇 ～
𝜒 2 (𝑟)  Σ𝐴Σ𝐴Σ＝Σ𝐴Σ .
证明因Σ＞0,则rk(Σ)＝p.因Σ为对称阵,故存在正
交阵Γ,使得
= 1/ 2

1/ 2
令
这里
而
两边左右乘Σ1/2，即得
Σ𝐴Σ𝐴Σ＝Σ𝐴Σ .
结论3 设𝑋 ∼ 𝑁𝑝 (𝜇, Σ), Σ＞0, 𝐴和𝐵为𝑝阶
对称阵, 则
(𝑋 − 𝜇)′𝐴(𝑋 − 𝜇)与(𝑋 − 𝜇)′𝐵(𝑋 − 𝜇)独立
 Σ𝐴Σ𝐵Σ＝𝑂𝑝 × 𝑝.
ξ与η相互独立 
Wishart分布(威沙特分布)
Wishart分布是一元统计中𝜒2分布的推广.多元
正态总体 𝑁𝑝 (μ,Σ)中,常用样本均值向量𝑋作 ത
为μ的估计，样本协差阵S＝A/(n-1)作为Σ的
估计, 𝑋ത ～𝑁𝑝 (𝜇, Σ/𝑛)，那么 S 的分布是什么?
n
1
一元统计中，用样本方差 s 2
=
n − 1

i =1
( X (i ) − X ) 2
2
作为σ 的估计，而且知道
n
1
 2 (X
i =1
(i ) − X ) ~  (n − 1)
2 2
64
推广到p元正态总体,样本协差阵S＝A/(n-1) 及
随机矩阵A(离差阵)的分布是什么?
设X(α) (α＝1,…,n)为来自Np(0,Σ)的随机样本,考
虑随机矩阵  X (1) 
 
( )
n
W =  X ( ) X ( ) = X (1) , , X ( n )    = X  X
pn n p
 =1 X 
 (n) 
当 p=1：
 X (1) 
 
= (X (1) , , X ( n ) )   = X  X ~  2  2 (n).
n
W =  X (2 )
 =1  X  1n n1
 (n)  65
推广到p元正态总体：
定义. 设X(α) ～𝑁𝑝 (0, Σ) (𝛼＝1, … , 𝑛)相
互独立，则称随机矩阵
n
W =  X ( ) X ( ) = X X
 =1
的分布为Wishart分布(威沙特分布)，记
为𝑊～𝑊𝑝 (𝑛, Σ). n
W =  X  ~   ( n)
2 2 2
显然 p=1时,  =1
( )
即
𝑊1 𝑛, 𝜎 2 就是𝜎 2 𝜒 2 (𝑛)
66
性质1 设X(α)～𝑁𝑝 (𝜇, Σ) (α＝1,…,n)相互独立，
则样本离差阵A服从Wishart分布，即
n
A =  ( X ( ) − X )( X ( ) − X ) ~ W p ( n − 1, )
 =1
由于Wishart分布是χ2分布的推广,它具有χ2分布
的一些性质.
性质2 关于自由度n具有可加性：
设Wi ～W
k p(ni,Σ) (i＝1,…,k)相互独立，则
Wi ~ W p (n, ), 其中n = n1 +  + nk .

i =1
67
性质3 设p阶随机阵W～Wp(n,Σ), C是m×p常数阵,
则m阶随机阵CWC′也服从Wishart分布,即
𝐶𝑊𝐶′～𝑊𝑚 (𝑛, 𝐶Σ𝐶′).
特例：
① 𝑎𝑊～𝑊𝑝 (𝑛, 𝑎Σ) (𝑎＞0，为常数).
1 /2
在性质3 中只须取𝐶＝𝑎 𝐼𝑝，即得此结论.
② 设𝑙′＝(𝑙1, … , 𝑙𝑝)，则
𝑙´𝑊𝑙＝𝜉～ 𝑊1 (𝑛, 𝑙′Σ𝑙),
即 𝜉～𝜎2𝜒2(𝑛) (其中𝜎2＝𝑙′Σ𝑙).
在性质3中只须取𝐶＝𝑙′,即得此结论.
68
性质4 分块Wishart矩阵的分布:设X(α) ～ Np(0,Σ)
(α＝1,…,n)相互独立，其中
 11 12  r
=
 21  22  p − r
又已知随机矩阵
n
W11 W12  r
W =  X ( ) X ( ) =   ~ Wp (n, )
 =1 W21 W22  p − r
69
性质5 设随机矩阵W～Wp(n,Σ)，记
−1
W22•1 = W22 − W21W W12
11
则 W22•1 ～ Wp−r (n − r, 22•1 ), 且W22•1与W11

相互独立。其中
−1
 22•1 =  22 −   
21 11 12
性质6 设随机矩阵W～Wp(n,Σ)，则
𝐸(𝑊)＝𝑛Σ.
70
2
Hotelling 𝑇 分布
一元统计中, 若𝑋～𝑁(0,1),～ χ2(n) ,X与 
相互独立,则随机变量 X
t= ~ t (n).
2
 n
nX
下面把 t =
2
= nX  −1 X 的分布推广到p元总体.

设总体𝑋～𝑁𝑝 (0, Σ)，随机阵

𝑊 ～ 𝑊𝑝(𝑛, Σ),我们来讨论𝑇2＝𝑛𝑋 ′ 𝑊 −1 𝑋
的分布.
71
2
定义. 设X～Np(0,Σ),随机阵W～Wp(n,Σ)
(Σ0, n≥p),且X与W相互独立, 则称统计量
′ −1
𝑇 ＝𝑛𝑋 𝑊 𝑋
2
为Hotelling T2 统计量,其分布称为服从n个
自由度的T2 分布,记为
𝑇2 ～ 𝑇2 (𝑝, 𝑛)
72
2
性质1 设X(α) ～ 𝑁𝑝(𝜇, Σ) (𝛼＝1, … , 𝑛) 是来自p元
总体𝑁𝑝(𝜇, Σ)的随机样本, X和A分别为总体
𝑁𝑝(𝜇, Σ)的样本均值向量和离差阵,则统计量
T = n(n − 1)( X −  ) A ( X −  )
2 −1
= n( X −  )S ( X −  )
−1
~ T ( p, n − 1)
2
73
2
性质2 T2 与F 分布的关系:设𝑇2～𝑇2 (𝑝, 𝑛),
则 n − p +1 2
T ~ F ( p, n − p + 1)
np
在一元统计中 (设X ~ N (0,1),  ~  2 (n), 且相互独立)
2
X X /1
若 t= ~ t (n), 则 t =
2
~ F (1, n).
  /n
n
74
2
一元统计中(p=1时),t 统计量与参数σ2无关.类
似地有以下性质.
2
性质3 T 统计量的分布只与p,n有关,而
与Σ无关. 即
设U ~ N p (0, I p ), W0 ~ W p (n, I p ), U和W0 相互
独立; 又设X ~ N p (0, ), W ~ W p (n, ), X和W
相互独立; 则
d
nU W U == nX W X ~ T ( p, n).
0
−1 −1 2
75
2
性质4 在非退化的线性变换下,𝑇2 统计量保
持不变.
设X(α) (α＝1,…,n) 是来自p元总体𝑁𝑝(𝜇, Σ)的随机
样本, 𝑋ത x和Ax分别表示正态总体X的样本均值向量
和离差阵,则由性质1有
T = n(n − 1)( X x −  ) Ax ( X x −  )
x
2
 −1
~ T 2 ( p, n − 1).
76
令 Y(i ) = CX (i ) + d (i = 1,..., n)
其中C是pp非退化常数矩阵，d是p1
常向量。则可证明：
T =T
x
2
y
2
T y
2
= n(n − 1)(Y −  y ) A (Y −  y )
−1
y
77
Wilks Λ 分布
一元统计中,设ξ～χ2(m),η～χ2(n), 且相互独立,
则  /m
F= ~ F (m, n).
/n
在总体N(μ1,σ2(x))和N(μ2,σ2(y))方差齐性检验中,
设X(i)(i=1,…,m)为来自总体N(μ1,σ2(x))的样本, Y (j)
(j=1 ,…,n)为来自总体N(μ2,σ2(y))的样本.取σ2(x)和
σ2(y)的估计量(样本方差)分别为
m n
1 1
s =
2
x 
m − 1 i =1
( X (i ) − X ) , s y =
2 2

n − 1 j =1
(Y( j ) − Y ) ,
2
78
Wilks Λ 分布
检验统计量
2 H 0下
s
F= x
2
~ F (m − 1, n − 1)
s y
p元总体Np(μ,Σ)中,协差阵Σ的估计量为A/(n-1)
或A/n.在检验𝐻0: Σ1＝Σ2时,如何用一个数值来描
述估计矩阵的离散程度呢？
一般可用矩阵的行列式、迹或特征值等数量指
标来描述总体的分散程度.
79
Wilks Λ 分布
定义.设𝑋～𝑁𝑝 (𝜇, Σ),则称协差阵的行列
式|Σ|为X的广义方差.若X(α) (α＝1,…, n ) 为p
元总体X的随机样本，A为样本离差阵,
有了广义方差的概念后,在多元统计的协差阵齐
次检验中,类似一元统计,可考虑两个广义方差之
比构成的统计量——Wilks统计量的分布.
80
Wilks Λ 分布
定义. 设𝐴1～𝑊𝑝 (𝑛1, Σ) , 𝐴2～
𝑊𝑝 (𝑛2, Σ) (Σ＞0, 𝑛1 ≥ 𝑝), 且A1与A2独立, 则称广
义方差之比
| A1 |
=
| A1 + A2 |
为 Wilks(或Λ) 统计量,其分布称为 Wilks(威
尔克斯)分布,记为
Λ～Λ(𝑝, 𝑛1, 𝑛2) 81
Wilks Λ 分布
在实际应用中,常把Λ统计量化为T2统计量,进
而化为F统计量,利用我们熟悉的F统计量来解决
多元统计分析中有关检验的问题.
结论1 当n2＝1时,设n1=n＞p,则
82
Wilks Λ 分布
结论2 当n2＝2时,设n1＝n＞p,则
结论3 当p=1时，则
83
Wilks Λ 分布
结论4 当p=2时，则
结论5 当n2＞2,p＞2时,可用χ2统计量或F
统计量近似. Box(1949)给出以下结论：
设Λ～Λ(p, n, n2),则当n→∞时，
−𝑟𝑙𝑛Λ～𝜒2(𝑝𝑛2 )
其中r = n-(p- n2+1)/2.
84
Wilks Λ 分布
下面不加证明地给出地二个重要结论：
(1) 若Λ～Λ(p,n1,n2),则存在相互独立B1,…,Bp ,
Bk～ ( n1 − p + k , n2 ) (k=1,…,p)使得
2 2
 = B1 B2 Bp
p=1时Λ(1,n1,n2)就是𝛽(n1 /2,n2 /2).
(2)
85
单总体均值向量的检验
• 设x1,x2,⋯,xn是取自总体Np(μ, Σ)的一个样本，这里
Σ>0,n>p，欲检验
H0：μ=μ0，H1：μ≠μ0
• 分为:
• Σ已知时的检验
• Σ未知时的检验
86
1. Σ 已知时的检验
• 检验统计量
H 0 : μ = μ0
2 
T = n ( x − μ0 ) Σ ( x − μ0 )
−1
 2
( p)
0
拒绝规则为：
若 T02  2 ( p ) ，则拒绝H0
 1 
T 是总体 N p  μ, Σ  中 x 到μ0的平方马氏距离.
2
0
 n 
87
2. Σ 未知时的检验
当p=1时(一元统计)，取检验统计量为
或等价地取检验统计量
88
2. Σ未知时的检验
• 一般的 p>1: 检验统计量为
T 2 = n ( x − μ0 ) S −1 ( x − μ0 )
为霍特林T2 统计量
• n − p 2 H 0: μ= μ0
T F ( p, n − p )
p ( n − 1)
• 对给定的 α，拒绝规则为：
n− p
若 T 2
 F ( p, n − p ) ，则拒绝H0
p ( n − 1)
等价于
若 T 2  T2 ( p, n − 1) ，则拒绝H0
p ( n − 1)
其中 T ( p, n − 1) = F ( p, n − p ) .
2
n− p
89
似然比检验
在数理统计中关于总体参数的假设检验,通常是利用最
大似然原理导出似然比统计量进行检验.在多元统计分
析中几乎所有重要的检验都是利用最大似然原理给出
的.下面我们回顾下最大似然比原理.
设p维总体的密度函数为𝑓(𝑥, 𝜃),其中𝜃是未知参数，且
𝜃 ∈ Θ(参数空间)，又设Θ0是Θ的子集,我们希望对下列
假设：
作出判断,这就是假设检验问题.称H 0 为原假设(或零假
设)，H 1为对立假设(或备择假设).
似然比检验
从总体X抽取容量为n的样本X(t)(t=1,…,n).把样本的联合
密度函数
记为𝐿(𝑋; 𝜃),并称它为样本的似然函数.
引入统计量
似然比检验
𝜆是样本X(t)(t=1,…,n)的函数,常称𝜆为似然比统计量.由于
Θ0是Θ的子集,即分子≤分母,从而0 ≤ 𝜆 ≤ 1.
直观考虑,若H0成立时,𝜆值应近似为1.如果𝜆取值太小(即
分子<<分母),由最大似然原理,说明H0 为真时观测到此
样本 X(t)(t=1,…,n) 的概率比 𝐻0 为不真时观测到此样本
X(t)(t=1,…,n)的概率要小得多.故有理由认为假设𝐻0 不成
立,所以从似然比统计量出发,如果
𝜆(𝑋 1 , … , 𝑋 𝑛 )
过小，小于某个数𝜆𝛼 ，就有理由认为 𝐻0 不成立.
似然比检验
按传统计的检验方法,𝜆𝛼 是由显著性性水平𝛼确
定的临界值,它满足在𝐻0成立时有：
𝑃{𝜆(𝑋 1 , … , 𝑋 𝑛 )＜𝜆𝛼 } = 𝛼.
为了得到𝜆𝛼 ,必须研究似然比统计量𝜆的抽样分
布.在一些特殊的情况下,𝜆的精确分布可以得到;
但很多情况得不到𝜆的精确分布.
93
似然比检验
当样本量很大且满足一定条件时,
−2ln𝜆的抽样分布与𝜒2分布十分接近.
定理当样本容量n很大时，
近似服从自由度为𝑓 的𝜒2分布,其中
𝑓 = Θ的维数 − Θ0的维数.
94
当Σ未知时检验均值向量𝜇 = 𝜇0 的似然比统计量
2
− 1
 n
= 1+ T2 似然比统计量与 𝑇 2 等价
n −1 95
• 例. 对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进
行测量（单位：cm），得样本数据如表4.2.1所示。根据以往
资料，该地区城市2周岁男婴的这三个指标的均值
μ0=(90,58,16)′，现欲在多元正态性假定下检验该地区农村男
婴是否与城市男婴有相同的均值。这是假设检验问题：
H0：μ=μ0，H1：μ≠μ0
表4.2.1 某地区农村男婴的体格测量数据
编号身高（x1）胸围（x2）上半臂围（x3）
1 78 60.6 16.5
2 76 58.1 12.5
3 92 63.2 14.5
4 81 59.0 14.0
5 81 60.8 15.5
6 84 59.5 14.0
96
➢  82.0   −8.0 
x =  60.2  , x − μ0 =  2.2 
 14.5   −1.5 
   
 31.600 8.040 0.500 
S =  8.040 3.172 1.310 
 
 0.500 1.310 1.900 
 
 4.3107 −14.6210 8.9464 
S −1 = ( 23.13848 )  −14.6210 59.7900 −37.3760 
−1
 
 8.9464 −37.3760 35.5936 
 
T 2 = n x − μ  S −1 x − μ = 6  70.0741 = 420.445
( 0 ) ( 0 )
3 5
T 2
0.01 ( 3,5) = F0.01 ( 3,3) = 147.5>29.5 = F0.01 ( 3,3)
3
故在α=0.01下，拒绝H0 (p=0.002)。
97
置信区域
T 2 = n ( x − μ ) S −1 ( x − μ )
n− p
T 2 F ( p, n − p )
p ( n − 1)
 n− p 
P T  F ( p, n − p )  = 1 − 
2
 p ( n − 1) 
P  n ( x − μ ) S −1 ( x − μ )  T2 ( p, n − 1)  = 1 − 
 
p ( n − 1)
其中 T ( p, n − 1) =
2
F ( p, n − p )
n− p
98
• μ的置信度为1−α的置信区域为
 
μ : n ( x − μ ) S −1 ( x − μ )  T2 ( p, n − 1)
➢当p=1时，它是一个区间；当p=2时，它是一个实心
椭圆，这时可将其在坐标平面上画出；当p=3时，它
是一个椭球体；当p＞3时，它是一个超椭球体；它
们均以x 为中心.
• 置信区域与假设检验之间有着密切的关系。一般来
说，μ0包含在上述1−α置信区域内，当且仅当
𝐻0 : μ=μ0在α下被接受.
• 可以通过构造的置信区域的方法来进行假设检验。
实践中，该方法通常用于p=2时的情形，并借助于平
面置信区域图形.
99
联合置信区间
• 设x1,x2,⋯,xn是来自总体Np(μ,Σ)的一个样本，对
任一a≠0，令yi=a′xi(i=1,2,⋯,n)，则y1,y2,⋯,yn是来
自总体N(a′μ,a′Σa)的一个样本，其样本均值和方
差为
1 n 1 n
ya =  yi =  axi = ax
n i =1 n i =1
n n
1 1
sa =  ( yi − y ) =  ( a xi − a x )
 
2 2 2
n − 1 i =1 n − 1 i =1
n
a ( xi − x )( xi − x ) a = aSa
1
=
n − 1 i =1
100
• 故a′μ的1−α置信区间为
sa
ya  t 2 ( n − 1) = ax  t 2 ( n − 1) aSa n
n
• a1′μ和a2′μ的1−α置信区间分别为
E1 = {a1x − t 2 ( n − 1) a1Sa1 n  a1 μ 
a1x + t 2 ( n − 1) a1Sa1 n}
E2 = {a2 x − t 2 ( n − 1) a2 Sa2 n  a2 μ 
a2 x + t 2 ( n − 1) a2 Sa2 n}
• P(E1)=1−α，P(E2)=1−α，但
P(E1E2)≤min{P(E1), P(E2)}=1−α
• 要使得总置信度达到1−α，就必须将tα/2(n−1)增大到某个值。
101
• 如果希望有更多线性组合参数a1′μ,a2′μ,⋯,ak′μ的置信区间同时
成立的概率达到1−α，则需进一步加大每个置信区间中的分位
数值。置信区间的个数k越大，所需的分位数值也就越大。上
述分位数值如增大到Tα(p, n−1)，则有
 
P
 a
 a x − T ( p, n − 1) aSa n  a μ  a x + T ( p, n − 1) aSa 
n  = 1− 

即
a x − T ( p, n − 1) aSa n  a μ  a x + T ( p, n − 1) aSa n
𝑝
以1−α的概率对一切a∈𝑅 成立，称它为一切线性组合
𝑝
{𝒂′𝝁，𝒂 ∈ 𝑅 } 的置信度为1−α的联合置信区间。
• 对k个线性组合{ai′μ，i=1,2,⋯,k}，有
 k 
P
 i =1

aix − T ( p, n − 1) aiSai n  aiμ  aix + T ( p, n − 1) aiSai 
n   1−

102
置信域与联立置信区间
置信度为1-α
p=2时
μ的中心在
X的置信椭园
绿线组成的长方形区域是 μ1,μ2
的分别求置信区间组成的. 红线组成的长方形区域是 μ1,μ2
的联合置信区间
103
• 当k很小时，联合T2置信区间
aix  T ( p, n − 1) aiSai n , i = 1, 2, , k
的置信度一般会明显地大于1−α，因而上述区间会显得过宽，
即精确度明显偏低。这时，我们可以考虑采用邦弗伦尼
（Bonferroni）联合置信区间：
aix  t /2k ( n − 1) aiSai n ，i = 1, 2, , k
它的置信度至少为1−α。
• 若tα/2k(n−1)<Tα (p, n−1)，则Bonferroni 区间比T2区间要窄，这
时宜采用前者作为联合置信区间；反之，若tα/2k(n−1)>
Tα(p, n−1)，则Bonferroni区间比T2 区间宽，宜采用后者作为
联合置信区间。
• 当k≤p时， Bonferroni区间要比T2 区间窄。故在求μ的所有p个
分量μ1, μ2,⋯, μp的联合置信区间时，一般应采用Bonferroni区
间，此时不必考虑多维变量协方差矩阵的结构。
104
• 例. 为评估某职业培训中心的教学效果，随机抽取8名受训者，
进行甲和乙两个项目的测试，其数据列于表4.2.2。假定
x=(x1,x2)′服从二元正态分布。
表4.2.2 两个项目的测试成绩
编号 1 2 3 4 5 6 7 8
甲项成绩（x1） 62 80 66 84 75 80 54 79
乙项成绩（x2） 70 77 75 87 87 91 61 84
➢n=8，p=2，取1−α=0.90，查表得F0.10(2,6)=3.46，于是，
T0.10(2,7)=2.841。
 72.5   112.5714 96.1429  −1  0.0436 −0.0406 

x =  ,S =   ,S =  
 79   96.1429 103.1429   −0.0406 0.0475 
105
➢μ的0.90置信区域为
 0.0436 −0.0406   72.5 − 1 
8  ( 72.5 − 1 , 79 − 2 )      8.073
 −0.0406 0.0475  79 − 2 
即
0.0436×(μ1−72.5)2−0.0812×(μ1−72.5)(μ2−79)
+0.0475×(μ2−79)2≤1.009
这是一个椭圆区域。μ1和μ2的0.90联合T2置信区间为
72.5  2.841 112.5714 / 8 = ( 61.84,83.16 )
79  2.841 103.1429 / 8 = ( 68.80,89.20 )
这两个区间分别正是椭圆在μ1轴和μ2轴上的投影。
106
➢μ1和μ2的0.90 Bonferroni联合置信区间为（t0.025(7)=
2.3646）
72.5  2.3646  112.5714 / 8 = ( 63.63,81.37 )
79  2.3646  103.1429 / 8 = ( 70.51,87.49 )
这个联合置信区间在精确度方面要好于 T2 联合置信
区间。由该联合置信区间可得到置信度至少为0.90的
矩形置信区域.
107
*均值向量的大样本推断
• 设x1,x2,⋯,xn是来自均值为μ，协差阵为Σ (>0)的总体的一
个样本(不要求正态)。当n很大且n相对于p也很大时，
n ( x − μ ) Σ −1 ( x − μ )  2 ( p )
• 用S替代Σ也有
n ( x − μ ) S −1 ( x − μ )  2 ( p )
• 检验H0:μ=μ0的拒绝规则为：
若n ( x − μ ) S −1 ( x − μ )   2 ( p )，则拒绝H
0 0  0
• μ的1−α近似置信区域为
 
μ : n ( x − μ ) S −1 ( x − μ )  2 ( p )
108
• a μ, a  R p
 的1−α近似联合置信区间为
a μ : a x  2 ( p ) aSa n
• aiμ, i = 1, 2, , k  的1−α近似邦弗伦尼联合置信区间：
aiμ : aix  u 2 k aiSai n , i = 1, 2, , k
• tα/2k(n−1) 随 n 的增大而递减，并以 uα/2k 为极限。

• 类似地，  T 2
( p , n − 1) 也随 n 的增大而递减，并以  ( p )为极
 2
限，当 n 相对于p 较大时，T2 ( p, n − 1) 可用 2 ( p ) 近似.
109
两个总体均值的比较推断
• 1、两个独立样本的情形
• 2、成对试验的T2统计量
110
1、两个独立样本的情形
• 设从两个总体Np(μ1,Σ)和Np(μ2,Σ)中各自独立地抽取一个样本
x1 , x2 , , xn1 和 y1 , y2 , , yn ，Σ>0，欲检验
2
H0：μ1=μ2，H1：μ1≠μ2
➢μ1,μ2的无偏估计
1 n1 1 n2
x =  xi , y= y i
n1 i =1 n2 i =1
➢Σ的联合无偏估计
Sp =
( n1 − 1) S1 + ( n2 − 1) S2
n1 + n2 − 2
其中
1 n1 n2
( xi − x )( xi − x ) , S2 = ( yi − y )( yi − y )
1
S1 = 
n1 − 1 i =1

n2 − 1 i =1
111
• 霍特林T2检验统计量
−1
1 1
T =  +  ( x − y ) S p−1 ( x − y )
2
 n1 n2 
= 1 2 ( x − y ) S p−1 ( x − y )
nn
n1 + n2
• 当H0为真时，
n1 + n2 − p − 1 2
T F ( p, n1 + n2 − p − 1)
p ( n1 + n2 − 2 )
• 对给定的α，拒绝规则为：
若 T 2  T2 ( p, n1 + n2 − 2 ) ，则拒绝H0
其中
p ( n1 + n2 − 2 )
T ( p, n1 + n2 − 2 ) =
2
F ( p，n1 + n2 − p − 1)
n1 + n2 − p − 1
112
• H0：μ1=μ2是否被拒绝与H0i：μ1i=μ2i是否被拒绝虽有一定联系，
但并没有必然关系。
• 在图4.3.1中，似乎会拒绝H0：μ1=μ2，而接受H0i：μ1i=μ2i，
i=1,2。
图4.3.1 两个椭圆点群
113
• 在实际应用中，一旦H0：μ1=μ2被拒绝了，则可以考虑对所有
的i (1≤i≤p)，在相同的显著性水平下再进一步检验H0i：μ1i=μ2i，
以判断是否有分量及（若有）具体是哪些分量对拒绝H0：
μ1=μ2起了较大作用。
• {a′(μ1−μ2)，a∈Rp}的1−α联合置信区间为
n1 + n2
a ( x − y )  T ( p, n1 + n2 − 2 ) aS p a
n1n2
• 当k很小时，可采用｛ai′(μ1−μ2)，i=1,2,⋯,k｝的1−α
Bonferroni 联合置信区间
n1 + n2
ai ( x − y )  t /2k ( n1 + n2 − 2 ) aiS p ai
n1n2
114
• 例。表4.3.1给出了相应于表4.2.1的9名2周岁女婴的数据。
我们欲在多元正态性假定下检验2周岁的男婴与女婴的均值向
量有无显著差异。
表4.3.1 某地区农村女婴的体格测量数据
编号身高（y1）胸围（y2）上半臂围（y3）
1 80 58.4 14.0
2 75 59.2 15.0
3 78 60.3 15.0
4 75 57.4 13.0
5 79 59.5 14.0
6 78 58.1 14.5
7 75 58.0 12.5
8 64 55.5 11.0
9 80 59.2 12.5
115
➢从例4.2.1得
n1 = 6, x = ( 82.0, 60.2, 14.5 )
158.00 40.20 2.50 
( n1 − 1) S1 =  40.20 15.86 6.55 
 2.50 6.55 9.50 

从表4.3.1计算得
n = 9, y = ( 76.0, 58.4, 13.5 )
2
196.00 45.10 34.50 

( n2 − 1) S2 =  45.10 15.76 11.65 
 34.50 11.65 14.50 
 
116
所以
x − y = ( 6.0, 1.8, 1.0 )
 27.2308 6.5615 2.8462 
Sp =
( n1 − 1) S1 + ( n2 − 1) S2 
= 6.5615 2.4323 1.4000 
n1 + n2 − 2  
 2.8462 1.4000 1.8462 
 
T =2 n1n2
( x − y 
) p ( x − y ) = 5.312
S −1
n1 + n2
p ( n1 + n2 − 2 )
T0.05 ( p, n1 + n2 − 2 ) =
2
F0.05 ( p,n1 + n2 − p − 1)
n1 + n2 − p − 1
3  13 3  13
=  F0.05 ( 3,11) =  3.59 = 12.728
11 11
因 T  T0.05 ( 3,13) ，故不能拒绝原假设H0，即认为两个均值
2 2
向量无显著差异（p=0.269）。
117
2、成对试验的T2统计量
• 设(xi, yi)，i=1,2,⋯,n(n>p)是成对试验的数据，令
di=xi−yi，i=1,2,⋯,n
又设d1,d2,⋯,dn独立同分布于Np(δ,Σ)，其中Σ>0，δ=μ1−μ2，
μ1和μ2分别是总体x和总体y的均值向量。希望检验
H0：μ1=μ2，H1：μ1≠μ2
这等价于
H0：δ=0，H1：δ≠0
• 检验统计量为
T 2 = nd Sd−1d
118
其中
d =x−y
1 n 
Sd = 
n − 1 i =1
( d i − d )( d i − d )
• 当原假设H0：δ=0为真时，统计量
n− p 2
T F ( p, n − p )
p ( n − 1)
  ( p, n − 1) ，则拒绝H0
2 2
若 T T
其中
p ( n − 1)
T ( p, n − 1) =
2
F ( p, n − p )
n− p
119
多个总体均值的比较检验（多元方差
分析）
• 设有k个总体π1,π2,⋯,πk，它们的分布分别是
Np(μ1,Σ),Np(μ2,Σ),⋯,Np(μk,Σ)，今从这k个总体中各自独立
地抽取一个样本，取自总体πi的样本为xi1 , xi 2 , , xini ，
i=1,2,⋯,k。现欲检验
H0：μ1=μ2=⋯=μk，H1：至少存在一对i≠j, μi≠μj
记 k ni
总离差阵 T = SST =  ( xij − x )( xij − x )
i =1 j =1
k ni
E = SSE =  ( xij − xi )( xij − xi )
组内离差阵
i =1 j =1
k
H = SSTR =  ni ( xi − x )( xi − x )
组间离差阵
i =1
120
• 则
T=E+H
相应的自由度 n−1=(n−k)+(k−1)
• 采用似然比方法可以得到威尔克斯（Wilks）Λ统计量
E
=
E+H
若Λ≤Λ1−α(p,n−k,k-1) ，则拒绝H0
其中Λ1−α(p,k−1,n−k)满足：当H0为真时，
P[Λ≤ Λ1−α(p,n−k,k-1) ]= α
➢Λ分布的分位点可用χ2分布或F分布来近似.
121
• 例. 为了研究销售方式对商品销售额的影响，选择四种商品
（甲、乙、丙和丁）按三种不同的销售方式（Ⅰ,Ⅱ和Ⅲ）进行
销售。这四种商品的销售额分别为x1,x2,x3,x4,其数据见表4.5.1。
表4.5.1 销售额数据
销售方式Ⅰ 销售方式Ⅱ 销售方式Ⅲ
编号
x1 x2 x3 x4 x1 x2 x3 x4 x1 x2 x3 x4
1 125 60 338 210 66 54 455 310 65 33 480 260
2 119 80 233 330 82 45 403 210 100 34 468 295
3 63 51 260 203 65 65 312 280 65 63 416 265
4 65 51 429 150 40 51 477 280 117 48 468 250
5 130 65 403 205 67 54 481 293 114 63 395 380
6 69 45 350 190 38 50 468 210 55 30 546 235
7 46 60 585 200 42 45 351 190 64 51 507 320
122
8 146 66 273 250 113 40 390 310 110 90 442 225
9 87 54 585 240 80 55 520 200 60 62 440 248
10 110 77 507 270 76 60 507 189 110 69 377 260
11 107 60 364 200 94 33 260 280 88 78 299 360
12 130 61 391 200 60 51 429 190 73 63 390 320
13 80 45 429 270 55 40 390 295 114 55 494 240
14 60 50 442 190 65 48 481 177 103 54 416 310
15 81 54 260 280 69 48 442 225 100 33 273 312
16 135 87 507 260 125 63 312 270 140 61 312 345
17 57 48 400 285 120 56 416 280 80 36 286 250
18 75 52 520 260 70 45 468 370 135 54 468 345
19 76 65 403 250 62 66 416 224 130 69 325 360
20 55 42 411 170 69 60 377 280 60 57 273 260
123
➢欲检验
H0：μ1=μ2=μ3，H1：μ1,μ2,μ3中至少有两个不相等
假定这三个总体均为多元正态总体，且它们的协差阵相同。
p=4，k=3，n1=n2=n3=20，n=n1+n2+n3=60
➢  90.80   72.90   94.15 
 58.65   51.45   55.15 
x1 =  ,x2 =   , x3 =  
 404.50   417.75   403.75 
     
 230.65   253.15   292.00 
 85.9500 
3 3  55.0833 
1 1
x =  ni xi =  xi =  
n i =1 3 i =1  408.6667 
 
 258.6000 
124
 5221.30 1305.20 −3581.25 4188.90 
3  1305.20 518.53 −963.83 −1553.20 
H =  ni xi xi − nxx  =  
i =1  −3581.25 −963.83 2480.83 −1945.25 
 4188.90 −1553.20 −1945.25 38529.30 
 
 49290.85 8992.25 −36444.00 28906.80 
3 ni  8992.25 9666.58 −4658.33 4859.00 
T =  xij xij − nxx  =  
i =1 j =1  −36444.00 −4658.33 429509.33 −58114.00 
 28906.80 4859.00 −58114.00 175644.40 
 
 44069.55 7687.05 −32862.75 24717.90 
 7687.05 9148.05 −3694.50 6412.20 
E =T −H =  
 −32862.75 −3694.50 427028.50 −56168.75 
 24717.90 6412.20 −56168.75 137115.10 
 
125
于是
E 1.6464  1019
= = = 0.6663
T 2.4708  1019
𝐻0 下 𝛬~ Λ(p,n-k,k-1)= Λ(4,57,2)
由
( 57 − 4 + 1) (1 − 0.6663 ) = 3.039
F=
4  0.6663
因F0.01(8,108)=2.68＜3.039，从而在α=0.01下拒绝H0，故可认为
三种销售方式的销售额有十分显著的差异（p=0.004）。
126
➢为了解这三种销售方式的显著差异究竟是由哪些商品引起的，
我们对这四种商品分别用一元方差分析方法进行检验分析。
利用H和E这两个矩阵对角线上的元素有
5221.30 2
F1 = = 3.377,
44069.55 57
518.53 2
F2 = = 1.615
9148.05 57
2480.83 2
F3 = = 0.166,
427028.50 57
38529.30 2
F4 = = 8.008
137115.10 57
查表得，F0.05(2,57)=3.16，F0.01(2,57)=5.01，故甲商品有显著
差异（p=0.041），丁商品有十分显著的差异（p=0.001），而
乙和丙商品都无显著差异（p=0.208和p=0.848）。
127
➢首先得出丁商品对原假设H0的拒绝起到了很大的作用。
➢剔除丁商品后再对其他三种商品进行三元方差分析检验，则
有
E 1.3831  1014
= = = 0.8695
T 1.5906  1014
( 57 − 3 + 1) (1 − 0.8695 ) = 1.328
F=
3  0.8695
F0.05(6,110)=2.18>1.328，不显著，因此说明对甲、乙、丙这
三种商品，销售方式Ⅰ,Ⅱ和Ⅲ的总体均值向量之间无显著差异
（p=0.251）。
➢可认为甲商品对三种销售方式的差异无明显影响。
128
协方差阵的检验
• 设X(α)(α=1,…,n)为来自p元正态总体𝑁𝑝(𝜇, Σ)(Σ＞0
未知)的随机样本,检验
𝐻0: Σ＝ Σ0(Σ0＞0为已知阵)，𝐻1: Σ ≠ Σ0
1. 当Σ0 ＝𝐼𝑝时检验𝐻0: Σ＝𝐼𝑝 ，𝐻1: Σ ≠ 𝐼𝑝
利用似然比原则来导出检验统计量
129
当𝑛很大且𝐻0成立时, 𝜉
= −2ln𝜆1的近似分布为𝜒2(𝑝(𝑝 + 1)/2)
取𝜉作为检验统计量,
按传统检验方法对给定显著性水平𝛼,
否定域为
{𝜉＞𝜒𝛼2},
其中𝜒𝛼2 满足：𝑃{𝜉＞𝜒𝛼2} = 𝛼.
130
2.当Σ0 ≠ 𝐼 𝑝时检验𝐻0 ∶ Σ＝Σ0 , 𝐻1 ∶ Σ ≠ Σ0
• 因Σ0＞0，存在𝑝阶非退化阵𝐷，使𝐷Σ0𝐷′＝𝐼 𝑝，
令 𝑌(𝛼) = 𝐷𝑋(𝛼) (𝛼＝1, … , 𝑛)，
𝑌(𝛼) ～𝑁 𝑝(𝐷𝜇，𝐷Σ𝐷′) == 𝑁 𝑝(𝜇∗ , Σ ∗ )
∗
检验𝐻 0 ∶ Σ＝Σ0 <==> 𝐻0 ∶ Σ ＝ 𝐼 𝑝
似然比统计量为
当样本容量n很大，在𝐻0成立时，−2ln𝜆2 的极限
分布为𝜒2(𝑝(𝑝 + 1)/2) 131
3.检验𝐻0 ：Σ＝𝜎 2 Σ0 (𝜎 2 未知)
当Σ0 ＝𝐼 p 时此检验常称为球性检验.利用似然比原
则来导出检验统计量λ
可以得到
或等价于
当样本容量n很大，在H0为真时有以下近似分布：
132
多个p元正态总体协差阵的检验
设有k个总体Np(μt,Σt)(t=1,…,k),X(t)(α)(t＝1,…,k;
α＝1,…,𝑛𝑡 )来自第t个总体Np(μ(t) ,Σt )的随机样本,记
n＝n1+n2+…+nk. 检验
𝐻0 ∶ Σ1 = Σ2 = ⋯ = Σ𝑘 = Σ, 𝐻1 ∶ Σ1, Σ2, … , Σ𝑘 不全相等.
样本｛ X(t)(α)}的似然函数为
k
L(  , 1 ,  ,  ,  k ) =  Lt (  ,  t ),
(1) (k ) (t )
t =1
似然比统计量λ4为
4 = max L( (1) ,,  ( k ) ,  ) max L( (1) , 1 ,,  ( k ) ,  k )
 ( i ) , 0  ( i ) , i  0
133
Box’s M 检验
𝑛
𝑛
−2 − 2𝑡
𝐴 𝐴i
• 得到 𝜆4 = / ς𝑘i=1
𝑛 𝑛𝑖
• 根据无偏性的要求进行修正,将λ4中的ni用ni -1替代,n用n-k
替代,可得到 k
( ni −1) 2
 Si
4* = i=1 ( n−k ) 2
Sp
1 ni 
其中 Si =
Ai
= 
ni − 1 ni − 1 j =1
( xij − xi )( xij − xi )
ni
1
xi =
ni
x ,
j =1
ij i = 1, 2, ,k
134
1 k 1
Sp = 
n − k i =1
( ni − 1) Si =
n−k
A
k
n =  ni
i =1
• Box’s M 统计量为
k
M = −2ln  = ( n − k ) ln S p −  ( ni − 1) ln Si
*
4
i =1
• 当H0为真时，
1 
u = (1 − c ) M 2  ( ) (
k − 1 p p + 1)
2 
其中
 k 1 1  2 p2 + 3 p −1
c =  − 
 i =1 i
n − 1 n − k  6 ( p + 1)( k − 1)
135
• 当ni全相等时，上式简化为
c=
( 2p 2
+ 3 p − 1) ( k + 1)
6 ( p + 1)( n − k )
• 对于给定的α，拒绝规则为：
2 1 
若u    ( k − 1) p ( p + 1) ，则拒绝H 0
2 
• 当ni都超过20，且p和k都不超过5时，Box的卡方近似效果较
好.
136
• 需要指出：
➢(1)对足够大的样本容量，多元方差分析检验对于非
正态性来说还是相当稳健的。
➢(2)M检验对某些非正态情形非常敏感。
➢(3)当各总体的样本容量大且相等时，协方差矩阵的
一些差别对多元方差分析检验几乎没有影响。即使M
检验拒绝了H0，我们仍可继续使用通常的多元方差
分析检验。
137
• 例. 在例4.5.1中，检验
H0：Σ1=Σ2=Σ3，H1：Σ1, Σ2, Σ3中至少有两个不相等
经计算
|S1|=1.0048×1012，|S2|=4.8289×1011
|S3|=2.0339×1012，|Sp|=1.5597×1012
ln|S1|=27.6358，ln|S2|=26.9030
ln|S3|=28.3410，ln|Sp|=28.0755
于是
M = ( 60 − 3)  28.0755 − ( 20 − 1)( 27.6358+26.9030 + 28.3410 )
= 25.5873
 ( 2  42 + 3  4 − 1) ( 3 + 1) 
u = (1 − c ) M = 1 −   25.5873=23.014
 6  ( 4 + 1)( 60 − 3) 

138
自由度为
1
 ( 3 − 1)  4  ( 4 + 1) = 20
2
查卡方分布表，有  0.05 2
( 20 ) = 31.410  23.014=u
，故在α=0.05
的水平下接受H0，表明三种销售方式的协方差矩阵之间无显
著差异（p=0.288）.
139
评估正态性假设
异常点检验
正态化变换

Chapter3 GaussianInference

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapter3 GaussianInference

Uploaded by

Copyright:

Available Formats

多元正态分布的统计

 x11 x12  x1 p   X (1) 

• 其中 aij =  ( xi − xi )( xj − x j ) (i, j = 1,2,  , p )

R = (rij )p p ，rij =

L(  , ) = f ( x(1) , x (2) , , x( n ) ) =  f ( x(i ) )

例. 设p维正态随机向量 𝑋 = ( 𝑋1, … , 𝑋𝑝)′, 求

称 rij 为样本相关系数, 𝑅 = 𝑟𝑖𝑗 为样本

一般情况(𝜇𝑖 ＝0，𝜎2 ≠ 1时),

结论3 设𝑋～𝑁𝑛 (0 , 𝜎2𝐼𝑛), 𝐴为n阶对称方阵,

故𝑑𝑖𝑎𝑔(1, … , 1,0, … , 0) = Γ′𝐴Γ

令𝑌＝Γ′𝑋，则𝑌～ 𝑁𝑛(Γ′𝜇, 𝜎2𝐼𝑛), 且

结论2 设𝑋～𝑁𝑝 (𝜇, Σ), Σ＞0,A为对称阵,

Wi ~ W p (n, ), 其中n = n1 +  + nk .

则 W22•1 ～ Wp−r (n − r, 22•1 ), 且W22•1与W11

设总体𝑋～𝑁𝑝 (0, Σ)，随机阵

 72.5   112.5714 96.1429  −1  0.0436 −0.0406 

• tα/2k(n−1) 随 n 的增大而递减，并以 uα/2k 为极限。

限，当 n 相对于p 较大时，T2 ( p, n − 1) 可用 2 ( p ) 近似.

196.00 45.10 34.50 

𝑌(𝛼) ～𝑁 𝑝(𝐷𝜇，𝐷Σ𝐷′) == 𝑁 𝑝(𝜇∗ , Σ ∗ )

You might also like