You are on page 1of 142

Chương 2-3.

Đại số Ma trận, Vector ngẫu nhiên, Hình


học mẫu và Mẫu ngẫu nhiên

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh

CTTN Toán-Tin K63


Viện Toán Ứng dụng và Tin học
Đại học Bách Khoa Hà Nội

Ngày 7 tháng 10 năm 2021

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 1 / 142
Mục lục
1 Đại số Ma trận và Vector
Tổng quan về Đại số Ma trận và Vector
Ma trận xác định dương
Ma trận căn bậc 2
Vector ngẫu nhiên và Ma trận ngẫu nhiên
Vector trung bình và Ma trận hiệp phương sai
Các bất đẳng thức ma trận và Cực đại hóa
2 Hình học mẫu và lấy mẫu ngẫu nhiên
Hình học mẫu
Mẫu ngẫu nhiên. Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
Phương sai tổng quát
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan qua các
phép toán trên ma trận
Các giá trị mẫu của tổ hợp tuyến tính của các biến

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 2 / 142
Giới thiệu chung

Dữ liệu nhiều chiều (multivariate data) có thể được biểu diễn dưới dạng
các mảng số. Việc sử dụng các ma trận đại số giúp cho việc tính toán và
ước lượng các mô hình thống kê (statistical models) thuận tiện và chính
xác hơn.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 3 / 142
Vectors

Mảng x gồm n số thực x1 , x2 , ..., xn là vector và được biểu diễn như sau:
 
x1
x2   
x= 
 ...  x’ = x1 x2 ... xn
xn

Vector x có thể được biểu diễn hình học bằng 1 đường thẳng trong không
gian n chiều; với thành phần x1 , x2 , ..., xn ứng với trục thứ 1, 2, ..., n.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 4 / 142
Vectors

Mở rộng/thu hẹp (Expanding/Contracting) vector bằng cách nhân từng


thành phần với 1 hằng số c cho trước. Từ đó định nghĩa vector cx như sau:
 
cx1
cx2 
cx =  
 ... 
cxn

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 5 / 142
Vectors

Phép cộng vector được định nghĩa như sau:


     
x1 y1 x1 + y1
x2  y2  x2 + y2 
x+y=  ...  +  ...  =  ... 
    

xn yn xn + yn

Tương tự phép trừ 2 vector.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 6 / 142
Vectors

Độ dài vector (lấy ví dụ vector x’ = [x1 , x2 , ..., xn ]) được biểu diễn:


q
Lx = x12 + x22 + ... + xn2
0

ta cũng có:
q
Lcx 0 = c 2 x12 + c 2 x22 + ... + c 2 xn2 = |c|Lx 0

Do đó vector x là:
Vector được mở rộng: |c| > 1
Vector được thu hẹp: 0 < |c| < 1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 7 / 142
Vectors

x1 y1
cos(θ1 ) = cos(θ2 ) =
Lx Ly
x2 y2
sin(θ1 ) = sin(θ2 ) =
Lx Ly
cos(θ) = cos(θ2 − θ1 )
= cos(θ2 )cos(θ1 ) + sin(θ2 )sin(θ1 )

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 8 / 142
Vectors

y1 x1 y2 x2
cos(θ) = cos(θ2 − θ1 ) = +
Ly Lx Ly Lx
x1 y1 + x2 y2
=
Lx Ly
Định nghĩa tích vô hướng 2 vector:

x’y = x1 y1 + x2 y2 + ... + xn yn
√ x’y x’y
Lx = x’x cos(θ) = =√ p
Lx Ly x’x y’y
2 vector vuông góc ⇔ tích vô hướng x’y = 0.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 9 / 142
Vectors

1 tập vector x1 , x2 , ..., xk phụ thuộc tuyến tính khi tồn tại các hằng số
c1 , c2 , ..., ck khác 0 sao cho:

c1 x1 + c2 x2 + ... + ck xk = 0

tức là 1 vector có thể được biểu diễn bằng tổ hợp tuyến tính của các vector
còn lại. Ngược lại tập vector đó là độc lập tuyến tính.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 10 / 142
Vectors

Hình chiếu của 1 vector x lên vector


y:

(x’y) (x’y) 1
projy x = y= y
y’y Ly Ly

Độ dài của hình chiếu:


|x’y| |x’y|
= Lx = Lx |cos(θ)|
Ly Lx Ly

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 11 / 142
Ma trận

Ma trận chuyển vị:


   
a11 a12 ... a1p a11 a21 ... an1
a21 a22 ... a2p  a12 a22 ... an2 
An×p =  ... ...
 ⇒ A0p×n = 
... ...   ... ... ... ... 
an1 an2 ... anp a1p a2p ... anp

Tích 2 ma trận:
An×k Bk×p = Cn×p
k
X
Cij = ai1 b1j + ai2 b2j + ... + aik bkj = ail blj
l=1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 12 / 142
Ma trận

Ma trận vuông An×n là ma trận đối xứng với Aij = Aji ∀i, j ∈ [0, n].
Ma trận vuông Bn×n là ma trận nghịch đảo của ma trận An×n sao cho:

BA = AB = I ⇔ B = A−1

Suy ra điều kiện tồn tại A−1 là các vector cột của ma trận A độc lập tuyến
tính. Khi đó:

c1 a1 + c2 a2 + ... + ck ak = 0 ⇔ c1 = c2 = ... = ck = 0

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 13 / 142
Ma trận

Đặc biệt:
 1 
0 0 ... 0
 
a11 0 0 ... 0 a
 0 a22 0  011 1
0 ... 0
... 0   a22 
−1 1
 
 0
A= 0 a33 ... 0  ⇔A = 0 0 ... 0
 
a33
 ... ... ... ... ... 

 ... ... ... ...

... 
0 0 ... 0 ann 1
0 0 ... 0 ann

Ma trận trực giao:

QQ 0 = Q 0 Q = I ⇔ Q 0 = Q −1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 14 / 142
Ma trận

Ma trận vuông An×n có trị riêng λ và vector riêng x 6= 0 nếu:

Ax = λx

Thường chuẩn hóa x sao cho x 0 x = 1


Từ đó ma trận vuông An×n có n cặp trị riêng-vector riêng:

(λ1 , e1 ), (λ2 , e2 ), ..., (λn , en )

sao cho e10 e1 = e20 e2 = ... = en0 en = 1


Định lý về phổ (Spectral Theorem): Là kết quả về 1 toán tử tuyến tính/1
ma trận có thể được chéo hóa.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 15 / 142
Ma trận

Phân tách phổ (Spectral decomposition):

A = PDP −1 = PDP 0

với P là ma trận trực giao, D là ma trận đường chéo có các phần tử là các
trị riêng λ1 , λ2 , ..., λn . Mà:
 
λ1 0 ... 0  0 
e1
0 λ2 ... 0 
A = PDP 0 = e1 ... en 
  
  ... 
 ... ... ... ...  0
en
0 0 ... λn

A = λ1 e1 e10 + λ2 e2 e20 + ... + λn en en0


Khi đó: ei0 ei = 1; ei0 ej = 0 i ∈ [1, n] i 6= j

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 16 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 17 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 18 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 19 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 20 / 142
Ma trận xác định dương

x 0 Ax chỉ có các thành phần xi2 và xi xk (quadratic form). x 0 = [x1 , x2 , ..., xn ]

x 0 Ax ≥ 0: Ma trận A nửa xác định dương. Dấu bằng xảy ra khi và chỉ
khi x 0 = 0.
x 0 Ax > 0: Ma trận A xác định dương với mọi x 0 6= 0.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 21 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 22 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 23 / 142
Ma trận xác định dương

Dùng phân tách phổ, ta có thể xác định 1 ma trận A là xác định dương khi
và chỉ khi trị riêng của A dương. A nửa xác định dương khi và chỉ khi trị
riêng của A lớn hơn bằng 0.
Giả sử p phần tử x1 , x2 , ..., xp của vector x là xác suất của p biến ngẫu nhiên
X1 , X2 , ..., Xp ; và giả sử p phần tử đó là tọa độ của 1 điểm trong không
gian p chiều. Bình phương khoảng cách từ gốc tọa độ tới điểm này:

(distance)d 2 = a11 x12 + a22 x22 + ... + app xp2

+2(a12 x1 x2 + a13 x1 x3 + ... + ap−1,p xp−1 xp )


d 2 > 0 ∀[x1 , x2 , ..., xp ] 6= [0, 0, ..., 0]

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 24 / 142
Ma trận xác định dương

Đặt aij = aji (i 6= j); i = 1, 2, ..., p; j = 1, 2, ..., p ta có:


  
a11 a12 a13 ... a1p x1
a21 a22 a23 ... a2p   x2 
d 2 = [x1 , x2 , ..., xp ] 
  
a31 a32 a33 ...   x3 
a3p   
 ... ... ... ... ...  ... 

ap1 ap2 ap3 ... app xp

hay d 2 = x 0 Ax x 6= 0

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 25 / 142
Ma trận xác định dương

Tổng quát. Đặt bình phương khoảng cách từ gốc tọa độ đến điểm x 0 =
[x1 , x2 , ..., xp ] là x 0 Ax với Ap×p là ma trận đối xứng xác định dương. Khi đó
bình phương khoảng cách từ điểm x đến điểm bất kỳ µ = [µ1 , µ2 , ..., µp ] là
(x − µ)0 A(x − µ).
Theo cách biểu diễn bình phương khoảng cách như trên (giả sử p = 2):

x 0 Ax = a1 1x12 + a2 2x22 + 2a12 x1 x2 = c 2

Phân tách phổ ta có:

A = λ1 e1 e10 + λ2 e2 e20 ⇔ x 0 Ax = λ1 (x 0 e1 )2 + λ2 (x 0 e2 )2

Khi đó, c 2 = λ1 y12 + λ2 y22 mà λ1 , λ2 > 0, A là ma trận xác định dương nên
có thể xác định là phương trình 1 ellipse.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 26 / 142
Ma trận xác định dương

−1/2 −1/2
Chúng ta có thể tính được x = cλ1 e1 thỏa mãn x 0 Ax = λ1 (cλ1 e10 e1 )2 =
−1/2
c 2 . Tương tự thỏa mãn x = cλ2 e2 . Do đó các điểm nằm trên ellipse này
thỏa mãn độ dài các trục là các giá trị vector riêng của ma trận A; độ dài
này tỉ lệ với nghịch đảo của bình phương vector riêng, hệ số tỉ lệ c.
Nếu p > 2 điểm x 0 = [x1 , x2 , ..., xp ] với khoảng cách c = x 0 Ax từ gốc tọa độ
nằm trên 1 hyper-ellipsoid c 2 = λ1 (x 0 e1 )2 +λ2 (x 0 e2 )2 +...+λp (x 0 ep )2 với độ
dài các trục √c được định nghĩa bởi các giá trị vector riêng λ1 , λ2 , ..., λp
(λi )
của ma trận A.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 27 / 142
Ma trận xác định dương

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 28 / 142
Ma trận căn bậc 2

Phân tách phổ giúp ta biểu diễn nghịch đảo của 1 ma trận vuông dưới dạng
các trị riêng và vector riêng, từ đó ta nhận được ma trận căn bậc 2.
Đặt A k×k là ma trận vuông xác định dương với dạng phân tách phổ là
A = ki=1 λi ei ei0 . Đặt các vector riêng đã chuẩn hóa thành các cột của 1
P
ma trận P mới với P = [e1 , e2 , ..., ek ]. Khi đó ta phân tích:
k
X
A= λi ei ei0 = PΛP 0
i=1

với P 0 P = PP 0 = I và Λ là ma trận đường chéo:


 
λ1 0 0 ... 0
0 λ2 0 ... 0 
 
Λk×k =  0 0 λ3 ... 0   ∀ λi > 0
 ... ... ... ... ... 
0 0 0 ... λk

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 29 / 142
Ma trận căn bậc 2

Pk 1
Do vậy A−1 = Pλ−1 P 0 = 0
i=1 λi ei ei ; vì

(Pλ−1 P 0 )(PλP 0 ) = (PλP 0 )(Pλ−1 P 0 ) = PP 0 = I

Tiếp theo 1/2 là ma trận đường chéo với giá trị các phần tử đường
p đặt Λ
chéo là (λi ). Ma trận ki=1 (λi )ei ei0 = Pλ1/2 P 0 được gọi là ma trận
P p
căn bậc 2 của A, ký hiệu là A1/2 :
k p
X
A 1/2
= (λi )ei ei0 = Pλ1/2 P 0
i=1

có 1 số tính chất như sau:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 30 / 142
Ma trận căn bậc 2

(A1/2 )0 = A1/2 (tính chất đối xứng)


A1/2 A1/2 = A; A−1/2 A−1/2 = A−1
(A1/2 )−1 = ki=1 √ 1 ei ei0 = Pλ−1/2 P 0
P
(λi )

A1/2 A−1/2 = A−1/2 A1/2 =I

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 31 / 142
Vector ngẫu nhiên và Ma trận ngẫu nhiên

Vector ngẫu nhiên là vector có các phần từ là biến ngẫu nhiên. Tương tự,
ma trận ngẫu nhiên là ma trận có các phần tử là biến ngẫu nhiên. Giá trị
trung bình của ma trận/vector ngẫu nhiên là ma trận/vector chứa các giá
trị trung bình của mỗi phần tử. Tức giả sử X = {Xij } là ma trận ngẫu
nhiên kích cỡ n × p. Khi đó giá trị trung bình E (X ) của X là:
 
E (X11 ) E (X12 ) E (X13 ) ... E (X1p )
E (X21 ) E (X22 ) E (X23 ) ... E (X2p )
 
E (X31 ) E (X32 ) E (X33 ) ... E (X3p )
E (X ) =  
 ... ... ... ... ... 
E (Xn1 ) E (Xn2 ) E (Xn3 ) ... E (Xnp )

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 32 / 142
Vector ngẫu nhiên và Ma trận ngẫu nhiên

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 33 / 142
Vector trung bình và Ma trận hiệp phương sai

Giả sử X 0 = [X1 , X2 , ..., Xp ] là vector ngẫu nhiên kích cỡ p × 1. Khi đó mỗi


phần tử của X là 1 biến ngẫu nhiên. Giá trị trung bình là µi = E (Xi ) và
phương sai σi2 = E (Xi − µi )2 với i = 1, 2, ..., p.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 34 / 142
Vector trung bình và Ma trận hiệp phương sai

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 35 / 142
Vector trung bình và Ma trận hiệp phương sai

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 36 / 142
Vector trung bình và Ma trận hiệp phương sai

Mối quan hệ (behaviour ?!?) giữa 2 biến ngẫu nhiên Xi , Xk được miêu tả
qua hàm xác suất đồng thời; còn độ đo (measurement) sự kết hợp tuyến tính
giữa 2 biến được thể hiện qua hiệp phương sai; với µi , µk là các giá trị trung
bình (marginal mean), i, k = 1, 2, ..., p. Tổng quát lên, mối quan hệ giữa p
biến ngẫu nhiên X1 , X2 , ..., Xp hay vector ngẫu nhiên X 0 = [X1 , X2 , ..., Xp ]
được đặc tả qua 1 hàm mật độ xác suất đồng nhất f (x1 , x2 , ..., xp ) = f (x).
f (x) được gọi là hàm phân phối chuẩn nhiều chiều (multivariate normal
density function).

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 37 / 142
Vector trung bình và Ma trận hiệp phương sai

p biến ngẫu nhiên liên tục X1 , X2 , ..., Xp độc lập với nhau nếu hàm mật độ
đồng thời có thể được biểu diễn:

f12...p (x1 , x2 , ..., xp ) = f1 (x1 )f2 (x2 )...fp (xp )

từ đó suy ra
Cov (Xi , Xk ) = 0
nếu Xi , Xk độc lập.
Đây là điều kiện cần, không phải điều kiện đủ vì có trường hợp Cov (Xi , Xk ) =
0 nhưng Xi , Xk không độc lập.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 38 / 142
Vector trung bình và Ma trận hiệp phương sai

Giá trị trung bình và hiệp phương sai của vector Xp×1 có thể tạo thành
ma trận. Giá trị trung bình của mỗi phần tử được chứa trong vector trung
bình µ = E (X ) và p phương sai σii và p(p − 1)/2 hiệp phương sai của
σik (i < k) được chứa trong ma trận phương sai-hiệp phương sai đối xứng
Σ = E (X − µ)(X − µ)0 . Đặc biệt rằng:
   
E (X1 ) µ1
E (X2 ) µ2 
   
E (X3 ) = µ3  = µ
E (X ) =    
 ...   ... 
E (Xp ) µp

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 39 / 142
Vector trung bình và Ma trận hiệp phương sai

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 40 / 142
Vector trung bình và Ma trận hiệp phương sai

 
σ11 σ12 ... σ1p
σ21 σ22 ... σ2p 
Σ = Cov (x) = 
 ...

... ... ... 
σp1 σp2 ... σpp

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 41 / 142
Vector trung bình và Ma trận hiệp phương sai

Hệ số tương quan giữa 2 biến ngẫu nhiên liên tục ρik (population correlation
coefficient). Hệ số tương quan ρik được định nghĩa dựa trên hiệp phương
sai σik và 2 phương sai σii và σkk :
σik
ρik = √ √
σii σkk

Hệ số tương quan ρik thể hiện mức độ kết hợp tuyến tính giữa 2 biến ngẫu
nhiên Xi , Xk .
Đặt ma trận độ lệch chuẩn kích thước p × p là V 1/2 :
√ 
σ1 0 ... 0
 0 √
σ2 ... 0 
V 1/2 = 
 ...

... ... ... 

0 0 ... σp

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 42 / 142
Vector trung bình và Ma trận hiệp phương sai

Ma trận tương quan (population correlation) là ma trận đối xứng kích cỡ


p × p:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 43 / 142
Vector trung bình và Ma trận hiệp phương sai

Ta có thể chứng minh:


V 1/2 ρV 1/2 = Σ

ρ = (V 1/2 )−1 Σ(V 1/2 )−1
Xét ví dụ, tính V 1/2 , ρ:
   
4 1 2 σ11 σ12 σ13
Σ = 1 9 −4 = σ12 σ22 σ23 
2 −3 25 σ13 σ23 σ33

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 44 / 142
Vector trung bình và Ma trận hiệp phương sai

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 45 / 142
Phân tách ma trận hiệp phương sai

Ta có thể phân tách p tính chất thành vector Xp×1 ngẫu nhiên, ví dụ, thành 2

nhóm có kích cỡ q, p−q.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 46 / 142
Phân tách ma trận hiệp phương sai

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 47 / 142
Phân tách ma trận hiệp phương sai

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 48 / 142
Phân tách ma trận hiệp phương sai

Chú ý rằng Σ12 = Σ021 . Ma trận hiệp phương sai của X (1) là Σ11 , X(2) là
Σ22 và giữa các phần tử của X(1) , X(2) là Σ12 hoặc Σ21 :

Cov (X(1) , X(2) ) = Σ12

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 49 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

E (cX1 ) = cE (X1 ) = cµ1


Var (cX1 ) = E (cX1 − cµ1 )2 = c 2 Var (X1 ) = c 2 σ11
Nếu X2 là biến ngẫu nhiên, a, b là hằng số, sử dụng tính chất cộng của
trung bình ta có:

Cov (aX1 , bX2 ) = E (aX1 − aµ1 )(bX2 − bµ2 )

= abE (X1 − µ1 )(X2 − µ2 )


= ab Cov (X1 , X2 ) = abσ12

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 50 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

E (aX1 + bX2 ) = aE (X1 ) + bE (X2 ) = aµ1 + bµ2


Var (aX1 + bX2 ) = E [(aX1 + bX2 ) − (aµ1 + bµ2 )]2
= E [a(X1 − µ1 ) + b(X2 − µ2 )]2
= E [a2 (X1 − µ1 )2 + b 2 (X2 − µ2 )2 + 2ab(X1 − µ1 )(X2 − µ2 )]
= a2 Var (X1 ) + b 2 Var (X2 ) + 2ab Cov (X1 , X2 )
= a2 σ11 + b 2 σ22 + 2abσ12

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 51 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

Với c 0 = [a, b], aX1 + bX2 có thể được biểu diễn:


 
 X1
= c 0X

a b
X2

Tương tự có thể biểu diễn:


 
 µ1
= c 0µ

a b
µ2
 
σ11 σ12
Nếu ta đặt: Σ = là ma trận phương sai-hiệp phương sai của X ,
σ12 σ22
Var (aX1 + bX2 ) trở thành:

Var (aX1 + bX2 ) = Var (c 0 X ) = c 0 Σc

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 52 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

Vì:   
0
 σ11 σ12 a
= a2 σ11 + b 2 σ22 + 2abσ12

c Σc = a b
σ12 σ22 b
Kết quả có thể được mở rộng ra với p biến ngẫu nhiên: Tổ hợp tuyến tính
c 0 X = c1 X1 + c2 X2 + ... + cp Xp có:
Trung bình: E (c 0 X ) = c 0 µ
Phương sai: Var (c 0 X ) = c 0 Σc
với µ = E (X ); Σ = Cov (X ).
Tổng quát, xét q tổ hợp tuyến tính của p biến ngẫu nhiên X1 , X2 , ..., Xp :

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 53 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

Z1 = c11 X1 + c12 X2 + ... + c1p Xp


Z1 = c21 X1 + c22 X2 + ... + c2p Xp
...
Zq = cq1 X1 + cq2 X2 + ... + cqp Xp
hay:    
Z1 c11 c12 ... c1p X1
Z2  c21 c22 ... c2p  X2 
 
Z = 
 ...   ... ...
 = CX
... ...   ... 
Zq cq1 cq2 ... cqp Xp

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 54 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

Tổ hợp tuyến tính Z = CX có:

µZ = E (Z ) = E (CX ) = C µX

ΣZ = Cov (Z ) = Cov (CX ) = C ΣX C 0


Xét ví dụ: Đặt X 0 = [X1 , X2 ] là vector ngẫu nhiên với giá trị trung
 bình là
σ σ12
µ0X = [µ1 , µ2 ] và ma trận phương sai-hiệp phương sai: ΣX = 11 .
σ12 σ22
Tìm vector trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính
Z1 = X1 − X2 ; Z2 = X1 + X2 theo µX , ΣX .

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 55 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 56 / 142
Phân tách Vector trung bình và Ma trận hiệp phương sai
của mẫu

Đặt x 0 = [x 1 , x 2 , ..., x p ] là vector trung bình mẫu xây dựng từ n quan sát của
p biến X1 , X2 , ..., Xp và đặt ma trận phương sai-hiệp phương sai tương ứng là

Sn :
Vector trung bình mẫu và ma trận hiệp phương sai có thể được phân tách
các thuộc tính khác nhau tương ứng với 1 nhóm biến. Khi đó:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 57 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 58 / 142
Giới thiệu chung

Lý thuyết về cực đại hóa quan trọng trong việc phân tích dữ liệu trong
không gian nhiều chiều. Ví dụ, thuật toán LDA quan tâm đến việc phân
phối các quan sát vào các nhóm được định trước. Quy luật phân phối được
miêu tả qua 1 hàm số tuyến tính, cực đại hóa sự phân chia các nhóm dữ
liệu với nhau trong toàn tập dữ liệu lớn.
Các bất đẳng thức liên quan đến ma trận giúp chúng ta xác định được
hướng để cực đại hóa 1 hoặc nhiều đại lượng trong xử lý dữ liệu.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 59 / 142
Bất đẳng thức Cauchy-Schwar

Đặt b, d là 2 vector p × 1 bất kỳ:

(b 0 d)2 ≤ (b 0 b)(d 0 d)

Dấu bằng xảy ra khi và chỉ khi b = cd hoặc d = cb với c là hằng số.
Chứng minh. Bất đẳng thức trên là hiển nhiên với b = 0 hoặc d = 0. Xét
trường hợp khác 0, xét vector b − xd với x là 1 số bất kỳ. Vì độ dài vector
b − xd > 0 khi b − xd 6= 0 nên:

0 < (b − xd)0 (b − xd) = b 0 b − xd 0 b − b 0 (xd) + x 2 d 0 d

= b 0 b − 2x(b 0 d) + x 2 (d 0 d)
Phương trình cuối cùng là phương trình bậc 2 đối với x. Thêm và bớt 1 đại
0 2
lượng (bd 0d)
d ta có:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 60 / 142
Bất đẳng thức Cauchy-Schwar

(b 0 d)2 (b 0 d)2
0 < b0 b − + − 2x(b 0 d) + x 2 (d 0 d)
d 0d d 0d
(b 0 d)2 b0 d 2
= b0 b − + (d 0
d)(x − )
d 0d d 0d
b0 d
Giá trị biểu thức trong ngoặc sẽ bằng 0 nếu ta chọn x = d 0d do đó dẫn đến
kết luận:
(b 0 d)2
0 < b0 b −
d 0d
hay (b 0 d)2 < (b 0 b)(d 0 d) nếu x thỏa mãn b − xd 6= 0.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 61 / 142
Bất đẳng thức Cauchy-Schwar mở rộng

Đặt b, d là 2 vector p × 1 bất kỳ, B là 1 ma trận xác định dương. Khi đó:

(b 0 d)2 ≤ (b 0 Bb)(d 0 B −1 d)

Dấu bằng xảy ra khi và chỉ khi b = cB −1 d hoặc d = cBb với c là hằng số.
Chứng minh. Bất đẳng thức trên là hiển nhiên với b = 0 hoặc d = 0. Xét
trường hợp khác 0, xét ma trận 1/2 có trị riêng λ , vector riêng
1/2
Pp căn√bậc 20 B i
đã chuẩn hóa ei với B = i=1 λi ei ei . Nếu ta đặt:
p
−1/2
X 1
B = √ ei ei0
i=1
λi

suy ra
b 0 d = b 0 Id = b 0 B 1/2 B −1/2 d = (B 1/2 b)0 (B −1/2 d)
áp dụng bất đẳng thức Cauchy-Schwar ở phía trên cho 2 vector (B 1/2 b), (B −1/2
ta có đpcm.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 62 / 142
Bổ đề về Cực đại hóa

Đặt Bp×p là ma trận xác định dương và dp×1 là vector cho trước. Khi đó
với vector xp×1 bất kỳ khác 0:

(x 0 d)2
max = d 0 B −1 d
x 0 Bx
Cực đại đạt được khi x = cB −1 d với mọi c 6= 0.
Chứng minh. Theo bất đẳng thức Cauchy-Schwar: (x 0 d)2 ≤ (x 0 Bx)(d 0 B −1 d).
Vì x 6= 0 và B xác định dương nên x 0 Bx > 0. Chia 2 vế cho x 0 Bx ta được:

(x 0 d)2
≤ d 0 B −1 d
x 0 Bx

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 63 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị

Đặt B là ma trận xác định dương với các trị riêng λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0
và các vector riêng tương ứng e1 , e2 , ..., ep . Khi đó:

x 0 Bx
max = λ1 khi x = e1
x 0x
x 0 Bx
min = λp khi x = ep
x 0x
Hơn nữa:
x 0 Bx
maxx⊥e1 ,...,ek = λk+1 khi x = ek+1 ; k = 1, 2, ..., p − 1
x 0x
Chứng minh. Đặt Pp×p là ma trận trực giao có các cột là các vector riêng
e! , e2 , ..., ep và Λ là đường chéo của ma trận với trị riêng λ1 , λ2 , ..., λp nằm
dọc theo đường chéo.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 64 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị

Đặt B 1/2 = PΛ1/2 P 0 và yp×1 = Pp×p 0 xp×1 . Dễ thấy x 6= 0 suy ra y 6= 0. Ta


có:
x 0 Bx x 0 B 1/2 B 1/2 x x 0 PΛ1/2 P 0 PΛ1/2 P 0 x y 0 Λy
= = =
x 0x x 0 PP 0 x y 0y y 0y
Pp
λi yi2
= Pi=1 p 2
i=1 yi
Pp
yi2
≤ λ1 Pi=1
p 2
= λ1
i=1 yi

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 65 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị

Đặt x = e1 :  
1
0
y = P 0 e1 = 


...
0
vì (
0, k 6= 1
ek0 e1 =
1, k = 1
y 0 Λy
Để chọn x, ta có y 0y = λ1 hay:

e10 Be1
= e10 Be1 = λ1
e10 e1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 66 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị

Ta có x = Py = y1 e1 + y2 e2 + ... + yp ep nên x ⊥ e1 , ..., ek suy ra:

0 = ei0 x = y1 ei0 e1 + y2 ei0 e2 + ... + yp ei0 ep = yi i ≤k

Do đó nếu x vuông góc với k vector riêng đầu tiên thì vế trái bất đẳng thức
trên trở thành: Pp 2
x 0 Bx i=1 λi yi
= p
x 0x 2
P
i=1 yi
Cực đại đạt được khi yk+1 = 1; yk+2 = ... = yp = 0.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 67 / 142
Hình học mẫu

Một quan sát (observation) đa biến là một tập hợp các phép đo theo p
biến, được thực hiện trên cùng một vật mẫu. Với n quan sát, ta có thể
biểu diễn dữ liệu dưới dạng một ma trận n × p.
 
x11 x12 . . . x1p
x21 x22 . . . x2p 
X =
 
. 
(n×p)  . . . . . . . . . .. 
xn1 xn2 . . . xnp
Mỗi dòng của X biểu diễn một quan sát đa biến. Tập dữ liệu này được gọi
là một mẫu (sample) kích thước n từ một tổng thể (population) p-biến.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 68 / 142
Hình học mẫu

Tập dữ liệu này còn có thể biểu diễn dưới dạng:


   0
x11 x12 . . . x1p x1
0
x21 x22 . . . x2p  x2 
 
X = ..  =  .. 
 
..
(n×p) . . . ... . .   .
0
xn1 xn2 . . . xnp xn
0
Mỗi vector xj biển diễn quan sát thứ j và chứa toạ độ của một điểm trong
không gian p chiều.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 69 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 70 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 71 / 142
Hình học mẫu

Ta có thể xây dựng một cách biểu diễn hình học khác bằng cách coi tập
dữ liệu như p vector trong không gian n chiều. Các cột của ma trận sẽ là
toạ độ của các vector.
 
x11 x12 . . . x1p
x21 x22 . . . x2p   
X = = y1 y2 . . . yp
 
. .
 . . . . . . . . .. 

(n×p)
xn1 xn2 . . . xnp
0  
Toạ độ của điểm yi = x1i , x2i , . . . xni là n quan sát trên biến thứ i.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 72 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 73 / 142
Hình học mẫu

Ta có thể liên hệ các biểu thức đại số với các định nghĩa hình học về độ
dài, góc và thể tích. Tuy nhiên, chúng ta bị giới hạn bởi việc biểu diễn
hình học qua không gian n chiều, đặc biệt với n > 3. Tuy nhiên, các quan
hệ hình học và các khái niệm thống kê được miêu tả với bất kì bộ ba
vector nào vẫn luôn đúng mà không cần quan tâm đến chiều của chúng.

Điều này cho phép ta có thể chọn trục toạ độ và chỉ 2 hoặc 3 vector trong
không gian n chiều để có thể biểu diễn các khái niệm thống kê một cách
hợp lý.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 74 / 142
Hình học mẫu

Ta có thể đưa ra một biểu diễn hình học cho quá trình tìm trung bình mẫu
(sample mean). Trước hết ta định nghĩa vector kích thước 1 × n (để đơn
giản, ta ký hiệu 1 thay cho 1n ):
 
1n = 1, 1, . . . 1
Vector 1 luôn hợp với mỗi trục toạ độ một góc bằng nhau. Vector

(1/ n)1 có độ dài đơn  vị và cùng chiều với vector 1. Xét vector
0
yi = x1i , x2i , . . . xni . Hình chiếu của vector yi lên vector 1 là:
   
0 1 1 x1i + x2i + . . . + xni
yi √ 1 √ 1= 1 = xi1
n n n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 75 / 142
Hình học mẫu

0
Ta có trung bình mẫu x i = (x1i + x2i + . . . + xni ) /n = yi 1/n tương ứng
với bội số cần thiết của 1 để dựng hình chiếu của yi lên đường thẳng được
xác định bởi 1. Hơn nữa, với mỗi yi , ta có thể phân tích thành:

yi
yi − x i 1

0 1 xi1

Vector x i 1 vuông góc với vector yi .

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 76 / 142
Hình học mẫu

Công thức của vector độ lệch:


 
x1i − xi
x2i − xi 
di = yi − x i 1 = 
 
.. 
 . 
xni − xi
Các thành phần của di là độ lệch của các phép đo trên biến thứ i của
trung bình mẫu. Ta có ví dụ phân tích vector yi với p = 3 và n = 3:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 77 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 78 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 79 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 80 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 81 / 142
Hình học mẫu

Độ dài của vector độ lệch:


n
0
X
L2di = di di = (xji − x i )2
j=1

Với hai vector di , dk bất kì:


n
0
X
di dk = (xji − x j )(xjk − x k )
j=1

Gọi θik là góc tạo bởi hai vector di và dk . Ta có:


0
di dk = Ldi Ldk cos(θik )

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 82 / 142
Hình học mẫu

Từ đó ta có được:
v v
n
u n u n
X uX uX
(xji − x j )(xjk − x k ) = t (xji − x i ) t (xjk − x k )2 cos(θik )
2

j=1 j=1 j=1

sik
⇒ rik = √ √ = cos(θik )
sii skk
Trong đó, rik là hệ số tương quan mẫu, sik là hiệp phương sai mẫu của hai
vector i và k.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 83 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 84 / 142
Hình học mẫu

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 85 / 142
Mẫu ngẫu nhiên. Giá trị kỳ vọng của trung bình mẫu và
ma trận hiệp phương sai

Giả sử tập dữ liệu chưa được quan sát, nhưng ta có dự định để thu được
kết quả của n phép đo trên p biến. Ta không thể dự đoán chính xác giá trị
của chúng trước khi đo. Do đó, ta sẽ coi chúng là các biến ngẫu nhiên.
Với mỗi ô (j, k) trong ma trận dữ liệu X , ta đặt cho nó một biến ngẫu
nhiên Xjk . Mỗi tập các phép đo Xj trên p biến là một vector ngẫu nhiên.
Ta có ma trận ngẫu nhiên X :
   0
X11 X12 . . . X1p X1
X21 X22 . . . X2p  X 0 
  2
X = ..  =  .. 

. .
(n×p) ... ... . .   . 
0
Xn1 Xn2 . . . Xnp Xn

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 86 / 142
Mẫu ngẫu nhiên

0 0 0
Nếu các vector hàng X1 , X2 , . . . , Xn đại diện cho các quan sát độc lập từ
một phân phối chung với hàm mật độ f (x) = f (x1 , x2 , . . . , xp , thì ta nói
0 0 0
X1 , X2 , . . . , Xn tạo thành một mẫu ngẫu nhiên từ f (x).

Đặt f (Xj ) = f (xj1 , xj2 , . . . , xjp ) là hàm mật độ cho vector hàng thứ j.
0 0 0
X1 , X2 , . . . , Xn tạo thành một mẫu ngẫu nhiên nếu như hàm mật độ chung
của chúng bằng với tích f (X1 )f (X2 ) . . . f (Xp ).

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 87 / 142
Mẫu ngẫu nhiên

Các phép đo của p biến trong một phép thử sẽ thường tương quan với
nhau. Các phép đo từ những phép thử khác nhau phải độc lập với nhau.

Tính độc lập của các phép đo qua các lần thử khác nhau có thể bị thay
đổi.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 88 / 142
Mẫu ngẫu nhiên

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 89 / 142
Mẫu ngẫu nhiên

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 90 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

Ta có kết quả sau:

Cho X1 , X2 , . . . , ..., Xn là các mẫu ngẫu nhiên từ một phân phối chung có
vector trung bình là µ và ma trận hiệp phương sai Σ. X là một ước lượng
không chệch của µ và ma trận hiệp phương sai của nó là n1 Σ.

Tức là:

E (X ) = µ
Cov (X ) = n1 Σ
1
E (Sn ) = n−1
n Σ=  Σ − nΣ
n−1
⇔ E n Sn = Σ

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 91 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

Chứng minh:

Ta có: X = (X1 + X2 + . . . + Xn )/n.


 
1 1 1
E (X ) = E X1 + X2 + . . . + Xn
n n n
     
1 1 1
=E X1 + E X2 + . . . + E Xn
n n n
1 1 1
= E (X1 ) + E (X2 ) + . . . + E (Xn )
n n n
1 1 1
= µ + µ + ... + µ = µ
n n n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 92 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

 
n n
1 X X
0 0
Cov (X ) = E (X − µ)(X − µ) = 2 E (Xj − µ)(Xl − µ) 
n
j=1 l=1

0
Với j 6= l, mỗi ô trong E (Xj − µ)(Xl − µ) có giá trị bằng 0 bởi vì nó là
hiệp phương sai giữa một thành phần của Xj và một thành phần của Xl ,
và chúng độc lập với nhau. Do đó nên:
 
n
1 X 0
Cov (X ) = 2 E (Xj − µ)(Xj − µ) 
n
j=1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 93 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

0
Do Σ = E (Xj − µ)(Xj − µ) là ma trận hiệp phương sai tổng thể chung
của mỗi Xj , ta có:

 
n
1  X 0 1
Cov (X ) = E (Xj − µ)(Xj − µ)  = (Σ + Σ + . . . + Σ)
n2 n2 | {z }
j=1 n terms
1 1
= 2 (nΣ) = Σ
n n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 94 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

Để tính giá trị kỳ vọng của Sn , ta chú ý rằng (xji − x j )(xjk − x k ) là thành
0
phần thứ (i, k) của (Xj = X )(Xj − X ) . Ma trận tổng bình phương và tích
chéo có thể được viết lại dưới dạng:

 
n n n
0 0 0
X X X
(Xj − X )(Xj − X ) = (Xj − X )Xj +  (Xj − X ) (−X )
j=1 j=1 j=1
n
X 0 0
= Xj Xj − nX X
j=1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 95 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

Pn 0 Pn 0
Do j=1 (Xj − X ) = 0 và nX = j=1 Xj nên giá trị kì vọng của chúng là:
 
n n
X 0 0 X 0 0
E Xj Xj − nX X  = E (Xj Xj ) − nE (X X )
j=1 j=1

Với vector V bất kỳ có E (V ) = µV và Cov (V ) = ΣV , ta có


0 0
EVV = ΣV + µV µV . Theo đó:
0 0 0 0
E (Xj Xj ) = Σ + µµ và E (X X ) = n1 Σ + µµ

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 96 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai

Sử dụng các kết quả trên, ta thu được:


n  
X 0 0 0 1 0
E (Xj Xj ) − nE (X X ) = nΣ + nµµ − n + µµ = (n − 1)Σ
n
j=1
P 0 0 
n
Do Sn = (1/n) j=1 E (Xj Xj ) − nE (X X ) nên:

n−1
E (Sn ) = Σ
n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 97 / 142
Phương sai tổng quát

Với mỗi biến đơn, phương sai mẫu thương được dùng để mô tả lượng biến
thiên trong các phép đo trên biến đó. Khi quan sát p biến, sự biến thiên
được mô tả bởi ma trận phương sai-hiệp phương sai mẫu:
 
s11 s12 . . . s1p  
s12 s22 . . . s2p   n
1 X 
S = .  = sjk = (xji − x i )(xjk − x k )
 
 . . . . . . . . . ..   n−1 
j=1
s1p s2p . . . spp

Ma trận hiệp phương sai mẫu có p phương sai và có thể có tối đa


1
2 p(p − 1) hiệp phương sai khác nhau. Ta có thể kỳ vọng tìm ra một giá
trị để cho sự biến thiên được mô tả bởi S. Một lựa chọn cho giá trị đấy là
định thức của S. Định thức này được gọi là phương sai mẫu tổng quát:

Phương sai mẫu tổng quát = |S|

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 98 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 99 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 100 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 101 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 102 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 103 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 104 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 105 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 106 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 107 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 108 / 142
Phương sai tổng quát

Phương sai mẫu tổng quát có thể bằng 0 trong trường hợp một cột của
ma trận độ lệch
 0 0  
x1 − x x11 − x 1 x12 − x 2 . . . x1p − x p
x 0 − x 0  x21 − x 1 x22 − x 2 . . . x2p − x p 
 2
 ..  = 
  
. . .. 
 .   ... ... . . 
0 0
xn − x x n1 − x 1 x n2 − x 2 . . . xnp − x p

có thể biểu diễn bằng một tổ hợp tuyến tính của các cột còn lại. Trong
trường
 hợp này, một vector độ  lệch nào đó, ví dụ
0
di = x1i − x i . . . xni − x i nằm trong siêu phẳng được tạo bởi các
vector d1 , . . . , di−1 , di+1 , . . . , dp .

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 109 / 142
Phương sai tổng quát

Ta có được kết quả:

Phương sai mẫu tổng quát bằng 0 khi và chỉ khi tồn tại ít nhất một vector
độ lệch nằm trong siêu phẳng được tạo bởi tất cả các tổ hợp tuyến tính
của các vector còn lại (tức các cột trong ma trận độ lệch phụ thuộc tuyến
tính).

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 110 / 142
Phương sai tổng quát

0
Chứng minh Nếu các cột của ma trận độ lệch (X − 1x ) phụ thuộc tuyến

tính, thì tồn tại một tổ hợp tuyến tính của các cột đó sao cho:
0 0
0 = a1 col1 (X − 1x ) + . . . + ap colp (X − 1x )
0
= (X − 1x )a với a 6= 0
0 0 0
Ta lại có: (n − 1)S = (X − 1x ) (X − 1x ) và:
0 0 0
(n − 1)Sa = (X − 1x ) (X − 1x )a = 0

⇒ a1 col1 (S) + . . . + ap colp (S) = Sa = 0 ⇒ |S| = 0

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 111 / 142
Phương sai tổng quát

Xét chiều ngược lại: nếu |S| = 0 thì tồn tại một tổ hợp tuyến tính Sa của
các cột của S sao cho Sa = 0. Ta có:
0 0 0
0 = (n − 1)Sa = (X − 1x ) (X − 1x )a
0
Nhân a vào phía trước hai vế:
0 0 0 0
0 = a (X − 1x ) (X − 1x )a = L2(X −1x 0 )a

0 0
Suy ra (X − 1x )a = 0. Do đó các cột của (X − 1x ) phụ thuộc tuyến tính.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 112 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 113 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 114 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 115 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 116 / 142
Phương sai tổng quát

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 117 / 142
Phương sai tổng quát

Nếu n ≤ p, tức (kích thước mẫu) ≤ (số lượng biến), thì |S| = 0 với mọi
mẫu.
Chứng minh

Với mẫu cố định bất kỳ, n vector hàng của ma trận độ lệch tổng bằng
vector 0. Do tồn tại tổ hợp tuyến tính này nên
0
rank(X − 1x ) ≤ n − 1 ≤ p − 1 do n ≤ p. Lại có:
0 0
(n − 1) S = (X − 1x ) (X − 1x)
(p×p) (p×n) (n×p)

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 118 / 142
Phương sai tổng quát

Cột thứ k của S, colk (S) có thể được viết dưới dạng tổ hợp tuyến tính
0 0
của các cột của (X − 1x ) .

0 0
(n − 1)colk (S) = (X − 1x ) colk (X − 1x)
0 0 0 0
= (x1k − x k )col1 (X − 1x ) + . . . + (xnk − x k )coln (X − 1x )

Từ đây ta dễ dàng thấy được rank(S) ≤ n − 1 ≤ p − 1. Từ đó suy ra


|S| = 0.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 119 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Phương sai tổng quát bị ảnh hưởng nhiều bởi độ biến thiên của các phép
đo trên một biến đơn. Nếu sii nào đó quá lớn hoặc quá nhỏ, thì vector
di = (yi − x i 1) sẽ rất dài hoặc rất ngắn. Đôi khi chúng ta có thể điều
chỉnh để cho các vector độ chệch đều có dùng độ dài.
Ta sẽ thay mỗi quan sát ban đầu xjk bằng giá trị đã được chuẩn hoá của

nó (xjk − x k / skk . Ma trận hiệp phương sai mẫu của các biến đã được
chuẩn hoá là R, ma trận tương quan mẫu của các biến ban đầu.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 120 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Ta định nghĩa:

Do các vector
√ √ √ 0 √
[(x1k − x k )/ skk , (x2k − x k )/ skk , . . . , (xnk − x k )/ skk ] = (yk − x k 1 )/ skk

đều có độ dài là n − 1, phương sai tổng quát của các biến đã được
chuẩn hoá sẽ rất lớn nếu như các vector này gần vuông góc với nhau, và
sẽ rất nhỏ nếu như ít nhất hai vector gần như cùng phương.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 121 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

√ √
Ta đã tính được cosine của góc θik giữa (yi − x i 1/ sii và (yk − x k 1/ skk
là hệ số tương quan mẫu rik .
Do đó, ta kết luận rằng |R| sẽ lớn nếu như tất cả rik đều gần 0 và |R| sẽ
nhỏ nếu như ít nhất một rik nào đó gần +1 hoặc -1.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 122 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Với i = 1, 2, . . . , p, đặt
 x1i −x i 

sii
 x2i√−x i 
yi − x i 1  sii 
√ = .

sii  . 
 . 
√−x i
xni
sii

là các vector độ lệch của các biến đã được chuẩn hoá. √


Vector độ lệch thứ i
nằm cùng hướng với di nhưng tất cả đều có độ dài là n − 1.

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 123 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

"Thể tích" trong không gian p chiều bởi các vector độ lệch trên có thể
tính bởi phương sai mẫu tổng quát:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 124 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 125 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 126 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 127 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 128 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

0
Ta có x i = (x1i · 1 + x2i · 1 + . . . + xni · 1)/n = yi 1/n. Nên:
 0 
  y1 1   
x1  n0  x11 x12 . . . x1n 1
x 2   y2 1  1 x21 x22 . . . x2n  1
x =  .  =  n.  =  .
      
.. . . .  .
 ..   ..  n  .. . . ..   .. 
 0 
xp yp 1 xp1 xp2 . . . xpn 1
n
hay
1 0
x= X 1
n
Tiếp theo, ta tạo một ma trận trung bình kích thước n × p bằng cách
chuyển vị hai vế của phương trình trên, và nhân 1 vào phía trước:

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 129 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

 
x1 x2 . . . xp
0 1 0 x 1 x 2 . . . x p 
1x = 11 X =  .
 
. .. . . .. 
n . . . .
x1 x2 . . . xp
Lấy X trừ đi kết quả vừa thu được ta được ma trận độ lệch:
 
x11 − x 1 x12 − x 2 . . . x1p − x p
1 0 x21 − x 1 x22 − x 2 . . . x2p − x p 

X − 11 X = 

.. .. .. ..
n

 . . . . 
xn1 − x 1 xn2 − x 2 . . . xnp − x p

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 130 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

Lại có:
 
x11 − x 1 x22 − x 1 . . . xn1 − x 1
 x12 − x 2 x22 − x 2 . . . xn2 − x 2 
(n − 1)S = 
 
.. .. .. .. 
 . . . . 
x1p − x p x2p − x p . . . xnp − x p
 
x11 − x 1 x12 − x 2 . . . x1p − x p
x21 − x 1 x22 − x 2 . . . x2p − x p 
×
 
.. .. .. .. 
 . . . . 
xn1 − x 1 xn2 − x 2 . . . xnp − x p
 0    
1 0 1 0 0 1 0
= X − 11 X X − 11 X = X I − 11 X
n n n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 131 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

do

 0  
1 0 1 0 1 0 1 0 1 0 0 0
I − 11 I − 11 = I − 11 − 11 + 2 11 11 = I − 11
n n n n n

Tóm gọn lại, ta có ma trận biểu diễn sự liên hệ giữa x và S với X là


1 0
x= X 1
n  
1 0 1 0
S= X I − 11 X
n−1 n
 
1 0 1 0
Sn = X I − 11 X
n−1 n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 132 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

Do ta đã tính được S, nên có thể tính được ma trận tương quan mẫu R.
Trước hết, ta định nghĩa ma trận độ lệch chuẩn mẫu D 1/2 và tính
−1
D 1/2 = D −1/2 .
√ 
s11 0 ... 0
 0 √
1/2
s22 . . . 0 
D =  ..

.. .. 

. .
(p×p)  . . . . 

0 0 ... spp

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 133 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

q 
1
s11 0 ... 0
 q 
1
0 ... 0
 
s22
D −1/2
 
= .. .. ..

(p×p)  .. 
. . .
q.
 
 
1
0 0 ... spp

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 134 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

Ta có:  
s11 s12 . . . s1p
S =  ... .. . . . 
. .. 

.
s1p s2p . . . spp

s1p
√ s11 √ s12
 
√ √ ... √ √
 
s11 s11 s11 s12 s11 spp 1 r12 . . . r1p
 .. .. .. ..   .
 =  .. .. . . . 
R=
 . . . .  . . .. 
s1p s2p s
√ √ √ √ ... √ pp √ r1p r2p . . . 1
s11 spp s22 spp spp spp

Ta có:
R = D −1/2 SD −1/2

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 135 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận

Nhân vào phía trước và sau cả hai vế với D 1/2 ta được:

S = D 1/2 RD 1/2

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 136 / 142
Các giá trị mẫu của các tổ hợp tuyến tính của các biến

Ta xét tổ hợp tuyến tính


0
c X = c1 X1 + c2 X2 + . . . + cp Xp
có giá trị được quan sát trong phép thử thứ j là
0
c xj = c1 xj1 + c2 xj2 + . . . + cp xjp (j = 1, 2, . . . , n)
n quan sát trên có
0 0 0
(c x1 + c x2 + . . . + c xn )
Trung bình mẫu =
n
0 1 0
= c (x1 + x2 + . . .) = c x
n

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 137 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến

0 0 0 0 0
Do (c xj − c x)2 = (c (xj − x))2 = c (xj − x)(xj − x) c, nên ta có:

0 0 0 0 0 0
(c x1 − c x)2 + (c x2 − c x)2 + . . . + (c xn − c x)2
Phương sai mẫu =
n−1
0 0 0 0 0 0
c (x1 − x)(x1 − x) c + c (x2 − x)(x2 − x) c + . . . + c (xn − x)(xn − x) c
=
" n−1 #
0 0 0
0 (x1 − x)(x1 − x) + (x2 − x)(x2 − x) + . . . + (xn − x)(xn − x)
=c c
n−1
hay:
0 0
Phương sai mẫu của c X = c Sc

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 138 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến

Giờ ta xét một tổ hợp tuyến tính khác:


0
b X = b1 X1 + b2 X2 + . . . + bp Xp

có giá trị được quan sát trong phép thử thứ j là


0
b xj = b1 xj1 + b2 xj2 + . . . + bp xjp (j = 1, 2, . . . , n)
Từ các công thức trên, ta thu được:
0 0
Trung bình mẫu của b X = b x
0 0
Phương sai mẫu của b X = b Sb

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 139 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến

0 0
Hiệp phương sai mẫu được tính bởi các cặp quan sát trên b X và c X là:
Hiệp phương sai mẫu
0 0 0 0 0 0 0 0 0 0 0 0
(b x1 − b x)(c x1 − c x) + (b x2 − b x)(c x2 − c x) + . . . + (b xn − b x)(c xn − c x)
=
n−1
0 0 0 0 0 0
b (x1 − x)(x1 − x) c + b (x2 − x)(x2 − x) c + . . . + b (xn − x)(xn − x) c
=
" n−1 #
0 0 0
0 (x1 − x)(x1 − x) + (x2 − x)(x2 − x) + . . . + (xn − x)(xn − x)
=b c
n−1

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 140 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến
Tổng kết lại, ta có kết quả:
Các tổ hợp tuyến tính
0
c X = c1 X1 + c2 X2 + . . . + cp Xp
0
b X = b1 X1 + b2 X2 + . . . + bp Xp

có trung bình mẫu, phương sai mẫu, hiệp phương sai mẫu liên hệ với x và
S bởi các công thức:
0 0
Trung bình mẫu của b X = b x
0 0
Trung bình mẫu của c X = c x
0 0
Phương sai mẫu của b X = b Sb
0 0
Phương sai mẫu của c X = c Sc
0 0 0
Hiệp phương sai mẫu của b X và c X = c Sc

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 141 / 142
Tài liệu tham khảo

Richard A. Johnson, Dean W. Wichern: Applied Multivariate


Statistical Analysis
Balaji Pitchai Kannu: Why is it beneficial to center and normalize the
data before running Principal Component Analysis on it?
[https://www.quora.com/Why-is-it-beneficial-to-center-and-
normalize-the-data-before-running-Principal-Component-Analysis-on-
it]
Spectral Theorem [https://en.wikipedia.org/wiki/Spectral-theorem]
The Spectral Decomposition
[https://orion.math.iastate.edu/tathagat/teaching/18-
math207/207notes-week16.pdf]

Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 142 / 142

You might also like