Professional Documents
Culture Documents
Chương 2-3. Đại số Ma trận, Vector ngẫu nhiên, Hình học mẫu và Mẫu ngẫu nhiên - Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh
Chương 2-3. Đại số Ma trận, Vector ngẫu nhiên, Hình học mẫu và Mẫu ngẫu nhiên - Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 1 / 142
Mục lục
1 Đại số Ma trận và Vector
Tổng quan về Đại số Ma trận và Vector
Ma trận xác định dương
Ma trận căn bậc 2
Vector ngẫu nhiên và Ma trận ngẫu nhiên
Vector trung bình và Ma trận hiệp phương sai
Các bất đẳng thức ma trận và Cực đại hóa
2 Hình học mẫu và lấy mẫu ngẫu nhiên
Hình học mẫu
Mẫu ngẫu nhiên. Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
Phương sai tổng quát
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan qua các
phép toán trên ma trận
Các giá trị mẫu của tổ hợp tuyến tính của các biến
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 2 / 142
Giới thiệu chung
Dữ liệu nhiều chiều (multivariate data) có thể được biểu diễn dưới dạng
các mảng số. Việc sử dụng các ma trận đại số giúp cho việc tính toán và
ước lượng các mô hình thống kê (statistical models) thuận tiện và chính
xác hơn.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 3 / 142
Vectors
Mảng x gồm n số thực x1 , x2 , ..., xn là vector và được biểu diễn như sau:
x1
x2
x=
... x’ = x1 x2 ... xn
xn
Vector x có thể được biểu diễn hình học bằng 1 đường thẳng trong không
gian n chiều; với thành phần x1 , x2 , ..., xn ứng với trục thứ 1, 2, ..., n.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 4 / 142
Vectors
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 5 / 142
Vectors
xn yn xn + yn
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 6 / 142
Vectors
ta cũng có:
q
Lcx 0 = c 2 x12 + c 2 x22 + ... + c 2 xn2 = |c|Lx 0
Do đó vector x là:
Vector được mở rộng: |c| > 1
Vector được thu hẹp: 0 < |c| < 1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 7 / 142
Vectors
x1 y1
cos(θ1 ) = cos(θ2 ) =
Lx Ly
x2 y2
sin(θ1 ) = sin(θ2 ) =
Lx Ly
cos(θ) = cos(θ2 − θ1 )
= cos(θ2 )cos(θ1 ) + sin(θ2 )sin(θ1 )
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 8 / 142
Vectors
y1 x1 y2 x2
cos(θ) = cos(θ2 − θ1 ) = +
Ly Lx Ly Lx
x1 y1 + x2 y2
=
Lx Ly
Định nghĩa tích vô hướng 2 vector:
x’y = x1 y1 + x2 y2 + ... + xn yn
√ x’y x’y
Lx = x’x cos(θ) = =√ p
Lx Ly x’x y’y
2 vector vuông góc ⇔ tích vô hướng x’y = 0.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 9 / 142
Vectors
1 tập vector x1 , x2 , ..., xk phụ thuộc tuyến tính khi tồn tại các hằng số
c1 , c2 , ..., ck khác 0 sao cho:
c1 x1 + c2 x2 + ... + ck xk = 0
tức là 1 vector có thể được biểu diễn bằng tổ hợp tuyến tính của các vector
còn lại. Ngược lại tập vector đó là độc lập tuyến tính.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 10 / 142
Vectors
(x’y) (x’y) 1
projy x = y= y
y’y Ly Ly
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 11 / 142
Ma trận
Tích 2 ma trận:
An×k Bk×p = Cn×p
k
X
Cij = ai1 b1j + ai2 b2j + ... + aik bkj = ail blj
l=1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 12 / 142
Ma trận
Ma trận vuông An×n là ma trận đối xứng với Aij = Aji ∀i, j ∈ [0, n].
Ma trận vuông Bn×n là ma trận nghịch đảo của ma trận An×n sao cho:
BA = AB = I ⇔ B = A−1
Suy ra điều kiện tồn tại A−1 là các vector cột của ma trận A độc lập tuyến
tính. Khi đó:
c1 a1 + c2 a2 + ... + ck ak = 0 ⇔ c1 = c2 = ... = ck = 0
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 13 / 142
Ma trận
Đặc biệt:
1
0 0 ... 0
a11 0 0 ... 0 a
0 a22 0 011 1
0 ... 0
... 0 a22
−1 1
0
A= 0 a33 ... 0 ⇔A = 0 0 ... 0
a33
... ... ... ... ...
... ... ... ...
...
0 0 ... 0 ann 1
0 0 ... 0 ann
QQ 0 = Q 0 Q = I ⇔ Q 0 = Q −1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 14 / 142
Ma trận
Ax = λx
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 15 / 142
Ma trận
A = PDP −1 = PDP 0
với P là ma trận trực giao, D là ma trận đường chéo có các phần tử là các
trị riêng λ1 , λ2 , ..., λn . Mà:
λ1 0 ... 0 0
e1
0 λ2 ... 0
A = PDP 0 = e1 ... en
...
... ... ... ... 0
en
0 0 ... λn
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 16 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 17 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 18 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 19 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 20 / 142
Ma trận xác định dương
x 0 Ax ≥ 0: Ma trận A nửa xác định dương. Dấu bằng xảy ra khi và chỉ
khi x 0 = 0.
x 0 Ax > 0: Ma trận A xác định dương với mọi x 0 6= 0.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 21 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 22 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 23 / 142
Ma trận xác định dương
Dùng phân tách phổ, ta có thể xác định 1 ma trận A là xác định dương khi
và chỉ khi trị riêng của A dương. A nửa xác định dương khi và chỉ khi trị
riêng của A lớn hơn bằng 0.
Giả sử p phần tử x1 , x2 , ..., xp của vector x là xác suất của p biến ngẫu nhiên
X1 , X2 , ..., Xp ; và giả sử p phần tử đó là tọa độ của 1 điểm trong không
gian p chiều. Bình phương khoảng cách từ gốc tọa độ tới điểm này:
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 24 / 142
Ma trận xác định dương
hay d 2 = x 0 Ax x 6= 0
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 25 / 142
Ma trận xác định dương
Tổng quát. Đặt bình phương khoảng cách từ gốc tọa độ đến điểm x 0 =
[x1 , x2 , ..., xp ] là x 0 Ax với Ap×p là ma trận đối xứng xác định dương. Khi đó
bình phương khoảng cách từ điểm x đến điểm bất kỳ µ = [µ1 , µ2 , ..., µp ] là
(x − µ)0 A(x − µ).
Theo cách biểu diễn bình phương khoảng cách như trên (giả sử p = 2):
A = λ1 e1 e10 + λ2 e2 e20 ⇔ x 0 Ax = λ1 (x 0 e1 )2 + λ2 (x 0 e2 )2
Khi đó, c 2 = λ1 y12 + λ2 y22 mà λ1 , λ2 > 0, A là ma trận xác định dương nên
có thể xác định là phương trình 1 ellipse.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 26 / 142
Ma trận xác định dương
−1/2 −1/2
Chúng ta có thể tính được x = cλ1 e1 thỏa mãn x 0 Ax = λ1 (cλ1 e10 e1 )2 =
−1/2
c 2 . Tương tự thỏa mãn x = cλ2 e2 . Do đó các điểm nằm trên ellipse này
thỏa mãn độ dài các trục là các giá trị vector riêng của ma trận A; độ dài
này tỉ lệ với nghịch đảo của bình phương vector riêng, hệ số tỉ lệ c.
Nếu p > 2 điểm x 0 = [x1 , x2 , ..., xp ] với khoảng cách c = x 0 Ax từ gốc tọa độ
nằm trên 1 hyper-ellipsoid c 2 = λ1 (x 0 e1 )2 +λ2 (x 0 e2 )2 +...+λp (x 0 ep )2 với độ
dài các trục √c được định nghĩa bởi các giá trị vector riêng λ1 , λ2 , ..., λp
(λi )
của ma trận A.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 27 / 142
Ma trận xác định dương
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 28 / 142
Ma trận căn bậc 2
Phân tách phổ giúp ta biểu diễn nghịch đảo của 1 ma trận vuông dưới dạng
các trị riêng và vector riêng, từ đó ta nhận được ma trận căn bậc 2.
Đặt A k×k là ma trận vuông xác định dương với dạng phân tách phổ là
A = ki=1 λi ei ei0 . Đặt các vector riêng đã chuẩn hóa thành các cột của 1
P
ma trận P mới với P = [e1 , e2 , ..., ek ]. Khi đó ta phân tích:
k
X
A= λi ei ei0 = PΛP 0
i=1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 29 / 142
Ma trận căn bậc 2
Pk 1
Do vậy A−1 = Pλ−1 P 0 = 0
i=1 λi ei ei ; vì
Tiếp theo 1/2 là ma trận đường chéo với giá trị các phần tử đường
p đặt Λ
chéo là (λi ). Ma trận ki=1 (λi )ei ei0 = Pλ1/2 P 0 được gọi là ma trận
P p
căn bậc 2 của A, ký hiệu là A1/2 :
k p
X
A 1/2
= (λi )ei ei0 = Pλ1/2 P 0
i=1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 30 / 142
Ma trận căn bậc 2
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 31 / 142
Vector ngẫu nhiên và Ma trận ngẫu nhiên
Vector ngẫu nhiên là vector có các phần từ là biến ngẫu nhiên. Tương tự,
ma trận ngẫu nhiên là ma trận có các phần tử là biến ngẫu nhiên. Giá trị
trung bình của ma trận/vector ngẫu nhiên là ma trận/vector chứa các giá
trị trung bình của mỗi phần tử. Tức giả sử X = {Xij } là ma trận ngẫu
nhiên kích cỡ n × p. Khi đó giá trị trung bình E (X ) của X là:
E (X11 ) E (X12 ) E (X13 ) ... E (X1p )
E (X21 ) E (X22 ) E (X23 ) ... E (X2p )
E (X31 ) E (X32 ) E (X33 ) ... E (X3p )
E (X ) =
... ... ... ... ...
E (Xn1 ) E (Xn2 ) E (Xn3 ) ... E (Xnp )
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 32 / 142
Vector ngẫu nhiên và Ma trận ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 33 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 34 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 35 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 36 / 142
Vector trung bình và Ma trận hiệp phương sai
Mối quan hệ (behaviour ?!?) giữa 2 biến ngẫu nhiên Xi , Xk được miêu tả
qua hàm xác suất đồng thời; còn độ đo (measurement) sự kết hợp tuyến tính
giữa 2 biến được thể hiện qua hiệp phương sai; với µi , µk là các giá trị trung
bình (marginal mean), i, k = 1, 2, ..., p. Tổng quát lên, mối quan hệ giữa p
biến ngẫu nhiên X1 , X2 , ..., Xp hay vector ngẫu nhiên X 0 = [X1 , X2 , ..., Xp ]
được đặc tả qua 1 hàm mật độ xác suất đồng nhất f (x1 , x2 , ..., xp ) = f (x).
f (x) được gọi là hàm phân phối chuẩn nhiều chiều (multivariate normal
density function).
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 37 / 142
Vector trung bình và Ma trận hiệp phương sai
p biến ngẫu nhiên liên tục X1 , X2 , ..., Xp độc lập với nhau nếu hàm mật độ
đồng thời có thể được biểu diễn:
từ đó suy ra
Cov (Xi , Xk ) = 0
nếu Xi , Xk độc lập.
Đây là điều kiện cần, không phải điều kiện đủ vì có trường hợp Cov (Xi , Xk ) =
0 nhưng Xi , Xk không độc lập.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 38 / 142
Vector trung bình và Ma trận hiệp phương sai
Giá trị trung bình và hiệp phương sai của vector Xp×1 có thể tạo thành
ma trận. Giá trị trung bình của mỗi phần tử được chứa trong vector trung
bình µ = E (X ) và p phương sai σii và p(p − 1)/2 hiệp phương sai của
σik (i < k) được chứa trong ma trận phương sai-hiệp phương sai đối xứng
Σ = E (X − µ)(X − µ)0 . Đặc biệt rằng:
E (X1 ) µ1
E (X2 ) µ2
E (X3 ) = µ3 = µ
E (X ) =
... ...
E (Xp ) µp
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 39 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 40 / 142
Vector trung bình và Ma trận hiệp phương sai
σ11 σ12 ... σ1p
σ21 σ22 ... σ2p
Σ = Cov (x) =
...
... ... ...
σp1 σp2 ... σpp
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 41 / 142
Vector trung bình và Ma trận hiệp phương sai
Hệ số tương quan giữa 2 biến ngẫu nhiên liên tục ρik (population correlation
coefficient). Hệ số tương quan ρik được định nghĩa dựa trên hiệp phương
sai σik và 2 phương sai σii và σkk :
σik
ρik = √ √
σii σkk
Hệ số tương quan ρik thể hiện mức độ kết hợp tuyến tính giữa 2 biến ngẫu
nhiên Xi , Xk .
Đặt ma trận độ lệch chuẩn kích thước p × p là V 1/2 :
√
σ1 0 ... 0
0 √
σ2 ... 0
V 1/2 =
...
... ... ...
√
0 0 ... σp
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 42 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 43 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 44 / 142
Vector trung bình và Ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 45 / 142
Phân tách ma trận hiệp phương sai
Ta có thể phân tách p tính chất thành vector Xp×1 ngẫu nhiên, ví dụ, thành 2
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 46 / 142
Phân tách ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 47 / 142
Phân tách ma trận hiệp phương sai
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 48 / 142
Phân tách ma trận hiệp phương sai
Chú ý rằng Σ12 = Σ021 . Ma trận hiệp phương sai của X (1) là Σ11 , X(2) là
Σ22 và giữa các phần tử của X(1) , X(2) là Σ12 hoặc Σ21 :
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 49 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 50 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 51 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 52 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Vì:
0
σ11 σ12 a
= a2 σ11 + b 2 σ22 + 2abσ12
c Σc = a b
σ12 σ22 b
Kết quả có thể được mở rộng ra với p biến ngẫu nhiên: Tổ hợp tuyến tính
c 0 X = c1 X1 + c2 X2 + ... + cp Xp có:
Trung bình: E (c 0 X ) = c 0 µ
Phương sai: Var (c 0 X ) = c 0 Σc
với µ = E (X ); Σ = Cov (X ).
Tổng quát, xét q tổ hợp tuyến tính của p biến ngẫu nhiên X1 , X2 , ..., Xp :
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 53 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 54 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
µZ = E (Z ) = E (CX ) = C µX
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 55 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 56 / 142
Phân tách Vector trung bình và Ma trận hiệp phương sai
của mẫu
Đặt x 0 = [x 1 , x 2 , ..., x p ] là vector trung bình mẫu xây dựng từ n quan sát của
p biến X1 , X2 , ..., Xp và đặt ma trận phương sai-hiệp phương sai tương ứng là
Sn :
Vector trung bình mẫu và ma trận hiệp phương sai có thể được phân tách
các thuộc tính khác nhau tương ứng với 1 nhóm biến. Khi đó:
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 57 / 142
Vector trung bình và Ma trận hiệp phương sai của tổ hợp
tuyến tính các biến ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 58 / 142
Giới thiệu chung
Lý thuyết về cực đại hóa quan trọng trong việc phân tích dữ liệu trong
không gian nhiều chiều. Ví dụ, thuật toán LDA quan tâm đến việc phân
phối các quan sát vào các nhóm được định trước. Quy luật phân phối được
miêu tả qua 1 hàm số tuyến tính, cực đại hóa sự phân chia các nhóm dữ
liệu với nhau trong toàn tập dữ liệu lớn.
Các bất đẳng thức liên quan đến ma trận giúp chúng ta xác định được
hướng để cực đại hóa 1 hoặc nhiều đại lượng trong xử lý dữ liệu.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 59 / 142
Bất đẳng thức Cauchy-Schwar
(b 0 d)2 ≤ (b 0 b)(d 0 d)
Dấu bằng xảy ra khi và chỉ khi b = cd hoặc d = cb với c là hằng số.
Chứng minh. Bất đẳng thức trên là hiển nhiên với b = 0 hoặc d = 0. Xét
trường hợp khác 0, xét vector b − xd với x là 1 số bất kỳ. Vì độ dài vector
b − xd > 0 khi b − xd 6= 0 nên:
= b 0 b − 2x(b 0 d) + x 2 (d 0 d)
Phương trình cuối cùng là phương trình bậc 2 đối với x. Thêm và bớt 1 đại
0 2
lượng (bd 0d)
d ta có:
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 60 / 142
Bất đẳng thức Cauchy-Schwar
(b 0 d)2 (b 0 d)2
0 < b0 b − + − 2x(b 0 d) + x 2 (d 0 d)
d 0d d 0d
(b 0 d)2 b0 d 2
= b0 b − + (d 0
d)(x − )
d 0d d 0d
b0 d
Giá trị biểu thức trong ngoặc sẽ bằng 0 nếu ta chọn x = d 0d do đó dẫn đến
kết luận:
(b 0 d)2
0 < b0 b −
d 0d
hay (b 0 d)2 < (b 0 b)(d 0 d) nếu x thỏa mãn b − xd 6= 0.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 61 / 142
Bất đẳng thức Cauchy-Schwar mở rộng
Đặt b, d là 2 vector p × 1 bất kỳ, B là 1 ma trận xác định dương. Khi đó:
(b 0 d)2 ≤ (b 0 Bb)(d 0 B −1 d)
Dấu bằng xảy ra khi và chỉ khi b = cB −1 d hoặc d = cBb với c là hằng số.
Chứng minh. Bất đẳng thức trên là hiển nhiên với b = 0 hoặc d = 0. Xét
trường hợp khác 0, xét ma trận 1/2 có trị riêng λ , vector riêng
1/2
Pp căn√bậc 20 B i
đã chuẩn hóa ei với B = i=1 λi ei ei . Nếu ta đặt:
p
−1/2
X 1
B = √ ei ei0
i=1
λi
suy ra
b 0 d = b 0 Id = b 0 B 1/2 B −1/2 d = (B 1/2 b)0 (B −1/2 d)
áp dụng bất đẳng thức Cauchy-Schwar ở phía trên cho 2 vector (B 1/2 b), (B −1/2
ta có đpcm.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 62 / 142
Bổ đề về Cực đại hóa
Đặt Bp×p là ma trận xác định dương và dp×1 là vector cho trước. Khi đó
với vector xp×1 bất kỳ khác 0:
(x 0 d)2
max = d 0 B −1 d
x 0 Bx
Cực đại đạt được khi x = cB −1 d với mọi c 6= 0.
Chứng minh. Theo bất đẳng thức Cauchy-Schwar: (x 0 d)2 ≤ (x 0 Bx)(d 0 B −1 d).
Vì x 6= 0 và B xác định dương nên x 0 Bx > 0. Chia 2 vế cho x 0 Bx ta được:
(x 0 d)2
≤ d 0 B −1 d
x 0 Bx
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 63 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị
Đặt B là ma trận xác định dương với các trị riêng λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0
và các vector riêng tương ứng e1 , e2 , ..., ep . Khi đó:
x 0 Bx
max = λ1 khi x = e1
x 0x
x 0 Bx
min = λp khi x = ep
x 0x
Hơn nữa:
x 0 Bx
maxx⊥e1 ,...,ek = λk+1 khi x = ek+1 ; k = 1, 2, ..., p − 1
x 0x
Chứng minh. Đặt Pp×p là ma trận trực giao có các cột là các vector riêng
e! , e2 , ..., ep và Λ là đường chéo của ma trận với trị riêng λ1 , λ2 , ..., λp nằm
dọc theo đường chéo.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 64 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 65 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị
Đặt x = e1 :
1
0
y = P 0 e1 =
...
0
vì (
0, k 6= 1
ek0 e1 =
1, k = 1
y 0 Λy
Để chọn x, ta có y 0y = λ1 hay:
e10 Be1
= e10 Be1 = λ1
e10 e1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 66 / 142
Cực đại dạng bậc 2 trong hình cầu đơn vị
Do đó nếu x vuông góc với k vector riêng đầu tiên thì vế trái bất đẳng thức
trên trở thành: Pp 2
x 0 Bx i=1 λi yi
= p
x 0x 2
P
i=1 yi
Cực đại đạt được khi yk+1 = 1; yk+2 = ... = yp = 0.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 67 / 142
Hình học mẫu
Một quan sát (observation) đa biến là một tập hợp các phép đo theo p
biến, được thực hiện trên cùng một vật mẫu. Với n quan sát, ta có thể
biểu diễn dữ liệu dưới dạng một ma trận n × p.
x11 x12 . . . x1p
x21 x22 . . . x2p
X =
.
(n×p) . . . . . . . . . ..
xn1 xn2 . . . xnp
Mỗi dòng của X biểu diễn một quan sát đa biến. Tập dữ liệu này được gọi
là một mẫu (sample) kích thước n từ một tổng thể (population) p-biến.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 68 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 69 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 70 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 71 / 142
Hình học mẫu
Ta có thể xây dựng một cách biểu diễn hình học khác bằng cách coi tập
dữ liệu như p vector trong không gian n chiều. Các cột của ma trận sẽ là
toạ độ của các vector.
x11 x12 . . . x1p
x21 x22 . . . x2p
X = = y1 y2 . . . yp
. .
. . . . . . . . ..
(n×p)
xn1 xn2 . . . xnp
0
Toạ độ của điểm yi = x1i , x2i , . . . xni là n quan sát trên biến thứ i.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 72 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 73 / 142
Hình học mẫu
Ta có thể liên hệ các biểu thức đại số với các định nghĩa hình học về độ
dài, góc và thể tích. Tuy nhiên, chúng ta bị giới hạn bởi việc biểu diễn
hình học qua không gian n chiều, đặc biệt với n > 3. Tuy nhiên, các quan
hệ hình học và các khái niệm thống kê được miêu tả với bất kì bộ ba
vector nào vẫn luôn đúng mà không cần quan tâm đến chiều của chúng.
Điều này cho phép ta có thể chọn trục toạ độ và chỉ 2 hoặc 3 vector trong
không gian n chiều để có thể biểu diễn các khái niệm thống kê một cách
hợp lý.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 74 / 142
Hình học mẫu
Ta có thể đưa ra một biểu diễn hình học cho quá trình tìm trung bình mẫu
(sample mean). Trước hết ta định nghĩa vector kích thước 1 × n (để đơn
giản, ta ký hiệu 1 thay cho 1n ):
1n = 1, 1, . . . 1
Vector 1 luôn hợp với mỗi trục toạ độ một góc bằng nhau. Vector
√
(1/ n)1 có độ dài đơn vị và cùng chiều với vector 1. Xét vector
0
yi = x1i , x2i , . . . xni . Hình chiếu của vector yi lên vector 1 là:
0 1 1 x1i + x2i + . . . + xni
yi √ 1 √ 1= 1 = xi1
n n n
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 75 / 142
Hình học mẫu
0
Ta có trung bình mẫu x i = (x1i + x2i + . . . + xni ) /n = yi 1/n tương ứng
với bội số cần thiết của 1 để dựng hình chiếu của yi lên đường thẳng được
xác định bởi 1. Hơn nữa, với mỗi yi , ta có thể phân tích thành:
yi
yi − x i 1
0 1 xi1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 76 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 77 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 78 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 79 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 80 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 81 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 82 / 142
Hình học mẫu
Từ đó ta có được:
v v
n
u n u n
X uX uX
(xji − x j )(xjk − x k ) = t (xji − x i ) t (xjk − x k )2 cos(θik )
2
sik
⇒ rik = √ √ = cos(θik )
sii skk
Trong đó, rik là hệ số tương quan mẫu, sik là hiệp phương sai mẫu của hai
vector i và k.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 83 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 84 / 142
Hình học mẫu
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 85 / 142
Mẫu ngẫu nhiên. Giá trị kỳ vọng của trung bình mẫu và
ma trận hiệp phương sai
Giả sử tập dữ liệu chưa được quan sát, nhưng ta có dự định để thu được
kết quả của n phép đo trên p biến. Ta không thể dự đoán chính xác giá trị
của chúng trước khi đo. Do đó, ta sẽ coi chúng là các biến ngẫu nhiên.
Với mỗi ô (j, k) trong ma trận dữ liệu X , ta đặt cho nó một biến ngẫu
nhiên Xjk . Mỗi tập các phép đo Xj trên p biến là một vector ngẫu nhiên.
Ta có ma trận ngẫu nhiên X :
0
X11 X12 . . . X1p X1
X21 X22 . . . X2p X 0
2
X = .. = ..
. .
(n×p) ... ... . . .
0
Xn1 Xn2 . . . Xnp Xn
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 86 / 142
Mẫu ngẫu nhiên
0 0 0
Nếu các vector hàng X1 , X2 , . . . , Xn đại diện cho các quan sát độc lập từ
một phân phối chung với hàm mật độ f (x) = f (x1 , x2 , . . . , xp , thì ta nói
0 0 0
X1 , X2 , . . . , Xn tạo thành một mẫu ngẫu nhiên từ f (x).
Đặt f (Xj ) = f (xj1 , xj2 , . . . , xjp ) là hàm mật độ cho vector hàng thứ j.
0 0 0
X1 , X2 , . . . , Xn tạo thành một mẫu ngẫu nhiên nếu như hàm mật độ chung
của chúng bằng với tích f (X1 )f (X2 ) . . . f (Xp ).
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 87 / 142
Mẫu ngẫu nhiên
Các phép đo của p biến trong một phép thử sẽ thường tương quan với
nhau. Các phép đo từ những phép thử khác nhau phải độc lập với nhau.
Tính độc lập của các phép đo qua các lần thử khác nhau có thể bị thay
đổi.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 88 / 142
Mẫu ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 89 / 142
Mẫu ngẫu nhiên
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 90 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
Cho X1 , X2 , . . . , ..., Xn là các mẫu ngẫu nhiên từ một phân phối chung có
vector trung bình là µ và ma trận hiệp phương sai Σ. X là một ước lượng
không chệch của µ và ma trận hiệp phương sai của nó là n1 Σ.
Tức là:
E (X ) = µ
Cov (X ) = n1 Σ
1
E (Sn ) = n−1
n Σ= Σ − nΣ
n−1
⇔ E n Sn = Σ
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 91 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
Chứng minh:
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 92 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
n n
1 X X
0 0
Cov (X ) = E (X − µ)(X − µ) = 2 E (Xj − µ)(Xl − µ)
n
j=1 l=1
0
Với j 6= l, mỗi ô trong E (Xj − µ)(Xl − µ) có giá trị bằng 0 bởi vì nó là
hiệp phương sai giữa một thành phần của Xj và một thành phần của Xl ,
và chúng độc lập với nhau. Do đó nên:
n
1 X 0
Cov (X ) = 2 E (Xj − µ)(Xj − µ)
n
j=1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 93 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
0
Do Σ = E (Xj − µ)(Xj − µ) là ma trận hiệp phương sai tổng thể chung
của mỗi Xj , ta có:
n
1 X 0 1
Cov (X ) = E (Xj − µ)(Xj − µ) = (Σ + Σ + . . . + Σ)
n2 n2 | {z }
j=1 n terms
1 1
= 2 (nΣ) = Σ
n n
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 94 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
Để tính giá trị kỳ vọng của Sn , ta chú ý rằng (xji − x j )(xjk − x k ) là thành
0
phần thứ (i, k) của (Xj = X )(Xj − X ) . Ma trận tổng bình phương và tích
chéo có thể được viết lại dưới dạng:
n n n
0 0 0
X X X
(Xj − X )(Xj − X ) = (Xj − X )Xj + (Xj − X ) (−X )
j=1 j=1 j=1
n
X 0 0
= Xj Xj − nX X
j=1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 95 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
Pn 0 Pn 0
Do j=1 (Xj − X ) = 0 và nX = j=1 Xj nên giá trị kì vọng của chúng là:
n n
X 0 0 X 0 0
E Xj Xj − nX X = E (Xj Xj ) − nE (X X )
j=1 j=1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 96 / 142
Giá trị kỳ vọng của trung bình mẫu và ma trận hiệp
phương sai
n−1
E (Sn ) = Σ
n
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 97 / 142
Phương sai tổng quát
Với mỗi biến đơn, phương sai mẫu thương được dùng để mô tả lượng biến
thiên trong các phép đo trên biến đó. Khi quan sát p biến, sự biến thiên
được mô tả bởi ma trận phương sai-hiệp phương sai mẫu:
s11 s12 . . . s1p
s12 s22 . . . s2p n
1 X
S = . = sjk = (xji − x i )(xjk − x k )
. . . . . . . . . .. n−1
j=1
s1p s2p . . . spp
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 98 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 99 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 100 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 101 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 102 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 103 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 104 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 105 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 106 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 107 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 108 / 142
Phương sai tổng quát
Phương sai mẫu tổng quát có thể bằng 0 trong trường hợp một cột của
ma trận độ lệch
0 0
x1 − x x11 − x 1 x12 − x 2 . . . x1p − x p
x 0 − x 0 x21 − x 1 x22 − x 2 . . . x2p − x p
2
.. =
. . ..
. ... ... . .
0 0
xn − x x n1 − x 1 x n2 − x 2 . . . xnp − x p
có thể biểu diễn bằng một tổ hợp tuyến tính của các cột còn lại. Trong
trường
hợp này, một vector độ lệch nào đó, ví dụ
0
di = x1i − x i . . . xni − x i nằm trong siêu phẳng được tạo bởi các
vector d1 , . . . , di−1 , di+1 , . . . , dp .
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 109 / 142
Phương sai tổng quát
Phương sai mẫu tổng quát bằng 0 khi và chỉ khi tồn tại ít nhất một vector
độ lệch nằm trong siêu phẳng được tạo bởi tất cả các tổ hợp tuyến tính
của các vector còn lại (tức các cột trong ma trận độ lệch phụ thuộc tuyến
tính).
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 110 / 142
Phương sai tổng quát
0
Chứng minh Nếu các cột của ma trận độ lệch (X − 1x ) phụ thuộc tuyến
tính, thì tồn tại một tổ hợp tuyến tính của các cột đó sao cho:
0 0
0 = a1 col1 (X − 1x ) + . . . + ap colp (X − 1x )
0
= (X − 1x )a với a 6= 0
0 0 0
Ta lại có: (n − 1)S = (X − 1x ) (X − 1x ) và:
0 0 0
(n − 1)Sa = (X − 1x ) (X − 1x )a = 0
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 111 / 142
Phương sai tổng quát
Xét chiều ngược lại: nếu |S| = 0 thì tồn tại một tổ hợp tuyến tính Sa của
các cột của S sao cho Sa = 0. Ta có:
0 0 0
0 = (n − 1)Sa = (X − 1x ) (X − 1x )a
0
Nhân a vào phía trước hai vế:
0 0 0 0
0 = a (X − 1x ) (X − 1x )a = L2(X −1x 0 )a
0 0
Suy ra (X − 1x )a = 0. Do đó các cột của (X − 1x ) phụ thuộc tuyến tính.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 112 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 113 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 114 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 115 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 116 / 142
Phương sai tổng quát
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 117 / 142
Phương sai tổng quát
Nếu n ≤ p, tức (kích thước mẫu) ≤ (số lượng biến), thì |S| = 0 với mọi
mẫu.
Chứng minh
Với mẫu cố định bất kỳ, n vector hàng của ma trận độ lệch tổng bằng
vector 0. Do tồn tại tổ hợp tuyến tính này nên
0
rank(X − 1x ) ≤ n − 1 ≤ p − 1 do n ≤ p. Lại có:
0 0
(n − 1) S = (X − 1x ) (X − 1x)
(p×p) (p×n) (n×p)
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 118 / 142
Phương sai tổng quát
Cột thứ k của S, colk (S) có thể được viết dưới dạng tổ hợp tuyến tính
0 0
của các cột của (X − 1x ) .
0 0
(n − 1)colk (S) = (X − 1x ) colk (X − 1x)
0 0 0 0
= (x1k − x k )col1 (X − 1x ) + . . . + (xnk − x k )coln (X − 1x )
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 119 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Phương sai tổng quát bị ảnh hưởng nhiều bởi độ biến thiên của các phép
đo trên một biến đơn. Nếu sii nào đó quá lớn hoặc quá nhỏ, thì vector
di = (yi − x i 1) sẽ rất dài hoặc rất ngắn. Đôi khi chúng ta có thể điều
chỉnh để cho các vector độ chệch đều có dùng độ dài.
Ta sẽ thay mỗi quan sát ban đầu xjk bằng giá trị đã được chuẩn hoá của
√
nó (xjk − x k / skk . Ma trận hiệp phương sai mẫu của các biến đã được
chuẩn hoá là R, ma trận tương quan mẫu của các biến ban đầu.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 120 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Ta định nghĩa:
Do các vector
√ √ √ 0 √
[(x1k − x k )/ skk , (x2k − x k )/ skk , . . . , (xnk − x k )/ skk ] = (yk − x k 1 )/ skk
√
đều có độ dài là n − 1, phương sai tổng quát của các biến đã được
chuẩn hoá sẽ rất lớn nếu như các vector này gần vuông góc với nhau, và
sẽ rất nhỏ nếu như ít nhất hai vector gần như cùng phương.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 121 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
√ √
Ta đã tính được cosine của góc θik giữa (yi − x i 1/ sii và (yk − x k 1/ skk
là hệ số tương quan mẫu rik .
Do đó, ta kết luận rằng |R| sẽ lớn nếu như tất cả rik đều gần 0 và |R| sẽ
nhỏ nếu như ít nhất một rik nào đó gần +1 hoặc -1.
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 122 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Với i = 1, 2, . . . , p, đặt
x1i −x i
√
sii
x2i√−x i
yi − x i 1 sii
√ = .
sii .
.
√−x i
xni
sii
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 123 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
"Thể tích" trong không gian p chiều bởi các vector độ lệch trên có thể
tính bởi phương sai mẫu tổng quát:
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 124 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 125 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 126 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 127 / 142
Phương sai tổng quát xác định bởi |R| và biểu diễn hình
học
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 128 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
0
Ta có x i = (x1i · 1 + x2i · 1 + . . . + xni · 1)/n = yi 1/n. Nên:
0
y1 1
x1 n0 x11 x12 . . . x1n 1
x 2 y2 1 1 x21 x22 . . . x2n 1
x = . = n. = .
.. . . . .
.. .. n .. . . .. ..
0
xp yp 1 xp1 xp2 . . . xpn 1
n
hay
1 0
x= X 1
n
Tiếp theo, ta tạo một ma trận trung bình kích thước n × p bằng cách
chuyển vị hai vế của phương trình trên, và nhân 1 vào phía trước:
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 129 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
x1 x2 . . . xp
0 1 0 x 1 x 2 . . . x p
1x = 11 X = .
. .. . . ..
n . . . .
x1 x2 . . . xp
Lấy X trừ đi kết quả vừa thu được ta được ma trận độ lệch:
x11 − x 1 x12 − x 2 . . . x1p − x p
1 0 x21 − x 1 x22 − x 2 . . . x2p − x p
X − 11 X =
.. .. .. ..
n
. . . .
xn1 − x 1 xn2 − x 2 . . . xnp − x p
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 130 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
Lại có:
x11 − x 1 x22 − x 1 . . . xn1 − x 1
x12 − x 2 x22 − x 2 . . . xn2 − x 2
(n − 1)S =
.. .. .. ..
. . . .
x1p − x p x2p − x p . . . xnp − x p
x11 − x 1 x12 − x 2 . . . x1p − x p
x21 − x 1 x22 − x 2 . . . x2p − x p
×
.. .. .. ..
. . . .
xn1 − x 1 xn2 − x 2 . . . xnp − x p
0
1 0 1 0 0 1 0
= X − 11 X X − 11 X = X I − 11 X
n n n
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 131 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
do
0
1 0 1 0 1 0 1 0 1 0 0 0
I − 11 I − 11 = I − 11 − 11 + 2 11 11 = I − 11
n n n n n
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 132 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
Do ta đã tính được S, nên có thể tính được ma trận tương quan mẫu R.
Trước hết, ta định nghĩa ma trận độ lệch chuẩn mẫu D 1/2 và tính
−1
D 1/2 = D −1/2 .
√
s11 0 ... 0
0 √
1/2
s22 . . . 0
D = ..
.. ..
. .
(p×p) . . . .
√
0 0 ... spp
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 133 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
q
1
s11 0 ... 0
q
1
0 ... 0
s22
D −1/2
= .. .. ..
(p×p) ..
. . .
q.
1
0 0 ... spp
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 134 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
Ta có:
s11 s12 . . . s1p
S = ... .. . . .
. ..
.
s1p s2p . . . spp
và
s1p
√ s11 √ s12
√ √ ... √ √
s11 s11 s11 s12 s11 spp 1 r12 . . . r1p
.. .. .. .. .
= .. .. . . .
R=
. . . . . . ..
s1p s2p s
√ √ √ √ ... √ pp √ r1p r2p . . . 1
s11 spp s22 spp spp spp
Ta có:
R = D −1/2 SD −1/2
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 135 / 142
Biểu diễn Trung bình mẫu, Hiệp phương sai, Tương quan
qua các phép toán trên ma trận
S = D 1/2 RD 1/2
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 136 / 142
Các giá trị mẫu của các tổ hợp tuyến tính của các biến
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 137 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến
0 0 0 0 0
Do (c xj − c x)2 = (c (xj − x))2 = c (xj − x)(xj − x) c, nên ta có:
0 0 0 0 0 0
(c x1 − c x)2 + (c x2 − c x)2 + . . . + (c xn − c x)2
Phương sai mẫu =
n−1
0 0 0 0 0 0
c (x1 − x)(x1 − x) c + c (x2 − x)(x2 − x) c + . . . + c (xn − x)(xn − x) c
=
" n−1 #
0 0 0
0 (x1 − x)(x1 − x) + (x2 − x)(x2 − x) + . . . + (xn − x)(xn − x)
=c c
n−1
hay:
0 0
Phương sai mẫu của c X = c Sc
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 138 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 139 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến
0 0
Hiệp phương sai mẫu được tính bởi các cặp quan sát trên b X và c X là:
Hiệp phương sai mẫu
0 0 0 0 0 0 0 0 0 0 0 0
(b x1 − b x)(c x1 − c x) + (b x2 − b x)(c x2 − c x) + . . . + (b xn − b x)(c xn − c x)
=
n−1
0 0 0 0 0 0
b (x1 − x)(x1 − x) c + b (x2 − x)(x2 − x) c + . . . + b (xn − x)(xn − x) c
=
" n−1 #
0 0 0
0 (x1 − x)(x1 − x) + (x2 − x)(x2 − x) + . . . + (xn − x)(xn − x)
=b c
n−1
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 140 / 142
Các giá trị mẫu của tổ hợp tuyến tính của các biến
Tổng kết lại, ta có kết quả:
Các tổ hợp tuyến tính
0
c X = c1 X1 + c2 X2 + . . . + cp Xp
0
b X = b1 X1 + b2 X2 + . . . + bp Xp
có trung bình mẫu, phương sai mẫu, hiệp phương sai mẫu liên hệ với x và
S bởi các công thức:
0 0
Trung bình mẫu của b X = b x
0 0
Trung bình mẫu của c X = c x
0 0
Phương sai mẫu của b X = b Sb
0 0
Phương sai mẫu của c X = c Sc
0 0 0
Hiệp phương sai mẫu của b X và c X = c Sc
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 141 / 142
Tài liệu tham khảo
Nguyễn Sỹ Đạt, Nhâm Đỗ Hải Ninh Phân tích số liệu Ngày 7 tháng 10 năm 2021 142 / 142